(…) bezapelacyjnie przyjmujemy podejście oparte na chmurze. Postrzegamy chmurę jako podstawę, która przetrwa dziesięciolecia. Większość lokalnych systemów danych i obiążeń zostanie ostatecznie przeniesiona do chmury. Zakładamy, że infrastruktura i systemy są efemeryczne i skalowalne, a inżynierowie danych będą skłaniać się ku wdrażaniu usług zarządzanych w chmurze.


Chmura publiczna jest prawdopodobnie jedną z najważniejszych innowacji XXI wieku, która zrodziła rewolucję w sposobie rozwijania i wdrażania oprogramowania oraz aplikacji danych.


Kolejna rewolucja nastąpiła wraz z przejściem od przetwarzania wsadowego do przetwarzania strumienia zdarzeń, co zapoczątkowało erę “big data w czasie rzeczywistym”.


Tradycyjne korporacyjne narzędzia obsługi danych oparte na graficznym interfejsie użytkownika nagle stały się przestarzałe, a wraz z pojawieniem się systemu MapReduce modna stała się inżynieria oparta na kodzie.


Ze względu na ogromny szum informacyjny często dochodziło do sytuacji, w których firmy używały narzędzi big data do rozwiązywania problemów małej skali.


Termin big data jest, ogólnie rzecz biorąc, reliktem opisującym określony czas i podejście do obsługi dużych ilości danych.


(…) przetwarzanie dużych zbiorów danych stało się tak powszechne, że nie zasługuje już na osobny termin; każda firma dąży do rozwiązania swoich problemów z danymi, niezależnie od ich rzeczywistej wielkości. Inżynierowie big data są dziś po prostu inżynierami danych.


O ile dawniej inżynierowie danych skłaniali się ku niskopoziomowym szczegółom monolitycznych frameworków, takich jak Hadoop, Spark czy Informatica, o tyle bieżący trend zmierza w kierunku narzędzi zdecentralizowanych, modularnych, zarządzanych i wysoce abstrakcyjnych.


Jednocześnie rozwijają się źródła danych i formaty danych zarówno pod względem różnorodności, jak i rozmiaru.


Coraz częściej inżynieria danych jest dyscypliną współdziałania i łączenia różnych technologii na zasadzie klocków LEGO w celu osiągnięcia ostatecznych celów biznesowych.


Wreszcie inżynier danych żongluje wieloma złożonymi ruchomymi częściami i musi stale optymalizować działania pod kątem kosztów, zwinności, skalowalności, prostoty, możliwości wielokrotnego użycia i interoperacyjności.