Inżynieria Danych w Praktyce

(…) bezapelacyjnie przyjmujemy podejście oparte na chmurze. Postrzegamy chmurę jako podstawę, która przetrwa dziesięciolecia. Większość lokalnych systemów danych i obiążeń zostanie ostatecznie przeniesiona do chmury. Zakładamy, że infrastruktura i systemy są efemeryczne i skalowalne, a inżynierowie danych będą skłaniać się ku wdrażaniu usług zarządzanych w chmurze.

Chmura publiczna jest prawdopodobnie jedną z najważniejszych innowacji XXI wieku, która zrodziła rewolucję w sposobie rozwijania i wdrażania oprogramowania oraz aplikacji danych.

Kolejna rewolucja nastąpiła wraz z przejściem od przetwarzania wsadowego do przetwarzania strumienia zdarzeń, co zapoczątkowało erę “big data w czasie rzeczywistym”.

Tradycyjne korporacyjne narzędzia obsługi danych oparte na graficznym interfejsie użytkownika nagle stały się przestarzałe, a wraz z pojawieniem się systemu MapReduce modna stała się inżynieria oparta na kodzie.

Ze względu na ogromny szum informacyjny często dochodziło do sytuacji, w których firmy używały narzędzi big data do rozwiązywania problemów małej skali.

Termin big data jest, ogólnie rzecz biorąc, reliktem opisującym określony czas i podejście do obsługi dużych ilości danych.

(…) przetwarzanie dużych zbiorów danych stało się tak powszechne, że nie zasługuje już na osobny termin; każda firma dąży do rozwiązania swoich problemów z danymi, niezależnie od ich rzeczywistej wielkości. Inżynierowie big data są dziś po prostu inżynierami danych.

O ile dawniej inżynierowie danych skłaniali się ku niskopoziomowym szczegółom monolitycznych frameworków, takich jak Hadoop, Spark czy Informatica, o tyle bieżący trend zmierza w kierunku narzędzi zdecentralizowanych, modularnych, zarządzanych i wysoce abstrakcyjnych.

Jednocześnie rozwijają się źródła danych i formaty danych zarówno pod względem różnorodności, jak i rozmiaru.

Coraz częściej inżynieria danych jest dyscypliną współdziałania i łączenia różnych technologii na zasadzie klocków LEGO w celu osiągnięcia ostatecznych celów biznesowych.

Wreszcie inżynier danych żongluje wieloma złożonymi ruchomymi częściami i musi stale optymalizować działania pod kątem kosztów, zwinności, skalowalności, prostoty, możliwości wielokrotnego użycia i interoperacyjności.