Data pipeline (potok danych) to zautomatyzowany zestaw procesów i narzędzi służących do zbierania, przetwarzania oraz przesyłania danych z różnych źródeł do miejsca docelowego, takiego jak hurtownia danych. W trakcie przepływu dane są często oczyszczane, transformowane i wzbogacane, co pozwala na ich późniejszą analizę lub wykorzystanie w modelach uczenia maszynowego. Poza standardowym modelem ETL (Extract, Transform, Load), potoki mogą obsługiwać dane w czasie rzeczywistym lub w trybie wsadowym.
📖 Dowiedz się więcej w kontekście:
Reklama





