Fabric ETL verstehen: Wann Dataflow Gen2, wann Pipeline, wann Notebook?

Microsoft Fabric bietet drei leistungsstarke Werkzeuge für die Datenverarbeitung: Dataflow Gen2, Data Pipeline und Notebook. Ziel dieses Beitrags ist es, verständlich zu erklären, wofür jedes Tool gedacht ist und in welchen Szenarien es besonders überzeugt.

Dataflow Gen2, visuelle und einfache Datenaufbereitung

Dataflow Gen2 funktioniert im Prinzip wie die Fabric-Version von Power Query. Daten können aus hunderten Quellen geladen und über eine Drag-and-Drop Oberfläche transformiert werden. Für Teams, die ungern Code schreiben oder schnell eine erste Analyse vorbereiten wollen, ist das sehr passend.
Dank Copilot-Integration kann die Datenaufbereitung inzwischen auch per natürlicher Sprache angestoßen werden, zum Beispiel mit „nur europäische Kunden liefern“. Auf der Performance-Seite sorgt die Spark-Engine dafür, dass auch größere Datenmengen flüssig verarbeitet werden.

Data Pipeline, der Orchestrator für Prozesse

Data Pipeline ist das Orchestrierungswerkzeug in Fabric. Es wird genutzt, um Daten aus verschiedenen Quellen zu bewegen, Schritte in einer definierten Reihenfolge auszuführen und Fehlerfälle zu behandeln.
Die Arbeitsweise ist teils Low-Code, teils skriptfreundlich, damit können sowohl Drag-and-Drop Workflows gebaut als auch per JSON oder Code gezielt angepasst werden.
Typisch ist der Einsatz, um Dataflows oder Notebooks in einer bestimmten Reihenfolge zu triggern.

Notebook, für alle, die Daten per Code verarbeiten wollen

Notebooks sind das flexibelste Werkzeug für Data Engineers und Data Scientists. Durch die Spark-basierte Architektur ist es ideal für große Datenmengen und fortgeschrittene Transformationen.
Es kann mit Python, SQL, Scala oder R gearbeitet werden. Für Data Wrangling, ML-Vorbereitung oder komplexe Join-Logik bietet es deutlich mehr Kontrolle als die anderen Tools.
Dafür ist mehr technisches Know-how nötig. Wenn Code kein Problem ist, sind die Grenzen hier praktisch sehr weit.

Welches Tool wann?

Diese drei Tools sind im Grunde unterschiedliche Glieder derselben Kette. Für einfache Datenbereinigung eignet sich Dataflow Gen2, für Workflow-Steuerung die Pipeline, für komplexe Transformationen oder Modellierung das Notebook. Es gibt kein einzelnes „richtig“, entscheidend ist immer das jeweilige Szenario.

Merkmal	Dataflow Gen2	Data Pipeline	Notebook
Code-Anteil	Low-Code/No-Code, visuell, Power Query basiert	Low-Code, zusätzlich codebasierte Aktivitäten möglich	Code erforderlich (Python, Spark, Scala)
Transformationsfähigkeit	Standard-Transformationen, Cleansing, Enrichment, Denormalisierung	Komplexe ETL, mehrstufige Workflows, conditional Activities	Beliebig tief, Custom-Algorithmen, ML, Advanced Analytics
Automatisierung/Orchestrierung	Eher begrenzt (meist Quelle-Ziel, einfache Zeitplanung)	Starke Orchestrierung, Scheduler, Error Handling, Trigger	In Pipeline integrierbar, Automatisierung über Code
Performance	Parallele Batch-Verarbeitung über Spark	Geeignet für große Datenbewegung, robuste Fehlertoleranz	Big-Data Processing, fortgeschrittene Statistik und ML
Quellen/Ziele	Lakehouse, Warehouse, breite Connector-Unterstützung	Mehrere Quellen und Ziele (Datei, API, Datenbank etc.)	Lakehouse, Parquet, Delta, externe Datenquellen
Hauptzweck	Datenaufbereitung, Cleansing, Setup vor Analytics	Datenbewegung, Workflow-Management, Automatisierung	Data Exploration, Advanced Transformation, ML und Analyse
Monitoring und Fehlerbehandlung	Einfach, Lineage und Dataflow-Tracking	Detailliert, Schritt-für-Schritt Fehlerhandling und Alerting	Manuell über Code, Logging nach Bedarf

Wichtig

Dataflow Gen2, Data Pipeline und Notebook sind keine voneinander losgelösten Tools, sie arbeiten wie Bausteine derselben Lösung zusammen. Das beste Ergebnis entsteht typischerweise in einem End-to-End Datenfluss, in dem diese Tools nacheinander eingesetzt werden.

Im ELT-Ansatz, der häufig für Data Lakehouses genutzt wird, bildet die Pipeline das Rückgrat. Mehrstufige Workflows können geplant, überwacht, mit Fehlerbehandlung versehen und bei Bedarf per Retry-Mechanismen erneut ausgeführt werden.
In diesem Setup wird Rohdatenaufnahme oft über Copy-Aktivitäten angestoßen, Daten aus unterschiedlichen Quellen werden in die Bronze-Schicht geschrieben. Anschließend werden die in Bronze gelandeten Daten über Notebooks in Silver und Gold weiterverarbeitet.