Fabric ETL verstehen: Wann Dataflow Gen2, wann Pipeline, wann Notebook?

Microsoft Fabric bietet drei leistungsstarke Werkzeuge für die Datenverarbeitung: Dataflow Gen2, Data Pipeline und Notebook. Ziel dieses Beitrags ist es, verständlich zu erklären, wofür jedes Tool gedacht ist und in welchen Szenarien es besonders überzeugt.

Dataflow Gen2, visuelle und einfache Datenaufbereitung

Dataflow Gen2 funktioniert im Prinzip wie die Fabric-Version von Power Query. Daten können aus hunderten Quellen geladen und über eine Drag-and-Drop Oberfläche transformiert werden. Für Teams, die ungern Code schreiben oder schnell eine erste Analyse vorbereiten wollen, ist das sehr passend.
Dank Copilot-Integration kann die Datenaufbereitung inzwischen auch per natürlicher Sprache angestoßen werden, zum Beispiel mit „nur europäische Kunden liefern“. Auf der Performance-Seite sorgt die Spark-Engine dafür, dass auch größere Datenmengen flüssig verarbeitet werden.

Data Pipeline, der Orchestrator für Prozesse

Data Pipeline ist das Orchestrierungswerkzeug in Fabric. Es wird genutzt, um Daten aus verschiedenen Quellen zu bewegen, Schritte in einer definierten Reihenfolge auszuführen und Fehlerfälle zu behandeln.
Die Arbeitsweise ist teils Low-Code, teils skriptfreundlich, damit können sowohl Drag-and-Drop Workflows gebaut als auch per JSON oder Code gezielt angepasst werden.
Typisch ist der Einsatz, um Dataflows oder Notebooks in einer bestimmten Reihenfolge zu triggern.

Notebook, für alle, die Daten per Code verarbeiten wollen

Notebooks sind das flexibelste Werkzeug für Data Engineers und Data Scientists. Durch die Spark-basierte Architektur ist es ideal für große Datenmengen und fortgeschrittene Transformationen.
Es kann mit Python, SQL, Scala oder R gearbeitet werden. Für Data Wrangling, ML-Vorbereitung oder komplexe Join-Logik bietet es deutlich mehr Kontrolle als die anderen Tools.
Dafür ist mehr technisches Know-how nötig. Wenn Code kein Problem ist, sind die Grenzen hier praktisch sehr weit.

Welches Tool wann?

Diese drei Tools sind im Grunde unterschiedliche Glieder derselben Kette. Für einfache Datenbereinigung eignet sich Dataflow Gen2, für Workflow-Steuerung die Pipeline, für komplexe Transformationen oder Modellierung das Notebook. Es gibt kein einzelnes „richtig“, entscheidend ist immer das jeweilige Szenario.

MerkmalDataflow Gen2Data PipelineNotebook
Code-AnteilLow-Code/No-Code, visuell, Power Query basiertLow-Code, zusätzlich codebasierte Aktivitäten möglichCode erforderlich (Python, Spark, Scala)
TransformationsfähigkeitStandard-Transformationen, Cleansing, Enrichment, DenormalisierungKomplexe ETL, mehrstufige Workflows, conditional ActivitiesBeliebig tief, Custom-Algorithmen, ML, Advanced Analytics
Automatisierung/OrchestrierungEher begrenzt (meist Quelle-Ziel, einfache Zeitplanung)Starke Orchestrierung, Scheduler, Error Handling, TriggerIn Pipeline integrierbar, Automatisierung über Code
PerformanceParallele Batch-Verarbeitung über SparkGeeignet für große Datenbewegung, robuste FehlertoleranzBig-Data Processing, fortgeschrittene Statistik und ML
Quellen/ZieleLakehouse, Warehouse, breite Connector-UnterstützungMehrere Quellen und Ziele (Datei, API, Datenbank etc.)Lakehouse, Parquet, Delta, externe Datenquellen
HauptzweckDatenaufbereitung, Cleansing, Setup vor AnalyticsDatenbewegung, Workflow-Management, AutomatisierungData Exploration, Advanced Transformation, ML und Analyse
Monitoring und FehlerbehandlungEinfach, Lineage und Dataflow-TrackingDetailliert, Schritt-für-Schritt Fehlerhandling und AlertingManuell über Code, Logging nach Bedarf

Wichtig

Dataflow Gen2, Data Pipeline und Notebook sind keine voneinander losgelösten Tools, sie arbeiten wie Bausteine derselben Lösung zusammen. Das beste Ergebnis entsteht typischerweise in einem End-to-End Datenfluss, in dem diese Tools nacheinander eingesetzt werden.

Im ELT-Ansatz, der häufig für Data Lakehouses genutzt wird, bildet die Pipeline das Rückgrat. Mehrstufige Workflows können geplant, überwacht, mit Fehlerbehandlung versehen und bei Bedarf per Retry-Mechanismen erneut ausgeführt werden.
In diesem Setup wird Rohdatenaufnahme oft über Copy-Aktivitäten angestoßen, Daten aus unterschiedlichen Quellen werden in die Bronze-Schicht geschrieben. Anschließend werden die in Bronze gelandeten Daten über Notebooks in Silver und Gold weiterverarbeitet.