Microsoft Fabric bietet drei leistungsstarke Werkzeuge für die Datenverarbeitung: Dataflow Gen2, Data Pipeline und Notebook. Ziel dieses Beitrags ist es, verständlich zu erklären, wofür jedes Tool gedacht ist und in welchen Szenarien es besonders überzeugt.
Dataflow Gen2, visuelle und einfache Datenaufbereitung
Dataflow Gen2 funktioniert im Prinzip wie die Fabric-Version von Power Query. Daten können aus hunderten Quellen geladen und über eine Drag-and-Drop Oberfläche transformiert werden. Für Teams, die ungern Code schreiben oder schnell eine erste Analyse vorbereiten wollen, ist das sehr passend.
Dank Copilot-Integration kann die Datenaufbereitung inzwischen auch per natürlicher Sprache angestoßen werden, zum Beispiel mit „nur europäische Kunden liefern“. Auf der Performance-Seite sorgt die Spark-Engine dafür, dass auch größere Datenmengen flüssig verarbeitet werden.
Data Pipeline, der Orchestrator für Prozesse
Data Pipeline ist das Orchestrierungswerkzeug in Fabric. Es wird genutzt, um Daten aus verschiedenen Quellen zu bewegen, Schritte in einer definierten Reihenfolge auszuführen und Fehlerfälle zu behandeln.
Die Arbeitsweise ist teils Low-Code, teils skriptfreundlich, damit können sowohl Drag-and-Drop Workflows gebaut als auch per JSON oder Code gezielt angepasst werden.
Typisch ist der Einsatz, um Dataflows oder Notebooks in einer bestimmten Reihenfolge zu triggern.
Notebook, für alle, die Daten per Code verarbeiten wollen
Notebooks sind das flexibelste Werkzeug für Data Engineers und Data Scientists. Durch die Spark-basierte Architektur ist es ideal für große Datenmengen und fortgeschrittene Transformationen.
Es kann mit Python, SQL, Scala oder R gearbeitet werden. Für Data Wrangling, ML-Vorbereitung oder komplexe Join-Logik bietet es deutlich mehr Kontrolle als die anderen Tools.
Dafür ist mehr technisches Know-how nötig. Wenn Code kein Problem ist, sind die Grenzen hier praktisch sehr weit.
Welches Tool wann?
Diese drei Tools sind im Grunde unterschiedliche Glieder derselben Kette. Für einfache Datenbereinigung eignet sich Dataflow Gen2, für Workflow-Steuerung die Pipeline, für komplexe Transformationen oder Modellierung das Notebook. Es gibt kein einzelnes „richtig“, entscheidend ist immer das jeweilige Szenario.
| Merkmal | Dataflow Gen2 | Data Pipeline | Notebook |
|---|---|---|---|
| Code-Anteil | Low-Code/No-Code, visuell, Power Query basiert | Low-Code, zusätzlich codebasierte Aktivitäten möglich | Code erforderlich (Python, Spark, Scala) |
| Transformationsfähigkeit | Standard-Transformationen, Cleansing, Enrichment, Denormalisierung | Komplexe ETL, mehrstufige Workflows, conditional Activities | Beliebig tief, Custom-Algorithmen, ML, Advanced Analytics |
| Automatisierung/Orchestrierung | Eher begrenzt (meist Quelle-Ziel, einfache Zeitplanung) | Starke Orchestrierung, Scheduler, Error Handling, Trigger | In Pipeline integrierbar, Automatisierung über Code |
| Performance | Parallele Batch-Verarbeitung über Spark | Geeignet für große Datenbewegung, robuste Fehlertoleranz | Big-Data Processing, fortgeschrittene Statistik und ML |
| Quellen/Ziele | Lakehouse, Warehouse, breite Connector-Unterstützung | Mehrere Quellen und Ziele (Datei, API, Datenbank etc.) | Lakehouse, Parquet, Delta, externe Datenquellen |
| Hauptzweck | Datenaufbereitung, Cleansing, Setup vor Analytics | Datenbewegung, Workflow-Management, Automatisierung | Data Exploration, Advanced Transformation, ML und Analyse |
| Monitoring und Fehlerbehandlung | Einfach, Lineage und Dataflow-Tracking | Detailliert, Schritt-für-Schritt Fehlerhandling und Alerting | Manuell über Code, Logging nach Bedarf |
Wichtig
Dataflow Gen2, Data Pipeline und Notebook sind keine voneinander losgelösten Tools, sie arbeiten wie Bausteine derselben Lösung zusammen. Das beste Ergebnis entsteht typischerweise in einem End-to-End Datenfluss, in dem diese Tools nacheinander eingesetzt werden.
Im ELT-Ansatz, der häufig für Data Lakehouses genutzt wird, bildet die Pipeline das Rückgrat. Mehrstufige Workflows können geplant, überwacht, mit Fehlerbehandlung versehen und bei Bedarf per Retry-Mechanismen erneut ausgeführt werden.
In diesem Setup wird Rohdatenaufnahme oft über Copy-Aktivitäten angestoßen, Daten aus unterschiedlichen Quellen werden in die Bronze-Schicht geschrieben. Anschließend werden die in Bronze gelandeten Daten über Notebooks in Silver und Gold weiterverarbeitet.