Microsoft Fabric içerisindeki ETL Toollarının Farkı

Microsoft Fabric içinde veri işleme için üç güçlü araç var: Dataflow Gen2, Data Pipeline ve Notebook. Bu yazıda amacım her birinin ne işe yaradığını ve hangi senaryoda parladığını sade bir dille anlatmak.

Dataflow Gen2: Görsel ve kolay veri hazırlığı

Dataflow Gen2, Power Query’nin Fabric versiyonu gibi çalışıyor. Yüzlerce kaynaktan veriyi çekip, sürükle-bırak arayüzle dönüştürebiliyorsun. Kod yazmayı sevmeyen ya da hızlı bir ön analiz yapmak isteyen ekipler için biçilmiş kaftan.
Üstelik Copilot entegrasyonu ile artık doğal dilde “sadece Avrupa müşterilerini getir” diyerek veri hazırlayabiliyorsun. Performans tarafında Spark motoru sayesinde büyük veri kümelerinde de gayet akıcı.

Data Pipeline: Süreçlerin yöneticisi

Data Pipeline, Fabric’in orkestrasyon aracı. Farklı kaynaklardan veri taşımak, bunları sırayla çalıştırmak, hata durumlarını yönetmek gibi işler için kullanılıyor.
Biraz low-code, biraz da script dostu bir yapısı var. Yani hem sürükle bırak sevenler hem de JSON veya kodla müdahale etmek isteyenler burada buluşabiliyor.
Genellikle Dataflow veya Notebook’ları belli bir sırada tetiklemek için kullanılır.

Notebook: Kodla veri işlemek isteyenlere

Notebook, veri mühendislerinin ve veri bilimcilerinin en esnek aracı. Spark temelli altyapısı sayesinde büyük veriyle çalışmak ya da gelişmiş dönüşümler yapmak için ideal.
Python, SQL, Scala ya da R kullanabiliyorsun. Data wrangling, ML model hazırlama veya karmaşık join işlemleri gibi konularda diğer araçlara göre daha fazla kontrol imkânı sunuyor.
Ancak biraz daha teknik bilgi gerektiriyor. Kod yazmakta rahatsan, burada sınırın neredeyse yok.

Hangi aracı ne zaman kullanmalı?

Bu üçlü aslında aynı zincirin farklı halkaları. Basit veri temizliği için Dataflow Gen2, iş akışlarını yönetmek için Pipeline, karmaşık dönüşümler veya modellemeler içinse Notebook tercih edilir. Tek bir “doğru” yok; burada seçtiğin senaryo neyse o karar verici olur.​

ÖzellikDataflow Gen2Data PipelineNotebook
Kod GereksinimiLow-Code/No-Code; görsel, Power Query tabanlıLow-Code ve kod tabanlı aktiviteler mümkünKod gerektirir (Python, Spark, Scala)
Veri Dönüşüm YeteneğiHazır dönüşüm, cleansing, enrichment, denormalizasyonKarmaşık ETL; çok adımlı iş akışı; conditional aktivitelerHer düzeyde; custom algoritma, ML, ileri analitik
Otomasyon/OrkestrasyonKısıtlı (genellikle kaynak-hedef, temel schedule)Zengin orkestrasyon; zamanlayıcı, error handling, tetikleyiciPipeline içine entegre edilebilir, kodla otomasyon
PerformansSpark motoru ile paralel toplu işlemBüyük veri hareketi, geniş hata toleransıBüyük veri işleme, ileri seviye istatistik/makine öğrenmesi
Hedef/KaynakLakehouse, warehouse, geniş connector desteğiÇoklu kaynak/hedef (dosya, API, veri tabanı vs.)Lakehouse, Parquet, Delta, dış veri kaynakları
Kullanım AmacıVeri hazırlama, cleansing, analitik öncesi setupVeri taşıma, workflow yönetimi, otomasyonData exploration, advanced transformation, ML & analiz
İzleme ve Hata YönetimiBasit; lineage ve veri akış izlemeDetaylı; adım-adım hata yönetimi ve alertingKod bazında manuel izleme ve logging

Önemli

Dataflow Gen2, Data Pipeline ve Notebook birbirinden bağımsız araçlar değil; aynı çözümün farklı parçaları gibi birlikte çalışıyor. En iyi sonuça, bu araçların sırasıyla devreye girdiği uçtan uca bir veri akışında ulaşılıyor aslında.

Genelde Data lakehouse’lar için kullanılan ELT yönteminde, Pipeline, sürecin omurgasını oluşturuyor; çok adımlı iş akışlarını zamanlama, hata yönetimi, yeniden deneme gibi mekanizmalarla orkestre ediyor. Bu noktada Dataflow Gen2’ler, kopyalama aktiviteleri ile farklı veri kaynaklarından alınan veri bronze layer’a yazılıyor. Ardından Bronze alana alınmış veriler Notebook vasıtasıyla Silver ve Gold’a taşınıyor.