Eğitim İçeriği
Giriş, Amaçlar ve Taşınma Stratejisi
- Kurs hedefleri, katılımcı profil uyumluluğu ve başarı kriterleri
- Yüksek seviyeli taşınma yaklaşımları ve risk değerlendirmeleri
- Çalışma alanları, depolar ve laboratuvar veri kümelerinin kurulumu
1. Gün — Taşınma Temelleri ve Mimarisi
- Lakehouse kavramları, Delta Lake genel bakışı ve Databricks mimarisi
- SMP vs MPP farkları ve taşınma için önemi
- Medallion (Bronz→Gümüş→Altın) tasarımı ve Unity Catalog genel bakışı
1. Gün Laboratuvarı — Saklı Yordamı Çevirme
- Örnek saklı yordamın not defterine elden taşınması
- Geçici tablolar ve imleçların DataFrame dönüşümlerine eşleştirilmesi
- Orijinal çıkışı ile doğrulama ve karşılaştırma
2. Gün — Gelişmiş Delta Lake & Artımlı Yüklenme
- ACID işlemler, taahhüt kayıtları, sürümleme ve zaman seyahati
- Auto Loader, MERGE INTO düzenleri, upserts ve şema evrimi
- OPTIMIZE, VACUUM, Z-ORDER, bölümleme ve depolama ayarlaması
2. Gün Laboratuvarı — Artımlı Alım & İyileştirme
- Auto Loader alımı ve MERGE işlem akışlarının uygulanması
- OPTIMIZE, Z-ORDER ve VACUUM uygulama; sonuçları doğrulama
- Okuma/yazma performans iyileştirmelerini ölçme
3. Gün — Databricks'teki SQL, Performans & Hata Ayıklama
- Analitik SQL özellikleri: pencere fonksiyonları, üst düzey fonksiyonlar, JSON/dizi işlemleri
- Spark UI okuma, DAG'lar, karışım, aşamalar, görevler ve kuyruk sorunları teşhisi
- Sorgu ayarlaması düzenleri: yayın birleşimleri, ipuçları, önbellekleme ve döküm azaltma
3. Gün Laboratuvarı — SQL Yeniden Yazım & Performans Ayarlaması
- Ağır SQL işlemi optimized Spark SQL'e yeniden yazma
- Spark UI izlemelerini kullanarak dengesizlik ve karışım sorunlarını tespit etme ve düzeltme
- Öncesi/sonrası ölçüm yapma ve ayarlamalarını belgeleme
4. Gün — Stratejik PySpark: Prosedürsel Mantığı Değiştirme
- Spark yürütme modeli: sürücü, yürütücüler, lazy değerlendirme ve bölümleme stratejileri
- Döngülerin ve imleçların vektörize DataFrame işlemlerine dönüştürülmesi
- Modülerleştirme, UDFs/pandas UDFs, widget'lar ve yeniden kullanılabilir kitaplıklar
4. Gün Laboratuvarı — Prosedürsel Betikleri Yeniden Yazma
- Prosedürsel ETL betiğini modüler PySpark not defterlerine yeniden yazma
- Parametrelemeyi, birim-stil testleri ve yeniden kullanılabilir fonksiyonları tanıtır
- Kod incelemesi ve en iyi uygulama kontrol listesinin uygulanması
5. Gün — Düzenleme, Uçtan Uca İş Akışı & En İyi Uygulamalar
- Databricks Workflows: iş tasarımı, görev bağımlılıkları, tetikleyiciler ve hata yönetimi
- Kalite kuralları ve şema doğrulaması ile artımlı Medallion işlem hatları tasarlaması
- Git (GitHub/Azure DevOps), CI ve PySpark mantığı için test stratejileri ile entegrasyon
5. Gün Laboratuvarı — Tam Uçtan Uca İş Akışı Oluşturma
- Bronz→Gümüş→Altın işlem hattını Workflows ile düzenlemek
- Günlüğe kaydetme, denetim, yeniden denemeler ve otomatik doğrulamaları uygulama
- Tam işlem hattını çalıştırma, çıktıları doğrulama ve dağıtım notlarını hazırlama
İşletim, Yönetim ve Üretim Hazırlığı
- Unity Catalog yönetimi, hatayla izlenebilirlik ve erişim kontrol en iyi uygulamaları
- Maliyet, kümelerin boyutlandırılması, otomatik ölçeklendirme ve iş paralellik düzenleri
- Dağıtım kontrol listeleri, geri alım stratejileri ve runbook oluşturma
Son İnceleme, Bilgi Transferi ve Sonraki Adımlar
- Katılımcıların taşınma çalışmalarını sunması ve öğrendiklerini paylaşması
- Eksiklik analizi, önerilen takip edilecek faaliyetler ve eğitim materyallerinin transferi
- Referanslar, daha fazla öğrenme yolları ve destek seçenekleri
Kurs İçin Gerekli Önbilgiler
- Veri mühendisliği kavramları hakkında bir anlayış
- SQL ve saklı yordamlar (Synapse / SQL Server) deneyimi
- ETL düzenlemesi kavramlarına aşinalık (ADF veya benzeri)
Hedef Kitle
- Veri mühendisliği arka planına sahip teknoloji yöneticileri
- Prosedürsel OLAP mantığını Lakehouse düzenlemelerine taşıyan veri mühendisleri
- Databricks benimsenmesi sorumluları olan platform mühendisleri