Eğitim İçeriği
Giriş, Hedefler ve Geçiş Stratejisi
- Eğitim hedefleri, katılımcı profil uyumu ve başarı kriterleri
- Genel geçiş yaklaşımları ve risk değerlendirmeleri
- Çalışma alanları, depolar ve laboratuvar veri kümelerinin kurulumu
1. Gün — Geçiş Temelleri ve Mimarisi
- Lakehouse kavramları, Delta Lake genel bakışı ve Databricks mimarisi
- SMP ve MPP arasındaki farklar ve geçiş için etkileri
- Madalyon (Bronz→Gümüş→Altın) tasarımı ve Unity Catalog genel bakışı
1. Gün Laboratuvarı — Saklı Prosedürün Çevrilmesi
- Örnek saklı prosedürün not defterine elden deney
- Geçici tabloları ve imleçları DataFrame dönüşümlerine eşleme
- Orijinal çıktıyla doğrulama ve karşılaştırma
2. Gün — Gelişmiş Delta Lake & Artımlı Yüklemeler
- ACID işlemler, işlem kayıtları, sürümleme ve zaman seyahati
- Auto Loader, MERGE INTO desenleri, upsertler ve şema evrimi
- OPTIMIZE, VACUUM, Z-ORDER, bölümlendirme ve depolama ayarları
2. Gün Laboratuvarı — Artımlı Alım & İyileştirme
- Auto Loader alımı ve MERGE iş akışlarının uygulanması
- OPTIMIZE, Z-ORDER ve VACUUM'un uygulanması; sonuçların doğrulaması
- Okuma/yazma performans iyileştirmelerinin ölçülmesi
3. Gün — Databricks'te SQL, Performans & Hata Ayıklama
- Analitik SQL özellikleri: pencere fonksiyonları, üst düzey fonksiyonlar, JSON/dizi işleme
- Spark UI okuma, DAG'lar, karışım, aşamalar, görevler ve engel teşhisı
- Sorgu ayarlama desenleri: yayın birleştirmeleri, ipuçları, önbellekleme ve akıtma azaltma
3. Gün Laboratuvarı — SQL Yeniden Yazım & Performans Ayarlaması
- Ağır SQL işlemini optimize edilmiş Spark SQL'a yeniden yazma
- Spark UI izlerini kullanarak eğiklik ve karışım sorunlarının teşhisi ve giderilmesi
- Öncesi/sonrası performans ölçümü ve ayarlama adımlarının belgelenmesi
4. Gün — Taktiksel PySpark: Prosedürsel Mantığın Değiştirilmesi
- Spark yürütme modeli: sürücü, yürütücüler, ertelenmiş değerlendirme ve bölümlendirme stratejileri
- Döngülerin ve imleçların vektörize DataFrame işlemlerine dönüştürülmesi
- Modülerleştirme, UDF'ler/pandas UDF'leri, widget'ler ve yeniden kullanılabilir kitaplıklar
4. Gün Laboratuvarı — Prosedürsel Komut Dosyalarının Yeniden Yazılması
- Prosedürsel ETL komut dosyasını modüler PySpark not defterlerine yeniden yazma
- Parametreleme, birim-test tarzı testler ve yeniden kullanılabilir fonksiyonların tanıtılmaması
- Kod incelemesi ve en iyi uygulama kontrol listelerinin uygulanması
5. Gün — Orkestrasyon, Sondan Başa Kadar Hattı & En İyi Uygulamalar
- Databricks İş Akışları: iş tasarımı, görev bağımlılıkları, tetikleyiciler ve hata yönetimi
- Kalite kuralları ve şema doğrulaması ile artımlı Madalyon hatlarının tasarlanması
- Git (GitHub/Azure DevOps) entegrasyonu, CI ve PySpark mantığı için test stratejileri
5. Gün Laboratuvarı — Tam Sondan Başa Kadar Hattının Oluşturulması
- Workflows ile Bronz→Gümüş→Altın hattının orkestrasyonunun birleştirilmesi
- Günlüğe kaydetme, denetim, yeniden denemeler ve otomatik doğrulamaların uygulanması
- Tam hattın çalıştırılması, çıktıların doğrulanması ve dağıtım notlarının hazırlanması
Operasyonelleştirme, Yönetişim ve Üretim Hazırlığı
- Unity Catalog yönetimi, kaynak izi ve erişim kontrollerinin en iyi uygulamaları
- Maliyet, küme boyutlandırma, otomatik ölçeklendirme ve iş paralellik desenleri
- Dağıtım kontrol listeleri, geri alma stratejileri ve runbook oluşturma
Son İnceleme, Bilgi Transferi ve Sonraki Adımlar
- Katılımcının geçiş çalışması ve öğrenilen derslerin sunumu
- Fark analizi, önerilen takip etkinlikleri ve eğitim malzemelerinin teslimi
- Referanslar, daha derin öğrenme yolları ve destek seçenekleri
Kurs İçin Gerekli Önbilgiler
- Veri mühendisliği kavramlarına bir anlayış
- SQL ve saklı prosedürlerle (Synapse / SQL Server) deneyim
- ETL orkestrasyon kavramlarıyla aşinalık (ADF veya benzeri)
Hedef Kitle
- Veri mühendisliği arka planına sahip teknoloji yöneticileri
- Prosedürsel OLAP mantığını Lakehouse desenlerine geçiren veri mühendisleri
- Databricks benimsayması sorumlu platform mühendisleri