Eğitim İçeriği
PySpark & Makine Öğrenimi
Modül 1: Büyük Veri ve Spark Temelleri
- Büyük Veri ekosistemine genel bakış ve modern veri platformlarında Spark'ın rolü
- Spark mimarisinin anlaşılması: sürücü, yürütücüler, küme yöneticisi, tembel değerlendirme, DAG ve yürütme planlaması
- RDD ve DataFrame API'leri arasındaki farklar ve her yaklaşımın ne zaman kullanılacağı
- SparkSession oluşturma ve yapılandırma ile uygulama yapılandırma temellerinin anlaşılması
Modül 2: PySpark DataFrames
- CSV, JSON, Parquet, Delta gibi kurumsal kaynaklardan ve formatlardan veri okuma ve yazma
- PySpark DataFrames ile çalışma: dönüşümler, aksiyonlar, sütun ifadeleri, filtreleme, birleştirmeler ve özetlemeler
- Pencere fonksiyonları, zaman damgalarının işlenmesi ve iç içe geçmiş verilerle çalışma gibi gelişmiş işlemlerin uygulanması
- Veri kalite kontrollerinin uygulanması ve yeniden kullanılabilir, bakımı kolay PySpark kodunun yazılması
Modül 3: Büyük Veri Kümelerini Verimli İşleme
- Performans temellerinin anlaşılması: bölme stratejileri, karıştırma davranışı, önbellekleme ve kalıcılık
- Yayın birleştirmeleri ve yürütme planı analizi dahil optimizasyon tekniklerinin kullanılması
- Büyük veri kümelerinin verimli işlenmesi ve ölçeklenebilir veri iş akışları için en iyi uygulamalar
- Şema evrimi ve kurumsal ortamlarda kullanılan modern depolama formatlarının anlaşılması
Modül 4: Ölçekli Özellik Mühendisliği
- Spark MLlib ile özellik mühendisliği: eksik değerlerin işlenmesi, kategorik değişkenlerin kodlanması ve özellik ölçeklendirme
- Yeniden kullanılabilir ön işleme adımlarının tasarlanması ve Makine Öğrenimi pipeline'ları için veri kümelerinin hazırlanması
- Özellik seçimine ve dengesiz veri kümelerinin işlenmesine giriş
Modül 5: Spark MLlib ile Makine Öğrenimi
- MLlib mimarisinin ve Estimator/Transformer deseninin anlaşılması
- Lineer Regresyon, Lojistik Regresyon, Karar Ağaçları, Rastgele Orman gibi regresyon ve sınıflandırma modellerinin ölçekli eğitimi
- Dağıtık Makine Öğrenimi iş akışlarında modellerin karşılaştırılması ve sonuçların yorumlanması
Modül 6: Uçtan Uca ML Pipeline'ları
- Ön işleme, özellik mühendisliği ve modelleme bileşenlerini birleştiren uçtan uca Makine Öğrenimi pipeline'larının oluşturulması
- Eğitim/doğrulama/test ayrımı stratejilerinin uygulanması
- Grid search ve random search kullanılarak çapraz doğrulama ve hiperparametre ayarlaması
- Tekrarlanabilir Makine Öğrenimi deneylerinin yapılandırılması
Modül 7: Model Değerlendirme ve Pratik ML Karar Alma
- Regresyon ve sınıflandırma problemleri için uygun değerlendirme metriklerinin uygulanması
- Aşırı öğrenme (overfitting) ve yetersiz öğrenme (underfitting) durumlarının belirlenmesi ve pratik model seçim kararları verilmesi
- Özellik önemliliğinin yorumlanması ve model davranışının anlaşılması
Modül 8: Üretim ve Kurumsal Uygulamalar
- Spark içinde modellerin kalıcı hale getirilmesi ve yüklenmesi
- Büyük veri kümelerinde toplu tahmin iş akışlarının uygulanması
- Kurumsal ortamlarda Makine Öğrenimi yaşam döngüsünün anlaşılması
- Versiyonlama, deney takibi kavramlarına ve temel test stratejilerine giriş
Pratik Çıktılar
- PySpark ile bağımsız olarak çalışma yeteneği
- Büyük veri kümelerini verimli şekilde işleme yeteneği
- Ölçekli özellik mühendisliği yapabilme yeteneği
- Ölçeklenebilir Makine Öğrenimi pipeline'ları inşa etme yeteneği
Kurs İçin Gerekli Önbilgiler
Katılımcıların aşağıdaki geçmişe sahip olmaları beklenir:
Fonksiyonlar, veri yapıları ve kütüphanelerle çalışma dahil olmak üzere temel Python programlama bilgisi
Veri kümeleri, dönüşümler ve özetleme gibi veri analizi kavramlarına yönelik temel anlayış
SQL ve ilişkisel veri kavramlarına dair temel bilgi
Eğitici veri kümeleri, özellikler ve değerlendirme metrikleri gibi Makine Öğrenimi kavramlarına yönelik giriş seviyesinde anlayış
Komut satırı ortamlarına ve temel yazılım geliştirme uygulamalarına aşinalık önerilir
Pandas, NumPy veya benzeri veri işleme kütüphaneleriyle olan deneyim faydalıdır ancak zorunlu değildir.
Danışanlarımızın Yorumları (1)
Teorik bilgiyi pratik örneklerle uygulamayı çok sevdim. Pratik olması benim için harika oldu.
Aurelia-Adriana - Allianz Services Romania
Eğitim - Python and Spark for Big Data (PySpark)
Yapay Zeka Çevirisi