Bize Ulaşın

Eğitim İçeriği

PySpark & Makine Öğrenimi 

Modül 1: Büyük Veri ve Spark Temelleri

  • Büyük Veri ekosistemine genel bakış ve modern veri platformlarında Spark'ın rolü
  • Spark mimarisinin anlaşılması: sürücü, yürütücüler, küme yöneticisi, tembel değerlendirme, DAG ve yürütme planlaması
  • RDD ve DataFrame API'leri arasındaki farklar ve her yaklaşımın ne zaman kullanılacağı
  • SparkSession oluşturma ve yapılandırma ile uygulama yapılandırma temellerinin anlaşılması

Modül 2: PySpark DataFrames

  • CSV, JSON, Parquet, Delta gibi kurumsal kaynaklardan ve formatlardan veri okuma ve yazma
  • PySpark DataFrames ile çalışma: dönüşümler, aksiyonlar, sütun ifadeleri, filtreleme, birleştirmeler ve özetlemeler
  • Pencere fonksiyonları, zaman damgalarının işlenmesi ve iç içe geçmiş verilerle çalışma gibi gelişmiş işlemlerin uygulanması
  • Veri kalite kontrollerinin uygulanması ve yeniden kullanılabilir, bakımı kolay PySpark kodunun yazılması

Modül 3: Büyük Veri Kümelerini Verimli İşleme

  • Performans temellerinin anlaşılması: bölme stratejileri, karıştırma davranışı, önbellekleme ve kalıcılık
  • Yayın birleştirmeleri ve yürütme planı analizi dahil optimizasyon tekniklerinin kullanılması
  • Büyük veri kümelerinin verimli işlenmesi ve ölçeklenebilir veri iş akışları için en iyi uygulamalar
  • Şema evrimi ve kurumsal ortamlarda kullanılan modern depolama formatlarının anlaşılması

Modül 4: Ölçekli Özellik Mühendisliği

  • Spark MLlib ile özellik mühendisliği: eksik değerlerin işlenmesi, kategorik değişkenlerin kodlanması ve özellik ölçeklendirme
  • Yeniden kullanılabilir ön işleme adımlarının tasarlanması ve Makine Öğrenimi pipeline'ları için veri kümelerinin hazırlanması
  • Özellik seçimine ve dengesiz veri kümelerinin işlenmesine giriş

Modül 5: Spark MLlib ile Makine Öğrenimi

  • MLlib mimarisinin ve Estimator/Transformer deseninin anlaşılması
  • Lineer Regresyon, Lojistik Regresyon, Karar Ağaçları, Rastgele Orman gibi regresyon ve sınıflandırma modellerinin ölçekli eğitimi
  • Dağıtık Makine Öğrenimi iş akışlarında modellerin karşılaştırılması ve sonuçların yorumlanması

Modül 6: Uçtan Uca ML Pipeline'ları

  • Ön işleme, özellik mühendisliği ve modelleme bileşenlerini birleştiren uçtan uca Makine Öğrenimi pipeline'larının oluşturulması
  • Eğitim/doğrulama/test ayrımı stratejilerinin uygulanması
  • Grid search ve random search kullanılarak çapraz doğrulama ve hiperparametre ayarlaması
  • Tekrarlanabilir Makine Öğrenimi deneylerinin yapılandırılması

Modül 7: Model Değerlendirme ve Pratik ML Karar Alma

  • Regresyon ve sınıflandırma problemleri için uygun değerlendirme metriklerinin uygulanması
  • Aşırı öğrenme (overfitting) ve yetersiz öğrenme (underfitting) durumlarının belirlenmesi ve pratik model seçim kararları verilmesi
  • Özellik önemliliğinin yorumlanması ve model davranışının anlaşılması

Modül 8: Üretim ve Kurumsal Uygulamalar

  • Spark içinde modellerin kalıcı hale getirilmesi ve yüklenmesi
  • Büyük veri kümelerinde toplu tahmin iş akışlarının uygulanması
  • Kurumsal ortamlarda Makine Öğrenimi yaşam döngüsünün anlaşılması
  • Versiyonlama, deney takibi kavramlarına ve temel test stratejilerine giriş

 

Pratik Çıktılar

  • PySpark ile bağımsız olarak çalışma yeteneği
  • Büyük veri kümelerini verimli şekilde işleme yeteneği
  • Ölçekli özellik mühendisliği yapabilme yeteneği
  • Ölçeklenebilir Makine Öğrenimi pipeline'ları inşa etme yeteneği

Kurs İçin Gerekli Önbilgiler

Katılımcıların aşağıdaki geçmişe sahip olmaları beklenir:

Fonksiyonlar, veri yapıları ve kütüphanelerle çalışma dahil olmak üzere temel Python programlama bilgisi
Veri kümeleri, dönüşümler ve özetleme gibi veri analizi kavramlarına yönelik temel anlayış
SQL ve ilişkisel veri kavramlarına dair temel bilgi
Eğitici veri kümeleri, özellikler ve değerlendirme metrikleri gibi Makine Öğrenimi kavramlarına yönelik giriş seviyesinde anlayış
Komut satırı ortamlarına ve temel yazılım geliştirme uygulamalarına aşinalık önerilir

Pandas, NumPy veya benzeri veri işleme kütüphaneleriyle olan deneyim faydalıdır ancak zorunlu değildir.

 21 Saatler

Katılımcı Sayısı


Katılımcı başına fiyat

Danışanlarımızın Yorumları (1)

Yaklaşan Etkinlikler

İlgili Kategoriler