Eğitim İçeriği

Vision-Language Modellerlerine Giriş

  • VLM'lerin genel bakış ve çoklu modlu AI'deki rolü
  • Popüler mimariler: CLIP, Flamingo, BLIP, vb.
  • Kullanım alanları: arama, Açıklama oluşturma, otonom sistemler, içerik analizi

Fine-Tuning Ortamını Hazırlama

  • OpenCLIP ve diğer VLM kütüphanelerini kurma
  • Görüntü- metin çiftleri için veri seti biçimleri
  • Görüş ve dil girdileri için ön işlem hattı

CLIP ve Benzer Modelleri Fine-Tuning Etme

  • Kontrast kayıp ve ortak gömme uzayları
  • El ile: CLIP'i özel veri kümelerinde fine-tuning etme
  • Alan spesifik ve çok dilli verilerle çalışma

Gelişmiş Fine-Tuning Teknikleri

  • Efektiflik için LoRA ve adapter tabanlı yöntemlerin kullanımı
  • Prompt tuning ve görsel prompt enjeksiyonu
  • Sıfır-shot ve fine-tuned değerlendirme dengeleme

Değerlendirme ve Benchmarking

  • VLM'ler için metrikler: alım doğruluğu, BLEU, CIDEr, geri çağırma
  • Görsel-metin hizalama tanılamaları
  • Gömme uzaylarını ve yanlış sınıflandırmaları görselleştirme

Gerçek Uygulamalarda Dağıtım ve Kullanım

  • TorchScript, ONNX gibi modelleri çıkarım için dışa aktarma
  • VLM'leri işlem hattına veya API'lerine entegre etme
  • Kaynak dikkat noktaları ve model ölçeklendirme

Örnek Çözümler ve Uygulanan Senaryolar

  • Medya analizi ve içerik moderasyonu
  • E-ticaret ve dijital kütüphanelerde arama ve alım
  • Robotik ve otonom sistemlerde çoklu modlu etkileşim

Özet ve Sonraki Adımlar

Kurs İçin Gerekli Önbilgiler

  • Görüntü ve NLP için derin öğrenmenin anlaşılması
  • PyTorch ve transformer tabanlı modellerle deneyim
  • Çoklu modelli model mimarileriyle aşinalık

Hedef Kitle

  • Bilgisayar görüşü mühendisleri
  • Yapay zeka geliştiricileri
 14 Saat

Katılımcı Sayısı


Kişi Başına Fiyat

Yaklaşan Etkinlikler

İlgili Kategoriler