Bize Ulaşın

Eğitim İçeriği

Tencent Hunyuan Üretim Temelleri

  • Tencent Hunyuan model sunma senaryolarına genel bakış
  • Büyük ve MoE modellerinin üretim özellikleri
  • Ortak gecikme, akış hızı ve maliyet tık migliori
  • Inferans iş yükleri için hizmet seviyesi amaçlarını tanımlama

Dağıtım Mimarisi ve Sunma Akışı

  • Üretim inferans yığınına ait temel bileşenler
  • kapsayıcılaştırılmış, yerinde veya bulut dağıtım modelleri arasında seçim yapma
  • Model yükleme, istek yönlendirme ve GPU tahsisine temel kavramlar
  • güvenilirlik ve işletimsel basitlik için tasarım

Pratikte Gecikme Optimizasyonu

  • uygun olduğunda TensorRT gibi optimize edilmiş inferans motorlarının kullanımı
  • KV-cache kavramları ve pratik cache ayarlama
  • başlangıç, ısınma ve yanıt gecikme süresini azaltma
  • ilk belirteç zamanını ve belirteç oluşturma hızını ölçme

Akış Hızı, Toplu İşlem ve GPU Verimliliği

  • sürekli toplu işlem ve istek toplu işlem stratejileri
  • eşzamanlılık ve kuyruk davranışını yönetme
  • kullanıcı deneyimini zarar vermeden GPU kullanımını iyileştirme
  • uzun bağlam ve karışık iş yükü isteklerini yönetme

Kuantizasyon ve Maliyet Kontrolü

  • üretim sunma için kuantizasyonun neden önemli olduğu
  • FP16, INT8 ve diğer yaygın hassasiyet seçeneklerinin pratik dengeleri
  • model kalitesi, gecikme süresi ve altyapı maliyeti arasında denge kurma
  • basit bir maliyet optimizasyon kontrol listesi oluşturma

Operasyonlar, İzleme ve Hazır Durum İncelemesi

  • inferans hizmetleri için otomatik ölçeklendirme tetikleyicileri
  • gecikme süresini, akış hızını, cache kullanımını ve GPU sağlığını izleme
  • günlük kaydetme, uyarı verme ve olay yanıtına temel kavramlar
  • referans dağıtımın incelenmesi ve iyileştirme planının oluşturulması

Kurs İçin Gerekli Önbilgiler

  • Büyük dil modeli dağıtım ve inferans iş akışları konusunda temel bilgi
  • kapsayıcılar, bulut veya yerinde altyapı ve API tabanlı hizmetler konusunda deneyim
  • Python veya sistem mühendisliği görevleri konusunda iş bilgisi

Hedef Kitle

  • LLM'leri üretimde dağıtan ML mühendisleri
  • GPU tabanlı inferans hizmetlerinden sorumlu platform mühendisleri
  • ölçeklenebilir AI sunma platformlarını tasarlayan çözüm mimarları
 14 Saatler

Katılımcı Sayısı


Katılımcı başına fiyat

Yaklaşan Etkinlikler

İlgili Kategoriler