Eğitim İçeriği

Her oturum 2 saat sürer

1. Gün: Oturum -1: Hükümet Kurumları için Büyük Veri İşletme Zekası'nın İş Genel Bakış

  • NIH, DoE'den Vaka Çalışmaları
  • Hükümet Kurumları'nda Büyük Veri kabul oranı ve gelecekteki operasyonlarını Büyük Veri Tahminele Analitik etrafında nasıl hizaladıkları
  • DoD, NSA, IRS, USDA gibi kurumlardaki geniş çapta uygulama alanları
  • Eski veri ile Büyük Verinin entegrasyonu
  • Tahminele analitikte etkin teknolojiler hakkında temel bilgi
  • Veri Entegrasyonu ve Panoda Gösterim
  • Kandırıcılık Yönetimi
  • İş Kuralı/Kandırıcılık Tespit Üretimi
  • Tehdit Tespiti ve Profil Oluşturma
  • Büyük Veri uygulamasının Maliyet-Fayda Analizi

1. Gün: Oturum-2 : Büyük Veriye Giriş-1

  • Büyük Verinin temel özellikleri - hacim, çeşitlilik, hız ve doğruluk. Hacim için MPP mimarisi.
  • Veri Ambarları – statik şema, yavaş değişen veri kümesi
  • Greenplum, Exadata, Teradata, Netezza, Vertica gibi MPP Veritabanları
  • Hadoop Tabanlı Çözümler – veri kümesinin yapısına herhangi bir koşul koymaz.
  • Tipik desen : HDFS, MapReduce (işleme), HDFS'ten al
  • Toplu - analitik/etkileşim dışı için uygundur
  • Hacim : CEP akış verisi
  • Tipik seçimler – CEP ürünler (örn. Infostreams, Apama, MarkLogic vb.)
  • Daha az üretim hazır – Storm/S4
  • NoSQL Veritabanları – (sütunlu ve anahtar-değer): Veri ambarı/veritabanının analitik ek yapısı olarak en iyi kullanılır

1. Gün : Oturum -3 : Büyük Veriye Giriş-2

NoSQL Çözümleri

  • KV Depolama - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Depolama - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Depolama (Hiyerarşik) - GT.m, Cache
  • KV Depolama (Sıralı) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Önbellek - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Depolama - Gigaspaces, Coord, Apache River
  • Nesne Veritabanı - ZopeDB, DB40, Shoal
  • Belge Depolama - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Veritabanları, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Geniş Sütunlu Depolama - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Veri Çeşitleri: Büyük Verideki Veri Temizleme Sorunu Giriş

  • İlişkisel Veritabanı – statik yapı/şema, çevik ve keşifçi bir ortamı teşvik etmez.
  • NoSQL – yarı yapılandırılmış, veriyi depolamadan önce tam şemaya gerek duyulmadan yeterince yapı vardır
  • Veri temizleme sorunları

1. Gün : Oturum-4 : Büyük Veriye Giriş-3 : Hadoop

  • Ne zaman Hadoop seçilmeli?
  • YAPISAL - Kurumsal veri ambarları/veritabanları büyük hacimdeki veriyi (maliyetle) depolayabilir ancak yapıyı uygular (aktif keşif için uygun değildir)
  • YARI YAPISAL veri – geleneksel çözümlerle (DW/DB) zor
  • Veriyi ambarlama = büyük çaba ve uygulama sonrası statik
  • Verinin çeşitliliği ve hacmi, ucuz donanımda işlendiğinde - HADOOP
  • Hadoop Klasteri oluşturmak için gereken ucuz H/W

Map Reduce /HDFS'ye Giriş

  • MapReduce – birden fazla sunucuda dağıtık hesaplama yapma
  • HDFS – hesaplama süreci için yerel olarak verilere erişim sağlama (yedekleme ile birlikte)
  • Veri – yapılandırılmamış/şemasız olabilir (RDBMS'ın aksine)
  • Geliştiricinin veriyi anlaması gereklidir
  • MapReduce programlama = Java ile çalışma (avantajlar/ dezavantajlar), veriyi manuel olarak HDFS'e yükleme

2. Gün: Oturum-1: Büyük Veri Ekosistemi - Büyük Veri ETL Oluşturma: Büyük Veri Araçları Universe'i - hangisini ve ne zaman kullanmak

  • Hadoop vs. Diğer NoSQL Çözümleri
  • Veriye etkileşimli, rastgele erişim için
  • Hadoop'un üzerine sütun yönelimli veritabanı olan Hbase
  • Veriye rastgele erişim ancak uygulanan kısıtlamalar (maks. 1 PB)
  • Ad-hoc analitik için uygun değil, günlük kaydı, sayımı, zaman serisi için iyi
  • Verileri veritabanından Hive veya HDFS'e aktar - (JDBC/ODBC erişimi)
  • Flume – log verisini HDFS'e aktar

2. Gün: Oturum-2: Büyük Veri Yönetim Sistemi

  • Hareket parçaları, hesaplama düğümleri başlar/başarısız olur :ZooKeeper - yapılandırma/koordinasyon/adlandırma hizmetleri için
  • Karmaşık işlem hattı/iş akışı: Oozie – iş akışını, bağımlılıkları ve zincirleme yönetme
  • Dağıtım, yapılandırma, klaster yönetimi, yükseltme vb. (sistem yöneticisi) :Ambari
  • Bulutta : Whirr

2. Gün: Oturum-3: İşletme Zekası'ndaki Tahminele Analitik -1: Temel Teknikler ve Makine Öğrenimi Tabanlı BI :

  • Makine öğrenimine giriş
  • Sınıflandırma tekniklerini öğrenme
  • Bayes Tahmin - eğitim dosyası hazırlama
  • Destek Vektör Makinesi
  • KNN p-Ağaç Cebiri & dikey madencilik
  • Sinir Ağı
  • Büyük Veri büyük değişken problemi - Rastgele Orman (RF)
  • Büyük Veri Otomasyonu problemi – Çoklu model topluluğu RF
  • Soft10-M ile otomasyon
  • Metin analiz aracı - Treeminer
  • Çevik öğrenim
  • Ajan tabanlı öğrenme
  • Dağıtık öğrenme
  • Tahminele analitik için açık kaynak araçlarına giriş : R, Rapidminer, Mahut

2. Gün: Oturum-4 Tahminele Analitik Ekosistemi -2: Hükümette Ortak Tahminele Analitik Problemleri

  • Derinlemesine analitik
  • Görselleştirme analitik
  • Yapılandırılmış tahminele analitik
  • Yapılandırılmamış tahminele analitik
  • Tehdit/kandırıcılık/tedarikçi profil oluşturma
  • Öneri Motoru
  • Desen tespiti
  • Kural/Senaryo keşfi – hatalar, kandırıcılık, optimizasyon
  • Kök neden keşfi
  • Duygu analizi
  • CRM analitiği
  • Ağ analitiği
  • Metin Analitiği
  • Teknoloji destekli gözden geçirme
  • Kandırıcılık analitiği
  • Gerçek Zamanlı Analitik

3. Gün : Oturum-1: Hadoop Üzerinde Gerçek Zamanlı ve Ölçeklenebilir Analitik

  • Ortak analitik algoritmaların Hadoop/HDFS'te başarısız olma nedenleri
  • Apache Hama - Büyük Ölçekli Senkron Dağıtık İşlem için
  • Apache SPARK - Gerçek zamanlı analitik için küme işlemesi için
  • CMU Graphics Lab2 - Dağıtık işlem için graf tabanlı asenkron yaklaşım
  • Treeminer'den KNN p-Cebir tabanlı yaklaşım, operasyon maliyetini azaltma

3. Gün: Oturum-2: eKeşif ve Forensik İçin Araçlar

  • Büyük Veri Üzerinde eKeşif vs. Eski Veride eKeşif – maliyet ve performans karşılaştırması
  • Tahminele kodlama ve teknoloji destekli gözden geçirme (TAR)
  • vMiner ürününün canlı demoları ile TAR'in daha hızlı keşif için nasıl çalıştığı anlaşılsın
  • HDFS üzerinden daha hızlı dizinleme - veri hızı
  • NLP veya Doğal Dil İşleme – çeşitli teknikler ve açık kaynaklı ürünler
  • Yabancı dilde eKeşif - yabancı dil işleme için teknoloji

3. Gün : Oturum 3: Büyük Veri BI untuk Siber Güvenlik – Hızlı veri toplamadan tehdit kimyasallığını tanıma

  • Güvenlik analitiği temellerinin anlaşılması - saldırı yüzeyi, güvenlik yanlış yapılandırması, konak savunmaları
  • Ağ altyapısı/ Büyük veri hattı / Gerçek zamanlı analitik için yanıt ETL
  • Talimatlayıcı vs tahminele – sabit kural tabanlı vs meta verilerden otomatik tehdit kuralları keşfi

3. Gün: Oturum 4: USDA'da Büyük Veri : Tarımda Uygulama

  • Tarım için IoT (Internet of Things) - sensör tabanlı Büyük Veri ve kontrol
  • Tarımda uydudan görüntü alımı ve uygulaması
  • Toprağın verimliliği, ekim önerisi ve tahmin için sensör ve görüntü verilerinin entegrasyonu
  • Tarım sigortası ve Büyük Veri
  • Hasat kaybı tahmini

4. Gün : Oturum-1: Hükümette Kandırıcılığı Önleme BI - Kandırıcılık Analitiği:

  • Kandırıcılık analitiğinin temel sınıflandırması - kural tabanlı vs tahminele analitik
  • Kandırıcılık deseni tespiti için denetimli ve denetimsiz makine öğrenimi
  • Tedarikçi kandırıcılığı/projelerde fazla ücret talep etme
  • Medicare ve Medicaid kandırıcılığı - talep işlemedeki kandırıcılık tespit teknikleri
  • Seyahat iadesi kandırıcılığı
  • IRS geri ödeme kandırıcılıkları
  • Veri mevcut olduğunda vaka çalışmaları ve canlı demolar verilecektir.

4. Gün : Oturum-2: Sosyal Medya Analitiği - Bilgi toplama ve analiz

  • Büyük Veri ETL API'si ile sosyal medya verisini ayıklama
  • Metin, görüntü, meta veri ve video
  • Sosyal medya beslemesinden duygu analizi
  • Sosyal medya beslemesinde bağlamsal ve bağlamsız filtreleme
  • Çeşitli sosyal medyanın entegrasyonu için Sosyal Medya Panosu
  • Sosyal medya profillerinin otomatik profil oluşturma
  • Her analitik için Treeminer Aracı ile canlı demolar verilecektir.

4. Gün : Oturum-3: Büyük Veri'de görüntü işleme ve video akışları analitiği

  • Büyük Veri'deki Görüntü Depolama Teknikleri - petabaytların üzerindeki veri için depolama çözümü
  • LTFS ve LTO
  • GPFS-LTFS (Büyük görüntü verisi için katmanlı depolama çözümü)
  • Görüntü analitiğinin temelleri
  • Nesne tanıma
  • Görüntü segmentasyonu
  • Hareket takibi
  • 3-D görüntü yeniden oluşturma

4. Gün: Oturum-4: NIH'deki Büyük Veri Uygulamaları:

  • Biyo-informatikte ortaya çıkan alanlar
  • Meta-genomik ve Büyük Veri madenciliği sorunları
  • Farmakogenomik, Metabolomik ve Proteomik için Büyük Veri Tahminele Analitik
  • Aşağı akım Genomik süreçlerde Büyük Veri
  • Halk sağlığıda Büyük Veri tahminele analitiğinin uygulamaları

Farklı verilere hızlı erişim ve gösterim için Büyük Veri Pano:

  • Mevcut uygulama platformlarının Büyük Veri Panosu ile entegrasyonu
  • Büyük Veri yönetimi
  • Büyük Veri Pano Vaka Çalışması: Tableau ve Pentaho
  • Hükümette yer tabanlı hizmetlerin sunulmasını sağlayan Büyük Veri uygulamasını kullanma
  • Takip sistemi ve yönetimi

5. Gün : Oturum-1: Kuruluş içinde Büyük Veri BI uygulamasını nasıl gerekçelendirebilirsiniz:

  • Büyük Veri uygulaması için ROI'yi tanımlama
  • Analistlerin veriyi toplama ve hazırlamada kazanılan üretkenlik artışı için vaka çalışmaları
  • Lisanslı veritabanı maliyetlerinden tasarruf edilmesiyle gelir artışı için vaka çalışmaları
  • Yer tabanlı hizmetlerden gelir artışı
  • Kandırıcılık önlemeden tasarruf
  • Büyük Veri uygulamasından yaklaşık maliyet vs. Gelir kazancı/tasarrufu hesaplamak için entegre bir elektronik tablo yaklaşımı.

5. Gün : Oturum-2: Eski veri sistemini Büyük Veri Sistemi'ne adım adım geçiş prosedürü:

  • Pratik Büyük Veri Migrasyon Roadmap'ini anlamak
  • Büyük Veri uygulamasının mimarisini yapmadan önce hangi önemli bilgilerin olması gerektiği
  • Verinin hacmi, hızı, çeşitliliği ve doğruluğunu hesaplamanın farklı yolları
  • Veri büyümesini nasıl tahmin edebilirsiniz
  • Vaka Çalışmaları

5. Gün: Oturum 4: Büyük Veri Tedarikçilerinin ve ürünlerinin incelemesi. Soru-Cevap oturumu:

  • Accenture
  • APTEAN (Daha Önce CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (Daha Önce 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (EMC'nin Bir Parçası)

Kurs İçin Gerekli Önbilgiler

  • Hükümet kurumlarında iş operasyonları ve veri sistemlerine ilişkin temel bilgi
  • SQL/Oracle veya ilişkisel veritabanına yönelik temel anlayış
  • İstatistik (Elektronik Tablo düzeyi) konusunda temel anlayış
 35 Saat

Katılımcı Sayısı


Kişi Başına Fiyat

Danışanlarımızın Yorumları (1)

Yaklaşan Etkinlikler

İlgili Kategoriler