Eğitim İçeriği

Her oturum 2 saattir

1. Gün: Oturum-1: Business Neden Big Data Business Intelligence Govt'de?

  • NIH, DoE'den örnek olaylar
  • Govt'deki kuruluşlarda Big Data adaptasyon oranı ve gelecekteki operasyonlarını Big Data Predictive Analytics etrafında nasıl uyarlıyorlar
  • Sağlık Bakanlığı, NSA, IRS, USDA vb. alanlarda geniş ölçekli uygulama alanı
  • Big Data'nin eski verilerle arayüzlenmesi
  • Tahmini analizde etkinleştirici teknolojilerin temel anlayışı
  • Data Integration & Gösterge panosu görselleştirmesi
  • Sahtekarlık yönetimi
  • Business Kural/Sahtekarlık algılama üretimi
  • Tehdit algılama ve profilleme
  • Big Data uygulamasının maliyet-fayda analizi

1. Gün: Oturum-2: Big Data-1'e Giriş

  • Big Data'nin temel özellikleri: hacim, çeşitlilik, hız ve doğruluk. Hacim için MPP mimarisi.
  • Data Warehouse'ler – statik şema, yavaşça gelişen veri seti
  • MPP Database'lar: Greenplum, Exadata, Teradata, Netezza, Vertica vb.
  • Hadoop Tabanlı Çözümler – veri setinin yapısı üzerinde herhangi bir koşul yok.
  • Tipik desen: HDFS, MapReduce (crunch), HDFS'den alma
  • Toplu – analitik/etkileşimli olmayanlar için uygundur
  • Hacim: CEP akış verisi
  • Tipik seçenekler – CEP ürünleri (örneğin Infostreams, Apama, MarkLogic vb.)
  • Üretim için daha az hazır – Storm/S4
  • NoSQL Database'lar – (sütunsal ve anahtar-değer): Veri ambarı/veri tabanıya analitik bir ek olarak en uygunudur

1. Gün: Oturum-3: Big Data-2'ye Giriş

NoSQL çözümleri

  • KV Mağazası - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Mağazası - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Mağazası (Hiyerarşik) - GT.m, Cache
  • KV Mağazası (Sıralı) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Önbelleği - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Mağazası - Gigaspaces, Coord, Apache River
  • Nesne Database - ZopeDB, DB40, Shoal
  • Belge Mağazası - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Database'lar, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Geniş Sütunsal Mağaza - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Veri Çeşitliliği: Big Data sorununa giriş Big Data

  • RDBMS – statik yapı/şema, çevik, keşif ortamını teşvik etmez.
  • NoSQL – yarı yapılandırılmış, verileri tam bir şemaya sahip olmadan depolamak için yeterli yapı
  • Veri temizleme sorunları

1. Gün: Oturum-4: Big Data Giriş-3: Hadoop

  • Hadoop'yi ne zaman seçmeli?
  • YAPILANDIRILMIŞ - Kurumsal veri ambarları/veri tabanları büyük miktarda veri depolayabilir (bir maliyetle) ancak yapı dayatır (aktif keşif için iyi değil)
  • YARI YAPILANDIRILMIŞ veri – geleneksel çözümlerle (DW/DB) yapmak zordur
  • Veri ambarlama = uygulama sonrasında bile büyük bir çaba ve statik
  • Çeşitlilik ve veri hacmi için, ucuz donanımda ezilmiş – HADOOP
  • Hadoop Kümesi oluşturmak için ucuz donanım gerekir

Map Reduce /HDFS'ye Giriş

  • MapReduce – hesaplamayı birden fazla sunucuya dağıtın
  • HDFS – verileri hesaplama işlemi için yerel olarak kullanılabilir hale getirin (artıklık ile)
  • Veri – yapılandırılmamış/şemasız olabilir (RDBMS'den farklı olarak)
  • Verilerden anlam çıkarmak geliştiricinin sorumluluğundadır
  • Programming MapReduce = Java ile çalışmak (artıları/eksileri), verileri manuel olarak HDFS'ye yüklemek

2. Gün: Oturum-1: Big Data Ekosistemi - Big Data ETL oluşturma: Big Data Araçlarının evreni - ne zaman hangisini kullanmalısınız?

  • Hadoop vs. Diğer NoSQL çözümleri
  • Veriye etkileşimli, rastgele erişim için
  • Hbase (sütunsal veri tabanı) Hadoop üzerinde
  • Rastgele veri erişimi ancak kısıtlamalar vardır (maks. 1 PB)
  • Ad-hoc analiz için iyi değil, günlük kaydı, sayma, zaman serisi için iyidir
  • Sqoop - Veri tabanlarından Hive'a veya HDFS'ye aktarın (JDBC/ODBC erişimi)
  • Flume – Veri akışını (örneğin günlük verisi) HDFS'ye aktarın

2. Gün: Oturum-2: Büyük Data Management Sistemi

  • Hareketli parçalar, hesaplama düğümleri başlatılır/başarısız olur: ZooKeeper - Yapılandırma/koordinasyon/adlandırma hizmetleri için
  • Karmaşık işlem hattı/iş akışı: Oozie – iş akışını, bağımlılıkları, zincirleme yönetin
  • Dağıtın, yapılandırın, küme yönetimi, yükseltme vb. (sistem yöneticisi): Ambari
  • Bulutta: Whirr

2. Gün: Oturum-3: Business Intelligence'de Tahmini Analitik-1: Temel Teknikler ve Makine Öğrenimine Dayalı BI:

  • Makine Öğrenimine Giriş
  • Sınıflandırma tekniklerini öğrenin
  • Bayes Tahmini - eğitim dosyası hazırlama
  • Destek Vektör Makinesi
  • KNN p-Ağacı Cebiri ve dikey madencilik
  • Sinir Ağı
  • Big Data büyük değişken problemi - Rastgele Orman (RF)
  • Big Data Otomasyon problemi – Çoklu model topluluğu RF
  • Otomasyon Soft10-M aracılığıyla
  • Metin analitik aracı - Treeminer
  • Agile öğrenme
  • Ajan tabanlı öğrenme
  • Dağıtılmış öğrenme
  • Tahmini analitik için açık kaynak araçlarına giriş: R, Rapidminer, Mahut

2. Gün: Oturum-4: Tahmini analitik ekosistemi-2: Govt'de yaygın tahmini analitik problemleri.

  • İçgörü analitiği
  • Görselleştirme analitiği
  • Yapılandırılmış tahmini analitik
  • Yapılandırılmamış tahmini analitik
  • Tehdit/sahtekarlık/satıcı profilleme
  • Öneri Motoru
  • Desen algılama
  • Kural/Senaryo keşfi – başarısızlık, sahtekarlık, optimizasyon
  • Kök neden keşfi
  • Duygu analizi
  • CRM analitiği
  • Ağ analitiği
  • Metin Analitiği
  • Teknoloji destekli inceleme
  • Sahtekarlık analitiği
  • Gerçek Zamanlı Analitik

3. Gün: Oturum-1: Hadoop Üzerinde Gerçek Zamanlı ve Scalalenebilir Analitik

  • Neden yaygın analitik algoritmaları Hadoop/HDFS'de başarısız olur?
  • Apache Hama - Toplu Senkronize dağıtılmış hesaplama için
  • Apache SPARk - Gerçek zamanlı analitik için küme hesaplama
  • CMU Graphics Lab2 - Dağıtılmış hesaplama için grafik tabanlı asenkron yaklaşım
  • Treeminer'den KNN p-Ağacı tabanlı yaklaşım, operasyon maliyetini azaltır

3. Gün: Oturum-2: eKeşif ve Adli Bilişim Araçları

  • Big Data ETL API'si aracılığıyla sosyal medya verilerini çıkarma
  • Metin, resim, meta veri ve video
  • Sosyal medya akışından duygu analizi
  • Bağlamsal ve bağlamsal olmayan sosyal medya akışını filtreleme
  • Social Media Gösterge panosu, çeşitli sosyal medyayı entegre edin
  • Sosyal medya profilini otomatik profilleme
  • Her analitiğin canlı demosu Treeminer Aracı aracılığıyla verilecektir.

3. Gün: Oturum-3: Big Data Analitiği görüntü işleme ve video akışlarında

  • Büyük resim verileri için görüntü depolama teknikleri - petabaytleri aşan veriler için depolama çözümü
  • LTFS ve LTO
  • GPFS-LTFS (Büyük resim verileri için katmanlı depolama çözümü)
  • Temel görüntü analitiği
  • Nesne tanıma
  • Görüntü segmentasyonu
  • Hareket izleme
  • 3-D görüntü yeniden yapılandırması

4. Gün: Oturum-4: Big Data uygulamaları NIH:

  • Ortaya çıkan Bio -bilgisi alanları
  • Meta-genomik ve Big Data madencilik sorunları
  • Big Data Tahmini analitiği Farmakogenomik, Metabolomik ve Proteomik için
  • Big Data aşağı yönlü Genomik süreçte
  • Büyük veri tahmini analitiğinin Halk Sağlığında uygulanması

Big Data Gösterge panosu, çeşitli verilere ve görüntülemeye hızlı erişim için:

  • Mevcut uygulama platformunun Big Data Gösterge panosu ile entegrasyonu
  • Big Data yönetimi
  • Örnek olay incelemesi Tableau ve Pentaho
  • Govt'de konum tabanlı hizmetleri etkinleştirmek için Big Data uygulamasını kullanın.
  • İzleme sistemi ve yönetimi

5. Gün: Oturum-1: Big Data BI uygulamasının bir kuruluş içinde haklı çıkarılması:

  • Big Data uygulamasının ROI'sini tanımlama
  • Veri toplama ve hazırlama için analist süresini kurtarmak için örnek olaylar - üretkenlik kazancı
  • Lisanslı veri tabanı maliyetinden tasarruf sağlayan gelir örnek olayları
  • Konum tabanlı hizmetlerden elde edilen gelir
  • Sahtekarlıktan tasarruf sağlama
  • Maliyetlere karşı gelir/tasarrufları hesaplamak için entegre bir elektronik tablo yaklaşımı Big Data uygulaması.

5. Gün: Oturum-2: Eski veri sistemini Big Data Sistemine dönüştürmek için adım adım prosedür:

  • Pratik Big Data Geçiş Yol Haritasını anlama
  • Big Data uygulamasını tasarlamadan önce hangi bilgilerin gerekli olduğunu anlama
  • Veri hacmini, hızını, çeşitliliğini ve doğruluğunu nasıl hesaplayacağınızı anlama
  • Veri büyümesini nasıl tahmin edeceğinizi anlama
  • Örnek olaylar

5. Gün: Oturum-4: Big Data Satıcılarının ve ürünlerinin gözden geçirilmesi. Soru-Cevap oturumu:

  • Accenture
  • APTEAN (Eski CDC Software)
  • Cisco Sistemler
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (Eski 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Enstitüsü
  • Sisense
  • Software AG/Terracotta
  • Soft10 Otomasyon
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Yazılım
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (EMC'nin bir parçası)

Kurs İçin Gerekli Önbilgiler

  • İş operasyonları ve kendi alanlarındaki veri sistemleri hakkında temel bilgi
  • SQL/Oracle veya ilişkisel veritabanı hakkında temel anlayış
  • Statistics (Elektronik Tablo seviyesinde) hakkında temel anlayış
 35 Saat

Katılımcı Sayısı


Kişi Başına Fiyat

Danışanlarımızın Yorumları (1)

Yaklaşan Etkinlikler

İlgili Kategoriler