Eğitim İçeriği
Gün 01
Suç İstihbarat Analizi için Big Data Business Intelligence Genel Bakış
- Kolluk Kuvvetlerinden Vaka Çalışmaları - Öngörücü Polislik
- Kolluk Kuvvetleri Kurumlarında Big Data benimseme oranı ve gelecek operasyonlarını Big Data Predictive Analytics etrafında nasıl hizaladıkları
- Silah sesi sensörleri, gözetim videoları ve sosyal medya gibi yeni teknoloji çözümleri
- Bilgi yükünü azaltmak için Big Data teknolojisini kullanma
- Big Data'ü Eski Verilerle Entegre Etme
- Öngörücü analitikte temel teknolojilerin anlaşılması
- Data Integration & Pano görselleştirme
- Dolandırıcılık yönetimi
- Business Rules ve Dolandırıcılık tespiti
- Tehdit tespiti ve profilleme
- Big Data uygulaması için maliyet-fayda analizi
Big Data'e Giriş
- Big Data'ün temel özellikleri -- Hacim, Çeşitlilik, Hız ve Doğruluk.
- MPP (Kitlesel Paralel İşleme) mimarisi
- Data Warehouses – statik şema, yavaş evrimleşen veri seti
- MPP Databases: Greenplum, Exadata, Teradata, Netezza, Vertica vb.
- Hadoop Tabanlı Çözümler – veri setinin yapısı üzerinde koşul yok.
- Tipik desen: HDFS, MapReduce (işleme), HDFS'den alma
- Apache Spark akış işleme için
- Toplu – analitik/etkileşimli olmayan işlemler için uygun
- Hacim : CEP akış verileri
- Tipik seçenekler – CEP ürünleri (örn. Infostreams, Apama, MarkLogic vb.)
- Daha az üretim hazır – Storm/S4
- NoSQL Databases – (sütunlu ve anahtar-değer): Veri ambarı/veritabanına analitik ek olarak en uygun
NoSQL çözümleri
- KV Deposu - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Deposu - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Deposu (Hiyerarşik) - GT.m, Cache
- KV Deposu (Sıralı) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Önbelleği - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Deposu - Gigaspaces, Coord, Apache River
- Nesne Database - ZopeDB, DB40, Shoal
- Belge Deposu - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Geniş Sütunlu Deposu - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Veri Çeşitliliği: Big Data'te Data Cleaning Sorunlarına Giriş
- RDBMS – statik yapı/şema, çevik, keşif ortamını desteklemez.
- NoSQL – yarı yapılandırılmış, veriyi saklamadan önce tam şema olmadan veri saklamaya yetecek yapı
- Veri temizleme sorunları
Hadoop
- Hadoop ne zaman seçilmeli?
- YAPILANDIRILMIŞ - Kurumsal veri ambarları/veritabanları büyük veriyi saklayabilir (bir maliyetle) ancak yapı dayatır (aktif keşif için uygun değil)
- YARI YAPILANDIRILMIŞ veri – geleneksel çözümlerle (DW/DB) gerçekleştirmek zor
- Veri ambarlama = BÜYÜK çaba ve uygulama sonrası statik
- Veri çeşitliliği ve hacmi için, ucuz donanım üzerinde işlenen – HADOOP
- Hadoop Kümesi oluşturmak için ucuz donanım gereklidir
Map Reduce /HDFS'e Giriş
- MapReduce – birden fazla sunucu üzerinde dağıtılmış hesaplama
- HDFS – hesaplama süreci için veriyi yerel olarak erişilebilir hale getirme (yedeklilik ile)
- Veri – yapılandırılmamış/şemasız olabilir (RDBMS'in aksine)
- Geliştiricinin sorumluluğu veriyi anlamlandırmak
- Programming MapReduce = Java ile çalışma (artılar/eksiler), veriyi manuel olarak HDFS'e yükleme
Gün 02
Big Data Ekosistemi -- Big Data ETL (Çıkar, Dönüştür, Yükle) Oluşturma -- Hangi Big Data Araçları Ne Zaman Kullanılır?
- Hadoop vs. Diğer NoSQL çözümler
- Etkileşimli, rastgele veri erişimi için
- Hadoop üzerinde Hbase (sütun yönelimli veritabanı)
- Veriye rastgele erişim ancak kısıtlamalar uygulanır (maksimum 1 PB)
- Ad-hoc analitik için uygun değil, günlük kaydı, sayma, zaman serileri için iyi
- Sqoop - Veritabanlarından Hive veya HDFS'e aktarma (JDBC/ODBC erişimi)
- Flume – Akış verilerini (örn. günlük verileri) HDFS'e aktarma
Büyük Data Management Sistemi
- Hareketli parçalar, hesaplama düğümleri başlatma/başarısız olma :ZooKeeper - Yapılandırma/koordinasyon/isimlendirme hizmetleri için
- Karmaşık boru hattı/iş akışı: Oozie – iş akışını, bağımlılıkları, zincirleme yönetme
- Dağıtma, yapılandırma, küme yönetimi, yükseltme vb. (sistem yöneticisi) :Ambari
- Bulutta : Whirr
Predictive Analytics -- Temel Teknikler ve Machine Learning Tabanlı Business Intelligence
- Machine Learning'e Giriş
- Sınıflandırma tekniklerini öğrenme
- Bayes Tahmini -- bir eğitim dosyası hazırlama
- Destek Vektör Makinesi
- KNN p-Tree Cebiri & dikey madencilik
- Neural Networks
- Big Data büyük değişken problemi -- Rastgele orman (RF)
- Big Data Otomasyon problemi – Çoklu model topluluğu RF
- Soft10-M ile otomasyon
- Metin analitik aracı-Treeminer
- Agile öğrenme
- Ajan tabanlı öğrenme
- Dağıtılmış öğrenme
- Öngörücü analitik için açık kaynak araçlara giriş : R, Python, Rapidminer, Mahut
Predictive Analytics Ekosistemi ve Suç İstihbarat Analizindeki Uygulamaları
- Teknoloji ve soruşturma süreci
- İçgörü analitiği
- Görselleştirme analitiği
- Yapılandırılmış öngörücü analitik
- Yapılandırılmamış öngörücü analitik
- Tehdit/dolandırıcılık/tedarikçi profilleme
- Öneri Motoru
- Desen tespiti
- Kural/Senaryo keşfi – başarısızlık, dolandırıcılık, optimizasyon
- Kök neden keşfi
- Duygu analizi
- CRM analitiği
- Ağ analitiği
- Metin analitiği ile transkriptler, tanık ifadeleri, internet sohbetlerinden içgörü elde etme
- Teknoloji destekli inceleme
- Dolandırıcılık analitiği
- Gerçek Zamanlı Analitik
Gün 03
Hadoop Üzerinde Gerçek Zamanlı ve Scalabilir Analitik
- Yaygın analitik algoritmalar neden Hadoop/HDFS'de başarısız olur?
- Apache Hama- Toplu Senkronize dağıtılmış hesaplama için
- Apache SPARK- Küme hesaplama ve gerçek zamanlı analitik için
- CMU Grafik Laboratuvarı2- Grafik tabanlı asenkron dağıtılmış hesaplama yaklaşımı
- KNN p -- Treeminer'den donanım maliyetini azaltmak için cebirsel yaklaşım
eKeşif ve Adli Bilişim için Araçlar
- Big Data üzerinde eKeşif vs. Eski veri – maliyet ve performans karşılaştırması
- Öngörücü kodlama ve Teknoloji Destekli İnceleme (TAR)
- TAR'ın nasıl daha hızlı keşif sağladığını anlamak için vMiner canlı demo
- HDFS üzerinden daha hızlı indeksleme – Veri hızı
- NLP (Doğal Dil İşleme) – açık kaynak ürünler ve teknikler
- Yabancı dillerde eKeşif -- yabancı dil işleme teknolojisi
Cyber Security için Big Data BI – 360 Derece Görünüm, Hızlı Veri Toplama ve Tehdit Tanımlama
- Güvenlik analitiğinin temellerini anlama -- saldırı yüzeyi, güvenlik yanlış yapılandırması, ana bilgisayar savunmaları
- Ağ altyapısı / Büyük veri borusu / Gerçek zamanlı analitik için yanıt ETL
- Reçete edici vs öngörücü – Sabit kural tabanlı vs Meta veriden tehdit kurallarını otomatik keşfetme
Suç İstihbarat Analizi için Farklı Verilerin Toplanması
- Veri yakalamak için IoT (Nesnelerin İnterneti) kullanımı
- Yerel Gözetim için Uydu Görüntülerini Kullanma
- Suç tanımlama için gözetim ve görüntü verilerini kullanma
- Diğer veri toplama teknolojileri -- insansız hava araçları, vücut kameraları, GPS etiketleme sistemleri ve termal görüntüleme teknolojisi
- Otomatik veri toplamayı muhbirler, sorgulama ve araştırmadan elde edilen verilerle birleştirme
- Forecasting suç faaliyeti
Gün 04
Dolandırıcılık Önleme BI'sı Big Data ile Dolandırıcılık Analitiği
- Dolandırıcılık Analitiğinin temel sınıflandırması -- kural tabanlı vs öngörücü analitik
- Dolandırıcılık deseni tespiti için denetimli vs denetimsiz Makine öğrenmesi
- Business iş dolandırıcılığı, sağlık sigortası dolandırıcılığı, vergi kaçırma ve kara para aklama
Social Media Analitiği -- İstihbarat toplama ve analiz
- Suçluların Social Media'yı organize etme, işe alma ve planlama için nasıl kullandığı
- Sosyal medya verilerini çıkarmak için Big Data ETL API
- Metin, görüntü, meta veri ve video
- Sosyal medya akışından duygu analizi
- Sosyal medya akışının bağlamsal ve bağlamsal olmayan filtrelemesi
- Farklı sosyal medya platformlarını entegre etmek için Social Media Panosu
- Sosyal medya profillerinin otomatik profillemesi
- Her bir analitik için Treeminer aracı üzerinden canlı demo yapılacaktır
Big Data Analitiği ile Görüntü ve Video Akışları
- Big Data'te Görüntü Depolama Teknikleri -- Petabyte'ı aşan veriler için depolama çözümleri
- LTFS (Doğrusal Bant Dosya Sistemi) ve LTO (Doğrusal Bant Açık)
- GPFS-LTFS (Genel Paralel Dosya Sistemi - Doğrusal Bant Dosya Sistemi) -- Büyük görüntü verileri için katmanlı depolama çözümü
- Görüntü analitiğinin temelleri
- Nesne tanıma
- Görüntü bölütleme
- Hareket izleme
- 3-B görüntü yeniden yapılandırma
Biometrikler, DNA ve Yeni Nesil Tanımlama Programları
- Parmak izi ve yüz tanımanın ötesinde
- Ses tanıma, klavye (kullanıcının yazma şeklini analiz etme) ve CODIS (Birleşik DNA İndeks Sistemi)
- DNA eşleştirmenin ötesinde: adli DNA fenotipleme ile DNA örneklerinden yüz oluşturma
Farklı Verilere Hızlı Erişim ve Görüntüleme için Big Data Panosu:
- Mevcut uygulama platformunu Big Data Panosu ile entegre etme
- Big Data yönetimi
- Big Data Panosu Vaka Çalışması: Tableau ve Pentaho
- Govt.'de konum tabanlı hizmetleri itmek için Big Data uygulamasını kullanma
- İzleme sistemi ve yönetimi
Gün 05
Bir kuruluş içinde Big Data BI uygulamasını nasıl haklı çıkarabilirsiniz:
- Big Data uygulaması için ROI (Yatırım Getirisi) tanımlama
- Veri toplama ve hazırlama sürecinde Analist Zamanından Tasarruf Etme Vaka Çalışmaları – verimliliği artırma
- Daha düşük veritabanı lisans maliyetinden elde edilen gelir artışı
- Konum tabanlı hizmetlerden elde edilen gelir artışı
- Dolandırıcılık önlemeden elde edilen maliyet tasarrufu
- Big Data uyg
Kurs İçin Gerekli Önbilgiler
- Kolluk kuvvetleri süreçleri ve veri sistemleri bilgisi
- SQL/Oracle veya ilişkisel veritabanı hakkında temel anlayış
- İstatistikler hakkında temel anlayış (Elektronik Tablo düzeyinde)
Hedef Kitle
- Teknik altyapıya sahip kolluk kuvvetleri uzmanları
Danışanlarımızın Yorumları (1)
Deepthi was super attuned to my needs, she could tell when to add layers of complexity and when to hold back and take a more structured approach. Deepthi truly worked at my pace and ensured I was able to use the new functions /tools myself by first showing then letting me recreate the items myself which really helped embed the training. I could not be happier with the results of this training and with the level of expertise of Deepthi!