Kurzy a certifikace TIBCO Statistica

Data Mining

Data Mining (dvoudenní varianta)

13.900 CZK
Days2

Tento dvoudenní kurz je určen osobám, které chtějí odhalit informace a znalosti ukryté v datech. Cílem tohoto kurzu není ukázat jen vhodné postupy, ale také způsob, jak co nejlépe prezentovat výsledky. V průběhu kurzu budou prezentovány nejrůznější techniky: korelační analýza, regresní analýza, časové řady, klasifikační stromy, neuronové sítě a další. Na závěr budou ukázány konkrétní příklady z oblasti vytěžování dat. V průběhu celého kurzu budou účastníci pracovat s modulem STATISTICA Data Miner.  

Cílová skupina

  • Analytik, statistik či datový specialista, který potřebuje zpracovávat rychle velké objemy dat.
  • Zájemce o problematiku data miningu (dolování informací z dat).
  • Typickými posluchači mohou být analytici z oblasti bankovnictví, pojišťovnictví, ale také pokročilí analytici z oblasti průmyslu.
  • Ti, kteří se chtějí seznámit s modulem Data Miner v softwaru TIBCO Statistica.

 

Cíle kurzu

  • Seznámit se teoreticky, ale i prakticky s množstvím metod spadajících do oblasti data miningu.
  • Mimo jiné se účastníci naučí sestavovat a interpretovat predikční modely. Vyhodnotit jejich kvalitu či vybrat, který z výsledných modelů je pro danou situaci nejvhodnější.
  • Naučit se pracovat v několika unikátních prostředích TIBCO Statistica určených přímo pro data mining.
  • Naučit se používat modul Data Miner.


Osnova

Úvod

  • Základní informace o softwaru STATISTICA
  • Výukové zdroje pro software a možnosti nápovědy

Úvod do vytěžování dat, produkt

  • Princip, možnosti, využití

Práce s recepty (wizardem)

  • Příprava dat (načtení, výběr proměnných, transformace, vzorkování dat, odstranění duplicitních vzorů, filtrace odlehlých hodnot, oprava chybějících údajů)
  • Detekce a případné odstranění podobných vstupních příznaků (prediktorů)
  • Výběr důležitých prediktorů pro požadovanou úlohu
  • Vytváření klasifikačních a regresních modelů
  • Vyhodnocení kvality vytvořeného modelů
  • Nasazení modelu v praxi

Klasifikační a regresní stromy

  • Princip, možnosti, využití
  • CART stromy
  • CHAID stromy
  • Vytváření klasifikačních a regresních stromů v interaktivním režimu (generování stromu, prořezávání stromu, výběr rozhodovacích proměnných, výběr mezí)
  • Generované stromy (Boosted Trees)
  • Náhodné lesy (Random Forests)

Lineární modely

  • Princip regrese
  • (Obecné) lineární modely
  • Zobecněné lineární modely
  • Zobecněné aditivní modely
  • MARSplines

Metody shlukování

  • K-průměrů (k-means)
  • Hierarchické a EM shlukování

Automatizované neuronové sítě

  • Princip umělých neuronových sítí, základní typy (MLP, RBF, Kohonenova síť)
  • Automatizovaný a vlastní návrh sítě

Metody strojového učení

  • Bayesův klasifikátor
  • SVM
  • k-NN klasifikátor

Analýza nezávislých komponent (ICA) 

Text Mining

  • Účel, princip a zdroje text miningu
  • Vytvoření a práce s indexovým souborem
  • Asociační pravidla a sekvence 

Nasazení modelů na reálná data z praxe 

Kvalita získaných modelů

  • Korelační analýza
  • ROC křivka
  • Grafy zisku a navýšení (Gains/Lift cart)

Metody výběru vhodných příznaků 

Sdružování rozsáhlých skupin hodnot příznaků (Binning) 

Základy práce v pracovní ploše (Workspaces)


Předpoklady účastníka

Běžná obsluha počítače v prostředí Windows, doporučujeme před tímto kurzem absolvovat Základní kurz statistiky I.


Předchozí kurzy

Doporučujeme před tímto kurzem absolvovat kurz:

Základní kurz statistiky I.


Navazující kurzy

Spolu s dvoudenním kurzem Data mining doporučujeme absolvovat i kurz Data mining v praxi v prostředí Workspace.


Certifikace

Účastník získá certifikát o úspěšném absolvování kurzu.

 

Pozn: Jednotlivé příklady v průběhu kurzu jsou procvičovány v anglické verzi softwaru Statistica.

Poptejte kurz u nás

Kurzy
Submit
* Povinné pole