Kurzy a certifikace TIBCO Statistica

Data Mining

Klasifikační a regresní stromy

7.900 CZK
Days1

Rozhodovací stromy jsou jednou z nejpoužívanějších technik data miningu. Kurz je určen těm, kteří se zajímají o klasifikaci dat (například credit scoring, kdy se na základě příznaků snažíme rozhodnout o zařazení vzorů do skupin) nebo se věnují regresním úlohám včetně predikcí časového vývoje. Kurz seznámí účastníky nejen s klasickými metodami, ale i s pokročilejšími stromovými strukturami jako jsou Boosting Trees nebo Random Forests. Součástí kurzu je i interaktivní tvorba vlastních stromů a jejich modifikace.


Cílová skupina

  • Statistici, datoví specialisté či analytici, kteří potřebují řešit úlohu predikce kategorií či predikci nějaké spojité veličiny na základě dalších atributů.
  • Klasifikační stromy jsou typickou metodou používanou v bankovnictví a pojišťovnictví.
  • Nejtypičtější úlohou je využití v oblasti credit scoring.


Cíle kurzu

  • Porozumět metodologii stromovitých algoritmů.
  • Dokázat vytvořit a interpretovat model pro predikci.
  • Dokázat si vyhodnotit, který model vybrat jako finální pro nasazení do procesu predikce.
  • Naučit se analyzovat data těmito metodami v softwaru TIBCO Statistica.
  • Seznámit se s prostředím Statistica Data Miner


Osnova

Úvod

  • Základní informace o softwaru TIBCO Statistica
  • Výukové zdroje pro software a možnosti nápovědy

Příprava dat STATISTICA

  • Načtení, transformace, vzorkování, filtrace odlehlých hodnot, oprava chybějících údajů, atd.

Výběr důležitých prediktorů pro požadovanou úlohu

Sdružování rozsáhlých skupin hodnot příznaků (binning) 

Klasifikační a regresní stromy

  • Vytváření, princip, možnosti, využití

Metody

  • Klasifikační a regresní stromy CART
  • CHAID
  • Generované stromy (Boosted Trees)
  • Náhodné lesy (Random Forests)
  • Vytváření klasifikačních a regresních stromů v interaktivním režimu (generování stromu, prořezávání stromu, výběr rozhodovacích proměnných, výběr mezí)

Vyhodnocení kvality vytvořeného modelu

  • Korelační analýza
  • ROC křivka
  • Grafy zisku a navýšení (Gains a Lift chart)

Nasazení modelu v praxi

Hierarchické shlukování a jeho souvislost s klasifikačními a regresními stromy

Základy práce v prostředí modulu STATISTICA Data Miner

  • Práce s recepty (wizardem)
  • Práce v rámci pracovní plochy (workspaces)
  • Využití přednastavených úloh
  • Implementace vlastních uzlů


Předpoklady účastníka

  • Běžná obsluha počítače v prostředí Windows.


Navazující kurzy

Je možné a vhodné rozšířit znalost prostředí Workspace (které je v tomto kurzu probráno jen částečně) prostřednictvím kurzu:

Data mining v praxi v prostředí Workspace.

Pokud se chcete vzdělat také v dalších metodách, které mohou být alternativním řešením pro klasifikační a regresní stromy, pak doporučujeme kurzy:

Neuronové sítě,

Data mining (dvoudenní varianta) nebo Data mining(třídenní varianta).


Certifikace

Účastník získá certifikát o úspěšném absolvování kurzu.

 

Pozn: Jednotlivé příklady v průběhu kurzu jsou procvičovány v anglické verzi softwaru Statistica.

Poptejte kurz u nás

Kurzy
Submit
* Povinné pole