Interaktivní analýza dat s Apache Spark

8. 12. 2020 9:00 – 10:00

Na co se můžete těšit:

Apache Spark je distribuovaný výpočetní systém, který je možné použít pro různé účely. V této přednášce se zaměříme na jeden konkrétní a tím je interaktivní analýza dat. Podíváme se na dataframové API, což je nejpoužívanější API v současné verzi Sparku a seznámíme se s jeho základními koncepty. Toto API je podporované v různých jazycích (Python, Scala, Java, SQL, R). Ukážeme si, jaký je v tom rozdíl a okrajově se dotkneme toho, jak toto API funguje pod povrchem. V druhé části si ukážeme konkrétní příklady, jak je možné toto API ve Sparku použít k interaktivní analýze dat v notebookovém prostředí v programovacím jazyku Python.

 

  • Úvod do Sparku / PySparku
  • Dataframové API
  • Scala vs Python vs SQL
  • Jak fungují dataframy pod povrchem
  • Spark a notebookové prostředí
  • Interaktivní analýza dat

 

Prezentující: David Vrba Ph.D. (Data Scientist at Socialbakers)

David se v Socialbakers zabývá prediktivní analytikou a zpracováním malých i velkých objemů dat, optimalizuje Sparkové joby a vede výukové tréningy zaměřené na Spark. Pracuje v týmu kde se Spark integruje s dalšími technologiemi a svět data science se tu potkává se světem data engineeringu.

 

Místo konání: 

V současné době jsme se Vám rozhodli poskytnout snídani ve virtuální podobě. Den před konáním Vám zašleme na emailovou adresu link pro připojení. 

 

Těšíme se na Vaši účast, team DataScriptu

 

Podmínky registrace

Podmínkou bezplatné účasti na našich snídaních je uvedení Vaší společnosti, jmenného emailu a platného telefonního čísla. V opačném případě si vyhrazujeme právo Vaši účast odmítnout.

Bezplatně registrovat na Morning Talks

Kurzy
Submit
* Povinné pole
Při poskytování našich služeb nám pomáhají soubory cookie. Využíváním našich služeb s jejich používáním souhlasíte.
Další informace