Interaktivní analýza dat s Apache Spark

28. 11. 2018 9:00 – 11:30

Na co se můžete těšit:

Apache Spark je distribuovaný výpočetní systém, který je možné použít pro různé účely. V této přednášce se zaměříme na jeden konkrétní a tím je interaktivní analýza dat. Podíváme se na dataframové API, což je nejpoužívanější API v současné verzi Sparku a seznámíme se s jeho základními koncepty. Toto API je podporované v různých jazycích (Python, Scala, Java, SQL, R). Ukážeme si, jaký je v tom rozdíl a okrajově se dotkneme toho, jak toto API funguje pod povrchem. V druhé části si ukážeme konkrétní příklady, jak je možné toto API ve Sparku použít k interaktivní analýze dat v notebookovém prostředí v programovacím jazyku Python.

 

  • Úvod do Sparku / PySparku
  • Dataframové API
  • Scala vs Python vs SQL
  • Jak fungují dataframy pod povrchem
  • Spark a notebookové prostředí
  • Interaktivní analýza dat

 

Prezentující: David Vrba Ph.D. (Data Scientist at Socialbakers)

David se v Socialbakers zabývá prediktivní analytikou a zpracováním malých i velkých objemů dat, optimalizuje Sparkové joby a vede výukové tréningy zaměřené na Spark. Pracuje v týmu kde se Spark integruje s dalšími technologiemi a svět data science se tu potkává se světem data engineeringu.

 

Místo konání: DataScript s.r.o. (areál Classic 7, BUDOVA C.), Jankovcova 1037/49, Praha 7

Jak se na snídani dopravit? 

Doporučujeme využít hromadnou dopravu.

  • Tramvají - zastávka Ortenovo náměstí nebo Maniny
  • Autem - v okolí školícího střediska jsou modré parkovací zóny (ul. Jankovcova parkovací hodiny 15,-/hod.)

 

Těšíme se na Vaši účast, team DataScriptu

 

Podmínky registrace

Podmínkou bezplatné účasti na našich snídaních je uvedení Vaší společnosti, jmenného emailu a platného telefonního čísla. V opačném případě si vyhrazujeme právo Vaši účast odmítnout.

Bezplatně registrovat na Morning Talks

Kurzy
Submit
* Povinné pole