Kurzy a certifikace Open Source

Big data

Introduction to Apache Spark

23.500 CZK
Days2

Apache Spark se rychle stal jedním z nejpopulárnějších frameworků pro zpracování dat. Jeho univerzální API stejně jako široká škála analytických nástrojů vybudovaných jako nadstavba nad Sparkem ho předurčují jako dobrou volbu pro efektivní zpracování různých typů dat (jak v podobě streamu, tak i pro klasické batch zpracování). V tomto kurzu se podíváme na celou řadu možných použití Sparku ať už jako vysoce škálovatelného ETL nástroje s použitím Spark SQL nebo jako nástroje pro zpracování streamovaných dat. Nezapomeneme ale ani na podporu pro interaktivní explorativní práci s daty s pomocí DataScience notebooků a na podporu základních algoritmů pro machine learning v podobě MLLib knihovny.

Cílová skupina

  • Softwarové vývojáře a architekty
  • Datové analytiky, Data scientists
  • IT nadšence

Cíle kurzu

Cílem workshopu je seznámit účastníky s nástrojem Apache Spark – jedním z nejpopulárnějších frameworků pro efektivní zpracování velkých objemů dat. Není vyžadována žádná předchozí zkušenost se Sparkem nebo jinými Big Data technologiemi. Kurs poskytuje základní přehled celého ekosystému, stejně jako praktické příklady použití samotného frameworku Apache Spark.

Garant kurzu

IVO LAŠEK

Ivo pracuje jako softwarový architekt v Big Data týmu v MSD. Před nástupem do MSD spoluzakládal několik startupů úspěšně prodaných firmám Mladá fronta a Seznam.cz. S Apache projekty orientovanými na zpracování dat pracuje už více než 8 let (Apache Solr a později Elastic, Hadoop od verze 0.2, Apache Spark od roku 2015). Ivo získal PhD v oblasti Semantický web a zpracování dat na webu na Fakultě informačních technologií ČVUT.

Osnova

Úvod

  • Co je Apache Spark?
  • Co bylo před Sparkem?
  • Hadoop ekosystem
  • Přehled základních konceptů distribuovaného zpracování dat

Spark – základní koncepty

  • RDD, DataFrame, Dataset
  • DAG – orientovaný acyklický graf
  • Jak vypadá Spark cluster
  • Spark a Yarn

Spark Core – jak funguje uvnitř

  • Algoritmy třídění dat
  • Spark paměťový model

Spark SQL

  • Výhody částečně strukturovaných dat
  • SQL
    • Úvod
    • Joins
    • Hive
  • DataFrames
    • Úvod
    • Joins
    • Datové formáty
      • JSON
      • Parquet
      • Avro
  • DataSets

Spark Streaming

  • Co je streaming?
  • Obecný přehled
  • Spark Streaming a Kafka

Spark pro data scientisty

  • DataScience notebooks
  • Interaktivní datová analýza
  • Vizualizace dat

Machine Learning

  • Úvod do MLLib

Graph processing

  • Úvod GraphX

Testování sparkových aplikací

Deployment

  • Jak rozběhnout Spark v cloudu

 

Předpoklady účastníka

  • Předchozí vývojářská zkušenost s programováním ideálně v Javě (může být i Python nebo Scala). Kurz je veden v programovacím jazyce Java.
  • Základní znalost bash skriptování.
  • Znalost Dockeru je výhodou, ale není nutná. Na začátku kurzu si ukážeme, jak jednoduše rozběhnout Spark a související technologie na svém počítači právě s pomocí Dockeru.
  • Není vyžadována předchozí zkušenost se Sparkem a Big Data technologiemi.

 Požadavek na BYOD

  • Počítač s 64bit verzí Windows 10 Pro, Enterprise nebo Education.
  • Nainstalovaná podpora Dockeru (instalovaný Docker na Linuxu, případně Docker for Mac nebo Docker for Windows).

Poptejte kurz u nás

Kurzy
Submit
* Povinné pole