Kurzy a certifikace Open Source

Big data

Apache Spark 3.0 for Data Scientists - Advanced Analytics

15.000 CZK

Cena (bez DPH)

Zpět

Apache Spark je distribuovaný výpočetní engine, který poskytuje unifikovaný framework pro zpracování velkých objemů dat, interaktivní analýzu, machine learning, analýzu grafu a streaming. V průběhu posledních několika let se stává standardem pro zpracování těchto workloadů a to nejen v prostředí velkých dat. Jedním z důvodů proč roste popularita Sparku je také jeho programové API, neboli tzv. DataFramy, které nabízejí univerzální datovou abstrakci, již je možné použít ve všech výše zmíněných oblastech.

Toto školení je orientované na čtyři oblasti datové analytiky. Za prvé je to interaktivní analýza dat za pomoci DataFramového API PySparku, kde také uvidíme, jak se Spark integruje s populární Python knihovnou Pandas. Za druhé je to machine learning s nativním modulem ML Pipelines, kde se podíváme jak trénovat ML modely a vytvářet ML prototypy. Třetí oblastí je deep learning a integrace Sparku s dalšími deep learning technologiemi jako např. Tensorflow a Keras a poslední oblastí je analýza grafu pomocí knihovny GraphFrames.

Školení probíhá v programovacím jazyku Python v lokálním prostředí s jupyter notebookem. Ve školení se zaměříme také na nové vlastnosti a novou funkcionalitu Sparku 3.0.

Cílová skupina

Datoví analytici, scientisti a další uživatelé Sparku, kteří již mají se Sparkem nějakou zkušenost a chtějí Spark používat pro pokročilou analytiku jako je machine learning, deep learning nebo graph processing.
Všichni uživatelé Sparku, kteří chtějí vidět kam se technologie posouvá v nejaktuálnější verzi a to zejména v oblasti datové analytiky.

Cíle kurzu

Umět analyzovat data pomocí Sparku
Naučit se Sparkem trénovat ML modely
Umět Spark integrovat s dalšími data science technologiemi jako je Pandas, SciPy, TensorFlow, Keras
Vidět state of the art postupy a funkcionalitu v nejaktuálnější verzi Sparku

Garant kurzu

David Vrba Ph.D.

David pracuje v Socialbakers jako data scientist a data engineer. Na denní bázi se zabývá optimalizací Spakových aplikací a vyvíjí Sparkové joby, které zpracovávají data na různých škálách od jednotek GBs až po desítky TBs. Vedle toho se zabývá výukou Sparkových trainingů a jeho školeními již prošla celá řada týmů zejména datoví analytici, scientisti a inženýři. David je také Sparkovým kontributorem, přispívá do zdrojového kódu a pravidelně mluví na konferencích a meetupech jako je Spark + AI Summit, MLPrague nebo Spark + AI Prague meetup.

Osnova

Data analysis with DataFrame API

Advanced features of DataFrame API
Integration with Pandas

Lab I

Analyzing data with DataFrame API

Machine learning with ML Pipelines

Basic concepts: Transformer, Estimator, Evaluator, Pipeline
Training/saving/loading a model
Classification problems
Cluster analysis

Lab II

Training ML prototypes

Deep learning

Integration with Tensorflow and Keras
Image processing
Transfer learning

Lab III

Inference with DL model on large scale

Graph processing with GraphFrames

Basic concepts: Vertices & Edges
Running Graph algoritms

Předpoklady účastníka

Tento kurz je navazujícím kurzem ke školení Apache Spark - od jednoduchých transformací po vysoce výkonné joby, ve kterém člověk mimo jiné získá dobrou znalost DataFramového API a úvod do analytiky ve Sparku. Pro absolvování tohoto kurzu je tedy dobré mít předchozí (alespoň základní) zkušenosti se Sparkem. Dále je užitečné chápat základní koncepty datové analytiky a machine learningu.