V rámci školení si osvojíme práci s monitoring nástroji založených na vlastnostech nástroje Prometheus, od konfigurace sběru dat na měřených systémech, přes transportní vrstvu až po použití a uložení do datového úložiště. Prometheus pro zpracování metrických data, Loki pro zpracování logových dat, Parca pro zpracování profilovacích dat, Tempo pro zpracování trasovacích dat, Alermanager pro zpracování alertů a Grafana pro vizualizace dat.
Dále se budeme věnovat možnostem vyhodnocování dat a v případě splnění vstupních podmínek jejich následné zpracování pomocí komunikačního rozhraní, automatické zpracování orchestračním nástrojem, nebo analýzou v expertních systémech. Osvojíme si formátování dotazů do metrických i logových databází, jejich použití při definování vizualizací a notifikací.
V průběhu školení budeme ukazovat ukázkové příklady nastavení sběru data na reálné infrastruktuře a ukážeme si, jakým způsobem k uloženým datům přistupovat, což vám poskytne dobrý základ pro další použití moderních monitorovacích systémů založených na rodině Prometheus nástrojů.
Cílová skupina
- DevOps inženýři
- Vývojáři a operátoři monitorovaných služeb
- Architekti IT systémů
Cíle kurzu
- Naučit se základním konceptům monitoringu
- Umet navrhnout správnou architekturu pro moderni monitoring
- Dotazy na telemetricke data, analyzy, alerting
- Dokázat vytvořit monitoring konfigurace pro různé sluzby
- Praktické rady a zkušenosti z provozu velkých prostředí
Osnova
Úvod do monitoringu
- Rozdělení monitoringu dle typu
- Typy data a práce s daty
- SRE monitoring
- Architektura monitoringu
Sběr a zpracování dat
- Prometheus pro sběr metrických dat
- Alloy pro sběr telemetrických dat
- Mimir pro zpracování metrických dat
- Pyroscope pro zpracování profilovacích dat
- Loki pro zpracování logových dat
- Tempo pro zpracování trasovacích dat
Další možnosti v oblasti sběru telemetrických dat
- Autodiscovery služeb: cloudové služby, kontejnerové služby
- Observabilita a aplikace
- Sběr metrických dat pomocí exporterů
- Sběr profilovacích dat pomocí agregačních bran
Transformace a dotazy na telemetrické data
- Formáty dotazů na metriky
- Pokročilé funkce PromQL jazyka
- Formáty dotazů na logy
- Procvičení dotazů na logy
- Pokročilé funkce LogQL jazyka
Monitoring-as-a-Code
- Monitoring mixin a Observability-lib
- Definice alertů a pravidel
- Definice panelů a dashboardů
- Použití komunitních zdrojů
Definice alertů a analýza metrických dat
- Prahové hodnoty, hysteréze
- Kořenové příčiny a závislosti mezi alerty
- Definice a vytváření SLA pravidel, Error budgetu
- Statistická analýza a expertní systémy
- Eskalace alertů, možnosti, kontakty, AI automatizace
Předpoklady na účastníka
- Základy správy Linux/Windows platformy
- Zkušenosti s veřejnými cloudy a službami