16 červen 2022
Národní technická knihovna (Technická 2710/6, 160 80 Praha 6)

Prometheus - agilní monitoring moderní infrastruktury

Trvání 9:00 – 16:30
Kapacita 190
Cena 4.900 * CZK
Řečníci 5

Log

05.04.2022 14:35 - Spustili jsme registrace na konferenci

Info

* Cena konference je uvedena bez DPH

Získejte Wild Cards na 42. a 129. židli a užijte si konferenci zdarma (pozice se počítá dle došlých registrací).

Občerstvení - pokud potřebujete zajistit bezlepkové občerstvení, prosíme uvěďte to do "Poznámky" v registračním formuláři. Rádi Vám jídlo na jméno zajistíme.

Změna programu a místa konání konference je vyhrazena.

Konference se bude konat prezenčně. Děkujeme za pochopení

Program

09:0010:15
Prometheus - světlo v cloudovém světě
10:1510:30
Přestávka
10:3011:45
Stručná historie ekosystému okolo Promethea, kam se ubírá a na co se těšit
11:4512:45
Oběd
12:4514:00
Management a vizualizace monitoringu
14:0014:30
Přestávka
14:3015:10
Falco - cloud native security a observability monitoring
15:1015:25
Poslední přestávka
15:2516:05
ElasticSearch jako centrální sklad pro logy?
09:00 – 10:15

Prometheus - světlo v cloudovém světě

Prometheus má v dnešním cloudovém světě své pevné místo a spolu s Kubernetes tvoří komplementární dvojici. Procesů, které se v orchestrátoru mikroservis dějí, jsou stovky až tisíce za vteřinu. První rolí Promethea je vědět o všech těchto procesech, umět si je vyfiltrovat a zobrazit a za pomocí alertů být informován o všech, které jsou relevantní pro provoz. Druhá role je často svázaná s komponentou starající se o persistentní uložení metrik a Prometheus je pak možné využít jako analytický nástroj zobrazující chování daných procesů v delším čase. Typicky je pak možné si zobrazit např. spotřebované zdroje v Kubernetes v závislosti na počtů aplikací za rok zpět. S touto rolí je svázaný Thanos, který ukládá, zpracovává a zpřístupňuje metriky a o němž tu bude rovněž řeč.

V první části mé přednášky se nejdříve zaměříme na popis Promethea a Thanose. Vyzkoušíme si tyto komponenty spustit v rámci demíčka a ukázat si jednotlivé komponenty naživo. V druhé části se budu věnovat reálným zkušenostem s provozem Promethea a Thanose.

Agenda

  • Prometheus - k čemu jej potřebujeme a popis jeho komponent
  • Thanos - nastupuje tam, kde končí Prometheus
  • Demo - pomocí dockeru vytočíme jednotlivé komponenty a popíšeme si jejich funkčnost
  • Reálné zkušenosti s provozem Promethea a Thanose - popis 3+ leté zkušenosti a na co si dávat pozor
  • Kvíz - když zbyde čas, tak vás trochu "squeeznu"
Jiří Valnoha

Jiří Valnoha

DevOps Engineer

Jirka pracuje v IT světě již přes 10 let. Jeho ajťáckou evoluci můžeme shrnout několika pozicemi od Linuxového Administrátora v menší hostingové firmě, přes aplikačního engineera a následně DevOps engineera v bankovní sféře, až po teamleadra DevOps engineerů ve firmě Internet Mall a.s., kde působí doposud. Jeho specializací je provoz privatního cloudu a zajištění vysoké dostupnosti celého řešení.

LinkedIn: https://www.linkedin.com/in/valnohajiri/

10:30 – 11:45

Stručná historie ekosystému okolo Promethea, kam se ubírá a na co se těšit

Přednáška bude složena ze tří částí. V první proletíme hostorii, proč vlastně Prometheus vzniknul a jak se postupně rozvíjel celý ekosystém okolo něj. Z historie se přesuneme k novinkám v tomto prostředí a kam vývoj a trendy směřují.

Druhá část se zaměří na možnosti testování konfigurace a všeho okolo Promethea. Od dob prvních releasů se Prometheí ekosystém hodně rozrostl a ruku v ruce s tím i potřeba lépe kontrolovat a testovat všechnu tuto infrastrukturu. Ukážeme si, co všechno lze testovat a jaké nástroje k tomu použít.

Ve třetí části si více přiblížíme tématiku Service Level Objectives, jak je měřit, co nám přináší a proč je dobré nad nimi alertovat.

Agenda

Historie a směr kam se ubírá ekosystém okolo Promethea

  • Příchod Promethea a pull based monitoringu založeného na aplikačních metrikách
  • Limitace HA a větších setupů a nástup clusterových řešení
  • Kam dál Prometheus směřuje (exemplars, agnet mód atd)

Testování konfigurace a infrastruktury Promethea a nástroje, které k tomu použít

  • Kontrola konfigurace Promethea
  • Unit testování alertů a jejich syntaxe
  • Validate metadat alertů
  • Testování routování alertů Alertmanageru
  • Testování renderování template alertů

Service Level Objectives o co jde a k čemu to je

  • Co to SLO je a proč by vás to mělo zajímat
  • Jak ho počítat a na co si dát pozor
  • Jak nad ním alertovat
Martin Chodúr

Martin Chodúr

Leader of DevOps team

Martin je bývalý vývojář, který se nadchl pro observabilitu a obecně monitoring poté, co se poprvé setkal s Prometheem. S tím aktivně pracuje už od verze 1.0.0 a podílel se na jeho adopci v Seznamu, kde pracuje od roku 2016 aktuálně na pozici vedoucího týmu DevOps. Je kontributorem do Promethea, Alertmanageru a dalších přidružených projektů a aktivně se podílel na projektu Thanos od prvních verzí, kde figuruje také jako triage maintainer.

Github https://github.com/FUSAKLA
LinkedIn: https://www.linkedin.com/in/fusakla/
Web https://fusakla.cz/

12:45 – 14:00

Management a vizualizace monitoringu

S příchodem cloudových a kontejnerových technologií můžeme pozorovat rostoucí nároky na monitoring vlastních aplikací a prostředí. Staré modely aplikací přestávají platit, aplikace se dneska skládají z více komponent, mnoho komponent lze horizontálně škálovat a instance komponent mohou vznikat dynamicky na základě aktuálních požadavků. Tyto potřeby se promítají i do definice monitoringu, kde stávající statické konfigurace již nejsou udržitelné. Větší důraz je kladen i na vlastní kvalitu obsahu monitoringu, protože nalézt problém v moderní, komplexní a dynamické architektuře je pro klasický přístup téměř neřešitelný problém.
Moje přednáška je zaměřena na definici monitoringu, jak definice vlastních aplikací, ze kterých se monitorovací systém skládá, tak a vlastní definice monitorovacích pravidel. Ukážeme si, jakým způsobem se konfiguruje moderní monitoring, aby dokázal pružně reagovat na měnící se infrastrukturu. V druhé části prezentace si ukážeme, jak je možné využít tyto definice k vytvoření vizualizací a alertů, kde můžeme korelovat data z různých zdrojů a usnadnit-zrychlit tak detekci a analýzu problémů ve sledovaných systémech.
Ukázky jsou postavené na prostředí Kubernetes, ale postupy jsou obecné a aplikovatelné na libovolnou platformu.

Agenda

SRE principy v praxi

  • Komponenty monitoring systému
  • Monitoring-as-a-code
  • Použití a výhody Monitoring mixinů

Dynamický monitoring

  • Výhody Service discovery
  • Integrace stávajících nástrojů
  • Použití a výhody operátorů
  • Nasazení USE a RED metod

Vizualizace systémů

  • Sjednocení metrik a událostí
  • Kvantitativní vizualizace
  • elační vizualizace

Živé ukázky

Aleš Komárek

Aleš Komárek

SRE Engineer

Aleš Komárek pracuje ve firmě F5 Networks jako SRE inženýr, má na starost monitoring části globalního systému založeného na Kubernetes platformě. Dříve pracoval ve společnosti tcp-cloud a Mirantis, kde se podílel na nástroji pro správu a konfiguraci plaformy OpenStack. Monitoringu se věnuje přes 10 let a má zkušenost s širokou škálou OpenSource monitoring technologií jako Graphite, InfluxDB, Prometheus, ElasticSearch, Loki, Parca, Nagios nebo Sensu. V rámci definice monitoringu se věnuje také modernímu konfiguračnímu managementu, který je třeba pro hladké nasazení potřebných komponent.

LinkedIn: https://www.linkedin.com/in/cznewt/

14:30 – 15:10

Falco - cloud native security a observability monitoring

Security monitoring byl donedávna obvykle jen o sběru všech možných logů a událostí z infrastruktury a jejich zpětné, často nepoužitelné, analýze. Implementace eBPF v linuxovém jádře ovšem otevřela platformu pro zcela jiný přístup. Observability a tracing v reálném čase při rozumných nárocích na zdroje a minimální footprint v systému. Současně se v cloud a kontejnerovém světě podstatně zvyšují nároky na zabezpečení a audit systémů.
Přednáška je postavena na zkušenostech z implementace Falco, hardening a testování security compliance cloud systémů. Dozvíte se něco málo o základních technologiích a prostředcích security monitoringu, auditu serverů, kontejnerů a kubernetes s Falco. Konfigurace, deployment, Falco rules a vytváření vlastních pravidel. Integrace s Prometheus alertmanager. Testování a compliance fyzických i cloud serverů. Nakonec se podíváme na analytické možnosti SysFlow.io a alerting.

Agenda

  • Security monitoring a audit nástroje, historie
  • eBPF historie a implementace
  • Host a kontejner security monitoring s Falco
  • Integrace s Prometheus
  • UI, Dashboardy a alerting
  • Host compliance reporting
  • SysFlow.io analýza a možnosti
Petr Michalec

Petr Michalec

SRE Engineer

Petr pracuje jako SRE / DEV v F5 Czech Republic s.r.o. (dříve volterra.io, Mirantis, IBM), ve správě má vývoj a instalace fyzické a cloud infrastruktury, SRE služby a CI/CD pro F5 Distributed Cloud, rozložený přes více jak 20 globálních datacenter. Dříve pracoval jako services team lead, architekt, devops specialist. Dvacet let se pohybuje v IT a 10 let zkušeností z provozu large-scale infrastruktury s Kubernetes a OpenStack. Obvykle relaxuje se svými třemi dětmi, už neběhá, ale sedlá bike a létá s FPV drony.

Github: https://github.com/epcim
Twitter: https://twitter.com/epcim
Web: http://apealive.net/about_petr/
LinkedIn: https://cz.linkedin.com/in/epcim

15:25 – 16:05

ElasticSearch jako centrální sklad pro logy?

Úvodní část přednášky se pokouší odpovědět na otázku “Proč vůbec zvážit technologii ElasticSearch pro použití jako centrální sklad pro logy aplikací a infrastruktury?” a uvedu objektivně-subjektivní důvody pro a proti. V navazující části popisuji projekt, na kterém jsem se aktivně podílel v roli architekta a engineera, implementující řešení centrálního logování v jedné nejmenované firmě postavené právě
na technologii ElasticSearch, jakých úspěchů jsme dosáhli a jaké pády zažili. A v neposlední řadě co jsem si z toho odnesl do dalšího života. Závěr přednášky věnuji několika lessons learned a na co si dát skutečně pozor, pokud se rozhodnu i přes vše, co v přednášce zaznělo, ElasticSearch nasadit. Na co pamatovat a co zvažovat při definici takového projektu. Skutečný závěr přednášky pak věnuji alternativě, kterou má smysl v dnešní době prozkoumat.

Agenda

Proč ElasticSearch?

  • Elastic co?
  • Výhody řešení
  • Nevýhody řešení
  • Cena

Skutečně se stalo

  • Obecný popis zadání projektu
  • Obecný popis implementovaného řešení
  • WOW efekt - kam až jsme se dostali

Here be dragons

  • Co nepodcenit
  • Co očekávat
  • To je život

Alternativy

  • Grafana Loki
Jan Šimák

Jan Šimák

DevOps Team Lead

Honza si s IT technologiemi hraje už od školních lavic a zažil éru punkového budování “wifi isp” v Hradci Králové, kde je k Internetu přes wifi připojen dodnes. Během období administrátorských a engineerských pozic se nadchl pro vedení projektů a svých kolegů natolik, že částečně opustil temná zákoutí konzole a nyní se plně raduje z barevných tabulek, vymazlených dashboardů a nekonečných meetingů.

LinkedIn: https://www.linkedin.com/in/jan-%C5%A1im%C3%A1k-29319668/

Registrační formulář

* Povinné pole

Proč se přijít podívat?

  • Máme pro Vás připravené praktické zkušenosti z nasazení Promethea a use cases z praxe.
  • Ukážeme Vám reálné zkušenosti s provozem Promethea a Thanose.
  • Projdeme si, jakým způsobem se konfiguruje moderní monitoring, aby dokázal pružně reagovat na měnící se infrastrukturu.
  • Představíme Vám možnosti testování konfigurace a všeho potřebného okolo Prométhea.
  • Dozvíte se o základních technologiích a prostředcích security monitoringu, auditu serverů, kontejnerů a kubernetes s Falco.
  • Vysvětlíme Vám, proč zvážit technologii ElasticSearch pro použití jako centrální sklad pro logy.

Storno podmínky

Registrace na konferenci je závazná a její storno je možné "bezplatně" pouze písemnou formou prostřednictvím e-mailu a to nejpozději 14 kalendářních dní před zahájením konference.

Odstoupí-li/stornuje-li účastník konference registraci v termínu kratším než 14 kalendářních dní před zahájením konference, vyhrazuje si organizátor vůči účastníkovi právo na zaplacení storno poplatku v plné výši hodnoty vstupenky.

Děkujeme za pochopení

Jak se k nám dostanete

Národní technická knihovna se nachází na adrese Technická 2710/6, 160 80 Praha 6 (Dejvice). Z Vítězného náměstí buď 15 minut pěšky nebo TRAM na Lotyšskou a pak 8 minut pěšky. Rozhodně doporučujeme zvážit možnost dorazit na akci bez dvoustopého vozidla. Parkování je v této lokalitě velmi zajímavá disciplína.

Autem

Pro mimo pražské - doporučujeme nechat auto na P+R

Bus

Linka 108 - Sídliště Na Dědině - Dejvická

Tram

Zastávka Lotyšská

Při poskytování našich služeb nám pomáhají soubory cookie. Využíváním našich služeb s jejich používáním souhlasíte.
Další informace