Kurzy a certifikace AI
IT provoz a infrastruktura
Self-hosted LLM - provoz vlastních jazykových modelů
14.500 CZK
Cena (bez DPH)
Days1
3. 9. 2026
virtual
CZ
19. 10. 2026
virtual
CZ
Workshop provede účastníky celým životním cyklem self-hosted LLM -- od rozhodnutí, zda se vlastní provoz vůbec vyplatí, přes výběr hardwaru a modelu, až po produkční inference stack a přizpůsobení modelu vlastním datům. Kurz staví na reálných zkušenostech z provozu (ne na marketingu výrobců): co kvantizace skutečně udělá s kvalitou, kdy spadne VRAM, proč benchmark nelže ale ani neříká pravdu. Kombinace teorie, živých ukázek a hands-on cvičení.
Cílová skupina
- Backend / DevOps / platform engineers
- Tech leads a architekti zvažující self-hosting
- Firmy s požadavky na privacy / compliance (data nesmí opustit infrastrukturu)
- Pokročilí uživatelé LLM API, kteří chtějí pod kapotu
Cíle workshopu
- rozhodnout, kdy se self-hosting vyplatí a kdy ne (náklady, latence, privacy, vendor lock-in)
- nadimenzovat hardware: VRAM matematika, GPU vs CPU vs Apple Silicon
- orientovat se v open-weights modelech a licencích (Llama, Qwen, Mistral, Gemma)
- rozumět kvantizaci (GGUF, AWQ, Q4/Q8) a jejím reálným dopadům na kvalitu
- postavit inference stack (Ollama → llama.cpp → vLLM) s OpenAI-kompatibilním API
- přizpůsobit model: system prompty, RAG se self-hosted embeddings, kdy (ne)sáhnout po LoRA fine-tuningu
- zabezpečit a monitorovat provoz
Osnova kurzu
Proč (a proč ne) self-hosting
- privacy, GDPR, data residency / náklady při škále / latence / nezávislost
- co naopak ztrácíte: frontier kvalita, provozní zátěž
- decision framework: API vs self-host vs hybrid
- Hardware a dimenzování
- VRAM matematika: parametry × kvantizace × kontext
- GPU (consumer vs datacenter), CPU inference, Apple Silicon
- on-prem vs pronajaté GPU v cloudu
Modely, formáty, kvantizace
- open-weights landscape a licence
- safetensors vs GGUF, AWQ/GPTQ
- co kvantizace reálně dělá s kvalitou -- živá ukázka stejného modelu v Q4 a Q8
Inference stack hands-on
- Ollama: od nuly k běžícímu modelu za 10 minut (hands-on na vlastním notebooku)
- llama.cpp: kontrola nad detaily
- vLLM: produkční serving, batching, KV cache, throughput (živá ukázka na GPU prostředí lektora)
- OpenAI-kompatibilní API jako integrační vrstva -- drop-in náhrada
Produkční provoz
- monitoring: GPU metriky, latence, fronty
- multi-tenant provoz, škálování
- typické poruchy a jejich projevy (z praxe)
Přizpůsobení modelu
- system prompt vs RAG vs fine-tuning -- rozhodovací strom
- RAG se self-hosted embeddings
- LoRA fine-tuning: ukázka reálné pipeline, kdy to dává smysl a kdy je to drahá cesta k horšímu modelu
Bezpečnost a governance
- síťová izolace, autentizace, rate limiting
- prompt injection u interních nástrojů
- logování, audit, compliance
Závěr & roadmapa
- shrnutí, best practices z praxe, Q&A
Technické požadavky
- Notebook s připojením k internetu (pro hands-on část s Ollama postačí běžný notebook -- malé kvantizované modely běží na CPU / Apple Silicon; ideálně 16 GB RAM)
- SSH klient
- Docker, Python 3.11+, VS Code
- Produkční GPU část (vLLM, throughput, monitoring) probíhá formou živé ukázky na prostředí lektora -- účastníci nepotřebují vlastní GPU
Požadavky na účastníky
- práce v Linux CLI
- základní znalost Pythonu
- základní orientace v Dockeru
- zkušenost s LLM přes API; výhodou RAG/embeddings