Kurzy a certifikace AI

IT provoz a infrastruktura

Self-hosted LLM - provoz vlastních jazykových modelů

14.500 CZK

Cena (bez DPH)

3. 9. 2026

virtual

19. 10. 2026

virtual

Zpět

Workshop provede účastníky celým životním cyklem self-hosted LLM -- od rozhodnutí, zda se vlastní provoz vůbec vyplatí, přes výběr hardwaru a modelu, až po produkční inference stack a přizpůsobení modelu vlastním datům. Kurz staví na reálných zkušenostech z provozu (ne na marketingu výrobců): co kvantizace skutečně udělá s kvalitou, kdy spadne VRAM, proč benchmark nelže ale ani neříká pravdu. Kombinace teorie, živých ukázek a hands-on cvičení.

Cílová skupina

Backend / DevOps / platform engineers
Tech leads a architekti zvažující self-hosting
Firmy s požadavky na privacy / compliance (data nesmí opustit infrastrukturu)
Pokročilí uživatelé LLM API, kteří chtějí pod kapotu

Cíle workshopu

rozhodnout, kdy se self-hosting vyplatí a kdy ne (náklady, latence, privacy, vendor lock-in)
nadimenzovat hardware: VRAM matematika, GPU vs CPU vs Apple Silicon
orientovat se v open-weights modelech a licencích (Llama, Qwen, Mistral, Gemma)
rozumět kvantizaci (GGUF, AWQ, Q4/Q8) a jejím reálným dopadům na kvalitu
postavit inference stack (Ollama → llama.cpp → vLLM) s OpenAI-kompatibilním API
přizpůsobit model: system prompty, RAG se self-hosted embeddings, kdy (ne)sáhnout po LoRA fine-tuningu
zabezpečit a monitorovat provoz

Osnova kurzu

Proč (a proč ne) self-hosting

privacy, GDPR, data residency / náklady při škále / latence / nezávislost
co naopak ztrácíte: frontier kvalita, provozní zátěž
decision framework: API vs self-host vs hybrid
Hardware a dimenzování
VRAM matematika: parametry × kvantizace × kontext
GPU (consumer vs datacenter), CPU inference, Apple Silicon
on-prem vs pronajaté GPU v cloudu

Modely, formáty, kvantizace

open-weights landscape a licence
safetensors vs GGUF, AWQ/GPTQ
co kvantizace reálně dělá s kvalitou -- živá ukázka stejného modelu v Q4 a Q8

Inference stack hands-on

Ollama: od nuly k běžícímu modelu za 10 minut (hands-on na vlastním notebooku)
llama.cpp: kontrola nad detaily
vLLM: produkční serving, batching, KV cache, throughput (živá ukázka na GPU prostředí lektora)
OpenAI-kompatibilní API jako integrační vrstva -- drop-in náhrada

Produkční provoz

monitoring: GPU metriky, latence, fronty
multi-tenant provoz, škálování
typické poruchy a jejich projevy (z praxe)

Přizpůsobení modelu

system prompt vs RAG vs fine-tuning -- rozhodovací strom
RAG se self-hosted embeddings
LoRA fine-tuning: ukázka reálné pipeline, kdy to dává smysl a kdy je to drahá cesta k horšímu modelu

Bezpečnost a governance

síťová izolace, autentizace, rate limiting
prompt injection u interních nástrojů
logování, audit, compliance

Závěr & roadmapa

shrnutí, best practices z praxe, Q&A

Technické požadavky

Notebook s připojením k internetu (pro hands-on část s Ollama postačí běžný notebook -- malé kvantizované modely běží na CPU / Apple Silicon; ideálně 16 GB RAM)
SSH klient
Docker, Python 3.11+, VS Code
Produkční GPU část (vLLM, throughput, monitoring) probíhá formou živé ukázky na prostředí lektora -- účastníci nepotřebují vlastní GPU

Požadavky na účastníky

práce v Linux CLI
základní znalost Pythonu
základní orientace v Dockeru
zkušenost s LLM přes API; výhodou RAG/embeddings

Kurzy a certifikace AI

Self-hosted LLM - provoz vlastních jazykových modelů

Cílová skupina

Cíle workshopu

Osnova kurzu

Technické požadavky

Požadavky na účastníky

Poptejte kurz u nás

člen skupiny:

Kurzy a certifikace AI

Self-hosted LLM - provoz vlastních jazykových modelů

Cílová skupina

Cíle workshopu

Osnova kurzu

Technické požadavky

Požadavky na účastníky

Poptejte kurz u nás

člen skupiny:

Nastavení podmínek pro používání cookies