Kurzy a certifikace AI

IT provoz a infrastruktura

Self-hosted LLM - provoz vlastních jazykových modelů

14.500 CZK

Cena (bez DPH)

Days1
3. 9. 2026
virtual
CZ
19. 10. 2026
virtual
CZ

Workshop provede účastníky celým životním cyklem self-hosted LLM -- od rozhodnutí, zda se vlastní provoz vůbec vyplatí, přes výběr hardwaru a modelu, až po produkční inference stack a přizpůsobení modelu vlastním datům. Kurz staví na reálných zkušenostech z provozu (ne na marketingu výrobců): co kvantizace skutečně udělá s kvalitou, kdy spadne VRAM, proč benchmark nelže ale ani neříká pravdu. Kombinace teorie, živých ukázek a hands-on cvičení.

Cílová skupina

  • Backend / DevOps / platform engineers
  • Tech leads a architekti zvažující self-hosting
  • Firmy s požadavky na privacy / compliance (data nesmí opustit infrastrukturu)
  • Pokročilí uživatelé LLM API, kteří chtějí pod kapotu

Cíle workshopu

  • rozhodnout, kdy se self-hosting vyplatí a kdy ne (náklady, latence, privacy, vendor lock-in)
  • nadimenzovat hardware: VRAM matematika, GPU vs CPU vs Apple Silicon
  • orientovat se v open-weights modelech a licencích (Llama, Qwen, Mistral, Gemma)
  • rozumět kvantizaci (GGUF, AWQ, Q4/Q8) a jejím reálným dopadům na kvalitu
  • postavit inference stack (Ollama → llama.cpp → vLLM) s OpenAI-kompatibilním API
  • přizpůsobit model: system prompty, RAG se self-hosted embeddings, kdy (ne)sáhnout po LoRA fine-tuningu
  • zabezpečit a monitorovat provoz

Osnova kurzu

Proč (a proč ne) self-hosting

  • privacy, GDPR, data residency / náklady při škále / latence / nezávislost
  • co naopak ztrácíte: frontier kvalita, provozní zátěž
  • decision framework: API vs self-host vs hybrid
  • Hardware a dimenzování
  • VRAM matematika: parametry × kvantizace × kontext
  • GPU (consumer vs datacenter), CPU inference, Apple Silicon
  • on-prem vs pronajaté GPU v cloudu

Modely, formáty, kvantizace

  • open-weights landscape a licence
  • safetensors vs GGUF, AWQ/GPTQ
  • co kvantizace reálně dělá s kvalitou -- živá ukázka stejného modelu v Q4 a Q8

Inference stack hands-on

  • Ollama: od nuly k běžícímu modelu za 10 minut (hands-on na vlastním notebooku)
  • llama.cpp: kontrola nad detaily
  • vLLM: produkční serving, batching, KV cache, throughput (živá ukázka na GPU prostředí lektora)
  • OpenAI-kompatibilní API jako integrační vrstva -- drop-in náhrada

Produkční provoz

  • monitoring: GPU metriky, latence, fronty
  • multi-tenant provoz, škálování
  • typické poruchy a jejich projevy (z praxe)

Přizpůsobení modelu

  • system prompt vs RAG vs fine-tuning -- rozhodovací strom
  •  RAG se self-hosted embeddings
  • LoRA fine-tuning: ukázka reálné pipeline, kdy to dává smysl a kdy je to drahá cesta k horšímu modelu

Bezpečnost a governance

  • síťová izolace, autentizace, rate limiting
  • prompt injection u interních nástrojů
  • logování, audit, compliance

Závěr & roadmapa

  • shrnutí, best practices z praxe, Q&A

Technické požadavky

  • Notebook s připojením k internetu (pro hands-on část s Ollama postačí běžný notebook -- malé kvantizované modely běží na CPU / Apple Silicon; ideálně 16 GB RAM)
  • SSH klient
  • Docker, Python 3.11+, VS Code
  • Produkční GPU část (vLLM, throughput, monitoring) probíhá formou živé ukázky na prostředí lektora -- účastníci nepotřebují vlastní GPU

Požadavky na účastníky

  • práce v Linux CLI
  • základní znalost Pythonu
  • základní orientace v Dockeru
  • zkušenost s LLM přes API; výhodou RAG/embeddings

Poptejte kurz u nás

Kurzy
Submit
* Povinné pole