Přeskočit na obsah
_CORE
AI & agentní systémy Podnikové informační systémy Cloud & Platform Engineering Datová platforma & integrace Bezpečnost & compliance QA, testování & observabilita IoT, automatizace & robotika Mobilní & digitální produkty Bankovnictví & finance Pojišťovnictví Veřejná správa Obrana & bezpečnost Zdravotnictví Energetika & utility Telco & média Průmysl & výroba Logistika & e-commerce Retail & věrnostní programy
Reference Technologie Blog Know-how Nástroje
O nás Spolupráce Kariéra
CS EN DE
Pojďme to probrat

vLLM pro produkční inference — maximální throughput z LLM

10. 02. 2025 Aktualizováno: 27. 03. 2026 2 min čtení CORE SYSTEMSai
vLLM pro produkční inference — maximální throughput z LLM

Self-hosting LLM je ekonomicky zajímavý při vysokém objemu requestů, ale inference musí být efektivní — GPU jsou drahé a každý zbytečný gigabajt nevyužité VRAM je ztracený peníz. vLLM s PagedAttention nabízí 2-4x vyšší throughput oproti naivní implementaci a stává se de facto standardem pro produkční LLM serving na open-source modelech.

PagedAttention

PagedAttention je klíčová inovace vLLM. Spravuje KV cache (klíč-hodnota cache pro attention mechanismus) jako virtuální paměť s dynamickou alokací stránek. Tradiční inference alokuje fixní blok paměti pro maximální délku sekvence — většina je nevyužitá. PagedAttention alokuje stránky on-demand, což znamená efektivnější využití GPU paměti a možnost obsloužit výrazně více concurrent requestů na stejném hardware.

Benchmarky

  • Mistral 7B na A100: 2.5x throughput oproti HuggingFace Transformers — desítky requestů za sekundu
  • Mixtral 8x7B na 2xA100: 80+ tokens/sec s tensor parallelismem
  • Llama 70B na 4xA100: 25+ tokens/sec při 100+ concurrent requestech

Continuous batching (dynamické přidávání requestů do běžícího batche) eliminuje čekání na dokončení celého batche. Prefix caching urychluje opakované prompty (system prompt sdílený napříč requesty). Speculative decoding s menším draft modelem dále snižuje latenci.

Alternativy

  • TensorRT-LLM: Nejrychlejší inference na NVIDIA hardware díky kernel optimalizacím, ale vendor lock-in a složitější setup
  • TGI (Text Generation Inference): HuggingFace integrace, jednoduchý setup, dobrý výkon
  • Ollama: Development a experimentování, ne high-throughput produkční serving

Pro produkci na NVIDIA hardware: vLLM pro flexibilitu a open-source, TensorRT-LLM pro maximální výkon. TGI jako kompromis s nejjednodušším setupem.

Produkční nasazení

vLLM vystavuje OpenAI-compatible API, takže migrace z OpenAI API je triviální — změna base URL. Kubernetes deployment s horizontal pod autoscaling na GPU metriky (utilization, queue depth) zajistí elastické škálování podle zátěže. Pro multi-model serving zvažte vLLM s LoRA adaptery — jeden base model, více fine-tuned variant bez duplicitní paměti.

vLLM je default pro LLM serving

PagedAttention, continuous batching, OpenAI-compatible API a aktivní komunita dělají z vLLM nejlepší volbu pro produkční open-source LLM inference.

vllmllm inferenceproductiongpu
Sdílet:

CORE SYSTEMS

Stavíme core systémy a AI agenty, které drží provoz. 15 let zkušeností s enterprise IT.

Potřebujete pomoc s implementací?

Naši experti vám pomohou s návrhem, implementací i provozem. Od architektury po produkci.

Kontaktujte nás
Potřebujete pomoc s implementací? Domluvit schůzku