Self-hosting LLM je ekonomicky zajímavý při vysokém objemu requestů, ale inference musí být efektivní — GPU jsou drahé a každý zbytečný gigabajt nevyužité VRAM je ztracený peníz. vLLM s PagedAttention nabízí 2-4x vyšší throughput oproti naivní implementaci a stává se de facto standardem pro produkční LLM serving na open-source modelech.
PagedAttention¶
PagedAttention je klíčová inovace vLLM. Spravuje KV cache (klíč-hodnota cache pro attention mechanismus) jako virtuální paměť s dynamickou alokací stránek. Tradiční inference alokuje fixní blok paměti pro maximální délku sekvence — většina je nevyužitá. PagedAttention alokuje stránky on-demand, což znamená efektivnější využití GPU paměti a možnost obsloužit výrazně více concurrent requestů na stejném hardware.
Benchmarky¶
- Mistral 7B na A100: 2.5x throughput oproti HuggingFace Transformers — desítky requestů za sekundu
- Mixtral 8x7B na 2xA100: 80+ tokens/sec s tensor parallelismem
- Llama 70B na 4xA100: 25+ tokens/sec při 100+ concurrent requestech
Continuous batching (dynamické přidávání requestů do běžícího batche) eliminuje čekání na dokončení celého batche. Prefix caching urychluje opakované prompty (system prompt sdílený napříč requesty). Speculative decoding s menším draft modelem dále snižuje latenci.
Alternativy¶
- TensorRT-LLM: Nejrychlejší inference na NVIDIA hardware díky kernel optimalizacím, ale vendor lock-in a složitější setup
- TGI (Text Generation Inference): HuggingFace integrace, jednoduchý setup, dobrý výkon
- Ollama: Development a experimentování, ne high-throughput produkční serving
Pro produkci na NVIDIA hardware: vLLM pro flexibilitu a open-source, TensorRT-LLM pro maximální výkon. TGI jako kompromis s nejjednodušším setupem.
Produkční nasazení¶
vLLM vystavuje OpenAI-compatible API, takže migrace z OpenAI API je triviální — změna base URL. Kubernetes deployment s horizontal pod autoscaling na GPU metriky (utilization, queue depth) zajistí elastické škálování podle zátěže. Pro multi-model serving zvažte vLLM s LoRA adaptery — jeden base model, více fine-tuned variant bez duplicitní paměti.
vLLM je default pro LLM serving¶
PagedAttention, continuous batching, OpenAI-compatible API a aktivní komunita dělají z vLLM nejlepší volbu pro produkční open-source LLM inference.
Potřebujete pomoc s implementací?
Naši experti vám pomohou s návrhem, implementací i provozem. Od architektury po produkci.
Kontaktujte nás