Zum Inhalt springen
_CORE
AI & Agentic Systems Core Information Systems Cloud & Platform Engineering Data Platform & Integration Security & Compliance QA, Testing & Observability IoT, Automation & Robotics Mobile & Digital Banking & Finance Insurance Public Administration Defense & Security Healthcare Energy & Utilities Telco & Media Manufacturing Logistics & E-commerce Retail & Loyalty
Referenzen Technologien Blog Know-how Tools
Über uns Zusammenarbeit Karriere
CS EN DE
Lassen Sie uns sprechen

vLLM pro produkční inference — maximální throughput z open-source LLM

10. 02. 2025 1 Min. Lesezeit CORE SYSTEMSai
vLLM pro produkční inference — maximální throughput z open-source LLM

Self-hosting LLM je ekonomicky zajímavý, ale inference musí být efektivní. vLLM s PagedAttention nabízí 2-4x vyšší throughput.

PagedAttention

Spravuje KV cache jako virtuální paměť — dynamická alokace stránek. Efektivnější GPU paměť, víc concurrent requestů.

Benchmarky

  • Mistral 7B na A100: 2.5x throughput vs HuggingFace
  • Mixtral 8x7B na 2xA100: 80+ tokens/sec
  • Llama 70B na 4xA100: 25+ tokens/sec, 100+ concurrent

Alternativy

TensorRT-LLM: Nejrychlejší na NVIDIA, vendor lock-in. TGI: HuggingFace integrace. Ollama: Development, ne high-throughput.

vLLM je default pro LLM serving

PagedAttention, continuous batching, OpenAI-compatible API. Production-ready.

vllmllm inferenceproductiongpu
Teilen:

CORE SYSTEMS

Stavíme core systémy a AI agenty, které drží provoz. 15 let zkušeností s enterprise IT.

Brauchen Sie Hilfe bei der Implementierung?

Unsere Experten helfen Ihnen bei Design, Implementierung und Betrieb. Von der Architektur bis zur Produktion.

Kontaktieren Sie uns