Leistungen

AI & Agentic Systems Core Information Systems Cloud & Platform Engineering Data Platform & Integration Security & Compliance QA, Testing & Observability IoT, Automation & Robotics Mobile & Digital

Branchen

Banking & Finance Insurance Public Administration Defense & Security Healthcare Energy & Utilities Telco & Media Manufacturing Logistics & E-commerce Retail & Loyalty

Referenzen Technologien

Lab

Blog Know-how Tools

Über uns Zusammenarbeit Karriere

CS EN DE

Lassen Sie uns sprechen

Ollama vs vLLM

14. 03. 2024 1 Min. Lesezeit intermediate

Ollama je nejjednodušší cesta k lokálním LLM. vLLM je optimalizovaný pro produkční serving.

Ollama¶

Jednoduchá instalace (curl + ollama run)
Model management (pull, list, rm)
REST API kompatibilní s OpenAI
Ideální pro vývoj a experimentování
macOS, Linux, Windows

ollama pull llama3.2 ollama run llama3.2 ‘Vysvětli Docker’ curl http://localhost:11434/api/generate -d ‘{“model”:”llama3.2”,”prompt”:”Hello”}’

vLLM¶

PagedAttention — efektivní GPU memory management
Continuous batching — vysoký throughput
OpenAI-kompatibilní API server
Tensor parallelism (multi-GPU)
Optimalizovaný pro produkci

pip install vllm python -m vllm.entrypoints.openai.api_server \ –model meta-llama/Llama-3-8B-Instruct

Srovnání¶

Jednoduchost: Ollama >> vLLM
Throughput: vLLM >> Ollama (2-5×)
GPU utilization: vLLM lepší
Model format: Ollama = GGUF, vLLM = HuggingFace
CPU inference: Ollama OK, vLLM GPU-only

Ollama pro dev, vLLM pro produkci¶

Ollama pro lokální vývoj a experimentování. vLLM pro production serving s vysokým throughputem.

ollamavllmllmaiinference

Teilen:

CORE SYSTEMS tým

Stavíme core systémy a AI agenty, které drží provoz. 15 let zkušeností s enterprise IT.

Alle Artikel

Mehr Know-how

Kompletní průvodce Ollama + local AI

Ollama — lokální AI modely, instalace, API, modely, integrace.

ChatGPT v enterprise — první dojmy a praktické zkušenosti

Jak jsme začali experimentovat s ChatGPT v interních procesech. Co funguje, co ne, a kde vidíme potenciál.

Prompt engineering — umění komunikace s AI modely

Praktický průvodce prompt engineeringem. Techniky, vzory a anti-patterny pro efektivní práci s LLM.