Přeskočit na obsah
Porovnání

Ollama vs vLLM

8 min čtení
OllamavLLMLLMAIInference

Ollama je nejjednodušší cesta k lokálním LLM. vLLM je optimalizovaný pro produkční serving.

Ollama

  • Jednoduchá instalace (curl + ollama run)
  • Model management (pull, list, rm)
  • REST API kompatibilní s OpenAI
  • Ideální pro vývoj a experimentování
  • macOS, Linux, Windows
ollama pull llama3.2 ollama run llama3.2 'Vysvětli Docker' curl http://localhost:11434/api/generate -d '{"model":"llama3.2","prompt":"Hello"}'

vLLM

  • PagedAttention — efektivní GPU memory management
  • Continuous batching — vysoký throughput
  • OpenAI-kompatibilní API server
  • Tensor parallelism (multi-GPU)
  • Optimalizovaný pro produkci
pip install vllm python -m vllm.entrypoints.openai.api_server \ --model meta-llama/Llama-3-8B-Instruct

Srovnání

  • Jednoduchost: Ollama >> vLLM
  • Throughput: vLLM >> Ollama (2-5×)
  • GPU utilization: vLLM lepší
  • Model format: Ollama = GGUF, vLLM = HuggingFace
  • CPU inference: Ollama OK, vLLM GPU-only

Ollama pro dev, vLLM pro produkci

Ollama pro lokální vývoj a experimentování. vLLM pro production serving s vysokým throughputem.

CORE SYSTEMS tým

Enterprise architekti a DevOps inženýři. Stavíme systémy, které fungují.