Přeskočit na obsah
Manuál

Kompletní průvodce Ollama + local AI

12 min čtení
OllamaAILLMLocal

Spusťte AI modely lokálně. Žádné API klíče, žádné poplatky, plná kontrola.

Co je Ollama

Ollama = Docker pro LLM modely. Stáhne, nastaví a spustí AI modely lokálně. Jednoduché CLI + REST API.

Instalace

# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh

# Spustit model
ollama run llama3.2

# Stáhnout model
ollama pull nomic-embed-text

Dostupné modely

  • llama3.2 (3B) — rychlý, dobrý pro chat
  • llama3.1 (8B/70B) — výkonnější
  • mistral (7B) — dobrý poměr výkon/rychlost
  • codellama (7B/34B) — pro kód
  • nomic-embed-text — embeddings
  • qwen2.5vl — vision model

REST API

# Generate
curl http://localhost:11434/api/generate -d '{"model":"llama3.2","prompt":"Hello"}'

# Chat
curl http://localhost:11434/api/chat -d '{"model":"llama3.2","messages":[{"role":"user","content":"Hi"}]}'

# Embeddings
curl http://localhost:11434/api/embeddings -d '{"model":"nomic-embed-text","prompt":"Hello world"}'

Python integrace

import ollama

response = ollama.chat(model="llama3.2", messages=[
{"role": "user", "content": "Explain Docker in one sentence."}
])
print(response["message"]["content"])

Modelfile — custom model

FROM llama3.2
SYSTEM "You are a helpful coding assistant. Respond in Czech."
PARAMETER temperature 0.7

Hardware požadavky

  • 3B model: 4 GB RAM
  • 7B model: 8 GB RAM
  • 13B model: 16 GB RAM
  • 70B model: 48+ GB RAM
  • Apple Silicon: unified memory = ideální pro lokální AI

Use cases

  • Coding assistant (offline)
  • RAG (Retrieval Augmented Generation)
  • Document analysis
  • Embeddings pro search
  • Experimenty bez API nákladů

Proč lokální AI

Žádné API poplatky. Žádná latence. Plná kontrola nad daty. A s Apple Silicon je to překvapivě rychlé.

CORE SYSTEMS tým

Enterprise architekti a DevOps inženýři. Stavíme systémy, které fungují.