Manuál

Kompletní průvodce Ollama + local AI

12 min čtení

OllamaAILLMLocal

Spusťte AI modely lokálně. Žádné API klíče, žádné poplatky, plná kontrola.

Co je Ollama

Ollama = Docker pro LLM modely. Stáhne, nastaví a spustí AI modely lokálně. Jednoduché CLI + REST API.

Instalace

# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh

# Spustit model
ollama run llama3.2

# Stáhnout model
ollama pull nomic-embed-text

Dostupné modely

llama3.2 (3B) — rychlý, dobrý pro chat
llama3.1 (8B/70B) — výkonnější
mistral (7B) — dobrý poměr výkon/rychlost
codellama (7B/34B) — pro kód
nomic-embed-text — embeddings
qwen2.5vl — vision model

REST API

# Generate
curl http://localhost:11434/api/generate -d '{"model":"llama3.2","prompt":"Hello"}'

# Chat
curl http://localhost:11434/api/chat -d '{"model":"llama3.2","messages":[{"role":"user","content":"Hi"}]}'

# Embeddings
curl http://localhost:11434/api/embeddings -d '{"model":"nomic-embed-text","prompt":"Hello world"}'

Python integrace

import ollama

response = ollama.chat(model="llama3.2", messages=[
{"role": "user", "content": "Explain Docker in one sentence."}
])
print(response["message"]["content"])

Modelfile — custom model

FROM llama3.2
SYSTEM "You are a helpful coding assistant. Respond in Czech."
PARAMETER temperature 0.7

Hardware požadavky

3B model: 4 GB RAM
7B model: 8 GB RAM
13B model: 16 GB RAM
70B model: 48+ GB RAM
Apple Silicon: unified memory = ideální pro lokální AI

Use cases

Coding assistant (offline)
RAG (Retrieval Augmented Generation)
Document analysis
Embeddings pro search
Experimenty bez API nákladů

Proč lokální AI

Žádné API poplatky. Žádná latence. Plná kontrola nad daty. A s Apple Silicon je to překvapivě rychlé.

CORE SYSTEMS tým

Enterprise architekti a DevOps inženýři. Stavíme systémy, které fungují.