Reálné náklady AI v produkci 2026: optimalizace od API po GPU

„AI je levné" říkají vendor slajdy. Realita: enterprise firma s 50 000 dotazy denně na GPT-4 class modelu platí $15 000–$45 000 měsíčně jen za inference. A to nezahrnuje embeddingy, fine-tuning ani infrastrukturu. Tohle je průvodce skutečnými náklady — a strategiemi, které je snižují o 50–80 %.

Pricing landscape začátkem 2026

Trh s LLM API prošel za poslední rok masivní cenovou válkou. Ceny klesly o 60–90 % oproti začátku 2024. Ale pozor — cena za token je jen část příběhu. Reálné náklady závisí na tom, kolik tokenů generujete, a output tokeny jsou 3–5× dražší než input.

Model (Q1 2026)	Input / 1M tokenů	Output / 1M tokenů	Typický use case
GPT-4.1	$2.00	$8.00	General purpose, coding
GPT-4.1 mini	$0.40	$1.60	Cost-efficient tasks
Claude Sonnet 4	$3.00	$15.00	Complex reasoning, coding
Claude Haiku 3.5	$0.80	$4.00	Fast responses, classification
Claude Opus 4	$15.00	$75.00	Frontier reasoning
Gemini 2.5 Pro	$1.25	$10.00	Multimodal, long context
Gemini 2.5 Flash	$0.15	$0.60	High-volume, low-cost
DeepSeek V3	$0.28	$0.42	Budget reasoning
Llama 3.3 70B (self-hosted)	~$0.20*	~$0.20*	On-premise, data sovereignty

* Self-hosted cena je orientační — závisí na GPU hardware, utilizaci a amortizaci. Zahrnuje A100/H100 hosting + electricity.

Co stojí jeden dotaz: cost per query breakdown

Typický enterprise dotaz (RAG pipeline s kontextem) má průměrně 2 000 input tokenů (prompt + retrieved context) a 500 output tokenů (odpověď). Na tomto základu:

Model	Cost per query	50K queries/den	Měsíčně
GPT-4.1	$0.008	$400	$12 000
GPT-4.1 mini	$0.0016	$80	$2 400
Claude Sonnet 4	$0.0135	$675	$20 250
Claude Haiku 3.5	$0.0036	$180	$5 400
Gemini 2.5 Flash	$0.0006	$30	$900
DeepSeek V3	$0.00077	$38.50	$1 155

Rozdíl mezi nejdražší a nejlevnější variantou je 22×. A to mluvíme o jednoduchém RAG dotazu. U agentních systémů, kde jeden user request generuje 5–15 LLM callů, se náklady násobí.

Skryté náklady, které vendor nezmíní

API pricing je špička ledovce. Kompletní TCO zahrnuje:

Embedding generation — každý dokument v knowledge base musí projít embedding modelem. Pro 100K dokumentů to je jednorázově $50–200, ale re-indexing při updatu stojí průběžně
Vector database hosting — Pinecone $70+/měsíc, managed Qdrant $100+/měsíc, self-hosted vyžaduje RAM (1M vektorů ≈ 4–8 GB RAM)
Prompt engineering a evals — 20–40 % engineering času jde do promptů, testování a iterací. To je váš nejdražší náklad
Observability — LangSmith, Langfuse, custom — $200–2 000/měsíc pro produkční monitoring
Guardrails a safety — content filtering, PII detection, compliance checks — další latence a náklady
Retry a error handling — rate limits, 5xx errors, timeout retry = 10–20 % extra callů

Reálný příklad: enterprise chatbot

Firma s 2 000 zaměstnanci, interní knowledge base chatbot. 50 000 dotazů/den, RAG pipeline s Claude Sonnet.
API inference: $20 250/měsíc · Embeddings + vector DB: $500/měsíc · Observability: $500/měsíc · Engineering (0.5 FTE): $5 000/měsíc
Celkem: ~$26 250/měsíc = $315 000/rok

Strategie #1: Semantic caching

Nejjednodušší a nejefektivnější optimalizace. 30–60 % dotazů v enterprise chatbotech se opakuje (nebo je sémanticky podobných). Místo nového LLM callu vrátíte cachovanou odpověď.

Jak to funguje: Dotaz → embedding → similarity search v cache → pokud similarity > 0.95, vrať cachovanou odpověď
Nástroje: GPTCache, Redis + vector search, vlastní implementace s pgvector
Typická úspora: 30–50 % API callů, latence z 2–5s na <100ms pro cache hit
Pozor na: Invalidace cache při změně knowledge base, TTL policy, cache poisoning

Strategie #2: Model routing (smart cascading)

Ne každý dotaz potřebuje frontier model. „Kolik máme zaměstnanců?" zvládne model za $0.0006/query. „Analyzuj tento kontrakt a identifikuj rizika" potřebuje model za $0.013/query.

Princip: Classifier (malý model nebo rule-based) zhodnotí složitost dotazu a routuje na odpovídající model
Architektura: Input → Complexity classifier → Router → [Small model | Medium model | Large model]
Typický split: 60 % small model, 30 % medium, 10 % large = průměrná cena klesne o 60–70 %
Nástroje: Martian, Portkey, Unify.ai, nebo custom router s embeddings-based classification

Routing v praxi: úspora 68 %

Bez routingu: 50 000 dotazů × Claude Sonnet = $20 250/měsíc
S routingem: 30 000 × Gemini Flash ($900) + 15 000 × GPT-4.1 mini ($720) + 5 000 × Claude Sonnet ($2 025) = $3 645/měsíc
Úspora: $16 605/měsíc (82 %)

Strategie #3: Prompt optimization

Každý zbytečný token stojí peníze. A většina promptů je 2–3× delší, než musí být.

System prompt audit: Zkraťte system prompts. 500 tokenů instrukce → 150 tokenů s stejným výsledkem = 70 % úspora na system prompt overhead
Context window management: Neposílejte celou konverzační historii. Sumarizujte, ořezávejte, nebo použijte sliding window
Retrieved context pruning: RAG často vrací 5–10 chunků. Reranker (Cohere Rerank, BGE Reranker) vybere top 2–3, zbytek zahodí
Output length control: Definujte max_tokens. Bez limitu model generuje, dokud nechce přestat — a output tokeny jsou 3–5× dražší

Strategie #4: Knowledge distillation

Máte frontier model, který zvládá váš use case výborně? Distillujte jeho znalosti do menšího modelu. Výsledek: 90 % kvality za 10 % ceny.

Proces: Velký model generuje training data → Fine-tune malý model na těchto datech → Deploy malý model
Příklad: GPT-4 generuje 10 000 příkladů pro klasifikaci ticketů → Fine-tune Llama 3.3 8B → Deploy na vlastní GPU za $0.0002/query
Kdy to funguje: Úlohy s jasně definovaným scope (klasifikace, extrakce, sumarizace). Nefunguje pro open-ended reasoning
Nástroje: OpenAI fine-tuning API, Anyscale, Modal, vlastní training pipeline s PEFT/LoRA

Strategie #5: Self-hosting pro high-volume

Od určitého objemu je self-hosting levnější než API. Break-even point závisí na modelu a utilizaci:

Setup	Měsíční náklad	Break-even vs API
Llama 3.3 70B na 2× A100 (cloud)	~$4 500	~150K queries/den vs GPT-4.1
Llama 3.3 8B na 1× L40S (cloud)	~$800	~25K queries/den vs GPT-4.1 mini
Mistral 7B on-premise (1× A100)	~$200 (electricity)	Okamžitě, ale CapEx $15K–25K

Self-hosting má smysl, když: (a) objem překročí break-even, (b) data nesmí opustit vaši infrastrukturu (regulace, compliance), nebo (c) potřebujete custom model a fine-tuning je jednodušší lokálně.

Bonus: Prompt caching od providerů

Anthropic i OpenAI nabízejí prompt caching na úrovni API — opakované prefixy (system prompt, konverzační kontext) se cachují a účtují se levněji:

Anthropic: Cached input za 10 % standardní ceny (90 % sleva). Cache write za 125 % standardní ceny. TTL 5 minut
OpenAI: Automatické cachování pro opakované prefixy. Cached input za 50 % standardní ceny
Dopad: Pro RAG pipeline s 1 500 tokenů system prompt a 500 tokenů context — cache hit ušetří 50–90 % input costs

Optimalizační roadmap: od dne 1 po měsíc 6

Týden 1–2: Instrumentace — Přidejte metriky: cost per request, tokens in/out, latence, model. Bez dat neoptimalizujete
Týden 3–4: Prompt optimization — Zkraťte prompty, přidejte reranker, nastavte max_tokens. Úspora: 20–30 %
Měsíc 2: Semantic caching — Implementujte cache pro opakované dotazy. Úspora: dalších 20–40 %
Měsíc 3: Model routing — Classifier + multi-model setup. Úspora: dalších 30–50 %
Měsíc 4–6: Distillation/self-hosting — Pro high-volume, well-defined tasks. Úspora: dalších 50–80 % na těchto tasks

Závěr

AI v produkci nemusí stát statisíce. Ale bez optimalizace bude. Klíčové poznatky:

Cena za token je jen část TCO — engineering time, observability a infra jsou často dražší než API
Model routing je single biggest win — 60–80 % úspora s minimální ztrátou kvality
Semantic caching je quick win s ROI do 2 týdnů
Self-hosting dává smysl od 100K+ queries/den nebo při compliance požadavcích
Začněte instrumentací — co neměříte, neoptimalizujete