_CORE

„AI je levné" říkají vendor slajdy. Realita: enterprise firma s 50 000 dotazy denně na GPT-4 class modelu platí $15 000–$45 000 měsíčně jen za inference. A to nezahrnuje embeddingy, fine-tuning ani infrastrukturu. Tohle je průvodce skutečnými náklady — a strategiemi, které je snižují o 50–80 %.

Pricing landscape začátkem 2026

Trh s LLM API prošel za poslední rok masivní cenovou válkou. Ceny klesly o 60–90 % oproti začátku 2024. Ale pozor — cena za token je jen část příběhu. Reálné náklady závisí na tom, kolik tokenů generujete, a output tokeny jsou 3–5× dražší než input.

Model (Q1 2026) Input / 1M tokenů Output / 1M tokenů Typický use case
GPT-4.1 $2.00 $8.00 General purpose, coding
GPT-4.1 mini $0.40 $1.60 Cost-efficient tasks
Claude Sonnet 4 $3.00 $15.00 Complex reasoning, coding
Claude Haiku 3.5 $0.80 $4.00 Fast responses, classification
Claude Opus 4 $15.00 $75.00 Frontier reasoning
Gemini 2.5 Pro $1.25 $10.00 Multimodal, long context
Gemini 2.5 Flash $0.15 $0.60 High-volume, low-cost
DeepSeek V3 $0.28 $0.42 Budget reasoning
Llama 3.3 70B (self-hosted) ~$0.20* ~$0.20* On-premise, data sovereignty

* Self-hosted cena je orientační — závisí na GPU hardware, utilizaci a amortizaci. Zahrnuje A100/H100 hosting + electricity.

Co stojí jeden dotaz: cost per query breakdown

Typický enterprise dotaz (RAG pipeline s kontextem) má průměrně 2 000 input tokenů (prompt + retrieved context) a 500 output tokenů (odpověď). Na tomto základu:

Model Cost per query 50K queries/den Měsíčně
GPT-4.1 $0.008 $400 $12 000
GPT-4.1 mini $0.0016 $80 $2 400
Claude Sonnet 4 $0.0135 $675 $20 250
Claude Haiku 3.5 $0.0036 $180 $5 400
Gemini 2.5 Flash $0.0006 $30 $900
DeepSeek V3 $0.00077 $38.50 $1 155

Rozdíl mezi nejdražší a nejlevnější variantou je 22×. A to mluvíme o jednoduchém RAG dotazu. U agentních systémů, kde jeden user request generuje 5–15 LLM callů, se náklady násobí.

Skryté náklady, které vendor nezmíní

API pricing je špička ledovce. Kompletní TCO zahrnuje:

  • Embedding generation — každý dokument v knowledge base musí projít embedding modelem. Pro 100K dokumentů to je jednorázově $50–200, ale re-indexing při updatu stojí průběžně
  • Vector database hosting — Pinecone $70+/měsíc, managed Qdrant $100+/měsíc, self-hosted vyžaduje RAM (1M vektorů ≈ 4–8 GB RAM)
  • Prompt engineering a evals — 20–40 % engineering času jde do promptů, testování a iterací. To je váš nejdražší náklad
  • Observability — LangSmith, Langfuse, custom — $200–2 000/měsíc pro produkční monitoring
  • Guardrails a safety — content filtering, PII detection, compliance checks — další latence a náklady
  • Retry a error handling — rate limits, 5xx errors, timeout retry = 10–20 % extra callů

Reálný příklad: enterprise chatbot

Firma s 2 000 zaměstnanci, interní knowledge base chatbot. 50 000 dotazů/den, RAG pipeline s Claude Sonnet.
API inference: $20 250/měsíc · Embeddings + vector DB: $500/měsíc · Observability: $500/měsíc · Engineering (0.5 FTE): $5 000/měsíc
Celkem: ~$26 250/měsíc = $315 000/rok

Strategie #1: Semantic caching

Nejjednodušší a nejefektivnější optimalizace. 30–60 % dotazů v enterprise chatbotech se opakuje (nebo je sémanticky podobných). Místo nového LLM callu vrátíte cachovanou odpověď.

  • Jak to funguje: Dotaz → embedding → similarity search v cache → pokud similarity > 0.95, vrať cachovanou odpověď
  • Nástroje: GPTCache, Redis + vector search, vlastní implementace s pgvector
  • Typická úspora: 30–50 % API callů, latence z 2–5s na <100ms pro cache hit
  • Pozor na: Invalidace cache při změně knowledge base, TTL policy, cache poisoning

Strategie #2: Model routing (smart cascading)

Ne každý dotaz potřebuje frontier model. „Kolik máme zaměstnanců?" zvládne model za $0.0006/query. „Analyzuj tento kontrakt a identifikuj rizika" potřebuje model za $0.013/query.

  • Princip: Classifier (malý model nebo rule-based) zhodnotí složitost dotazu a routuje na odpovídající model
  • Architektura: Input → Complexity classifier → Router → [Small model | Medium model | Large model]
  • Typický split: 60 % small model, 30 % medium, 10 % large = průměrná cena klesne o 60–70 %
  • Nástroje: Martian, Portkey, Unify.ai, nebo custom router s embeddings-based classification

Routing v praxi: úspora 68 %

Bez routingu: 50 000 dotazů × Claude Sonnet = $20 250/měsíc
S routingem: 30 000 × Gemini Flash ($900) + 15 000 × GPT-4.1 mini ($720) + 5 000 × Claude Sonnet ($2 025) = $3 645/měsíc
Úspora: $16 605/měsíc (82 %)

Strategie #3: Prompt optimization

Každý zbytečný token stojí peníze. A většina promptů je 2–3× delší, než musí být.

  • System prompt audit: Zkraťte system prompts. 500 tokenů instrukce → 150 tokenů s stejným výsledkem = 70 % úspora na system prompt overhead
  • Context window management: Neposílejte celou konverzační historii. Sumarizujte, ořezávejte, nebo použijte sliding window
  • Retrieved context pruning: RAG často vrací 5–10 chunků. Reranker (Cohere Rerank, BGE Reranker) vybere top 2–3, zbytek zahodí
  • Output length control: Definujte max_tokens. Bez limitu model generuje, dokud nechce přestat — a output tokeny jsou 3–5× dražší

Strategie #4: Knowledge distillation

Máte frontier model, který zvládá váš use case výborně? Distillujte jeho znalosti do menšího modelu. Výsledek: 90 % kvality za 10 % ceny.

  • Proces: Velký model generuje training data → Fine-tune malý model na těchto datech → Deploy malý model
  • Příklad: GPT-4 generuje 10 000 příkladů pro klasifikaci ticketů → Fine-tune Llama 3.3 8B → Deploy na vlastní GPU za $0.0002/query
  • Kdy to funguje: Úlohy s jasně definovaným scope (klasifikace, extrakce, sumarizace). Nefunguje pro open-ended reasoning
  • Nástroje: OpenAI fine-tuning API, Anyscale, Modal, vlastní training pipeline s PEFT/LoRA

Strategie #5: Self-hosting pro high-volume

Od určitého objemu je self-hosting levnější než API. Break-even point závisí na modelu a utilizaci:

Setup Měsíční náklad Break-even vs API
Llama 3.3 70B na 2× A100 (cloud) ~$4 500 ~150K queries/den vs GPT-4.1
Llama 3.3 8B na 1× L40S (cloud) ~$800 ~25K queries/den vs GPT-4.1 mini
Mistral 7B on-premise (1× A100) ~$200 (electricity) Okamžitě, ale CapEx $15K–25K

Self-hosting má smysl, když: (a) objem překročí break-even, (b) data nesmí opustit vaši infrastrukturu (regulace, compliance), nebo (c) potřebujete custom model a fine-tuning je jednodušší lokálně.

Bonus: Prompt caching od providerů

Anthropic i OpenAI nabízejí prompt caching na úrovni API — opakované prefixy (system prompt, konverzační kontext) se cachují a účtují se levněji:

  • Anthropic: Cached input za 10 % standardní ceny (90 % sleva). Cache write za 125 % standardní ceny. TTL 5 minut
  • OpenAI: Automatické cachování pro opakované prefixy. Cached input za 50 % standardní ceny
  • Dopad: Pro RAG pipeline s 1 500 tokenů system prompt a 500 tokenů context — cache hit ušetří 50–90 % input costs

Optimalizační roadmap: od dne 1 po měsíc 6

  1. Týden 1–2: Instrumentace — Přidejte metriky: cost per request, tokens in/out, latence, model. Bez dat neoptimalizujete
  2. Týden 3–4: Prompt optimization — Zkraťte prompty, přidejte reranker, nastavte max_tokens. Úspora: 20–30 %
  3. Měsíc 2: Semantic caching — Implementujte cache pro opakované dotazy. Úspora: dalších 20–40 %
  4. Měsíc 3: Model routing — Classifier + multi-model setup. Úspora: dalších 30–50 %
  5. Měsíc 4–6: Distillation/self-hosting — Pro high-volume, well-defined tasks. Úspora: dalších 50–80 % na těchto tasks

Závěr

AI v produkci nemusí stát statisíce. Ale bez optimalizace bude. Klíčové poznatky:

  • Cena za token je jen část TCO — engineering time, observability a infra jsou často dražší než API
  • Model routing je single biggest win — 60–80 % úspora s minimální ztrátou kvality
  • Semantic caching je quick win s ROI do 2 týdnů
  • Self-hosting dává smysl od 100K+ queries/den nebo při compliance požadavcích
  • Začněte instrumentací — co neměříte, neoptimalizujete
Další články
Další krok

Chcete snížit náklady na AI?

Zanalyzujeme vaši AI infrastrukturu a navrhneme optimalizační plán s konkrétním ROI. Obvykle ušetříme 50–70 % v prvních 3 měsících.

Domluvme audit