„AI je levné" říkají vendor slajdy. Realita: enterprise firma s 50 000 dotazy denně na GPT-4 class modelu platí $15 000–$45 000 měsíčně jen za inference. A to nezahrnuje embeddingy, fine-tuning ani infrastrukturu. Tohle je průvodce skutečnými náklady — a strategiemi, které je snižují o 50–80 %.
Trh s LLM API prošel za poslední rok masivní cenovou válkou. Ceny klesly o 60–90 % oproti začátku 2024. Ale pozor — cena za token je jen část příběhu. Reálné náklady závisí na tom, kolik tokenů generujete, a output tokeny jsou 3–5× dražší než input.
| Model (Q1 2026) | Input / 1M tokenů | Output / 1M tokenů | Typický use case |
|---|---|---|---|
| GPT-4.1 | $2.00 | $8.00 | General purpose, coding |
| GPT-4.1 mini | $0.40 | $1.60 | Cost-efficient tasks |
| Claude Sonnet 4 | $3.00 | $15.00 | Complex reasoning, coding |
| Claude Haiku 3.5 | $0.80 | $4.00 | Fast responses, classification |
| Claude Opus 4 | $15.00 | $75.00 | Frontier reasoning |
| Gemini 2.5 Pro | $1.25 | $10.00 | Multimodal, long context |
| Gemini 2.5 Flash | $0.15 | $0.60 | High-volume, low-cost |
| DeepSeek V3 | $0.28 | $0.42 | Budget reasoning |
| Llama 3.3 70B (self-hosted) | ~$0.20* | ~$0.20* | On-premise, data sovereignty |
* Self-hosted cena je orientační — závisí na GPU hardware, utilizaci a amortizaci. Zahrnuje A100/H100 hosting + electricity.
Typický enterprise dotaz (RAG pipeline s kontextem) má průměrně 2 000 input tokenů (prompt + retrieved context) a 500 output tokenů (odpověď). Na tomto základu:
| Model | Cost per query | 50K queries/den | Měsíčně |
|---|---|---|---|
| GPT-4.1 | $0.008 | $400 | $12 000 |
| GPT-4.1 mini | $0.0016 | $80 | $2 400 |
| Claude Sonnet 4 | $0.0135 | $675 | $20 250 |
| Claude Haiku 3.5 | $0.0036 | $180 | $5 400 |
| Gemini 2.5 Flash | $0.0006 | $30 | $900 |
| DeepSeek V3 | $0.00077 | $38.50 | $1 155 |
Rozdíl mezi nejdražší a nejlevnější variantou je 22×. A to mluvíme o jednoduchém RAG dotazu. U agentních systémů, kde jeden user request generuje 5–15 LLM callů, se náklady násobí.
API pricing je špička ledovce. Kompletní TCO zahrnuje:
Firma s 2 000 zaměstnanci, interní knowledge base chatbot. 50 000 dotazů/den, RAG pipeline s Claude Sonnet.
API inference: $20 250/měsíc · Embeddings + vector DB: $500/měsíc ·
Observability: $500/měsíc · Engineering (0.5 FTE): $5 000/měsíc
Celkem: ~$26 250/měsíc = $315 000/rok
Nejjednodušší a nejefektivnější optimalizace. 30–60 % dotazů v enterprise chatbotech se opakuje (nebo je sémanticky podobných). Místo nového LLM callu vrátíte cachovanou odpověď.
Ne každý dotaz potřebuje frontier model. „Kolik máme zaměstnanců?" zvládne model za $0.0006/query. „Analyzuj tento kontrakt a identifikuj rizika" potřebuje model za $0.013/query.
Bez routingu: 50 000 dotazů × Claude Sonnet = $20 250/měsíc
S routingem: 30 000 × Gemini Flash ($900) + 15 000 × GPT-4.1 mini ($720) + 5 000 × Claude Sonnet ($2 025) = $3 645/měsíc
Úspora: $16 605/měsíc (82 %)
Každý zbytečný token stojí peníze. A většina promptů je 2–3× delší, než musí být.
Máte frontier model, který zvládá váš use case výborně? Distillujte jeho znalosti do menšího modelu. Výsledek: 90 % kvality za 10 % ceny.
Od určitého objemu je self-hosting levnější než API. Break-even point závisí na modelu a utilizaci:
| Setup | Měsíční náklad | Break-even vs API |
|---|---|---|
| Llama 3.3 70B na 2× A100 (cloud) | ~$4 500 | ~150K queries/den vs GPT-4.1 |
| Llama 3.3 8B na 1× L40S (cloud) | ~$800 | ~25K queries/den vs GPT-4.1 mini |
| Mistral 7B on-premise (1× A100) | ~$200 (electricity) | Okamžitě, ale CapEx $15K–25K |
Self-hosting má smysl, když: (a) objem překročí break-even, (b) data nesmí opustit vaši infrastrukturu (regulace, compliance), nebo (c) potřebujete custom model a fine-tuning je jednodušší lokálně.
Anthropic i OpenAI nabízejí prompt caching na úrovni API — opakované prefixy (system prompt, konverzační kontext) se cachují a účtují se levněji:
AI v produkci nemusí stát statisíce. Ale bez optimalizace bude. Klíčové poznatky: