Governance & bezpečnost
Bezpečný AI = kontrolovaný AI.
RBAC, audit trail, kill-switch, prompt injection ochrana, compliance. AI v produkci vyžaduje stejnou governance jako každý jiný kritický systém.
Proč AI governance¶
AI agent s přístupem do produkčních systémů je silný nástroj — a jako každý silný nástroj potřebuje kontrolu. Bez governance riskujete:
- Data leak — agent prozradí interní informace v odpovědi
- Prompt injection — útočník manipuluje agenta přes vstupní data
- Neautorizované akce — agent zapíše data tam, kam nemá
- Compliance incident — chybějící audit trail v regulovaném prostředí
- Reputační škoda — agent řekne něco nevhodného zákazníkovi
Governance framework¶
┌─────────────────────────────────────────────────────────┐
│ AI GOVERNANCE FRAMEWORK │
│ │
│ ┌─────────────┐ ┌─────────────┐ ┌─────────────────┐ │
│ │ ACCESS │ │ SAFETY │ │ COMPLIANCE │ │
│ │ CONTROL │ │ GUARDS │ │ & AUDIT │ │
│ │ │ │ │ │ │ │
│ │ RBAC │ │ Input │ │ Audit trail │ │
│ │ Permission │ │ guardrails │ │ Model cards │ │
│ │ boundary │ │ Output │ │ Impact │ │
│ │ Data │ │ guardrails │ │ assessment │ │
│ │ classification│ │ Kill-switch │ │ Reporting │ │
│ │ Least │ │ Eskalace │ │ Bias │ │
│ │ privilege │ │ Rate limit │ │ monitoring │ │
│ └─────────────┘ └─────────────┘ └─────────────────┘ │
└─────────────────────────────────────────────────────────┘
Access control¶
Role-Based Access Control (RBAC)¶
Definujeme kdo smí co s jakým agentem:
| Role | Oprávnění |
|---|---|
| Agent operator | Start/stop agentů, monitoring, config changes |
| Agent developer | Deploy, prompt changes, eval management |
| Business user | Interakce s agentem v definovaném scope |
| Auditor | Read-only přístup k audit trail, reporty |
| Admin | Plný přístup, kill-switch, emergency procedures |
Permission boundary pro agenty¶
Každý agent má explicitní capability matrix:
- Read permissions — jaké systémy/data smí číst
- Write permissions — kam smí zapisovat (s/bez approval)
- Action permissions — jaké akce smí provádět
- Data scope — jaká data smí zpracovávat (PII, finanční, interní)
- Communication scope — s kým smí komunikovat (interní/externí)
Princip least privilege: Agent má přístup pouze k tomu, co nezbytně potřebuje pro svůj use-case. Nic víc.
Data classification¶
Klasifikujeme data, se kterými agent pracuje:
| Klasifikace | Příklady | Handling |
|---|---|---|
| Public | Veřejné info, marketing | Bez omezení |
| Internal | Interní procesy, wiki | Agent smí číst, nesmí sdílet externě |
| Confidential | Obchodní data, smlouvy | Šifrované, audit trail, need-to-know |
| Restricted | PII, finanční data, zdravotní záznamy | PII redaction, encryption, strict audit |
Safety guardrails¶
Input guardrails¶
Prompt injection detection: Vícevrstvá obrana:
- Pattern matching — detekce známých injection vzorů (“ignore previous instructions”, “system prompt:”, encoded attacks)
- Semantic analysis — LLM classifier detekuje pokus o manipulaci i v přirozené řeči
- Instruction hierarchy — system prompt má vždy prioritu nad user inputem
- Canary tokens — skryté tokeny v kontextu detekují, jestli agent leakuje system prompt
Input sanitization: - Detekce a neutralizace speciálních znaků, markdown injection, HTML injection - Délkový limit na vstupy - Rate limiting per uživatel
Output guardrails¶
Content filtering: - Toxicity detection (harmful, offensive content) - PII redaction (detekce a maskování osobních údajů v odpovědi) - Confidentiality check (odpověď neobsahuje interní informace mimo scope) - Brand alignment (odpověď je v souladu s tone of voice)
Faithfulness validation: - Kontrola, že tvrzení v odpovědi mají oporu v kontextu (pro RAG) - Confidence scoring — pokud model není jistý, raději eskaluje
Kill-switch¶
Tříúrovňový kill-switch:
- Task-level — zastaví konkrétní běžící úlohu
- Agent-level — zastaví všechny úlohy jednoho agenta
- System-level — emergency stop pro všechny agenty
Kill-switch je nezávislý na AI systému — funguje i při kompletním selhání agentní vrstvy.
Eskalace¶
Definujeme pravidla pro automatickou eskalaci:
- Confidence < threshold → eskalace na člověka s kontextem
- High-risk akce → human approval before execution
- Anomálie → zalogovat, upozornit, pokračovat v safe mode
- Opakované selhání → eskalovat na engineering tým
Compliance & audit¶
Audit trail¶
Každá akce agenta je logovaná v immutable audit logu:
{
"timestamp": "2025-01-15T14:23:45Z",
"agent_id": "invoice-processor-v2",
"task_id": "task-abc123",
"action": "tool_call",
"tool": "erp_write_invoice",
"input": { "invoice_id": "INV-2025-0042", "amount": 125000 },
"output": { "status": "success", "erp_id": "ERP-98765" },
"reasoning": "Invoice validated against PO-2024-1234. Amount matches. Writing to ERP.",
"model": "claude-3-5-sonnet",
"tokens": { "input": 2340, "output": 156 },
"duration_ms": 1230,
"user_id": "system_trigger",
"permission_check": "PASS"
}
Audit trail je: - Immutable — nelze zpětně měnit - Archivovaný — 12+ měsíců (konfigurovatelné per regulace) - Searchable — full-text search + structured queries - Exportovatelný — JSON, CSV pro compliance audit
Model cards¶
Pro každého agenta/model vytváříme model card:
- Účel — na co je agent určen
- Data — na jakých datech byl trénován/evaluován
- Limity — co agent nezvládá, známé slabiny
- Bias — identifikované biasy a mitigace
- Metriky — aktuální performance metriky
- Odpovědnost — kdo je owner, kdo schvaluje změny
AI Impact Assessment¶
Pro kritické use-cases provádíme impact assessment:
- Dopad na jednotlivce — jak rozhodnutí agenta ovlivňuje lidi
- Bias analýza — testujeme na fairness across skupin
- Failure mode analýza — co se stane, když agent selže
- Mitigace — jak minimalizujeme rizika
- Monitoring plan — jak sledujeme dopad po nasazení
Regulatorní compliance¶
Máme zkušenosti s:
- EU AI Act — klasifikace AI systémů, high-risk requirements
- GDPR — právo na vysvětlení, data minimization, purpose limitation
- ČNB/EBA guidelines — model risk management v finančním sektoru
- ISO 27001 — information security management
- SOC 2 — security, availability, processing integrity
Implementace governance¶
Fáze 1: Assessment (1 týden)¶
- Audit stávajícího AI systému
- Identifikace rizik a gaps
- Klasifikace dat a procesů
- Návrh governance frameworku
Fáze 2: Implementace (2-4 týdny)¶
- RBAC a permission boundaries
- Input/output guardrails
- Audit trail implementace
- Kill-switch a eskalační pravidla
Fáze 3: Testing (1-2 týdny)¶
- Red team testing (prompt injection, data exfiltration)
- Compliance audit
- Penetration testing AI vrstvy
- Stress testing (high load, edge cases)
Fáze 4: Operations (ongoing)¶
- Monitoring a alerting
- Pravidelné security review (quarterly)
- Model card updates
- Compliance reporting
Časté otázky
Ano. AI agent s přístupem do produkčních systémů bez governance je bezpečnostní riziko — bez ohledu na odvětví. Governance = kontrola nad tím, co agent dělá, s plnou auditovatelností.
Vícevrstvá obrana: input sanitization (detekce injection patterns), system prompt hardening (instruction hierarchy), output validation (kontrola, že odpověď neprozrazuje systémové instrukce), canary tokens. Testujeme proti známým attack vektorům.
Ano. Implementujeme AI governance framework kompatibilní s regulatorními požadavky ČNB, ECB, EBA guidelines on AI. Audit trail, model risk management, explainability, bias monitoring.
PII detection a redaction na vstupu i výstupu. Data classification (co je citlivé, co ne). Least-privilege access — agent vidí jen data, která potřebuje. Encryption at rest a in transit. DLP monitoring.