61 článků
Jak efektivně dotazovat MongoDB. $match, $group, $lookup, $unwind.
Porovnání ETL a ELT přístupů k datovým pipeline. Kdy zvolit extrakci před transformací a kdy naopak.
Open-source vector DB — instalace a dotazování.
PostgreSQL kompletně — instalace, SQL, indexy, JSONB, replikace, backup.
Relační vs nerelační databáze — CAP theorem a use cases.
Postupné škálování webové aplikace — od jednoho serveru po milion uživatelů.
Lakehouse kombinuje flexibilitu data lake se spolehlivostí warehouse. Medalionová architektura.
Porovnání datových formátů Parquet, Avro, ORC a JSON. Kdy který použít v data pipeline.
Dokumentová vs relační databáze — kdy co zvolit.
Elasticsearch — full-text search, agregace, logging, monitoring.
Spark Structured Streaming kombinuje batch a stream v jednom API. Micro-batch a Delta Lake integrace.
Jak efektivně zpracovávat velké objemy dat. Chunks, streaming, parallel.
Jak se připravit na system design interview — framework, příklady, zdroje.
Looker od Google s LookML vrstvou. Centrální definice metrik a governance.
SQL injection, NoSQL injection, OS command injection — jak fungují a jak se bránit.
Škálování databáze pomocí read replik. Master-slave replikace a routing.
ClickHouse je open-source sloupcová OLAP databáze. MergeTree engine a materialized views.
Lokální development s docker-compose. Multi-kontejner setup, volumes a networking.
Trino je distribuovaný SQL engine pro dotazy nad heterogenními zdroji bez přesunu dat.
Hadoop ekosystém od HDFS po Hive. Historie a přechod na moderní cloudové řešení.
Streaming a logical replikace, failover.
DataHub od LinkedIn je open-source datový katalog. Metadata, lineage a governance.
Redis jako cache, session store, pub/sub, rate limiter.
JSONB typ, operátory, indexy a praktické příklady.
B-tree, GIN, GiST, BRIN, partial a expression indexy.
Dvě nejpopulárnější open-source SQL databáze.
Apache Flink je framework pro stateful stream processing. Windowing, event time a exactly-once sémantika.
JSONB, CTE, window functions, partitioning, extensions.
Jak správně poolovat databázové spojení. PgBouncer, HikariCP, SQLAlchemy.
Rozdíl mezi OLAP a OLTP databázemi. Sloupcové vs řádkové uložení a volba pro různé use cases.
Dagster přináší asset-oriented přístup k orchestraci. Software-defined assets, type system a monitoring.
Implementace WebSocket serveru pro chat, notifikace a live dashboardy. Škálování s Redis.
Relational Database Service. Multi-AZ, Read Replicas, Aurora, backup a performance tuning.
Architektura real-time analytics. Lambda vs Kappa, streaming pipelines a OLAP enginy.
Debezium je open-source CDC platforma. Zachytávání změn v databázích přes Kafka Connect.
SQL vs NoSQL — PostgreSQL vs MongoDB vs Redis. Kdy co použít.
Cosmos DB API modely, konzistenční úrovně, partitioning a RU optimalizace.
Deklarativní partitioning pro velké tabulky.
Real-time messaging s Redis Pub/Sub.
Reálné náklady na hosting webové aplikace — od free tier po enterprise.
Apache Kafka je distribuovaný event streaming systém. Témata, partitioning a consumer groups.
Full-text search, indexing, queries, aggregations.
Apache Iceberg — hidden partitioning, schema evolution a time travel. Vendor-neutral.
dbt umožňuje transformovat data ve warehouse pomocí SQL. Modely, testy, dokumentace a verzování.
Database migration checklist — plánování, testování, rollback, zero-downtime.
Praktické dopady CAP theoremu na design. CP vs AP systémy.
Kafka Connect propojuje Kafka s databázemi, soubory a cloud službami. Source a sink konektory bez programování.
Apache Spark je engine pro distribuované zpracování dat. DataFrame API, Spark SQL a optimalizace.
Event streaming vs message broker — architektura a use cases.
Správa dat v Dockeru — volumes, bind mounts a best practices.
PostgreSQL optimalizace — indexy, EXPLAIN ANALYZE, connection pooling, vacuum a další.
Kompletní průvodce instalací a konfigurací PostgreSQL.
Perzistentní event streaming s consumer groups.
Schema Registry verzuje schémata v Kafka ekosystému. Avro, Protobuf a kompatibilitní strategie.
Porovnání lakehouse a tradičního data warehouse. Architektura, náklady, výkon a migrace.
Metabase je open-source BI platforma. Query builder, dashboardy a embedding.
Proč by měla mít každá mikroservisa vlastní databázi a jak řešit dotazy napříč službami.
Čtení query plánů — scany, joins, cost a optimalizace.
Analytics engineering spojuje data engineering a business analytics. dbt, modelování a self-serve.
DuckDB je embedded OLAP databáze. Zero dependency, SQL nad CSV, Parquet a JSON.
Dvě nejpopulárnější open-source relační databáze.