61 articles
Jak efektivně dotazovat MongoDB. $match, $group, $lookup, $unwind.
Porovnání ETL a ELT přístupů k datovým pipeline. Kdy zvolit extrakci před transformací a kdy naopak.
Open-source vector DB — installation and querying.
PostgreSQL kompletně — instalace, SQL, indexy, JSONB, replikace, backup.
Relational vs non-relational databases — CAP theorem and use cases.
Progressive web application scaling — from a single server to a million users.
Lakehouse kombinuje flexibilitu data lake se spolehlivostí warehouse. Medalionová architektura.
Comparison of data formats Parquet, Avro, ORC and JSON. When to use which in data pipeline.
Document vs relational database — when to choose which.
Elasticsearch — full-text search, agregace, logging, monitoring.
Spark Structured Streaming combines batch and stream in one API. Micro-batch and Delta Lake integration.
Jak efektivně zpracovávat velké objemy dat. Chunks, streaming, parallel.
Jak se připravit na system design interview — framework, příklady, zdroje.
Looker od Google s LookML vrstvou. Centrální definice metrik a governance.
SQL injection, NoSQL injection, OS command injection — jak fungují a jak se bránit.
Škálování database pomocí read replik. Master-slave replikace a routing.
ClickHouse is an open-source columnar OLAP database. MergeTree engine and materialized views.
Lokální development s docker-compose. Multi-kontejner setup, volumes a networking.
Trino je distribuovaný SQL engine pro dotazy nad heterogenními zdroji bez přesunu dat.
The Hadoop ecosystem from HDFS to Hive. History and the transition to modern cloud solutions.
Streaming and logical replication, failover.
DataHub from LinkedIn is open-source data catalog. Metadata, lineage and governance.
Redis jako cache, session store, pub/sub, rate limiter.
JSONB type, operators, indexes and practical examples.
B-tree, GIN, GiST, BRIN, partial and expression indexes.
The two most popular open-source SQL databases.
Apache Flink je framework pro stateful stream processing. Windowing, event time a exactly-once sémantika.
JSONB, CTE, window functions, partitioning, extensions.
Jak správně poolovat databázové spojení. PgBouncer, HikariCP, SQLAlchemy.
Rozdíl mezi OLAP a OLTP databázemi. Sloupcové vs řádkové uložení a volba pro různé use cases.
Dagster brings asset-oriented approach to orchestration. Software-defined assets, type system and monitoring.
Implementace WebSocket serveru pro chat, notifikace a live dashboardy. Škálování s Redis.
Relational Database Service. Multi-AZ, Read Replicas, Aurora, backup, and performance tuning.
Architektura real-time analytics. Lambda vs Kappa, streaming pipelines a OLAP enginy.
Debezium is open-source CDC platform. Capturing database changes via Kafka Connect.
SQL vs NoSQL — PostgreSQL vs MongoDB vs Redis. Kdy co použít.
Cosmos DB API modely, konzistenční úrovně, partitioning a RU optimalizace.
Declarative partitioning for large tables.
Real-time messaging with Redis Pub/Sub.
Reálné náklady na hosting webové aplikace — od free tier po enterprise.
Apache Kafka je distribuovaný event streaming systém. Témata, partitioning a consumer groups.
Full-text search, indexing, queries, aggregations.
Apache Iceberg — hidden partitioning, schema evolution a time travel. Vendor-neutral.
dbt enables data transformation in warehouse using SQL. Models, tests, documentation and versioning.
Database migration checklist — planning, testing, rollback, zero-downtime.
Praktické dopady CAP theoremu na design. CP vs AP systémy.
Kafka Connect propojuje Kafka s databázemi, soubory a cloud službami. Source a sink konektory bez programování.
Apache Spark je engine pro distribuované zpracování dat. DataFrame API, Spark SQL a optimalizace.
Event streaming vs message broker — architecture and use cases.
Správa dat v Dockeru — volumes, bind mounts a best practices.
PostgreSQL optimalizace — indexy, EXPLAIN ANALYZE, connection pooling, vacuum a další.
Complete guide to PostgreSQL installation and configuration.
Persistent event streaming with consumer groups.
Schema Registry verzuje schémata v Kafka ekosystému. Avro, Protobuf a kompatibilitní strategie.
Comparison of lakehouse and traditional data warehouse. Architecture, costs, performance and migration.
Metabase je open-source BI platforma. Query builder, dashboardy a embedding.
Proč by měla mít každá mikroservisa vlastní databázi a jak řešit dotazy napříč službami.
Reading query plans — scans, joins, cost and optimization.
Analytics engineering spojuje data engineering a business analytics. dbt, modelování a self-serve.
DuckDB je embedded OLAP databáze. Zero dependency, SQL nad CSV, Parquet a JSON.
Two most popular open-source relational databases.