61 Artikeln
Wie man MongoDB effizient abfragt. $match, $group, $lookup, $unwind.
Vergleich von ETL- und ELT-Ansaetzen fuer Datenpipelines. Wann Extraktion vor Transformation waehlen und wann umgekehrt.
Open-Source-Vektordatenbank — Installation und Abfragen.
PostgreSQL komplett -- Installation, SQL, Indizes, JSONB, Replikation, Backup.
Relationale vs nicht-relationale Datenbanken — CAP-Theorem und Einsatzgebiete.
Schrittweise Skalierung einer Webanwendung — von einem einzelnen Server bis zu einer Million Benutzer.
Lakehouse vereint die Flexibilität eines Data Lake mit der Zuverlässigkeit eines Warehouse. Medallion-Architektur.
Vergleich der Datenformate Parquet, Avro, ORC und JSON. Welches Format in welcher Data-Pipeline einsetzen.
Dokument- vs relationale Datenbank — wann was wählen.
Elasticsearch -- Volltextsuche, Aggregationen, Logging, Monitoring.
Spark Structured Streaming kombiniert Batch und Stream in einer API. Micro-Batch und Delta Lake Integration.
Wie man große Datenmengen effizient verarbeitet. Chunks, Streaming, Parallel.
Wie man sich auf ein System Design Interview vorbereitet — Framework, Beispiele, Ressourcen.
Looker von Google mit LookML-Schicht. Zentrale Metrik-Definitionen und Governance.
SQL Injection, NoSQL Injection, OS Command Injection — wie sie funktionieren und wie man sich schützt.
Datenbankskalierung mit Read Replicas. Master-Slave-Replikation und Routing.
ClickHouse ist eine Open-Source spaltenbasierte OLAP-Datenbank. MergeTree Engine und Materialized Views.
Lokale Entwicklung mit docker-compose. Multi-Container-Setup, Volumes und Networking.
Trino ist eine verteilte SQL-Engine für Abfragen über heterogene Quellen ohne Datenverschiebung.
Das Hadoop-Oekosystem von HDFS bis Hive. Geschichte und der Uebergang zu modernen Cloud-Loesungen.
PostgreSQL-Replikation einrichten — Streaming- und logische Replikation, automatisches Failover, Read-Replicas und...
DataHub von LinkedIn ist ein Open-Source-Datenkatalog. Metadaten, Lineage und Governance.
Redis als Cache, Session Store, Pub/Sub, Rate Limiter.
JSONB-Typ, Operatoren, Indizes und praktische Beispiele.
B-tree, GIN, GiST, BRIN, partielle und Expression-Indizes.
Vergleich der zwei beliebtesten Open-Source-SQL-Datenbanken — PostgreSQL vs MySQL, Funktionen, Leistung und Einsatzbereiche.
Apache Flink ist ein Framework fuer Stateful Stream Processing. Windowing, Event Time und Exactly-once-Semantik.
JSONB, CTE, Window Functions, Partitioning, Extensions.
Wie man Datenbankverbindungen richtig poolt. PgBouncer, HikariCP, SQLAlchemy.
Unterschied zwischen OLAP- und OLTP-Datenbanken. Spalten- vs. Zeilenspeicherung und Auswahl für verschiedene Use Cases.
Dagster bringt einen asset-orientierten Ansatz zur Orchestrierung. Software-defined Assets, Type System und Monitoring.
WebSocket-Server-Implementierung für Chat, Benachrichtigungen und Live-Dashboards. Skalierung mit Redis.
Relational Database Service. Multi-AZ, Read Replicas, Aurora, Backup und Performance-Tuning.
Real-Time-Analytics-Architektur. Lambda vs Kappa, Streaming-Pipelines und OLAP-Engines.
Debezium ist eine Open-Source-CDC-Plattform. Erfassung von Datenbankänderungen über Kafka Connect.
SQL vs NoSQL -- PostgreSQL vs MongoDB vs Redis. Wann was verwenden.
Cosmos DB API-Modelle, Konsistenzebenen, Partitioning und RU-Optimierung.
Deklarative Partitionierung in PostgreSQL für große Tabellen — Range-, List- und Hash-Strategien, Partition-Wartung...
Echtzeit-Messaging mit Redis Pub/Sub — Publish, Subscribe, Pattern Matching, Einschränkungen und Vergleich mit Redis Streams.
Reale Kosten fuer das Hosting einer Webanwendung -- vom Free Tier bis Enterprise.
Apache Kafka ist ein verteiltes Event-Streaming-System. Topics, Partitioning und Consumer Groups.
Volltextsuche, Indexierung, Abfragen, Aggregationen.
Apache Iceberg — Hidden Partitioning, Schema Evolution und Time Travel. Herstellerneutral.
dbt ermöglicht Datentransformation im Warehouse mit SQL. Modelle, Tests, Dokumentation und Versionierung.
Datenbank-Migration-Checkliste -- Planung, Tests, Rollback, Zero-Downtime.
Praktische Auswirkungen des CAP Theorems auf das Design. CP- vs. AP-Systeme.
Kafka Connect verbindet Kafka mit Datenbanken, Dateien und Cloud-Diensten. Source- und Sink-Konnektoren ohne Programmierung.
Apache Spark ist eine Engine für verteilte Datenverarbeitung. DataFrame API, Spark SQL und Optimierung.
Event Streaming vs Message Broker — Architektur und Einsatzgebiete.
Datenverwaltung in Docker — Volumes, Bind Mounts und Best Practices.
PostgreSQL-Optimierung — Indexe, EXPLAIN ANALYZE, Connection Pooling, Vacuum und mehr.
Vollständige Anleitung zur Installation und Konfiguration von PostgreSQL.
Persistentes Event-Streaming in Redis Streams — Append-Only Log, Consumer Groups, Acknowledgment und Event Sourcing.
Schema Registry versioniert Schemas im Kafka-Ökosystem. Avro, Protobuf und Kompatibilitätsstrategien.
Vergleich von Lakehouse und traditionellem Data Warehouse. Architektur, Kosten, Leistung und Migration.
Metabase ist eine Open-Source-BI-Plattform. Query Builder, Dashboards und Embedding.
Warum jeder Microservice seine eigene Datenbank haben sollte und wie man dienstübergreifende Abfragen löst.
Abfragepläne lesen — Scans, Joins, Cost und Optimierung.
Analytics Engineering verbindet Data Engineering und Business Analytics. dbt, Modellierung und Self-Serve.
DuckDB ist eine eingebettete OLAP-Datenbank. Zero Dependency, SQL ueber CSV, Parquet und JSON.
Die zwei beliebtesten relationalen Open-Source-Datenbanken.