Zum Inhalt springen
_CORE
KI & Agentensysteme Unternehmensinformationssysteme Cloud & Platform Engineering Datenplattform & Integration Sicherheit & Compliance QA, Testing & Observability IoT, Automatisierung & Robotik Mobile & Digitale Produkte Banken & Finanzen Versicherungen Öffentliche Verwaltung Verteidigung & Sicherheit Gesundheitswesen Energie & Versorgung Telko & Medien Industrie & Fertigung Logistik & E-Commerce Retail & Treueprogramme
Referenzen Technologien Blog Know-how Tools
Über uns Zusammenarbeit Karriere
CS EN DE
Lassen Sie uns sprechen

Data Lake — Architektur zur Speicherung von Rohdaten

25. 08. 2025 1 Min. Lesezeit intermediate

Data Lake ist ein zentrales Repository für Rohdaten in beliebigem Format. Von strukturierten Tabellen bis zu unstrukturierten Logs — alles auf günstigem Object Storage.

Was ist ein Data Lake

Speichert Daten in Rohform — Schema-on-Read.

Architektur

  • Storage — S3, GCS, ADLS
  • Formate — Parquet, Avro, JSON
  • Katalog — Glue, Hive Metastore
  • Compute — Spark, Trino, DuckDB
s3://data-lake/
├── raw/           # Bronze
│   ├── orders/
│   └── events/
├── processed/     # Silver
│   └── orders/
├── curated/       # Gold
│   └── daily_revenue/
└── _metadata/

Was zu vermeiden ist (Data Swamp)

  • Fehlender Katalog
  • Keine Governance
  • Kleine Dateien — Tausende von 1KB-Dateien
  • Fehlendes Lineage

Zusammenfassung

Data Lake mit Table Formats und Governance wird zum Lakehouse — zuverlässige Grundlage für Analytik.

data lakeArchitekturobject storagebig data
Teilen:

CORE SYSTEMS Team

Wir bauen Kernsysteme und KI-Agenten, die den Betrieb am Laufen halten. 15 Jahre Erfahrung mit Enterprise-IT.