Zum Inhalt springen
_CORE
AI & Agentic Systems Core Information Systems Cloud & Platform Engineering Data Platform & Integration Security & Compliance QA, Testing & Observability IoT, Automation & Robotics Mobile & Digital Banking & Finance Insurance Public Administration Defense & Security Healthcare Energy & Utilities Telco & Media Manufacturing Logistics & E-commerce Retail & Loyalty
Referenzen Technologien Blog Know-how Tools
Über uns Zusammenarbeit Karriere
CS EN DE
Lassen Sie uns sprechen

Strategie partitioningu dat pro optimální výkon dotazů

18. 07. 2025 1 Min. Lesezeit intermediate

Správná strategie partitioningu dramaticky ovlivňuje výkon dotazů. Časové partitioning pro time-series, hash pro rovnoměrné rozložení a range pro sekvenční data.

Proč partitioning

Bez partitioningu engine skenuje celou tabulku. Partitioning umožňuje přeskočit nepotřebná data (partition pruning).

Typy partitioningu

  • Časový — nejčastější, partitioning podle data (den, měsíc)
  • Hash — rovnoměrné rozložení podle hash klíče
  • Range — rozsahy hodnot (A-M, N-Z)
  • List — explicitní seznam hodnot (regiony, kategorie)
# Spark: partitioning při zápisu
df.write.format("delta") \
    .partitionBy("year", "month") \
    .save("/data/orders")

# Dotaz s partition pruning
spark.read.format("delta").load("/data/orders") \
    .filter("year = 2026 AND month = 2")  # čte jen 1 partition

Best practices

  • 1 GB+ na partition — příliš malé partitions jsou kontraproduktivní
  • Max 10k partitions — příliš mnoho = pomalý metadata scan
  • Partitioning podle filtrů — podle nejčastějších WHERE podmínek

Shrnutí

Správný partitioning je klíčový pro výkon. Volte podle nejčastějších filtrů a udržujte partitions dostatečně velké.

partitioningvýkondata lakeoptimalizace
Teilen:

CORE SYSTEMS tým

Stavíme core systémy a AI agenty, které drží provoz. 15 let zkušeností s enterprise IT.