Strategie partitioningu dat pro optimální výkon dotazů

Správná strategie partitioningu dramaticky ovlivňuje výkon dotazů. Časové partitioning pro time-series, hash pro rovnoměrné rozložení a range pro sekvenční data.

Proč partitioning¶

Bez partitioningu engine skenuje celou tabulku. Partitioning umožňuje přeskočit nepotřebná data (partition pruning).

Typy partitioningu¶

Časový — nejčastější, partitioning podle data (den, měsíc)
Hash — rovnoměrné rozložení podle hash klíče
Range — rozsahy hodnot (A-M, N-Z)
List — explicitní seznam hodnot (regiony, kategorie)

# Spark: partitioning při zápisu
df.write.format("delta") \
    .partitionBy("year", "month") \
    .save("/data/orders")

# Dotaz s partition pruning
spark.read.format("delta").load("/data/orders") \
    .filter("year = 2026 AND month = 2")  # čte jen 1 partition

Best practices¶

1 GB+ na partition — příliš malé partitions jsou kontraproduktivní
Max 10k partitions — příliš mnoho = pomalý metadata scan
Partitioning podle filtrů — podle nejčastějších WHERE podmínek

Shrnutí¶

Správný partitioning je klíčový pro výkon. Volte podle nejčastějších filtrů a udržujte partitions dostatečně velké.

partitioningvýkondata lakeoptimalizace

Sdílet:

CORE SYSTEMS tým

Stavíme core systémy a AI agenty, které drží provoz. 15 let zkušeností s enterprise IT.

Všechny články

Strategie partitioningu dat pro optimální výkon dotazů

Proč partitioning¶

Typy partitioningu¶

Best practices¶

Shrnutí¶

CORE SYSTEMS tým

Další know-how

Data lake — architektura pro ukládání surových dat

Delta Lake — ACID transakce pro data lake

Oracle Partitioning v praxi

HTTP/2: nový protokol pro rychlejší web

Odcházíte?