Přeskočit na obsah
_CORE
AI & agentní systémy Podnikové informační systémy Cloud & Platform Engineering Datová platforma & integrace Bezpečnost & compliance QA, testování & observabilita IoT, automatizace & robotika Mobilní & digitální produkty Bankovnictví & finance Pojišťovnictví Veřejná správa Obrana & bezpečnost Zdravotnictví Energetika & utility Telco & média Průmysl & výroba Logistika & e-commerce Retail & věrnostní programy
Reference Technologie Blog Know-how Nástroje
O nás Spolupráce Kariéra
CS EN DE
Pojďme to probrat

Spark Structured Streaming — batch a stream zpracování

22. 08. 2025 Aktualizováno: 27. 03. 2026 1 min čtení intermediate

Spark Structured Streaming zpracovává proudy dat stejným API jako batch. Jeden kód pro historická i real-time data.

Structured Streaming

Stream jako nekonečná tabulka — nová data jsou nové řádky.

from pyspark.sql import SparkSession
from pyspark.sql.functions import window, sum, count

spark = SparkSession.builder.appName("Streaming").getOrCreate()

orders = (
    spark.readStream.format("kafka")
    .option("subscribe", "orders").load()
    .select(from_json(col("value").cast("string"), schema).alias("d"))
    .select("d.*")
)

revenue = (
    orders.withWatermark("order_time", "10 minutes")
    .groupBy(window("order_time", "5 minutes"))
    .agg(sum("amount").alias("revenue"))
)

revenue.writeStream.format("delta")
    .option("checkpointLocation", "/cp/revenue")
    .start("/data/revenue")

Trigger modes

  • Default — micro-batch ASAP
  • Fixed interval — processingTime
  • Once / Available-now — jednorázové zpracování

Shrnutí

Spark Structured Streaming je ideální pro týmy se Sparkem, které chtějí přidat stream processing.

spark streamingapache sparkmicro-batchreal-time
Sdílet:

CORE SYSTEMS tým

Stavíme core systémy a AI agenty, které drží provoz. 15 let zkušeností s enterprise IT.