Der Kunde ist ein bedeutender Automobilhersteller mit mehreren Produktionswerken in Mitteleuropa. Die Fertigungslinien umfassen Hunderte von CNC-Maschinen, Roboterarmen, Pressen und Fördersystemen — insgesamt mehr als 2.000 kritische Komponenten. Ein ungeplanter Ausfall einer einzelnen Maschine kann eine gesamte Fertigungslinie zum Stillstand bringen, mit Kosten von über 50.000 $ pro Stunde Ausfallzeit.
Der bisherige Ansatz zur Wartung war entweder reaktiv (Reparatur nach Ausfall) oder präventiv (regelmäßige Intervalle unabhängig vom tatsächlichen Maschinenzustand). Beide Ansätze hatten grundlegende Nachteile — reaktive Wartung führte zu ungeplanten Ausfällen, während präventive Wartung Ressourcen für die Wartung von Maschinen verschwendete, die sie nicht benötigten.
Unsere Aufgabe war es, eine Plattform für vorausschauende Wartung aufzubauen, die auf Basis von Echtzeit-Sensordaten Ausfälle mit ausreichendem Vorlauf für einen geplanten Eingriff vorhersagen kann.
Herausforderung¶
Datenvolumen und -geschwindigkeit¶
2.000 Sensoren erzeugen jede Sekunde Daten — Vibrationen, Temperatur, Druck, Energieverbrauch, akustische Emissionen, Drehzahlen und Dutzende weiterer Parameter. Das bedeutet:
- 2 Millionen Datenpunkte pro Minute im Spitzenbetrieb
- Latenz unter einer Sekunde — Anomalien müssen in Echtzeit erkannt werden, nicht in der Stapelverarbeitung
- Historische Daten für ML — Jahre historischer Messungen für das Modelltraining
- Edge-Verarbeitung — einige Daten müssen direkt im Werk verarbeitet werden, bedingt durch Latenz- und Bandbreitenanforderungen
Heterogene Umgebung¶
Ein Fertigungswerk ist keine grüne Wiese. Maschinen stammen von Dutzenden verschiedener Hersteller, verwenden unterschiedliche Kommunikationsprotokolle und haben unterschiedliche Digitalisierungsgrade:
- Moderne CNC-Maschinen — OPC-UA, MQTT, umfangreiche Telemetrie-Schnittstellen
- Legacy-Ausrüstung — serielle Kommunikation, proprietäre Protokolle, minimale Sensorausstattung
- Nachgerüstete Maschinen — nachträglich installierte Sensoren mit benutzerdefinierten Gateways
- Unterschiedliche Zeitbasen — Abtastfrequenzen von 1 Hz bis 10 kHz je nach Sensortyp
Definition von „normal”¶
Jede Maschine hat unterschiedliche Betriebscharakteristiken. Was für eine Presse normale Vibrationen sind, ist für ein Präzisions-CNC-Bearbeitungszentrum ein Alarm. Zudem ändert sich „normal” abhängig von:
- Produktionsprogramm — anderes Produkt = andere Maschinenbelastung
- Umgebungstemperatur — saisonale Schwankungen beeinflussen Kühlsysteme
- Werkzeugalter — Verschleiß verändert das Vibrationsprofil allmählich und legitim
- Schichtbetrieb — verschiedene Bediener, verschiedene Einstellungen
Lösung¶
IoT-Infrastruktur¶
Wir entwarfen eine dreistufige IoT-Architektur:
Edge-Schicht — industrielle Gateways in jeder Produktionshalle verarbeiten Roh-Sensordaten. Edge Computing führt die erste Ebene der Filterung, Aggregation und Erkennung offensichtlicher Anomalien (Überschreitung absoluter Schwellenwerte) durch. Kritische Alarme werden sofort gesendet.
Transportschicht — Apache Kafka dient als Backbone für den Datentransport von der Edge in die Cloud. Kafka garantiert zuverlässige Datenlieferung auch bei Konnektivitätsausfällen, automatische Skalierung bei Spitzen und die Möglichkeit, historische Daten erneut abzuspielen.
Cloud-Schicht — Apache Flink verarbeitet Datenströme in Echtzeit, führt komplexe Fenster-Aggregationen, sensorübergreifende Korrelationen und ML-Modell-Evaluierungen durch. Ergebnisse werden in TimescaleDB für historische Analyse und Visualisierung gespeichert.
ML-Modelle zur Anomalieerkennung¶
Wir entwickelten eine Reihe spezialisierter ML-Modelle für verschiedene Ausfalltypen:
-
Autoencoder für Vibrationsanalyse — ein neuronales Netz, trainiert auf normalen Betriebsmustern, rekonstruiert das Eingangssignal. Ein hoher Rekonstruktionsfehler deutet auf eine Anomalie hin. Das Modell erfasst subtile Änderungen im Vibrationsspektrum, die ein menschlicher Bediener nicht bemerken würde.
-
LSTM für Degradationsvorhersage — ein rekurrentes Netz verfolgt den Trend wichtiger Parameter über die Zeit und sagt die verbleibende Nutzungsdauer (Remaining Useful Life, RUL) von Komponenten voraus. RUL-Vorhersagegenauigkeit: plus/minus 12 Stunden für kritische Komponenten.
-
Isolation Forest für multivariate Anomalien — Erkennung ungewöhnlicher Parameterkombinationen, die einzeln im Normbereich liegen, aber zusammen auf ein Problem hindeuten.
-
Korrelationsmodelle — Identifikation von Kaskadenausfällen, bei denen ein Problem an einer Maschine nachgelagerte Ausrüstung beeinflusst.
Die Modelle werden kontinuierlich mit neuen Daten nachtrainiert, mit automatischem A/B-Testing neuer Versionen.
Alarmierung und Workflow¶
Das System kategorisiert erkannte Anomalien in drei Stufen:
- Information — Abweichung vom Normalzustand, Trend beobachten. Im Dashboard angezeigt, keine sofortige Aktion erforderlich.
- Warnung — signifikante Anomalie, Inspektion bei der nächsten geplanten Stillstandszeit empfohlen. Benachrichtigung an den Wartungsleiter.
- Kritisch — Ausfall innerhalb von 72 Stunden vorhergesagt. Automatische Erstellung eines Arbeitsauftrags im CMMS-System, Eskalation an den Schichtleiter.
Jeder Alarm enthält: Maschinen- und Komponentenidentifikation, Anomalie-Visualisierung mit historischem Kontext, Konfidenzwert der Vorhersage, empfohlenen Eingriff und geschätzte verbleibende Nutzungsdauer.
Visualisierung und Reporting¶
Grafana-Dashboards bieten einen Echtzeit-Überblick:
- Werksübersicht — Health-Score jeder Maschine auf einem Plan der Produktionshalle
- Maschinendetail — Live-Telemetriedaten, historischer Trend, RUL-Vorhersage
- Wartungsübersicht — geplante und vorhergesagte Eingriffe, Auslastung des Wartungsteams
- Management-Reporting — KPIs: OEE, MTBF, MTTR, Einsparungen im Vergleich zur reaktiven Wartung
Ergebnisse¶
30 % Reduktion ungeplanter Ausfallzeiten¶
Im ersten Betriebsjahr sagte das System 87 % der Ausfälle mit ausreichendem Vorlauf für einen geplanten Eingriff voraus. Ungeplante Ausfallzeiten sanken um 30 %, und die mittlere Reparaturzeit (MTTR) sank um 40 % dank besserer Vorbereitung von Ersatzteilen und Personal.
2,4 Mio. $ jährliche Einsparungen¶
Die Kombination aus reduzierten ungeplanten Ausfällen, optimierter präventiver Wartung und verlängerter Komponentenlebensdauer ergab jährliche Einsparungen von 2,4 Mio. $. Den größten Beitrag lieferte die Reduktion von Produktionsverlusten bei ungeplanten Stillständen.
99,7 % Vorhersagegenauigkeit¶
Das Modell erreicht 99,7 % Genauigkeit bei der Anomalieerkennung mit einer Falsch-Positiv-Rate unter 2 %. Das bedeutet, dass das Wartungsteam den Systemalarmen vertraut und ohne unnötige Überprüfungsschritte darauf reagiert.
72 Stunden Frühwarnung¶
Die durchschnittliche Zeit zwischen Anomalieerkennung und tatsächlichem Ausfall beträgt 72 Stunden. Dies bietet ausreichend Zeit, um Ersatzteile zu bestellen, die Stillstandszeit auf eine weniger belastete Schicht zu planen und das Wartungsteam vorzubereiten.