Ob Predictive Maintenance, Sales Forecasting oder Clustering des Kundenstamms – Datenanalyse bietet oftmals einen unverkennbaren Mehrwert in verschiedensten Anwendungsszenarien. Dabei ist die Wahl der Algorithmen und Analysemethoden von großer Bedeutung. So können Neuronale Netze oder Machine-Learning-Verfahren wie Random Forest und Gradient Boosting zu vielversprechenden Ergebnissen führen. Die Auswahl und Anwendung eines Algorithmus setzen jedoch eine hohe Datenqualität voraus. Dabei sind Korrektheit, Relevanz und Vollständigkeit der Datengrundlage nur einige wenige Eigenschaften, die von einer hohen Datenqualität zeugen. Die dabei auftretenden Herausforderungen können beliebig komplex sein und reichen von der Frage, nach den in das Modell eingehenden Features, über den Umgang mit fehlenden Werten, bis hin zur Normalisierung der Daten. Die Relevanz der Datenqualität wird am folgenden Beispiel der Betriebsstunden deutlich. Das im Industriekontext auftretende Phänomen der fehlerhaften Betriebsstundenverläufe macht deutlich, dass eine gute Datenqualität die Voraussetzung für eine gewinnbringende Analyse der Daten darstellt.

Betriebsstunden – Die zeitliche Dimension beim Arbeiten mit Maschinen

Betriebsstunden beschreiben die kumulierte Zeit, die eine Maschine bereits gelaufen ist. Die Betriebsstunden einer Maschine sind in vielen Analysefällen interessanter als die eigentlichen Datums- und Zeitwerte. Die gelaufene Zeit beim Ausfall einer Maschine ist meist aussagekräftiger als das Datum des Ausfalls. Um beispielsweise die zukünftige Auslastung der Maschine vorherzusagen, sollte man sich den Verlauf der Betriebsstunden analysieren. Damit man mit den Betriebsstunden als grundlegende „Zeiteinheit“ arbeiten kann, sollten diese eine gute Datenqualität aufweisen. Es gibt jedoch diverse Fehler und Phänomene, die bei der Messung bzw. Aufzeichnung von Betriebsstunden auftreten und somit die Grundlage für die Weiterverarbeitung der Betriebsstunden erschweren können. Es ist also unumgänglich nach den Ursachen für falsche Werte zu suchen, um die Werte zu korrigieren und so den tatsächlichen Verlauf der Betriebsstunden so gut wie möglich abzubilden. Dafür ist es wichtig, Messfehler klar von strukturbedingten Fehlern zu trennen und angemessen zu bereinigen. Messfehler umfassen in diesem Zusammenhang Fehler, die im Verlauf der Messung oder Aufzeichnung innerhalb der Maschine entstehen. Strukturbedingte Fehler sind Datenkonstellationen, die zwar nicht den erwarteten Eigenschaften von Betriebsstunden entsprechen, aber auf eine natürliche Art und Weise auftreten. Sie sind somit nicht falsch, sollten aber dennoch korrigiert werden, um einen Verlauf zu erzeugen, dessen Eigenschaften konsistent sind. Die von Fehlern bereinigten Betriebsstunden bieten somit eine optimale Grundlage sowohl zur Vorhersage der Maschinenauslastung, sowie als Zeitdimension für die Analyse anderer von der Maschine aufgezeichneten Signalverläufe. Zwei typische Phänomene, die die Datenqualität der Betriebsstunden verschlechtern, sind negative Differenzen von zwei aufeinanderfolgenden Betriebsstundenwerten und Betriebsstunden, die einen größeren Anstieg als die vergangene Zeit aufweisen.

Betriebsstundenrücksetzer – negative Anstiege im Betriebsstundenverlauf

Der Definition von Betriebsstunden zufolge, ist grundsätzlich davon auszugehen, dass der Verlauf der Betriebsstunden für eine Maschine monoton wachsend (also im Zeitverlauf nie kleiner wird) ist, da die gelaufene Zeit nie negativ sein kann.

Normaler Verlauf der Betriebsstunden einer Industrieanlage.

Werte, die eine negative Differenz zum vorherigen Wert aufweisen, können somit nicht korrekt sein. Idealerweise benutzt man für die Vorhersage des Betriebsstundenverlaufs Methoden, die auf einen monoton wachsenden Verlauf ausgelegt sind.  Enthalten die Daten negative Differenzen zwischen zwei Punkten, sind solche Verfahren nicht mehr anwendbar. Der Umgang mit solchen Werten ist jedoch nicht trivial. Eine naheliegende Möglichkeit ist, die falschen Werte zu ignorieren oder als fehlende Werte zu behandeln und durch Interpolation neu zu berechnen. Obwohl es möglich ist, dass Rücksetzer im Sekundenbereich lediglich einen Messfehler darstellen und somit ignoriert bzw. nach oben korrigiert werden können, ist diese Form der Korrektur nicht in allen Fällen ratsam, da mit dem Ersetzen oder Entfernen von Daten stets Informationen aus der Datengrundlage entfernt werden.

Rücksetzer: Ein Beispiel für das Vorliegen eines Messfehlers (rot gefärbter Ausreißer)

Ist der Rücksetzer strukturbedingt, so verliert man wertvolle Informationen bei Entfernung oder Ersetzen dieser Werte. Wird eine Maschine zum Beispiel inklusive der Betriebsstunden komplett zurückgesetzt, ist die dadurch entstandene negative Differenz zwischen den Betriebsstundenwerten also korrekt (der Betriebsstundenverlauf fällt auf 0) und stellt keinen falschen Wert dar. In diesem Fall sollten die betroffenen Werte nicht entfernt oder neu berechnet werden.

Beispiel für eine vollständige Rücksetzung der Betriebsstunden einer Maschine auf 0.

Eine angemessenere Bereinigung ist es, die Betriebsstunden nach dem Rücksetzer um die kritische Differenz anzuheben, um somit einen monoton wachsenden Verlauf herzustellen und Extrapolationsmethoden anzuwenden, die den Verlauf vorhersagen. In einem nachgelagerten Schritt werden die vorausgesagten Werte wieder um die Differenz nach unten korrigiert, um den tatsächlichen Betriebsstundenwert nach dem Rücksetzer zu erhalten. Strukturbedingte Fehler können sich außerdem durch Saisonalitäten deutlich machen: Tritt täglich zur gleichen Uhrzeit eine negative Differenz auf, so ist ein Messfehler unwahrscheinlich und es sollte nach einer Ursache gesucht werden, die diese periodisch auftretenden Rücksetzer erklären.

Große Steigungen – Wenn die Maschine schneller läuft als die Zeit

Ein weiteres offensichtliches Problem ist das Auftreten großer Anstiege der Betriebsstunden. Der Anstieg zwischen zwei Messzeitpunkten ist nach unten durch 0 beschränkt – die Maschine ist in diesem Zeitraum also nicht gelaufen. Die triviale obere Grenze für die Steigung ist 1, die Maschine ist in diesem Fall während des kompletten Zeitraums immer gelaufen. Gibt es nun aber zwei Werte die einen Anstieg größer als 1 aufweisen, stellt dies auf den ersten Blick einen Fehler dar. Das Entfernen dieser Werte ist aber auch hier nicht immer der beste Weg, da dieses Phänomen unter gewissen Umständen auf natürliche Weise auftritt.  Läuft die Maschine beispielsweise während der Umstellung von Sommer- auf Winterzeit, so kann die Maschine bis zu eine Stunde Laufzeit aufweisen, obwohl die Zeit „nicht gelaufen ist“, da die Uhr um eine Stunde zurückgestellt wurde. Solche Werte müssen nicht zwangsläufig korrigiert werden. Da die außerordentlichen Anstiege regelmäßig (jährlich) auftreten, werden sie in Verbindung mit den Datums- und Zeitangaben von den Algorithmen erkannt und berücksichtigt. Treten die Anstiege jedoch unstrukturiert – als Folge von Messfehlern – auf, sollte man die Werte nach unten korrigieren oder den Anstieg im Rahmen einer kleinen Toleranzgrenze ignorieren. Bei der Korrektur der Werte stellt sich die Frage, ob lediglich die betroffenen Werte oder alle nachfolgenden Werte korrigiert werden sollten. Bei auffällig großen Anstiegen macht es wahrscheinlich mehr Sinn die Werte durch einen interpolierten Wert zu ersetzen, bei kleinen Überschreitungen der Toleranzgrenze ist es möglicherweise ratsam, die nachfolgenden Werte ebenfalls nach unten zu korrigieren.

Die Lösung: Datenqualität nachhaltig steigern per Algorithmus

Am Beispiel der Betriebsstunden wird deutlich, wie wichtig eine hohe Datenqualität für weitere Analyseschritte ist und wie komplex der Umgang mit scheinbar simplen Fehlern wie Betriebsstundenrücksetzern ist. Grundsätzlich ist es entscheidend, herauszufinden, wie es zu den falschen Werten kam oder ob es reine Messfehler sind. Diese Erkenntnis kann dann genutzt werden, um die falschen Werte angemessen zu korrigieren oder gar vollständig neu zu berechnen bzw. sie zu entfernen. Geht man nicht angemessen mit falschen Werten um – vor allem mit strukturbedingten – kann das Ergebnis deutlich schlechter ausfallen als theoretisch möglich. Ein angemessener Umgang erhält so viele Informationen wie möglich und führt zu bestmöglichen Resultaten. Ein entscheidender Schritt in der Erhöhung der Datenqualität ist die Entwicklung eines Algorithmus, der den Betriebsstundenverlauf bis zum zuletzt gemessenen Wert analysiert und Fehler wie Betriebsstundenrücksetzer erkennt. Der Algorithmus sollte eine bestmögliche Unterscheidung zwischen zufälligen Messfehlern und systematisch auftretenden Fehlern (bspw. periodisch wiederkehrende Rücksetzer) treffen können. Durch eine konstante Überwachung und Analyse der Daten, können Fehler schnell erkannt und angemessen korrigiert werden, um eine gute Datengrundlage für die weiteren Analyseschritte zu schaffen.

Wir helfen Ihnen bei der Entwicklung robuster Algorithmen, die Datenqualitätsprobleme automatisch erkennen, so wie der Bereinigung von bestehenden Datenqualitätsfehlern und schaffen damit die Grundlage für weiterführende Analysen, mit denen Sie datenbasiert Mehrwerte schaffen.  Sprechen Sie uns an.

 

2 Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

*
*