Potential and Possibilities of the Programming Language R for Predictive Maintenance

Have you ever been asked a question starting with: “Can you use R to…“, only to politely interrupt the inquisitor at this point to reply with something similar to “Yes, you can! R probably already has a package for this”.

If this sounds familiar to you, you won’t be overly surprised to hear that R is now making advancements in the field of industrial production processes of the 21st century – respectively to the technological planning of production and maintenance processes.

The catchword in this context is Predictive Maintenance which represents the informatization of production processes away from only reactive repair mechanisms towards the realization of IT-based Smart Factories.

In industrial production, unforeseeable machine failures as well as performance drops or deterioration in quality because of defective system components can lead to severe shortness’ of supplies. In order to prevent this and to be able to survive in the global economy, organizations are increasingly focusing on the improvement, maintenance, and repair of their machinery.

What they need to successfully predict when a machine failure is likely to happen, or how to choose the best possible time to replace a wearing part of a critical production plant without causing a production stop or having to accept other cost disadvantages, is the implementation of a powerful analysis software. This is where R comes into play to put the innovative concept of Predictive Maintenance into practice to realize the hitherto unimaginable potential of a data analysis software for the optimization of industrial maintenance models and thereby changing the way organizations go about their process of machine maintenance.

Predictive Maintenance Process with R

Predictive Maintenance and Condition Monitoring with R

As one of the best alternatives for e.g. the analysis and visualization of data and many benefits for Data Mining and Predictive Analytics, R can be tailored to the specific requirements of the condition monitoring and diagnostic technologies an organization might need. Weiterlesen

Whitepaper zu Predictive Maintenance mit R

Potenziale und Möglichkeiten der freien Statistiksprache R für neue Geschäftsmodelle im Industrie 4.0 Zeitalter 

Effiziente Produktionsprozesse mit gleichbleibend hoher Qualität sind die Basis produzierender Unternehmen, um im internationalen Wettbewerb mit immer kürzeren Produktlebenszyklen und schnelleren Technologiesprüngen zu bestehen. Ausfälle und Qualitätseinbußen aufgrund defekter Anlagen schwächen die Marktposition.

Anlagenbauern bietet Industrie 4.0 hier die Grundlage für neue Geschäftsmodelle. Beispielsweise gewinnt Instandhaltung und Wartung stetig an Bedeutung und die Entwicklung von der reaktiven Reparatur zur vorausschauenden Wartung führt zu neuen Services und Produkten.

Predictive Maintenance als Instandhaltungsstrategie der Zukunft 

„Industrie 4.0 ist die Informatisierung der Industrie und Predictive Maintenance ist ein Kernnutzenaspekt, den die Daten als Ergebnis der Digitalisierung der Produktion ermöglichen“, so Heiko Miertzsch CEO, des Kasseler Datenanalysespezialisten eoda. Die Analyse von Maschinendaten und externen Daten ermöglicht es, Muster im Verhalten der Maschinen zu entdecken und zukünftige Zustände wie Ausfälle zu prognostizieren. „Das ist der Grundstein für eine höhere Planungssicherheit und eine effizientere Wartung“, erklärt Miertzsch die Möglichkeiten hochwertiger Datenanalyse für Predictive Maintenance.

Predictive Maintenance als innovatives Instandhaltungskonzept (Bild © everythingpossible / fotolia.com)

Predictive Maintenance als innovatives Instandhaltungskonzept (Bild © everythingpossible / fotolia.com)

Weiterlesen

Mit R intuitiv und professionell Software für Data Mining entwickeln – Training in der R-Akademie

„R is the most powerful and flexible statistical programming language in the world“ – diese bereits 2010 getroffene Aussage von Norman Nie, einem der Gründer von SPSS, hat schon damals das riesige Potenzial von R zum Ausdruck gebracht. Das Involvement der wissenschaftlichen Community in Verbindung mit dem zunehmendem Engagement großer Unternehmen wie IBM ®, SAP®, Oracle® sowie diverser kleiner Spezialisten hat die positive Entwicklung von R seitdem weiter voran getrieben.

Zwei wesentliche Gründe dafür hat das Zitat von Norman Nie gleich geliefert: Die Flexibilität und die Mächtigkeit. Erstere gehört zu den wichtigsten Eigenschaften an eine Sprache für die Datenanalyse und Statistik, denn erst ein hohes Maß an Flexibilität ermöglicht die effiziente Automatisierung sich wiederholender Abläufe und Analysen, die Anpassung vorhandener Verfahren an konkrete Bedürfnisse und die Programmierung von komplexen Simulationen wie sie für das Data Mining benötigt werden.  Mächtigkeit und Stärke von R begründen sich also unter anderem in seiner Flexibilität, vor allem aber in der Verbindung aus umfassenden Statistik Bibliotheken und etablierten Programmierkonzepten. So bietet R alle Vorteile einer höheren Programmiersprache.

Hinzu kommt der Open Source Charakter von R. Der Quellcode der Programmiersprache ist auf Comprehensive R Archive Network (CRAN) vollständig einsehbar und somit nachzuvollziehen. Zudem ist R auf einer Vielzahl an Betriebssystemen und Plattformen lauffähig und dadurch in nahezu jedem Kontext anwendbar und stets sehr nahe an aktuellen Forschungsergebnissen.

Weiterlesen

Die Lesbarkeit von Texten berechnen – der Flesch Index als ein Baustein von Text Mining Anwendungen

Zeitungsartikel, E-Mails, Briefe – Texte begegnen uns täglich auf unterschiedlichen Wegen. Unabhängig von der Übermittlungsart, der Länge und der Thematik eint die Verfasser das Bestreben nach einer hohen Verständlichkeit. Produktinformationen im Marketing, wissenschaftliche Ausarbeitungen, journalistische Artikel – die konkreten Beispiele, in denen eine hohe Verständlichkeit von niedergeschriebenen Inhalten wichtig ist, sind vielfältig. Eine verständliche Ausdrucksweise ist der Grundstein für nachvollziehbare Texte.

Dennoch begegnen einem im Alltag immer wieder Texte, bei denen es schwer fällt, sich den darin enthaltenen Inhalt zu erschließen. Neben für den Verfasser nicht beeinflussbaren Faktoren wie Fachwissen und Interesse des Rezipienten ist häufig eine unzureichende Lesbarkeit der Grund dafür, dass Botschaften falsch oder teilweise gar nicht beim Empfänger ankommen. In vielen Fällen ist die Komplexität vieler Texte nicht angemessen für die angesprochene Zielgruppe. Um dies zu erkennen und zu verbessern bietet sich die Anwendung des Flesch-Indexes unter zur Hilfename von Text Mining an.

Der Flesch-Index als Kriterium für die Lesbarkeit

Neben der Leserlichkeit, der inhaltlichen Struktur und dem Aufbau eines Textes ist die Lesbarkeit eines der Kriterien für die Textverständlichkeit. Die Lesbarkeit beschreibt die sprachliche Gestaltung. Hierzu zählen beispielsweise der Wortschatz oder die Komplexität der verwendeten Wörter und Sätze.

Der US-amerikanische Autor Rudolf Flesch entwickelte den nach Ihm benannten Flesch-Index. Dieser umfasst ein Verfahren zur formalen Bestimmung der Lesbarkeit eines Textes. Dieses ermöglicht es, Texte zu überprüfen und eine präzise Aussage darüber zu erhalten wie hoch die Lesbarkeit ist. Verfasser haben so die Möglichkeit einer Selbstkontrolle und erhalten Ansatzpunkte für Optimierungen. Zudem lassen sich Texte anhand der Bewertung durch den Flesch-Index klassifizieren. Da die Wortlänge in der deutschen Sprache im Durchschnitt höher ist als im Englischen, wurde der Flesch-Index wurde von Toni Amstad an die deutsche Sprache angepasst.

Berechnungsformel des Flesch-Index

Berechnungsformel des Flesch-Index für die englische  Sprache

Bei dem Ergebnis des Flesch-Index unterscheidet man allgemein zwischen einem hohen und niedrigen Komplexitätsgrad, wobei dieser mit steigendendem Wert abnimmt. Ein Text mit einem hohen Flesch-Index wie 100 würde demnach aus Sätzen bestehen, die jeweils lediglich zwei einsilbige Wörter enthalten und entspräche so einem niedrigen Komplexitätsgrad. Texte mit einem Flesch-Index von 20 und geringer sind entsprechend komplexer aufgebaut und entsprechen beispielsweise einer wissenschaftlichen Veröffentlichung, die sich in der Regel durch vielsilbige Fachbegriffe und komplexe Satzstrukturen auszeichnet.

Weiterlesen

Text Mining zur Prognose der Strompreisentwicklung

Nicht zuletzt die Energiewende sorgt bei Energieversorgern für Veränderungen und Herausforderungen. Den Anteil erneuerbarer Energien von heute 12 Prozent auf fast 40 Prozent im Jahr 2020 zu verdreifachen, ist nur eines der Ziele, die sich ein führender Energieversorger gesetzt hat.

Um Effizienzpotentiale zu heben und neue Geschäftsfelder zu erschließen setzt der Energieanbieter verstärkt auf Data Mining und Predictive Analytics. Möglichst zahlreiche und vielfältige Daten sollen analysiert werden, um die Entscheidungen im Unternehmen zielgerichtet und belastbar zu unterstützten. Konkret werden beispielsweise für den Stromhandel minutenaktuell die Meldungen der Nachrichtenagentur Reuters erfasst und einzelne Nachrichten auf ihre Relevanz für die Entwicklung der Energiepreise untersucht.

Ein integriertes System soll zukünftig die Stromhändler bei der Selektion der relevanten Nachrichten unterstützen.

Darstellung der Strompreisentwicklung

Darstellung der Strompreisentwicklung

Weiterlesen

eoda verlängert Gold Partnernerschaft mit Oracle – Fokus auf Data Mining und Predictive Analytics

Der Datenanalysespezialist eoda und das amerikanische Unternehmen Oracle verlängern ihre Partnerschaft.  Das Kasseler Unternehmen unterstützt den weltweit führenden Hersteller von Datenbanksystemen auch weiterhin als Systemintegrator. Auf Basis der hochwertigen Oracle Produkte entwickelt eoda individuell angepasste Lösungen für die Anwender mit einem Schwerpunkt auf Data Mining und Predictive Analytics. Im Fokus der Partnerschaft steht dabei die Verknüpfung der Oracle Database mit der Open Source Statistiksprache R. „R entwickelt sich zunehmend zur plattformübergreifenden Lingua franca für Datenanalysten und bietet umfassende und leistungsfähige Methoden für die Analyse und Visualisierung von Daten, Data Mining und Predictive Analytics“, erläutert Heiko Miertzsch, CEO von eoda, die Vorteile von R. eoda als erstes deutsches Mitglied der R-Foundation, die sich für die Verbreitung von R einsetzt, gilt als einer der Vorreiter für  den kommerziellen Einsatz von R im deutschsprachigen Raum.

Mit R die Oracle-Datenbanken um Verfahren zu Predictive Analytics und Data Mining erweitern

Als einer der ersten großen Softwarehersteller hat Oracle das Potenzial von R erkannt und die Integration der Statistiksprache in die Datenbanksysteme vorangetrieben. Mit Oracle Advanced Analytics erweitert Oracle die Datenbanken zu einer umfassenden Plattform für Data Mining und Predictive Analytics. Teil von Oracle Advanced Analytics ist die Komponente Oracle R Enterprise. Diese integriert die Funktionen der R-Programmiersprache und verlagert dadurch die Berechnungen in die Datenbank und ermöglicht so “In Database Analytics”.  Gerade in Zeiten von Big Data und der damit verbundenen Komplexität der Analysen stellt die Begrenzung des lokal vorhandenen Arbeitsspeichers einen entscheidenden Engpass dar. Die Verlagerung der Berechnungen in die Oracle Datenbank und die Nutzung der dort vorhandenen Speicherkapazitäten löst dieses Problem.

Weiterlesen

eoda News 2014 Nr. 1

Wir von eoda wünschen unseren Lesern ein Frohes Neues Jahr und möchten in unserem ersten Blog Beitrag dieses Jahr auf wichtige und spannende Entwicklungen rund um die Themen eoda, R und Datenanalyse aufmerksam machen und einen Ausblick auf zukünftige Aktivitäten und Ereignisse geben.

eoda erweitert die Service Plattform „Results as a Service“

associateR, signatuRe und textmineR – so lauten die Namen der neuen Anwendungen auf unserer eoda Service Plattform. Dahinter verbergen sich webbasierte Lösungen zur Warenkorbanalyse, zur automatischen Signaturerfassung und zur Analyse unstrukturierter Texte. Diese Module erweitern unser Portfolio und bieten genau wie die bereits bestehenden Anwendungen die Möglichkeit auf Basis eines skalierbaren Frameworks individuelle und hochwertige Lösungen für unsere Kunden zu schaffen. „Results as a Service“ erschließt die Potenziale von Big Data mit den Möglichkeiten von Cloud Computing und ermöglicht die Entwicklung maßgeschneiderter Apps zur Datenanalyse – für jede Datenmenge, jede Laufzeit, auf einer öffentlichen oder privaten Cloud-Plattform nach Wahl.

Unsere Case Study zur CRM Daten Konsolidierung verdeutlicht im Folgenden ein konkretes Anwendungsszenario für die „Results as a Service“-Anwendung fuzzychekC.

Case Study: CRM Daten Konsolidierung nach Unternehmensfusion

Eine Übernahme oder eine Fusion stellt einen Meilenstein in der wirtschaftlichen Entwicklung eines Unternehmens dar, der mit vielen Vorteilen verbunden sein kann. Um diese Vorteile auch zu erzielen bedarf es einer Lösung der Aufgaben, die mit einer solchen Strukturveränderung einhergehen. Die Zusammenführung der Datenbestände ist dabei von zentraler Bedeutung für das „neue“ Unternehmen, denn die Daten stellen wichtige Assets dar.

eoda hat mit dem Modul fuzzychekC der hauseigenen Results as a Service Plattform die CRM Daten Konsolidierung für eine international tätige Hotelkette durchgeführt. Dabei hat eoda den gesamten Prozess vom Datenexport, über die Steigerung der Datenqualität bis zum Import in das finale Salesforce CRM-System betreut. Bei der Datenintegration unterstützte Open Studio von dem eoda Partner Talend.

Die so vollständig zusammengeführten historischen Daten inklusive der notwendigen Entitäten wie Aktivitäten und Dokumente in Verbindung mit der Verbesserung der Datenqualität stellen eine echte Verbesserungen für alle kundennahen Prozesse dar.

Zur Case Study.

R-Akademie: eoda baut das umfassende deutschsprachige Trainingsprogramm für R weiter aus

Die freie Statistiksprache R gewinnt auch im deutschsprachigen Raum immer mehr an Bedeutung. R kommt sowohl in wissenschaftlichen Instituten wie auch in Behörden und Unternehmen immer öfter zur Analyse kleiner und großer Datenmengen zum Einsatz. Die eoda R-Akademie passt sich dieser Entwicklung an und erweitert sein bewährtes Trainingsprogramm für das Jahr 2014 um die folgenden fünf weiteren Kurse:

  • Programmieren mit R II
  • Reproducible Research
  • Big Data mit R
  • Hadoop mit R
  • Angewandte Statistik im Qualitätsmanagement mit R

Diese Kurse sollen insbesondere fortgeschrittenen R-Nutzern ein attraktives Angebot rund um die freie Programmiersprache bieten. Natürlich wird der ganzheitliche Charakter der R-Akademie gewahrt und auch Einsteiger finden den passenden Kurs.

Eine Anmeldung ist ab sofort möglich. Für Frühbucher und Universitätsangehörige werden günstige Sonderkonditionen angeboten.

Weitere Informationen hier.

Weiterlesen

Professioneller R Code – einfach eigene Pakete erstellen und dokumentieren

Selbst in kleineren R-Projekten fällt schnell eine Vielzahl selbst geschriebener Funktionen an. Der Ordnung halber möchte man deren Definition und Beschreibung möglichst aus dem eigentlichen Arbeitsskript heraushalten. Eine einfache Lösung hierfür ist es, eine Funktion in einem eigenen Skript auszulagern und dieses dann mit der source() Funktion im Arbeitsskript aufzurufen. Die so geladenen Funktionen tauchen nun als Objekte im aktuellen Workspace auf. Hat man eine Vielzahl von Funktionen definiert leidet jedoch schnell die Übersichtlichkeit.

Ein eleganterer und besserer Weg sind eigene Pakete. Die Funktionsdefinitionen werden in eine eigene Umgebung geladen und erscheinen nicht direkt im Workspace. Pakete bieten zudem die Möglichkeit einer einheitlichen Dokumentation, welche besonders hilfreich ist wenn man die entwickelten Funktionen weitergeben oder sie selbst nach einem größeren Zeitabstand wiederverwenden möchte. Jeder R Nutzer ist an die typische R-Hilfe gewöhnt und weiß genau wo er nach den für ihn relevanten Informationen suchen muss.

Eigene R Pakete mit RStudio

Gerade in  RStudio ist der Prozess der Paketerstellung dank der implementierten Unterstützung zur Paket Entwicklung überraschend einfach umzusetzen.

Hierzu wählt man unter File „New Project“ und in den darauf folgenden Pop-Ups „New Directory“ und „R Package“.

Einstieg in die Paketerstellung mit RStudio

Einstieg in die Paketerstellung mit RStudio

Weiterlesen

Five ways to handle Big Data in R

Big data was one of the biggest topics on this year’s useR conference in Albacete and it is definitely one of today’s hottest buzzwords. But what defines “Big Data”? And on the practical side: How can big data be tackled in R?

What data is big?

Hadley Wickham, one of the best known R developers, gave an interesting definition of Big Data on the conceptual level in his useR!-Conference talk “BigR data”. In traditional analysis, the development of a statistical model takes more time than the calculation by the computer. When it comes to Big Data this proportion is turned upside down. Big Data comes into play when the CPU time for the calculation takes longer than the cognitive process of designing a model.

Jan Wijffels proposed in his talk at the useR!-Conference a trisection of data according to its size. As a rule of thumb: Data sets that contain up to one million records can easily processed with standard R. Data sets with about one million to one billion records can also be processed in R, but need some additional effort. Data sets that contain more than one billion records need to be analyzed by map reduce algorithms. These algorithms can be designed in R and processed with connectors to Hadoop and the like.

The number of records of a data set is just a rough estimator of the data size though. It’s not about the size of the original data set, but about the size of the biggest object created during the analysis process. Depending on the analysis type, a relatively small data set can lead to very large objects. To give an example: The distance matrix in hierarchical cluster analysis on 10.000 records contains almost 50 Million distances.

Big Data Strategies in R

If Big Data has to be tackle with R, five different strategies can be considered:

Five strategies to tackle big data with R

Five strategies to tackle Big Data with R

Weiterlesen

Visual debugging with StatET and RStudio

Debugging code in R

R provides several built in features for stepping through code for analyzing and debugging purposes. As an example you can examine variables during the execution of a script. Amongst others you can use the function debug():

Anwendung der Funktion debug ()

After executing lines 8 and 9 you can stepwise inspect what foo() does with the help of the options:

Unbenannt

 

Visual debugging with StatET (Eclipse) & RStudio

Integrated development environments for R offer a visual debugger mode which provides additional debugging features like breakpoints and enhanced visualization. A typical IDE with debugging features is StatET and recently with its preview release v.098 also RStudio 

 Breakpoints

Additional to the approach outlined above, setting breakpoints is a typical feature for debugging. Both IDE’s support breakpoints. If a program run reaches a breakpoint the IDE switches in Debug Mode.

A breakpoint is set by clicking on the script editor’s line number inside or as top-level breakpoints outside of a function. Top-level breakpoints will be activated when the script-file is sourced.

To enable the breakpoints and the functionality of the visual debugger, it is required to source the code. Furthermore StatET has to be started in the debug mode.

Weiterlesen