Schlagwort-Archiv: Big Data

Big Data umfasst Methoden und Technologien zur Analyse großer Datenmengen.

Whitepaper zu Predictive Maintenance mit R

Potenziale und Möglichkeiten der freien Statistiksprache R für neue Geschäftsmodelle im Industrie 4.0 Zeitalter 

Effiziente Produktionsprozesse mit gleichbleibend hoher Qualität sind die Basis produzierender Unternehmen, um im internationalen Wettbewerb mit immer kürzeren Produktlebenszyklen und schnelleren Technologiesprüngen zu bestehen. Ausfälle und Qualitätseinbußen aufgrund defekter Anlagen schwächen die Marktposition.

Anlagenbauern bietet Industrie 4.0 hier die Grundlage für neue Geschäftsmodelle. Beispielsweise gewinnt Instandhaltung und Wartung stetig an Bedeutung und die Entwicklung von der reaktiven Reparatur zur vorausschauenden Wartung führt zu neuen Services und Produkten.

Predictive Maintenance als Instandhaltungsstrategie der Zukunft 

„Industrie 4.0 ist die Informatisierung der Industrie und Predictive Maintenance ist ein Kernnutzenaspekt, den die Daten als Ergebnis der Digitalisierung der Produktion ermöglichen“, so Heiko Miertzsch CEO, des Kasseler Datenanalysespezialisten eoda. Die Analyse von Maschinendaten und externen Daten ermöglicht es, Muster im Verhalten der Maschinen zu entdecken und zukünftige Zustände wie Ausfälle zu prognostizieren. „Das ist der Grundstein für eine höhere Planungssicherheit und eine effizientere Wartung“, erklärt Miertzsch die Möglichkeiten hochwertiger Datenanalyse für Predictive Maintenance.

Predictive Maintenance als innovatives Instandhaltungskonzept (Bild © everythingpossible / fotolia.com)

Predictive Maintenance als innovatives Instandhaltungskonzept (Bild © everythingpossible / fotolia.com)

Weiterlesen

Text Mining zur Prognose der Strompreisentwicklung

Nicht zuletzt die Energiewende sorgt bei Energieversorgern für Veränderungen und Herausforderungen. Den Anteil erneuerbarer Energien von heute 12 Prozent auf fast 40 Prozent im Jahr 2020 zu verdreifachen, ist nur eines der Ziele, die sich ein führender Energieversorger gesetzt hat.

Um Effizienzpotentiale zu heben und neue Geschäftsfelder zu erschließen setzt der Energieanbieter verstärkt auf Data Mining und Predictive Analytics. Möglichst zahlreiche und vielfältige Daten sollen analysiert werden, um die Entscheidungen im Unternehmen zielgerichtet und belastbar zu unterstützten. Konkret werden beispielsweise für den Stromhandel minutenaktuell die Meldungen der Nachrichtenagentur Reuters erfasst und einzelne Nachrichten auf ihre Relevanz für die Entwicklung der Energiepreise untersucht.

Ein integriertes System soll zukünftig die Stromhändler bei der Selektion der relevanten Nachrichten unterstützen.

Darstellung der Strompreisentwicklung

Darstellung der Strompreisentwicklung

Weiterlesen

eoda verlängert Gold Partnernerschaft mit Oracle – Fokus auf Data Mining und Predictive Analytics

Der Datenanalysespezialist eoda und das amerikanische Unternehmen Oracle verlängern ihre Partnerschaft.  Das Kasseler Unternehmen unterstützt den weltweit führenden Hersteller von Datenbanksystemen auch weiterhin als Systemintegrator. Auf Basis der hochwertigen Oracle Produkte entwickelt eoda individuell angepasste Lösungen für die Anwender mit einem Schwerpunkt auf Data Mining und Predictive Analytics. Im Fokus der Partnerschaft steht dabei die Verknüpfung der Oracle Database mit der Open Source Statistiksprache R. „R entwickelt sich zunehmend zur plattformübergreifenden Lingua franca für Datenanalysten und bietet umfassende und leistungsfähige Methoden für die Analyse und Visualisierung von Daten, Data Mining und Predictive Analytics“, erläutert Heiko Miertzsch, CEO von eoda, die Vorteile von R. eoda als erstes deutsches Mitglied der R-Foundation, die sich für die Verbreitung von R einsetzt, gilt als einer der Vorreiter für  den kommerziellen Einsatz von R im deutschsprachigen Raum.

Mit R die Oracle-Datenbanken um Verfahren zu Predictive Analytics und Data Mining erweitern

Als einer der ersten großen Softwarehersteller hat Oracle das Potenzial von R erkannt und die Integration der Statistiksprache in die Datenbanksysteme vorangetrieben. Mit Oracle Advanced Analytics erweitert Oracle die Datenbanken zu einer umfassenden Plattform für Data Mining und Predictive Analytics. Teil von Oracle Advanced Analytics ist die Komponente Oracle R Enterprise. Diese integriert die Funktionen der R-Programmiersprache und verlagert dadurch die Berechnungen in die Datenbank und ermöglicht so “In Database Analytics”.  Gerade in Zeiten von Big Data und der damit verbundenen Komplexität der Analysen stellt die Begrenzung des lokal vorhandenen Arbeitsspeichers einen entscheidenden Engpass dar. Die Verlagerung der Berechnungen in die Oracle Datenbank und die Nutzung der dort vorhandenen Speicherkapazitäten löst dieses Problem.

Weiterlesen

eoda News 2014 Nr. 1

Wir von eoda wünschen unseren Lesern ein Frohes Neues Jahr und möchten in unserem ersten Blog Beitrag dieses Jahr auf wichtige und spannende Entwicklungen rund um die Themen eoda, R und Datenanalyse aufmerksam machen und einen Ausblick auf zukünftige Aktivitäten und Ereignisse geben.

eoda erweitert die Service Plattform „Results as a Service“

associateR, signatuRe und textmineR – so lauten die Namen der neuen Anwendungen auf unserer eoda Service Plattform. Dahinter verbergen sich webbasierte Lösungen zur Warenkorbanalyse, zur automatischen Signaturerfassung und zur Analyse unstrukturierter Texte. Diese Module erweitern unser Portfolio und bieten genau wie die bereits bestehenden Anwendungen die Möglichkeit auf Basis eines skalierbaren Frameworks individuelle und hochwertige Lösungen für unsere Kunden zu schaffen. „Results as a Service“ erschließt die Potenziale von Big Data mit den Möglichkeiten von Cloud Computing und ermöglicht die Entwicklung maßgeschneiderter Apps zur Datenanalyse – für jede Datenmenge, jede Laufzeit, auf einer öffentlichen oder privaten Cloud-Plattform nach Wahl.

Unsere Case Study zur CRM Daten Konsolidierung verdeutlicht im Folgenden ein konkretes Anwendungsszenario für die „Results as a Service“-Anwendung fuzzychekC.

Case Study: CRM Daten Konsolidierung nach Unternehmensfusion

Eine Übernahme oder eine Fusion stellt einen Meilenstein in der wirtschaftlichen Entwicklung eines Unternehmens dar, der mit vielen Vorteilen verbunden sein kann. Um diese Vorteile auch zu erzielen bedarf es einer Lösung der Aufgaben, die mit einer solchen Strukturveränderung einhergehen. Die Zusammenführung der Datenbestände ist dabei von zentraler Bedeutung für das „neue“ Unternehmen, denn die Daten stellen wichtige Assets dar.

eoda hat mit dem Modul fuzzychekC der hauseigenen Results as a Service Plattform die CRM Daten Konsolidierung für eine international tätige Hotelkette durchgeführt. Dabei hat eoda den gesamten Prozess vom Datenexport, über die Steigerung der Datenqualität bis zum Import in das finale Salesforce CRM-System betreut. Bei der Datenintegration unterstützte Open Studio von dem eoda Partner Talend.

Die so vollständig zusammengeführten historischen Daten inklusive der notwendigen Entitäten wie Aktivitäten und Dokumente in Verbindung mit der Verbesserung der Datenqualität stellen eine echte Verbesserungen für alle kundennahen Prozesse dar.

Zur Case Study.

R-Akademie: eoda baut das umfassende deutschsprachige Trainingsprogramm für R weiter aus

Die freie Statistiksprache R gewinnt auch im deutschsprachigen Raum immer mehr an Bedeutung. R kommt sowohl in wissenschaftlichen Instituten wie auch in Behörden und Unternehmen immer öfter zur Analyse kleiner und großer Datenmengen zum Einsatz. Die eoda R-Akademie passt sich dieser Entwicklung an und erweitert sein bewährtes Trainingsprogramm für das Jahr 2014 um die folgenden fünf weiteren Kurse:

  • Programmieren mit R II
  • Reproducible Research
  • Big Data mit R
  • Hadoop mit R
  • Angewandte Statistik im Qualitätsmanagement mit R

Diese Kurse sollen insbesondere fortgeschrittenen R-Nutzern ein attraktives Angebot rund um die freie Programmiersprache bieten. Natürlich wird der ganzheitliche Charakter der R-Akademie gewahrt und auch Einsteiger finden den passenden Kurs.

Eine Anmeldung ist ab sofort möglich. Für Frühbucher und Universitätsangehörige werden günstige Sonderkonditionen angeboten.

Weitere Informationen hier.

Weiterlesen

Professioneller R Code – einfach eigene Pakete erstellen und dokumentieren

Selbst in kleineren R-Projekten fällt schnell eine Vielzahl selbst geschriebener Funktionen an. Der Ordnung halber möchte man deren Definition und Beschreibung möglichst aus dem eigentlichen Arbeitsskript heraushalten. Eine einfache Lösung hierfür ist es, eine Funktion in einem eigenen Skript auszulagern und dieses dann mit der source() Funktion im Arbeitsskript aufzurufen. Die so geladenen Funktionen tauchen nun als Objekte im aktuellen Workspace auf. Hat man eine Vielzahl von Funktionen definiert leidet jedoch schnell die Übersichtlichkeit.

Ein eleganterer und besserer Weg sind eigene Pakete. Die Funktionsdefinitionen werden in eine eigene Umgebung geladen und erscheinen nicht direkt im Workspace. Pakete bieten zudem die Möglichkeit einer einheitlichen Dokumentation, welche besonders hilfreich ist wenn man die entwickelten Funktionen weitergeben oder sie selbst nach einem größeren Zeitabstand wiederverwenden möchte. Jeder R Nutzer ist an die typische R-Hilfe gewöhnt und weiß genau wo er nach den für ihn relevanten Informationen suchen muss.

Eigene R Pakete mit RStudio

Gerade in  RStudio ist der Prozess der Paketerstellung dank der implementierten Unterstützung zur Paket Entwicklung überraschend einfach umzusetzen.

Hierzu wählt man unter File „New Project“ und in den darauf folgenden Pop-Ups „New Directory“ und „R Package“.

Einstieg in die Paketerstellung mit RStudio

Einstieg in die Paketerstellung mit RStudio

Weiterlesen

Five ways to handle Big Data in R

Big data was one of the biggest topics on this year’s useR conference in Albacete and it is definitely one of today’s hottest buzzwords. But what defines “Big Data”? And on the practical side: How can big data be tackled in R?

What data is big?

Hadley Wickham, one of the best known R developers, gave an interesting definition of Big Data on the conceptual level in his useR!-Conference talk “BigR data”. In traditional analysis, the development of a statistical model takes more time than the calculation by the computer. When it comes to Big Data this proportion is turned upside down. Big Data comes into play when the CPU time for the calculation takes longer than the cognitive process of designing a model.

Jan Wijffels proposed in his talk at the useR!-Conference a trisection of data according to its size. As a rule of thumb: Data sets that contain up to one million records can easily processed with standard R. Data sets with about one million to one billion records can also be processed in R, but need some additional effort. Data sets that contain more than one billion records need to be analyzed by map reduce algorithms. These algorithms can be designed in R and processed with connectors to Hadoop and the like.

The number of records of a data set is just a rough estimator of the data size though. It’s not about the size of the original data set, but about the size of the biggest object created during the analysis process. Depending on the analysis type, a relatively small data set can lead to very large objects. To give an example: The distance matrix in hierarchical cluster analysis on 10.000 records contains almost 50 Million distances.

Big Data Strategies in R

If Big Data has to be tackle with R, five different strategies can be considered:

Five strategies to tackle big data with R

Five strategies to tackle Big Data with R

Weiterlesen

Visual debugging with StatET and RStudio

Debugging code in R

R provides several built in features for stepping through code for analyzing and debugging purposes. As an example you can examine variables during the execution of a script. Amongst others you can use the function debug():

Anwendung der Funktion debug ()

After executing lines 8 and 9 you can stepwise inspect what foo() does with the help of the options:

Unbenannt

 

Visual debugging with StatET (Eclipse) & RStudio

Integrated development environments for R offer a visual debugger mode which provides additional debugging features like breakpoints and enhanced visualization. A typical IDE with debugging features is StatET and recently with its preview release v.098 also RStudio 

 Breakpoints

Additional to the approach outlined above, setting breakpoints is a typical feature for debugging. Both IDE’s support breakpoints. If a program run reaches a breakpoint the IDE switches in Debug Mode.

A breakpoint is set by clicking on the script editor’s line number inside or as top-level breakpoints outside of a function. Top-level breakpoints will be activated when the script-file is sourced.

To enable the breakpoints and the functionality of the visual debugger, it is required to source the code. Furthermore StatET has to be started in the debug mode.

Weiterlesen

Veracity – Sinnhaftigkeit und Vertrauenswürdigkeit von Big Data als Kernherausforderung im Informationszeitalter

Wer sich intensiver mit BigData beschäftigt für den sind  die drei Attribute Volume, Variety und Velocity, auch bekannt als die „3 V‘s“ oder die „drei Dimensionen“ von BigData keine Fremdwörter. Volume, Variety und Velocity werden regelmäßig verwendet  um die Eigenschaften von BigData zu charakterisieren und dienen dem Versuch BigData zu definieren.

Die 3 V’s von BigData

  • Volume beschreibt dabei das enorme Datenvolumen, das aus dem ständig wachsenden Informationsfluss resultiert. Auch im unternehmerischen Umfeld stehen Entscheider immer häufiger vor der Herausforderung, die Datenmengen effizient und effektiv zu nutzen.
  • Velocity bezeichnet die Geschwindigkeit der Datenentstehung. Unter anderem durch mobile Internetnutzung und die zunehmende Digitalisierung von z. B. Messergebnissen stehen immer mehr Daten immer schneller zur Verfügung – eine echte Herausforderung für Datenanalysten, vor allem vor dem Hintergrund, dass das Bedürfnis nach sofortiger Informationsextraktion und Verarbeitung der Daten in Echtzeit zunimmt.
  • Variety bezieht sich auf die Vielfältigkeit der vorliegenden Datenmenge. Daten können strukturiert, unstrukturiert und semi-strukturiert vorliegen, wobei die Gruppe der semi- und unstrukturierten Daten mit bis zu 85% den größten Anteil ausmacht. Darüber hinaus können Daten in verschiedenen Formaten vorliegen, die nicht ohne Weiteres verglichen werden können und auch in weniger griffigen Formaten wie Audio- oder Videodateien vorhanden sein, deren Extraktion zumeist manuellen Aufwand erfordert.

Veracity – blindes Vetrauen oder kritisches Hinterfragen?

Diesen Eigenschaften von BigData kann mit Hilfe von voranschreitenden Methoden und fortschrittlicher Software, zumindest zu einem gewissen Grad begegnet werden, so dass sich als Konsequenz seit einiger Zeit eine weitere Herausforderung, in Form eines vierten V’s, in den Vordergrund schiebt: Veracity.

Veracity steht für die Sinnhaftigkeit beziehungsweise die Vertrauenswürdigkeit der Daten und der daraus abgeleiteten Ergebnisse, die mitunter zu wünschen übrig lassen kann. Dies zeigt sich beispielswiese darin, dass einer von drei führenden Managern, der Datenqualität und den daraus resultierenden Ergebnissen nicht vollends vertraut, wie die BigData Foundation Anfang des Jahres bekannt gab. In der Regel steht und fällt die Glaubhaftigkeit der Daten und Ergebnisse mit der Qualität der Input-Daten und den gewählten Analysenverfahren.

Weiterlesen

Text Mining mit R – “unstrukturierte” Daten analysieren

Das Bewusstsein für die Bedeutung von Daten und die damit verbundenen Werte ist in den letzten Jahren stetig gestiegen. In nahezu allen Bereichen finden Methoden der Datenanalyse ihre Anwendung um die so zahlreich anfallenden Daten und die darin enthaltenen Informationen strategisch nutzen zu können. Im Fokus dabei steht aber überwiegend die Analyse gut strukturierter und standardisierter Daten wie sie in Datenbanken oder Dateien vorkommen, da diese Daten leicht nutzbar sind. Doch auch die Analyse vermeintlich unstrukturierter Daten bietet große Chancen, Nutzen aus der steigenden Datenmenge zu generieren. In vielen Bereichen sind  konkrete Anwendungen wie Inhaltsanalysen oder Sentiment Detection immer öfter im Gespräch. Natürlich sind der sogenannten qualitativen Datenanalyse auch Grenzen gesetzt.  Bei der automatischen Erkennung von Stimmungen oder Einstellungen zeigt sich noch die ein oder andere Hürde, beispielsweise bei mehrdeutigen Aussagen wie „die Reifen sind echt abgefahren“. Doch die, spätestens mit der Verbreitung des Internets entstandene, nahezu unbegrenzte Verfügbarkeit von digitalen Texten und Dokumenten macht die Analyse von unstrukturierten Daten notwendig.

Diese Diashow benötigt JavaScript.

Die Vielfältigkeit unstrukturierter Daten

Die beschriebene Notwendigkeit begründet sich vor allem in der Vielfältigkeit in der unstrukturierte Daten vorliegen. Diese reicht von E-Mail –Verläufen bis hin zu wissenschaftlichen Artikeln, oder auch Wahlprogrammen. Besonders interessant ist die Betrachtung der sozialen Kommunikationsmedien, die zahlreiche essentielle Informationen bereitstellen. Diese Bandbreite an unterschiedlichen Datenquellen schafft auch ein breites und interdisziplinäres Spektrum an Interessenten, die von der Informationsgewinnung aus unstrukturierten Daten partizipieren möchten. Sowohl Unternehmen, als auch die Wissenschaft zeigen großes Interesse an der Nutzung der beschriebenen Daten. Selbst in der Kriminalitätsaufklärung wird auf die Informationen gesetzt, die aus unstrukturierten Daten gewonnen werden können. Ein Anwendungsfall ist die systematische Untersuchung hunderttausender E-Mails, die vom Management des Pleite gegangenen amerikanischen Energiekonzerns Enron verschickt wurden. Mittels Methoden zur Textanalyse wurde nach besonderen Merkmalen in den Mailverläufen gesucht um die Hauptverursacher der Unternehmenspleite und rechtswidrige Handlungen ans Licht zu bringen – mit Erfolg.

Weiterlesen

German election: Election promises visualized with R

Data analysis is mostly focused on structured and standardized data, e. g. data from data bases, because these data can be used easily for analysis. Nevertheless even unstructured data offer chances to generate advantages. Concrete applications like content analysis or sentiment detection are discussed more and more frequently.

Of course, there are still limits to the possibilities of qualitative data analysis. The automated recognition of moods is limited when it comes to ambiguous statements. But the unlimited availability of digital texts and documents shows that analysis of unstructured data is justified and useful. Unstructured data does exist in a plenty of forms. Examples could be e-mail histories as well as scientific papers. The analyses of those unstructured texts are complex through extensive data volume, differing formats and different types of problems.

Weiterlesen