Performantes Machine Learning mit R und H2O

Zum richtigen Zeitpunkt am richtigen Ort in New York die optimale Anzahl an Leihfahrrädern verfügbar haben. In Millionen von Daten des New Yorker Fahrradverleihers Citi Bike lassen sich mit Machine Learning Verfahren Muster und Gesetzmäßigkeiten erkennen, die Aufschluss über das Nutzungsverhalten der Kunden geben.

Was sind die meist frequentierten Ausleihstationen? Wann werden die meisten Fahrräder ausgeliehen? Was sind die beliebtesten Routen der New Yorker?

Mit Hilfe von Verfahren des maschinellen Lernens lassen sich diese Fragen beantworten und darüber hinaus Zukunftsprognosen erstellen, um für die Kunden das optimale Angebot bereitstellen zu können.

Performancevorteile für R-User

Eine der derzeit besten Alternativen für das Machine Learning ist das Open Source Projekt H2O. Die Lösung des gleichnamigen kalifornischen Unternehmens verfügt über ein R-Interface und ermöglicht den Anwendern der freien Programmiersprache Vorteile in puncto Performance. Die in H2O verfügbaren Funktionen und Algorithmen sind sehr performant und damit eine gute Alternative für das bereits standardmäßig in den R-Paketen verfügbare Funktionsset.

„Performantes Machine Learning mit R und H2O“ weiterlesen

[R] Kenntnis Tage 2016: Mit R und Analytik die digitale Transformation meistern

„Die digitale Transformation ist da.“ Das ist nicht nur die Botschaft der diesjährigen CeBIT, sondern die auf den Punkt gebrachte Aktualität des digitalen Wandels im Unternehmensumfeld. Datenanalyse als wichtiger Baustein der digitalen Transformation ermöglicht unter anderem vorausschauende Wartung im Rahmen von Industrie 4.0 Initiativen.

Die Programmiersprache R als lingua franca der Datenanalyse steht im Zentrum der [R] Kenntnis-Tage, die vom 02. bis 03. November 2016 in Kassel stattfinden, ausgerichtet vom Datenanalysespezialisten eoda.

R Kenntnis-Tage Logo

Die [R] Kenntnis-Tage vereinen an zwei Tagen vielfältige Themen für Anwendungsfälle wie Data Mining, Predictive Analytics oder Datenvisualisierung mit anregendem Networking und aufschlussreichen Success Stories aus der Praxis.

„[R] Kenntnis Tage 2016: Mit R und Analytik die digitale Transformation meistern“ weiterlesen

Training for the big data era: eoda publishes R Academy programme for 2016

The data analysis specialist eoda presents the programme of the R Academy for 2016. The R Academy is the comprehensive training concept for the open-source programming language R. It offers users a modular course structure covering the topics R and data analysis – either in Kassel (Germany) or as on-site training. More than 1,000 satisfied participants have already used the eoda Training.

Attractive course programme with focus on professional use of R

R is considered one of the best solutions for analysing and visualizing data, data mining and business intelligence. More and more companies in the German-speaking area are making use of the potential of R for their data-assisted processes – from sales forecast to predictive maintenance to risk analysis. “The practical requirements with regard to performance, reproducibility or maintainability of the scripts have as well been taken into account for the conception of our new course programme as methodical developments in the field of R”, Katharina Heidelbach, responsible product manager at eoda, explains. „Training for the big data era: eoda publishes R Academy programme for 2016“ weiterlesen

Schulungen für das Big-Data-Zeitalter: eoda veröffentlicht R-Akademie Programm 2016

Der Datenanalysespezialist eoda stellt das Kursprogramm der R-Akademie für das Jahr 2016 vor. Die R-Akademie ist das umfassende Schulungsprogramm für die freie Programmiersprache R. Für die Anwender eröffnet sich ein modulares Kursangebot rund um die Themen R und Datenanalyse – in Kassel oder Inhouse. Über 1.000 zufriedene Teilnehmer haben das Schulungsangebot von eoda bereits für sich genutzt.

Attraktives Kursprogramm mit Fokus auf die professionelle Nutzung von R

R gilt als eine der besten Lösungen zur Analyse und Visualisierung von Daten, für Data Mining und Business Intelligence. Auch im deutschsprachigen Raum nutzen immer mehr Unternehmen das Potential von R für ihre datengestützten Prozesse – von der Absatzprognose, über die vorausschauende Instandhaltung bis zur Risikoanalyse. „Die Anforderungen in der Praxis hinsichtlich Performance, Reproduzierbarkeit oder der Wartbarkeit der Skripte haben wir bei der Konzeption unseres neuen Kursprogramms genauso aufgegriffen wie methodische Weiterentwicklungen im Umfeld von R“ erklärt Katharina Heidelbach, zuständige Produktmanagerin bei eoda.

„Schulungen für das Big-Data-Zeitalter: eoda veröffentlicht R-Akademie Programm 2016“ weiterlesen

Data Mining with R: Generate knowledge from data with the eoda R-Academy

The course “Data Mining with R”, which takes place from 9th to 10th November 2015 in Kassel, Germany, teaches the most important methods to expose correlations in data and inherent patterns.

The wide set of methods can be used for almost every application area. From customer segmentation to timely recognition of machines, users gain knowledge from data and therefore advantages in competition because of the right use of methods.

By means of practical examples, the following topics will be addressed:

  • Introduction to Data Mining
  • Evaluation model: Selection of model and data base, error matrix, risk charts, ROC, sensitivity, precision, Lift, forecast and observation
  • Explorative Analysis: Tabular analysis, visual analysis (metric, categorical), correlation analysis, Missing value correlation
  • Association Analysis: Support, confidence, Lift, interpretation
  • Regression- and Decision Trees: Algorithm, interpretation, graphical interpretation
  • Neural Networks: Theory, learning process in KNN, nnet
  • Random Forest: Theory, interpretation, extended options, Conditional inference trees

“Data Mining with R” shows the creation of Data Mining scripts and teaches how to use the graphical user interface “Rattle”. After the course, participants are able to apply what they have learnt for their own application purpose.

For more information about our training program and the application form feel free to click here.

Data Mining mit R: Aus Daten Wissen generieren mit der eoda R-Akademie

Im Kurs „Data Mining mit R“ vermittelt eoda am 25. und 26. April 2016 in Kassel die wichtigsten Verfahren, um Muster und Zusammenhänge in Daten zu erkennen.

Das breite Methodenset des Data Minings ist auf nahezu jeden Anwendungsbereich übertragbar. Von der Kundensegmentierung bis zur frühzeitigen Erkennung von Maschinenfehlern gewinnt der Anwender durch den richtigen Methodeneinsatz Wissen aus seinen Daten und somit Wettbewerbsvorteile.

Anhand praxisnaher Beispiele werden in der Schulung folgende Inhalte behandelt:

  • Einführung in das Data Mining
  • Modell-Evaluation: Prognose vs. Beobachtung, Fehlermatrix, ROC, Cut-Off-Value, AUC, Sensitivität, Präzision, Lift, Risikoanalyse, Risk-Chart, Ensemble Modelling
  • Data Mining Algorithmen:Decision- und Regressiontrees, Boosting, Random Forest, Neuronale Netze, Naive Bayes, Support Vector Machine

    Theorie, Parametertuning, Modell- und Prognoseerstellung

  • Ensemble Modelling: Techniken und Methoden, Bagging unterschiedlicher Modelle, Bagging eines Algorithmus, SuperLearner Package
  • Deep Learning mit H2O

Nach dem Kurs sind die Teilnehmer in der Lage, das Gelernte selbständig auf ihre jeweiligen Anwendungszwecke anzuwenden.

Weitere Informationen zur Schulung und das Anmeldeformular finden Interessierte hier.

Eine gelungene Veranstaltung: Die [R] Kenntnis-Tage 2015

Wissen & Vernetzen – unter diesem Motto fanden am 30. September und 1. Oktober die [R] Kenntnis-Tage 2015 im „Hotel Schweizer Hof“ in Kassel statt. 255 Folien R Know-how, 14 abwechslungsreiche Themenblöcke und anregendem Networking haben dieses Motto mit Leben gefüllt.

Die Eröffnungsrede der [R] Kenntnis-Tage 2015 von eoda Geschäftsführer Oliver Bracht.
Die Eröffnungsrede der [R] Kenntnis-Tage 2015 von eoda Geschäftsführer Oliver Bracht.
Vielfältige Module und inspirierende Erfolgsgeschichten aus der Praxis

Unter dem treffendem Titel „Inside R“ sind die Teilnehmer am ersten Veranstaltungstag in das Konzept und die Funktionsweise der freien Programmiersprache R eingetaucht. Diese Session war der Startschuss für den Themenblock zum Umgang mit R, der „Besser Programmieren“, „Performanceoptimierung mit C++“ und „Datenmanagement“ beinhaltete. Parallel dazu setzte der zwei Track des Tages den Schwerpunkt ganz auf die Methodik. Bei den Themen „Clusteranalyse“, „Data Mining & Predictive Analytics“, „Modelloptimierung“ und „Text Mining“ konnten die Teilnehmer Ihre R-Kenntnisse erweitern und die richtige Anwendung dieser mächtigen Analysemethoden erlernen.

„Eine gelungene Veranstaltung: Die [R] Kenntnis-Tage 2015“ weiterlesen

eoda auf der useR! Conference 2015 in Aalborg: Das Wichtigste vom zweiten Präsentationstag – Teil 1

Genau wie der erste Präsentationstag der useR! 2015, hatte auch der zweite Tag mit Präsentationen interessante Sessions mit Neuerungen für die R-Nutzer zu bieten.

Die useR! 2015 im dänischen Aalborg
Die useR! 2015 im dänischen Aalborg

Keynote: A Survey of Two Decades of Efforts to Build Interactive Graphics Capacity in R (Di Cook)

“R has been eighty-seven steps forward for data analysis but twelve steps backwards for interactive graphics“

Früh in ihrer Keynote ließ Di Cook diesen Satz fallen. Hintergrund sind ihre über 20 Jahre Erfahrung und das Wissen, dass mit dem Programm xLispStat welches in den 90er Jahren Verwendung fand, eine explorative Datenanalyse durch dynamische/interaktive Grafiken möglich war, die seit dem Wechsel der statistischen Community hin zu S und später R bilang nicht mehr erreicht wurde.

Im Folgenden gab Cook einen Rückblick auf die vergangenen Jahre und skizierte die Meilensteine die R gemacht hat, um in puncto interaktiver Grafiken das Niveau zu erreichen, welches heute vorhanden ist.

Wichtige Schritte waren hierbei die Pakete rgobi und cranvas. Interessanterweise wurden beide schon unter Beteiligung von Hadley Wickham entwickelt, welcher später mit ggplot eines der bekanntesten R Pakete entwickelt hat und derzeit unter anderem an ggvis arbeitet, mit Sicherheit eines der derzeit spannendsten Projekte hinsichtlich interaktiver Grafiken in R.

Neben ggvis, erwähnte Di Cook noch gridsvg und plotly als interessante aktuelle Pakete.

Zum Abschluss ihres Talks offenbarte Sie noch Ihre Wünsche an die aktuelle Entwicklergemeinde: Mehr Interaktivität in den Plots selber, Verlinkungen zwischen unterschiedlichen Grafiken und einen starken Bezug auf statistisches Model Fitting.

Während des Publikumsgesprächs kam noch die Frage auf, wie es denn um die Reproduzierbarkeit steht (ein auf dieser Konferenz prominentes Thema), wenn man mittels interaktiver Grafiken seine Modelle verfeinert. Laut Cook müssen hierfür die getätigten Schritte in einer interaktiven Umgebung aufgezeichnet und abgelegt werden können.

Session – Interactive Graphics

Hatte Di Cook noch in Ihrer Keynote die historische Entwicklung von interaktiven Grafiken in R erläutert, war es jetzt an der Zeit sich den aktuellen Stand zu vergegenwärtigen.

Das Paket gridSVG, in Cooks Vortag schon erwähnt, wurde in Michael Sachs‘ Vortrag „Interactive Graphics with ggplot2 and gridSVG“ im Hinblick auf die praktische Verwendung hin gezeigt. Mit gridSVG lassen sich ggplot Grafiken in ein SVG Objekt umwandeln. Mit D3 der beliebten Javascript Bibliothek zur Erstellung interaktiver Grafiken lassen sich im Folgenden die einzelnen Elemente der ggplot Grafik ansprechen und manipulieren. Diese Vorgehensweise ist unter anderem dadurch besonders ansprechend, da man sich bei der Erstellung von Grafiken nicht schon im Vorfeld entscheiden muss, ob man eine statische oder eine Interaktive Grafik erstellt. Man erstellt einfach in R eine statische ggplot Grafik und bearbeitet diese anschließend einfach noch mit Javascript um eine Interaktive Grafik zu erhalten.

„eoda auf der useR! Conference 2015 in Aalborg: Das Wichtigste vom zweiten Präsentationstag – Teil 1“ weiterlesen

eoda auf der useR! Conference 2015 in Aalborg: Die Highlights vom ersten Präsentationstag – Teil 2

Nach dem ersten Teil der Highlights vom Mittwoch, folgt hier der zweite Teil mit einem Überblick über die weiteren Themen und Inhalte der Sessions vom ersten Präsentationstag der useR! 2015.

Computational Performance

Der aus unserer Sicht interessanteste Vortrag der Performance Session kam von Helena Kotthaus von der TU Dortmund. In ihrem Vortrag hat sie das Projekt TraceR vorgestellt, ein Tool zur Performancemessung. Im Unterschied zu anderen Ansätzen ist die Performance Messung hier direkt in den R Interpreter implementiert, was zu präziseren Messergebnissen führt.

In ihrem Vortrag hat sich Kotthaus auf die Messung der Performance von parallelisierten Prozessen konzentriert, einem zunehmend relevanten Problem bei der Erstellung von performantem R Code.

TraceR bietet eine visuelle Ausgabe der Ergebnisse. Die Laufzeit der einzelnen Prozesse, der CPU Verwendung pro Prozess, sowie die Auslastung des RAM werden übersichtlich dargestellt. So lässt sich leicht erkennen, ob eine Veränderung in der Anzahl der Prozesse zu einer verbesserten Performance führt. Die Performanceverbesserung steigt nicht zwingend linear, sondern erreicht an einem bestimmten Punkten – je nach Hardware Setting und Problemstellung – ein Optimum. TraceR kann dabei helfen dieses zu finden.

Business

Anders als der Titel „Statistical Consulting using R: a DRY approach from the Australian outback“ vermuten ließ, hat Peter Baker mit einem erfrischenden Vortrag die Business Session eröffnet. Seine erste These lautete: Egal was der Kunde in einem ersten Gespräch über das zu lösende Problem sagt: Es kommt immer anders.

Sein DRY (Don‘t Repeat Yourself) Ansatz läuft darauf hinaus, wiederkehrende Prozesse zu standardisieren und zu automatisieren. Hierzu hat Baker ein R Paket namens dryworkflow (derzeit nur über GitHub verfügbar) entwickelt, dass einige Standardaufgaben übernimmt: Hierzu gehören unter anderem das Anlegen einer Ordnerstruktur und eines git repositories inklusive erstem Commit. dryworkflow bietet damit eine Alternative zum ProjectTemplate Paket, das einen ähnlichen Funktionsumfang abdeckt.

„eoda auf der useR! Conference 2015 in Aalborg: Die Highlights vom ersten Präsentationstag – Teil 2“ weiterlesen

eoda auf der useR! Conference 2015 in Aalborg: Die Highlights vom ersten Präsentationstag – Teil 1

Die useR! Conference 2015 ist offiziell eröffnet: Nach dem „Tutorial-Tuesday“ folgte am Mittwoch der erste Präsentationstag.

Impression von der Opening Session am Dienstag
Impression von der Welcome reception der useR! 2015 am Dienstag

Unsere R-Experten vor Ort haben die wichtigsten Informationen und Neuerungen der Sessions vom Vormittag zusammengefasst:

Networks

Wie kann man möglichst viele Konferenzteilnehmer dazu bewegen, den eigenen Vortrag zu besuchen? Eine Möglichkeit besteht darin, potentielle Interessenten mit personalisierter Onlinewerbung auf sich aufmerksam zu machen. Anhand dieses nicht ganz ernstgemeinten Anwendungsbeispiels hat Daroczi im ersten Vortrag der Networks-Session aufgezeigt, wie mit Hilfe des Pakets fbRads aus R heraus Werbekampagnen auf Facebook aufgesetzt und gesteuert werden können. Der große Vorteil dabei: Im Zusammenspiel mit der Facebook API deckt das Paket den kompletten Prozess einer Werbekampagne ab – von der Definition der Zielgruppe bis zur Auswertung der Werbewirksamkeit.

Peter Meißner hat sich in seinem Vortrag dem Thema Webscraping gewidmet und gab einen Überblick darüber, was zu tun ist, wenn der Download-Button fehlt und die gewünschten Informationen stattdessen direkt aus einer Webseite extrahiert werden müssen. Je nachdem welche Web-Technologien auf der relevanten Webseite eingesetzt werden, kommen für das Webscraping mit R verschiedene Funktionen und Pakete infrage. Im einfachsten Fall reichen bereits base-Funktionen wie download.file() und einfache String-Manipulationen aus. Am einfachsten dürften die meisten Webscraping-Projekte jedoch mit dem Paket rvest zu lösen sein. Sollte dies nicht möglich sein, weil sich die gewünschten Informationen zum Beispiel in JS-Code verbergen, kann mit RSelenium ein virtueller Browser emuliert werden.

Reproducibilty

Reproduzierbarkeit kann in der R-Community aus verschiedenen Blickwinkeln betrachtetet werden, dass wurde auch in der Mischung der heutigen Präsentationen zu diesem Thema deutlich.

Das Programm der Session Reproducibilty
Das Programm der Session Reproducibilty

Während Karthik Ram und Joshua R. Polanin mit ihren Talks den Fokus auf die wissenschaftlichen Aspekte von Reproducibility legten, haben sich Michael Lawrence und David Smith mit dem Problem der Versionierung von R Paketen beschäftigt.

„eoda auf der useR! Conference 2015 in Aalborg: Die Highlights vom ersten Präsentationstag – Teil 1“ weiterlesen