Schlagwort-Archiv: Data Mining

[R] Kenntnis Tage 2016: Mit R und Analytik die digitale Transformation meistern

„Die digitale Transformation ist da.“ Das ist nicht nur die Botschaft der diesjährigen CeBIT, sondern die auf den Punkt gebrachte Aktualität des digitalen Wandels im Unternehmensumfeld. Datenanalyse als wichtiger Baustein der digitalen Transformation ermöglicht unter anderem vorausschauende Wartung im Rahmen von Industrie 4.0 Initiativen.

Die Programmiersprache R als lingua franca der Datenanalyse steht im Zentrum der [R] Kenntnis-Tage, die vom 02. bis 03. November 2016 in Kassel stattfinden, ausgerichtet vom Datenanalysespezialisten eoda.

R Kenntnis-Tage Logo

Die [R] Kenntnis-Tage vereinen an zwei Tagen vielfältige Themen für Anwendungsfälle wie Data Mining, Predictive Analytics oder Datenvisualisierung mit anregendem Networking und aufschlussreichen Success Stories aus der Praxis.

Weiterlesen

Training for the big data era: eoda publishes R Academy programme for 2016

The data analysis specialist eoda presents the programme of the R Academy for 2016. The R Academy is the comprehensive training concept for the open-source programming language R. It offers users a modular course structure covering the topics R and data analysis – either in Kassel (Germany) or as on-site training. More than 1,000 satisfied participants have already used the eoda Training.

Attractive course programme with focus on professional use of R

R is considered one of the best solutions for analysing and visualizing data, data mining and business intelligence. More and more companies in the German-speaking area are making use of the potential of R for their data-assisted processes – from sales forecast to predictive maintenance to risk analysis. “The practical requirements with regard to performance, reproducibility or maintainability of the scripts have as well been taken into account for the conception of our new course programme as methodical developments in the field of R”, Katharina Heidelbach, responsible product manager at eoda, explains. Weiterlesen

Schulungen für das Big-Data-Zeitalter: eoda veröffentlicht R-Akademie Programm 2016

Der Datenanalysespezialist eoda stellt das Kursprogramm der R-Akademie für das Jahr 2016 vor. Die R-Akademie ist das umfassende Schulungsprogramm für die freie Programmiersprache R. Für die Anwender eröffnet sich ein modulares Kursangebot rund um die Themen R und Datenanalyse – in Kassel oder Inhouse. Über 1.000 zufriedene Teilnehmer haben das Schulungsangebot von eoda bereits für sich genutzt.

Attraktives Kursprogramm mit Fokus auf die professionelle Nutzung von R

R gilt als eine der besten Lösungen zur Analyse und Visualisierung von Daten, für Data Mining und Business Intelligence. Auch im deutschsprachigen Raum nutzen immer mehr Unternehmen das Potential von R für ihre datengestützten Prozesse – von der Absatzprognose, über die vorausschauende Instandhaltung bis zur Risikoanalyse. „Die Anforderungen in der Praxis hinsichtlich Performance, Reproduzierbarkeit oder der Wartbarkeit der Skripte haben wir bei der Konzeption unseres neuen Kursprogramms genauso aufgegriffen wie methodische Weiterentwicklungen im Umfeld von R“ erklärt Katharina Heidelbach, zuständige Produktmanagerin bei eoda.

Weiterlesen

Data Mining with R: Generate knowledge from data with the eoda R-Academy

The course “Data Mining with R”, which takes place from 9th to 10th November 2015 in Kassel, Germany, teaches the most important methods to expose correlations in data and inherent patterns.

The wide set of methods can be used for almost every application area. From customer segmentation to timely recognition of machines, users gain knowledge from data and therefore advantages in competition because of the right use of methods.

By means of practical examples, the following topics will be addressed:

  • Introduction to Data Mining
  • Evaluation model: Selection of model and data base, error matrix, risk charts, ROC, sensitivity, precision, Lift, forecast and observation
  • Explorative Analysis: Tabular analysis, visual analysis (metric, categorical), correlation analysis, Missing value correlation
  • Association Analysis: Support, confidence, Lift, interpretation
  • Regression- and Decision Trees: Algorithm, interpretation, graphical interpretation
  • Neural Networks: Theory, learning process in KNN, nnet
  • Random Forest: Theory, interpretation, extended options, Conditional inference trees

“Data Mining with R” shows the creation of Data Mining scripts and teaches how to use the graphical user interface “Rattle”. After the course, participants are able to apply what they have learnt for their own application purpose.

For more information about our training program and the application form feel free to click here.

Data Mining mit R: Aus Daten Wissen generieren mit der eoda R-Akademie

Im Kurs „Data Mining mit R“ vermittelt eoda am 9. und 10. November 2015 in Kassel die wichtigsten Verfahren, um Muster und Zusammenhänge in Daten zu erkennen.

Das breite Methodenset des Data Minings ist auf nahezu jeden Anwendungsbereich übertragbar. Von der Kundensegmentierung bis zur frühzeitigen Erkennung von Maschinenfehlern gewinnt der Anwender durch den richtigen Methodeneinsatz Wissen aus seinen Daten und somit Wettbewerbsvorteile.

Anhand praxisnaher Beispiele werden in der Schulung folgende Inhalte behandelt:

  • Einführung in das Data Mining
  • Modell-Evaluation: Modellauswahl und Datenbasis, Fehlermatrix, Risk-Charts, ROC, Sensitivität, Präzision, Lift, Prognose und Beobachtung
  • Explorative Analyse: Tabellarische Analyse, visuelle Analyse (metrisch, kategorial), Korrelationsanalyse, Missing-Values Korrelation
  • Assoziationsanalyse: Support, Konfidenz, Lift, Interpretation
  • Decision- und Regressiontrees: Algorithmus, Interpretation, grafische Interpretation
  • Neuronale Netze: Theorie, Lernprozess im KNN, nnet
  • Random Forest: Theorie, Interpretation, erweiterte Optionen, Conditional inference trees

Im Kurs wird sowohl die Erstellung von Data Mining-Skripten als auch die Bedienung der graphischen Benutzeroberfläche „Rattle“ erlernt. Nach dem Kurs sind die Teilnehmer in der Lage, das Gelernte selbständig auf ihre jeweiligen Anwendungszwecke anzuwenden.

Weitere Informationen zur Schulung und das Anmeldeformular finden Interessierte hier.

Eine gelungene Veranstaltung: Die [R] Kenntnis-Tage 2015

Wissen & Vernetzen – unter diesem Motto fanden am 30. September und 1. Oktober die [R] Kenntnis-Tage 2015 im „Hotel Schweizer Hof“ in Kassel statt. 255 Folien R Know-how, 14 abwechslungsreiche Themenblöcke und anregendem Networking haben dieses Motto mit Leben gefüllt.

Die Eröffnungsrede der [R] Kenntnis-Tage 2015 von eoda Geschäftsführer Oliver Bracht.

Die Eröffnungsrede der [R] Kenntnis-Tage 2015 von eoda Geschäftsführer Oliver Bracht.

Vielfältige Module und inspirierende Erfolgsgeschichten aus der Praxis

Unter dem treffendem Titel „Inside R“ sind die Teilnehmer am ersten Veranstaltungstag in das Konzept und die Funktionsweise der freien Programmiersprache R eingetaucht. Diese Session war der Startschuss für den Themenblock zum Umgang mit R, der „Besser Programmieren“, „Performanceoptimierung mit C++“ und „Datenmanagement“ beinhaltete. Parallel dazu setzte der zwei Track des Tages den Schwerpunkt ganz auf die Methodik. Bei den Themen „Clusteranalyse“, „Data Mining & Predictive Analytics“, „Modelloptimierung“ und „Text Mining“ konnten die Teilnehmer Ihre R-Kenntnisse erweitern und die richtige Anwendung dieser mächtigen Analysemethoden erlernen.

Weiterlesen

eoda auf der useR! Conference 2015 in Aalborg: Das Wichtigste vom zweiten Präsentationstag – Teil 1

Genau wie der erste Präsentationstag der useR! 2015, hatte auch der zweite Tag mit Präsentationen interessante Sessions mit Neuerungen für die R-Nutzer zu bieten.

Die useR! 2015 im dänischen Aalborg

Die useR! 2015 im dänischen Aalborg

Keynote: A Survey of Two Decades of Efforts to Build Interactive Graphics Capacity in R (Di Cook)

“R has been eighty-seven steps forward for data analysis but twelve steps backwards for interactive graphics“

Früh in ihrer Keynote ließ Di Cook diesen Satz fallen. Hintergrund sind ihre über 20 Jahre Erfahrung und das Wissen, dass mit dem Programm xLispStat welches in den 90er Jahren Verwendung fand, eine explorative Datenanalyse durch dynamische/interaktive Grafiken möglich war, die seit dem Wechsel der statistischen Community hin zu S und später R bilang nicht mehr erreicht wurde.

Im Folgenden gab Cook einen Rückblick auf die vergangenen Jahre und skizierte die Meilensteine die R gemacht hat, um in puncto interaktiver Grafiken das Niveau zu erreichen, welches heute vorhanden ist.

Wichtige Schritte waren hierbei die Pakete rgobi und cranvas. Interessanterweise wurden beide schon unter Beteiligung von Hadley Wickham entwickelt, welcher später mit ggplot eines der bekanntesten R Pakete entwickelt hat und derzeit unter anderem an ggvis arbeitet, mit Sicherheit eines der derzeit spannendsten Projekte hinsichtlich interaktiver Grafiken in R.

Neben ggvis, erwähnte Di Cook noch gridsvg und plotly als interessante aktuelle Pakete.

Zum Abschluss ihres Talks offenbarte Sie noch Ihre Wünsche an die aktuelle Entwicklergemeinde: Mehr Interaktivität in den Plots selber, Verlinkungen zwischen unterschiedlichen Grafiken und einen starken Bezug auf statistisches Model Fitting.

Während des Publikumsgesprächs kam noch die Frage auf, wie es denn um die Reproduzierbarkeit steht (ein auf dieser Konferenz prominentes Thema), wenn man mittels interaktiver Grafiken seine Modelle verfeinert. Laut Cook müssen hierfür die getätigten Schritte in einer interaktiven Umgebung aufgezeichnet und abgelegt werden können.

Session – Interactive Graphics

Hatte Di Cook noch in Ihrer Keynote die historische Entwicklung von interaktiven Grafiken in R erläutert, war es jetzt an der Zeit sich den aktuellen Stand zu vergegenwärtigen.

Das Paket gridSVG, in Cooks Vortag schon erwähnt, wurde in Michael Sachs‘ Vortrag „Interactive Graphics with ggplot2 and gridSVG“ im Hinblick auf die praktische Verwendung hin gezeigt. Mit gridSVG lassen sich ggplot Grafiken in ein SVG Objekt umwandeln. Mit D3 der beliebten Javascript Bibliothek zur Erstellung interaktiver Grafiken lassen sich im Folgenden die einzelnen Elemente der ggplot Grafik ansprechen und manipulieren. Diese Vorgehensweise ist unter anderem dadurch besonders ansprechend, da man sich bei der Erstellung von Grafiken nicht schon im Vorfeld entscheiden muss, ob man eine statische oder eine Interaktive Grafik erstellt. Man erstellt einfach in R eine statische ggplot Grafik und bearbeitet diese anschließend einfach noch mit Javascript um eine Interaktive Grafik zu erhalten.

Weiterlesen

eoda auf der useR! Conference 2015 in Aalborg: Die Highlights vom ersten Präsentationstag – Teil 2

Nach dem ersten Teil der Highlights vom Mittwoch, folgt hier der zweite Teil mit einem Überblick über die weiteren Themen und Inhalte der Sessions vom ersten Präsentationstag der useR! 2015.

Computational Performance

Der aus unserer Sicht interessanteste Vortrag der Performance Session kam von Helena Kotthaus von der TU Dortmund. In ihrem Vortrag hat sie das Projekt TraceR vorgestellt, ein Tool zur Performancemessung. Im Unterschied zu anderen Ansätzen ist die Performance Messung hier direkt in den R Interpreter implementiert, was zu präziseren Messergebnissen führt.

In ihrem Vortrag hat sich Kotthaus auf die Messung der Performance von parallelisierten Prozessen konzentriert, einem zunehmend relevanten Problem bei der Erstellung von performantem R Code.

TraceR bietet eine visuelle Ausgabe der Ergebnisse. Die Laufzeit der einzelnen Prozesse, der CPU Verwendung pro Prozess, sowie die Auslastung des RAM werden übersichtlich dargestellt. So lässt sich leicht erkennen, ob eine Veränderung in der Anzahl der Prozesse zu einer verbesserten Performance führt. Die Performanceverbesserung steigt nicht zwingend linear, sondern erreicht an einem bestimmten Punkten – je nach Hardware Setting und Problemstellung – ein Optimum. TraceR kann dabei helfen dieses zu finden.

Business

Anders als der Titel „Statistical Consulting using R: a DRY approach from the Australian outback“ vermuten ließ, hat Peter Baker mit einem erfrischenden Vortrag die Business Session eröffnet. Seine erste These lautete: Egal was der Kunde in einem ersten Gespräch über das zu lösende Problem sagt: Es kommt immer anders.

Sein DRY (Don‘t Repeat Yourself) Ansatz läuft darauf hinaus, wiederkehrende Prozesse zu standardisieren und zu automatisieren. Hierzu hat Baker ein R Paket namens dryworkflow (derzeit nur über GitHub verfügbar) entwickelt, dass einige Standardaufgaben übernimmt: Hierzu gehören unter anderem das Anlegen einer Ordnerstruktur und eines git repositories inklusive erstem Commit. dryworkflow bietet damit eine Alternative zum ProjectTemplate Paket, das einen ähnlichen Funktionsumfang abdeckt.

Weiterlesen

eoda auf der useR! Conference 2015 in Aalborg: Die Highlights vom ersten Präsentationstag – Teil 1

Die useR! Conference 2015 ist offiziell eröffnet: Nach dem „Tutorial-Tuesday“ folgte am Mittwoch der erste Präsentationstag.

Impression von der Opening Session am Dienstag

Impression von der Welcome reception der useR! 2015 am Dienstag

Unsere R-Experten vor Ort haben die wichtigsten Informationen und Neuerungen der Sessions vom Vormittag zusammengefasst:

Networks

Wie kann man möglichst viele Konferenzteilnehmer dazu bewegen, den eigenen Vortrag zu besuchen? Eine Möglichkeit besteht darin, potentielle Interessenten mit personalisierter Onlinewerbung auf sich aufmerksam zu machen. Anhand dieses nicht ganz ernstgemeinten Anwendungsbeispiels hat Daroczi im ersten Vortrag der Networks-Session aufgezeigt, wie mit Hilfe des Pakets fbRads aus R heraus Werbekampagnen auf Facebook aufgesetzt und gesteuert werden können. Der große Vorteil dabei: Im Zusammenspiel mit der Facebook API deckt das Paket den kompletten Prozess einer Werbekampagne ab – von der Definition der Zielgruppe bis zur Auswertung der Werbewirksamkeit.

Peter Meißner hat sich in seinem Vortrag dem Thema Webscraping gewidmet und gab einen Überblick darüber, was zu tun ist, wenn der Download-Button fehlt und die gewünschten Informationen stattdessen direkt aus einer Webseite extrahiert werden müssen. Je nachdem welche Web-Technologien auf der relevanten Webseite eingesetzt werden, kommen für das Webscraping mit R verschiedene Funktionen und Pakete infrage. Im einfachsten Fall reichen bereits base-Funktionen wie download.file() und einfache String-Manipulationen aus. Am einfachsten dürften die meisten Webscraping-Projekte jedoch mit dem Paket rvest zu lösen sein. Sollte dies nicht möglich sein, weil sich die gewünschten Informationen zum Beispiel in JS-Code verbergen, kann mit RSelenium ein virtueller Browser emuliert werden.

Reproducibilty

Reproduzierbarkeit kann in der R-Community aus verschiedenen Blickwinkeln betrachtetet werden, dass wurde auch in der Mischung der heutigen Präsentationen zu diesem Thema deutlich.

Das Programm der Session Reproducibilty

Das Programm der Session Reproducibilty

Während Karthik Ram und Joshua R. Polanin mit ihren Talks den Fokus auf die wissenschaftlichen Aspekte von Reproducibility legten, haben sich Michael Lawrence und David Smith mit dem Problem der Versionierung von R Paketen beschäftigt.

Weiterlesen

eoda auf der useR! Conference 2015 in Aalborg: Die Eindrücke vom „Tutorial Tuesday“

Mit dem „Tutorial-Tuesday“ hat gestern in Aalborg die useR! Conference 2015 begonnen. Unser Team vor Ort hat viele der Tutorials besucht und die wichtigsten Informationen für die R-User zusammengefasst:

Rocker: Using R on Docker (Dirk Eddelbuettel)

Seit einiger Zeit schon gehört Docker zu den am heißesten diskutierten Ansätzen in der IT-Welt. Docker ist eine Abstraktionsschicht, vergleichbar mit einer Virtualisierungsumgebung. Innerhalb von Docker finden sich Container, die einer virtuellen Maschine (VM) entsprechen. Im Unterschied zu VMs sind Docker Container jedoch leichtgewichtig: Sie benötigen kein eigenes Betriebssystem, sie verbrauchen deutlicher weniger Disk space, sie lassen sich schnell und einfach erstellen, verteilen und initialisieren. Docker läuft auf allen gängigen Betriebssystemen und wird von nahezu allen wichtigen Cloudanbietern (Microsoft Azure, Amazon, Digital Ocean etc.) unterstützt.

Dirk Eddelbuettel, Mitentwickler des populären C++ Interfaces Rcpp, stellte in seinem Tutorium Rocker vor. Rocker steht für R on Docker. Es handelt sich dabei nicht um ein R Paket, sondern um ein Set von R-Instanzen, die sich in Docker Containern befinden. Eddelbuettels Kern-Anwendungsszenario ist das Testing. Mit Hilfe von Docker lässt sich Code automatisiert auf unterschiedlichen R Versionen testen. Rocker lässt sich leicht erweitern –  sei es für spezielle Einsatzszenarien oder generelle Anwendungsfälle, die dann über den Docker Hub veröffentlicht werden können.

Ein anderes interessantes Anwendungsfeld von Docker ist die Reproduzierbarkeit von Analysen. Mit Docker lassen sich Skripte für bestimmte R-Versionen inklusive aller verwendeter Pakete in den verwendeten Versionen in einen Container packen und archivieren. Docker bietet damit eine weitere Alternative zu den gängigen Ansätzen Packrat von RStudio und checkpoint von Revolution Analytics.

Statistical analysis of Network data (Gábor Csárdi)

Netzwerke sind heutzutage allgegenwärtig. Beispiele hierfür sind die Kontakte in sozialen Netzwerken wie Facebook oder Twitter, Verlinkungen von einer Internetseite zur anderen oder der Verkehrsflussfluss zwischen Flughäfen. Gábor Csárdi, Maintainer des weitverbreiteten igraph-Pakets, hat mit seinem Tutorial einen spannenden Überblick darüber gegeben, wie sich die vielzähligen Verbindungen und Strukturen innerhalb eines Netzwerks mit den Methoden der Netzwerkanalyse untersuchen lassen.
Zu Beginn des Tutorials wurden verschiedene Datenstrukturen zur Repräsentation von Netzwerkdaten vorgestellt. Im zweiten Teil lag der Fokus auf den Methoden, mit denen sich die Struktur des Netzwerks beschreiben lassen. Welche Knoten sind besonders gut vernetzt? Über wie viele Ecken sind die Knoten in einem Netzwerk miteinander verknüpft? Die Netzwerkanalyse mit R gibt Antworten auf diese Fragestellungen.
Anschließend wurden verschiedene Ansätze präsentiert, mit denen sich Gruppen innerhalb eines Clusters identifizieren lassen. Zum Abschluss gab Csárdi einen kurzen Überblick über die Visualisierung von Netzwerken.

Alles in allem gab das Tutorial einen guten Einblick in die zentralen Begriffe der Netzwerkanalyse und hat Lust auf mehr gemacht.

Weiterlesen