Data Mining Demo: Modellbildung und Prognose mit R und Exasol

Im Folgenden finden Sie ein einfaches Data Mining Demo, das Modellbildung und Prognose in der Verbindung von R und Exasol zeigt. Falls Sie die Installation und Konfiguration der benötigten Komponenten noch nicht vollzogen haben, finden Sie die Anleitung dazu hier.

# Laden der benötigten Pakete
library(RODBC)
library(exasol)
library(rredis)
library(magrittr)
library(stringi)
library(rpart)
library(partykit)

# Verbindung zu Exasol und Redis herstellen
con < - odbcConnect("exasol_vm")
redisConnect("172.20.248.13")

# Erstellen eines Zufallszahlen-Vektors für die Stichprobenziehung
rnd <- rnorm(nrow(iris))

# Anfügen der Gruppenvariable (Training/Validierung)
iris$groups <- factor(NA, levels = c("Train", "Valid"))

# Nach Spezies geschichtete Zufallsziehung: 70% Training, 30% Validierung
for(i in unique(iris$Species)) {
  logVec <- iris$Species == i
  iris$groups[logVec] <- ifelse(test = rnd[logVec] > quantile(rnd[logVec], 
                                                                 probs = 0.3),
                                yes = "Train",
                                no = "Valid") 
}

# Überprüfung der Stichprobenziehung
table(iris$groups, iris$Species)

# Workspace aufräumen
rm(rnd, logVec, i)

Die iris Daten werden jetzt in die Exasol geschoben. Bei der ersten Verwendung wird zunächst ein Datenbankschema erstellt und eine leere Tabelle. Anschließend werden die iris Daten in die Tabelle geschoben. Sind die Daten einmal hochgeladen, können Sie immer wieder verwendet werden.

# Datenbankschema mit dem Namen <em>my_schema</em> erstellen
odbcQuery(con, "create schema my_schema")

# Erstellen der leeren Tabelle unter dem Namen <em>irisdb</em>
odbcQuery(con, "create or replace table my_schema.irisdb(
          SepalLength DOUBLE, 
          SepalWidth DOUBLE, 
          PetalLength DOUBLE, 
          PetalWidth DOUBLE, 
          Species CHAR(20),
          Groups CHAR(20));")

# Hochladen der <em>iris</em> Daten in die Exasol
exa.writeData(con, data = iris, tableName = "my_schema.irisdb")

Im ersten Analyseschritt wird lokal ein Entscheidungsbaum erstellt. Auf Basis dieses Baums wird anschließend eine Prognose erstellt.

# Erstellen eines Trainings- und eines Validierungsdatensatzes
train < - subset(iris, subset = groups == "Train", select = -groups)
valid <- subset(iris, subset = groups == "Valid", select = -groups)

# Erstellen des Entscheidungsbaums mit den Trainingsdaten
localTree <- rpart(Species ~ ., data = train)

# Visualisierung des Baums
plot(as.party(localTree))

# Prognose Validierungsdaten mit Hilfe des Baums 
pred <- predict(localTree, type = "class", newdata = valid)

# Prognose überprüfen
table(pred, valid$Species, dnn = c("Vorhersage", "Tatsächlich")) %>% 
  addmargins()

Das selbe Vorgehen wie oben jetzt in der Exasol. Die exa.script Funktion erstellt ein R Skript auf dem Exasol Server. Der Aufruf dieser Funktion führt das Skript auf den Exasol Clustern aus. D.h. die Analyse findet nicht mehr auf dem lokalen R statt, sondern auf den R Instanzen im Exasol Cluster. Pakete, die auf den R Instanzen auf der Exasol verwendet werden, müssen dort installiert sein. Siehe dazu diesen Blogbeitrag.

Data Mining Demo: Modellbildung und Prognose mit R und Exasolweiterlesen

R und Exasol: Installation und Konfiguration der benötigten Komponenten

Im Folgenden finden Sie eine Step-by-Step Anleitung zur Installation und Konfiguration aller benötigten Komponenten für die Verbindung von R mit der Exasol Community Edition in einer Windows Umgebung. Der Blogbeitrag basiert auf einem Webinar vom 13.05.2016, auf das wir an dieser Stelle in Kürze verlinken. Falls Sie einige Komponeten bereits im Einsatz haben, können Sie den jeweiligen Installationsschritt einfach überspringen.

R und RStudio

Zunächst muss R installiert werden. Die aktuelle Version finden Sie zum Beispiel unter  https://cran.uni-muenster.de/. Bei der Installation können Default Einstelllungen beibehalten werden. R bringt zwar eine kleine IDE mit, diese ist jedoch sehr spartanisch ausgestattet. Daher ist es empfehlenswert, eine eigenständige IDE zu verwenden. Derzeit ist RStudio für die meisten Anwendungsfälle die beste Wahl. Der Installer findet sich unter https://www.rstudio.com/products/rstudio/download/.

Bei der Installation wird die Verbindung zu R automatisch hergestellt. Wenn nach dem Start von RStudio im Konsolenfenster eine Startmessage von R zu sehen ist und eine Eingabeaufforderung mit einem „>“, dann ist RStudio bereit. Bevor es mit RStudio weitergeht, müssen noch weitere Komponenten installiert werden.

Exasol Free Edition

Die Exasol Free Edition wird als Virtuelle Maschine (VM) ausgeliefert. Um sie zu starten, wird eine Virtualisierungssoftware benötigt. Dazu bietet sich die VirtualBox an, die von Oracle kostenlos zur Verfügung gestellt wird: https://www.virtualbox.org/wiki/Downloads. Virtual Box for Windows hosts unter VirtualBox platform packages ist die richtige Variante.

Ist die VirtualBox installiert, muss noch die Community Edition der Exasol als geladen werden. Diese findet sich hier: https://www.exasol.com/portal/display/DOWNLOAD/Free+Trial. Nach dem Download wird die VM in die Virtual Box importiert. Dazu in der Virtual Box auf Datei –> Appliance importieren klicken und den Download der Exasol Community Edition auswählen. Dieser befindet sich meist im Standarddownloadverzeichnis des Webbrowsers, mit dem die Exasol Community Edition heruntergeladen wurde. Der Import kann einige Minuten dauern.

Ist der Import fertig, muss noch eine Einstellung geändert werden. Dazu die Exasol in der Virtual Box einmal anklicken, so dass der Eintrag blau hinterlegt ist und dann auf Ändern klicken.

Screeshot 1

R_und_Exasol_1

Im aufpoppenden Dialog auf Netzwerk und dort Angeschlossen an auf Netzwerkbrücke setzen. Außerdem den Hacken bei Netzwerkadapter aktivieren setzen und mit OK bestätigen.

Screenshot 2

R_und_Exasol_2

Jetzt kann die Exasol per Doppelklick oder über den Starten Button gebootet werden. Nach einiger Zeit erscheint ein Fenster, dass zwei IP Adressen anzeigt. Die Erste (DB connection string) wird für die Verbindung mit R benötigt. Über die Zweite (EXAoperation URL) lässt sich die Exasol Administrationsoberfläche erreichen.

R und Exasol: Installation und Konfiguration der benötigten Komponentenweiterlesen

CeBIT 2016: Data Science ist in den Unternehmen angekommen

Daten sind der Rohstoff des 21. Jahrhunderts – dies ist eine der Kernaussagen von Bundeskanzlerin Angela Merkel und Wirtschaftsminister Sigmar Gabriel im Vorfeld der CeBIT 2016. Mit einem Technologieprogramm zum Thema Smart Data unterstützt die Bundesregierung aktiv datengestützte Technologien „Made in Germany“.

Die CeBIT 2016 zeigte: Das politische Engagement rund um die Schlagworte Big Data und Data Science trifft immer mehr auf ein starkes Echo aus den deutschen Unternehmen. Timm Peters von der Digital Analytics Association Germany beschrieb es in einem Vortrag treffend als das zunehmende Bewusstsein, dass Daten nicht mehr wegzudenken sind. Data Science kommt auch in deutschen Unternehmen zunehmend im Top Management an – als logische Konsequenz des enormen Wertschöpfungspotenzials, das die intelligente Analyse der exponentiell steigenden Datenberge bietet. Für das Jahr 2026 wird der weltweite Umsatz für Big Data Lösungen auf über 85 Mrd. Dollar geschätzt.

Anwendungsfelder in allen Branchen

Die digitale Transformation war das zentrale Thema der diesjährigen CeBIT, der richtige Umgang mit Daten dabei die Kernanforderung. Die in Hannover vorgestellten Use Cases sind mindestens genauso vielfältig wie die Daten selbst. Von der vorausschauenden Instandhaltung in der Industrie über die optimale Kundenansprache im Marketing bis zum Smart Farming – das Thema Data Science ist in nahezu allen Branchen und Unternehmen fast jeder Größe auf dem Vormarsch.

Diese Entwicklung ist nötig, um den Anschluss an den internationalen Wettbewerb nicht zu verlieren und dem allgemeinen Urteil entgegen zu wirken, dass Deutschland den digitalen Wandel zunehmend verschläft.

„CeBIT 2016: Data Science ist in den Unternehmen angekommen“ weiterlesen

eoda erschließt R für den professionellen Einsatz im Unternehmen

Der Datenanalysespezialist unterstützt die R-Integration und Anwender mit seinem modularen Framework operateR und professionellem Support.

Data Science ist die Schlüsselkompetenz im Zeitalter der digitalen Transformation. IT-Systeme in Unternehmen nahezu aller Branchen produzieren tagtäglich riesige Datenmengen. Immer mehr Unternehmen erkennen, dass ihre Wettbewerbsposition nur durch Datenanalyseteams erhalten und verbessert werden kann.

Untrennbar verbunden ist dies mit dem Einsatz der richtigen Analysesoftware. Die Anforderungen sind komplex: eine Vielzahl statistischer Methoden, das Zusammenspiel mit der bestehenden IT-Landschaft, vielfältige Datenstrukturen und unternehmensspezifische Fragestellungen. Die Programmiersprache R erfüllt alle diese Anforderungen und gehört daher seit Jahren zu den beliebtesten Tools zur Datenanalyse.

eoda erschließt R für das Business

R ist Open Source: Eine freie Programmiersprache im professionellen Unternehmenseinsatz, mit einer großen Community, aber in der Vergangenheit lange ohne professionellen Support. Das hat sich geändert – der Kasseler Datenanalyseexperte eoda, seit Jahren auf R spezialisiert, erschließt mit einer Erweiterung seines Portfolios die Programmiersprache für das produktive
Unternehmensumfeld.

operateR und R-Support von eoda
eoda erschließt R für das produktive Unternehmensumfeld.

Modulares Framework und zuverlässiger Support

eoda | operateR ist ein modulares Framework, das den professionellen Betrieb von Open Source R im Unternehmen ermöglicht – eine Kombination aus Tools, Methoden, Prozessen, Best Practice Ansätzen und Know-how. Ob Versionsverwaltung, Paketmanagement, Dokumentation oder Testing – das Framework kombiniert die wichtigen Bausteine, um standardisierte Workflows im Unternehmen zu schaffen.

„eoda erschließt R für den professionellen Einsatz im Unternehmen“ weiterlesen

[R] Kenntnis-Tage 2016: Mastering the Digital Transformation with R and Analytics

“Digital transformation is happening now.” This is not only the message of this year’s CeBIT, but also illustrates the actuality of digital change in the business environment. Data analysis is an essential component of digital transformation and enables among other things predictive maintenance within the context of Industry 4.0 initiatives.

R Kenntnis-Tage Logo

The programming language R as lingua franca of data analysis forms the core of the “[R] Kenntnis-Tage” ([R] Knowledge Days) 2016. This event is organized by data specialist eoda and takes place in Kassel (Germany) on 2 to 3 November 2016.

On these two days, the [R] Kenntnis-Tage combine various topics for use cases such as data mining, predictive analytics or data visualisation with stimulating networking and insightful real-life success stories.

Especially the exchange across different sectors and topics offers participants valuable best practice approaches for their own performance requirements. Therefore, eoda is asking users, developers, administrators and IT decision makers to submit topics for presentations with their call for papers.

„[R] Kenntnis-Tage 2016: Mastering the Digital Transformation with R and Analytics“ weiterlesen

Performantes Machine Learning mit R und H2O

Zum richtigen Zeitpunkt am richtigen Ort in New York die optimale Anzahl an Leihfahrrädern verfügbar haben. In Millionen von Daten des New Yorker Fahrradverleihers Citi Bike lassen sich mit Machine Learning Verfahren Muster und Gesetzmäßigkeiten erkennen, die Aufschluss über das Nutzungsverhalten der Kunden geben.

Was sind die meist frequentierten Ausleihstationen? Wann werden die meisten Fahrräder ausgeliehen? Was sind die beliebtesten Routen der New Yorker?

Mit Hilfe von Verfahren des maschinellen Lernens lassen sich diese Fragen beantworten und darüber hinaus Zukunftsprognosen erstellen, um für die Kunden das optimale Angebot bereitstellen zu können.

Performancevorteile für R-User

Eine der derzeit besten Alternativen für das Machine Learning ist das Open Source Projekt H2O. Die Lösung des gleichnamigen kalifornischen Unternehmens verfügt über ein R-Interface und ermöglicht den Anwendern der freien Programmiersprache Vorteile in puncto Performance. Die in H2O verfügbaren Funktionen und Algorithmen sind sehr performant und damit eine gute Alternative für das bereits standardmäßig in den R-Paketen verfügbare Funktionsset.

„Performantes Machine Learning mit R und H2O“ weiterlesen

[R] Kenntnis Tage 2016: Mit R und Analytik die digitale Transformation meistern

„Die digitale Transformation ist da.“ Das ist nicht nur die Botschaft der diesjährigen CeBIT, sondern die auf den Punkt gebrachte Aktualität des digitalen Wandels im Unternehmensumfeld. Datenanalyse als wichtiger Baustein der digitalen Transformation ermöglicht unter anderem vorausschauende Wartung im Rahmen von Industrie 4.0 Initiativen.

Die Programmiersprache R als lingua franca der Datenanalyse steht im Zentrum der [R] Kenntnis-Tage, die vom 02. bis 03. November 2016 in Kassel stattfinden, ausgerichtet vom Datenanalysespezialisten eoda.

R Kenntnis-Tage Logo

Die [R] Kenntnis-Tage vereinen an zwei Tagen vielfältige Themen für Anwendungsfälle wie Data Mining, Predictive Analytics oder Datenvisualisierung mit anregendem Networking und aufschlussreichen Success Stories aus der Praxis.

„[R] Kenntnis Tage 2016: Mit R und Analytik die digitale Transformation meistern“ weiterlesen

Training for the big data era: eoda publishes R Academy programme for 2016

The data analysis specialist eoda presents the programme of the R Academy for 2016. The R Academy is the comprehensive training concept for the open-source programming language R. It offers users a modular course structure covering the topics R and data analysis – either in Kassel (Germany) or as on-site training. More than 1,000 satisfied participants have already used the eoda Training.

Attractive course programme with focus on professional use of R

R is considered one of the best solutions for analysing and visualizing data, data mining and business intelligence. More and more companies in the German-speaking area are making use of the potential of R for their data-assisted processes – from sales forecast to predictive maintenance to risk analysis. “The practical requirements with regard to performance, reproducibility or maintainability of the scripts have as well been taken into account for the conception of our new course programme as methodical developments in the field of R”, Katharina Heidelbach, responsible product manager at eoda, explains. „Training for the big data era: eoda publishes R Academy programme for 2016“ weiterlesen

Schulungen für das Big-Data-Zeitalter: eoda veröffentlicht R-Akademie Programm 2016

Der Datenanalysespezialist eoda stellt das Kursprogramm der R-Akademie für das Jahr 2016 vor. Die R-Akademie ist das umfassende Schulungsprogramm für die freie Programmiersprache R. Für die Anwender eröffnet sich ein modulares Kursangebot rund um die Themen R und Datenanalyse – in Kassel oder Inhouse. Über 1.000 zufriedene Teilnehmer haben das Schulungsangebot von eoda bereits für sich genutzt.

Attraktives Kursprogramm mit Fokus auf die professionelle Nutzung von R

R gilt als eine der besten Lösungen zur Analyse und Visualisierung von Daten, für Data Mining und Business Intelligence. Auch im deutschsprachigen Raum nutzen immer mehr Unternehmen das Potential von R für ihre datengestützten Prozesse – von der Absatzprognose, über die vorausschauende Instandhaltung bis zur Risikoanalyse. „Die Anforderungen in der Praxis hinsichtlich Performance, Reproduzierbarkeit oder der Wartbarkeit der Skripte haben wir bei der Konzeption unseres neuen Kursprogramms genauso aufgegriffen wie methodische Weiterentwicklungen im Umfeld von R“ erklärt Katharina Heidelbach, zuständige Produktmanagerin bei eoda.

„Schulungen für das Big-Data-Zeitalter: eoda veröffentlicht R-Akademie Programm 2016“ weiterlesen

Next Meetup of the Kasseler useR Group on November 11, 2015: Data analysis with R

The next meeting at 6.30pm on November 11 will revolve around the subject “data analysis with R”. Experienced R users will present the topics “cluster analysis” and “Hidden Markov models”. It will take place at the Science Park Kassel.

The lecture on cluster analysis by Andreas Wygrabek will deal with different algorithms and the procedure of classification. Jens Bruno Wittek will present the implementation of Hidden Markov models in R and show practical examples of application.

The useR Group is looking forward to many participants and additional lectures on the topic “data analysis with R”.

Please sign up here if you would like to join: http://www.meetup.com/Kassel-useR-Group/

Datenanalyse mit R ist das Thema im nächsten Meetup der Kasseler useR Group

„Next Meetup of the Kasseler useR Group on November 11, 2015: Data analysis with R“ weiterlesen