Schlagwort-Archiv: Einstieg in R

Data Mining mit R – Kurs im Mai

Data Mining steht für das hypothesenfreie Extrahieren von  Erkenntnissen aus Daten. Statistische und mathematische Verfahren werden auf Datenbestände angewendet, um bestehende Muster und Zusammenhänge aufzudecken.

Data Mining Verfahren stellen i.d.R. geringe Anforderung an das Meßniveau der Daten (kategorial, ordinal, metrisch) und sind in der Lage komplexe nicht-lineare Zusammenhänge zu erkennen.

Konkrete Anwendung findet Data Mining beispielsweise bei der Erstellung von Prognose-Modellen, in der Zielgruppenanalyse, der Warenkorbanalyse, für Empfehlungsdienste und vielem mehr.

Im Rahmen der R-Akademie von eoda, einem ganzheitlichen Trainingsprogramm für die Statstiksprache R bieten wir am 28/29 Mai ein Training „Data Mining mit R“ an.

Folgende Methoden sind Teil des Kursprogramms:

  •   Regressions- und Klassifikationsbäume
  •   RandomForest
  •   Künstliche Neuronale Netze
  •   Support Vector Machines
  •   K-Means Cluster

Die Anwendung der Data Mining Verfahren wird anhand von praxisnahen Beispielen erlernt. Im Kurs wird sowohl die Erstellung von Data Mining-Skripten als auch die Bedienung der graphischen Benutzeroberfläche „Rattle“ erlernt. Ziel des Kurses ist es, die Teilnehmer in die Lage zu versetzen, das Gelernte selbständig auf ihre jeweiligen Anwendungszwecke zugeschnitten anzuwenden.

Der Kurs findet am 28/29 Mai in unseren Räumen in Kassel statt. Die Teilnehmerzahl ist begrenzt, weswegen sich eine rechtzeitige Anmeldung empfiehlt.

Data Mining mit R

“We are drowning in information, but starving for knowledge” – der Zukunftsforscher John Naisbitt trifft damit einen wichtigen Punkt aktueller unternehmerischer Fragen. Computertechnologien und vergrößerte Speicher erlauben es Unternehmen, riesige Mengen an Daten anzuhäufen. Oftmals haben die Entscheider aus Vertrieb, Logistik und Marketing jedoch keine Vorstellung davon, welche Art der Information in ihren Daten stecken und wie diese herauszufiltern sind. Das eigentliche  Potenzial der Ressource Daten bleibt in den meisten Fällen unausgeschöpft. Die entscheidende Frage für Unternehmen lautet: Wie lassen sich Informationen aus den Daten entlocken und in Wissen umwandeln? Eine Antwort darauf bieten Data Mining Verfahren. Data Mining mit R ist vor diesen Hintergrund eine interessante Alternative aus verschiedenen Gründen.

Mittels Data Mining Verfahren werden Daten auf ihre inneren Strukturen, Assoziationen und Muster untersucht. Ein breites Methodenset erkennt implizite Zusammenhänge, ermöglicht es Prognosen über Absatzzahlen zu treffen, Kunden zu Clustern und Kaufverhalten zu analysieren. R vollzieht hierbei den Brückenschlag zwischen modernster Methodik und Anwendungsintegration. Auf diese Weise ermöglicht R schnell und zu vergleichsweise günstigen Gesamtkosten einen hohen praktischen Nutzen zu stiften. Weiterlesen

Termine der R-Akademie in 2012

eoda hat für das laufende Jahr ein interessantes Kursprogramm zum Thema „R“ zusammengestellt.

R etabliert sich neben den kommerziellen Softwarelösungen SPSS, Stata und SAS, zunehmend – auch in Deutschland – als alternative Plattform zur Datenanalyse. R wird gleichermaßen von Wissenschaftlern als auch Praktikern in den Unternehmen eingesetzt.

Die R-Akademie von eoda ist ein modulares Kursprogramm für die Statistikumgebung R mit regelmäßigen Veranstaltungen. Unsere Trainer arbeiten seit über 10 Jahre in der Datenanalyse. Unsere Trainings zu R an Universitäten und Graduiertenzentren werden regelmäßig sehr gut bewertet.

R Akademie - Modulares Kursprogramm für R

R Akademie - Modulares Kursprogramm für R

Hier finden Sie eine Auswahl unserer Referenzen, die Themen- sowie Termin-Übersicht für 2012.

Möglichkeiten der Datenvisualisierung mit R

Um Daten Wissen zu entlocken, erfolgen in der Regel immer drei Schritte:

  1. Daten aufbereiten
  2. Daten analysieren
  3. Ergebnisse visualisieren

Dabei kann die Reihenfolge auch anders herum sein, wie bei der grafischen Datenanalyse. Medienbrüche zwischen diesen drei Prozessschritten sorgen regelmäßig für Fehler und zusätzliche Aufwände. Vor diesem Hintergrund liegt ein großer Vorteil von R in den schier unendlichen Möglichkeiten zur Datenvisualisierung als Ergänzung zur Datenaufbereitung und Analyse.

Die Möglichkeiten zur Visualisierung von Analyseergebnissen übertreffen alle bekannten Werkzeuge zur Datenanalyse bei Weitem. Aufgrund der Tatsache, dass sich jedes Objekt – letztendlich jeder Pixel – einer Grafik direkt mit den Analyseergebnissen verbinden lässt, sind die einzigen Restriktionen zur Visualisierung von Daten die Kreativität und das Know-how des Anwenders. Werden alle drei Schritte in R abgewickelt, lassen sich einfach Workflows für wiederkehrende Visualisierungen bspw. für Reporting erstellen.

Das Prinzip „Schlankes Kernsystem R“ + spezialisierte Pakete funktioniert auch für die Grafikerstellung sehr gut. Auch hier entwickeln Spezialisten in ihrem Fach die Software (weiter). Zu erwähnen sind dabei vor allem die beiden Pakete ggplot2 oder lattice.

An dieser Stelle sollen exemplarisch drei verschiedene Diagrammarten dargestellt werden, die gerne genutzt werden, sich aber mit den üblichen Standardprogrammen nur sehr mühsam erzeugen lassen.

Profilliniendiagramm

Ein Profilliniendiagramm bzw. Polaritätendiagramm ist eine besondere Form eines Liniendiagramms bei dem die Linie(n) vertikal statt horizontal verlaufen. In der Marktforschung und der Psychologie sind solche Grafiken weit verbreitet. Sie eignen sich besonders für die differenzierte Darstellung von Produkten oder Marken hinsichtlich verschiedener Merkmale oder Eigenschaften, aber auch für die Abbildung von Kompetenzprofilen.
In R lässt kann eine solche Grafik mit Hilfe weniger Zeilen Code erstellt werden.

###############################################################################################################
 
# Profilliniendiagramm.
# Jede Profillinie wird per Koordinaten gezeichnet, d.h. jeder Mittelwert wird mit dazugehörigem y-Wert angebeben
# xlim und ylim geben die Größe der Grafik vor bzw. das Koordinatensystem
plot(x = c(1:1), type="n", ylim=c(1,10),xlim=c(1,5), frame.plot=F, xlab="", ylab="", yaxt="n", xaxt="n", main="Bewertung der Marken XYZ hinsichtlich folgender Merkmale", fg="blue")
# Einzeichnen der horizontalen und vertikalen Hilfslinien, vorher festlegen der Range von x und y
y

Wasserfalldiagramm

Ein Wasserfalldiagramm ist eine Abwandlung eines gestapelten Säulendiagramms. Wasserfalldiagramme bieten sich besonders an, um relative Veränderungen oder aufeinander aufbauende Prozesse anschaulich darzustellen.

In R funktioniert diese Darstellungsweise indem die Koordinaten der Säulen, die gezeichnet werden sollen, vorgegeben werden.

Die unten stehende Grafik zeigt die Entwicklung der Tagesgeldverzinsung nach Jahren. Die Säulen zeigen die Differenz des Mittelwertes der jährlichen Verzinsung im Vergleich zum Mittelwert des Vorjahres. Eine rote Säule zeigt eine negative Veränderung an, eine grüne eine positive.

 

# Waterfallchart by eoda
 
# Einbinden der notwendigen Pakete
library(ggplot2)
 
# Historische Tagesgeld-Zinsen von der Budensbank einlesen
 
Tagesgeld = read.csv("http://www.bundesbank.de/statistik/statistik_zeitreihen_download.php?func=directcsv&from=&until=&filename=bbk_SU0101&csvformat=de&euro=mixed&tr=SU0101", sep = ";", head=TRUE)
 
# Rohdaten aufbereiten
Tagesgeld0, "Plus", "Minus")
Agg[1,8]
Darstellung des Tagesgeldzinsverlaufs als Wasserfalldiagramm mir R

Darstellung des Tagesgeldzinsverlaufs als Wasserfalldiagramm mir R

Heatmap

Eine besondere Darstellungsweise, die in der letzten Zeit sehr populär geworden ist (beispielsweise über die Visualisierung von Fußballern und deren Laufwegen), sind sogenannte Heatmaps.

Heatmaps eignen sich besonders, um mehrdimensionale Daten übersichtlich darzustellen. In R lassen sich solche Grafiken mit Hilfe von ggplot2 einfach erstellen.

Die Beispielgrafik unten zeigt die relative Entwicklung des DAX Kurses im Jahr 2009. Auf der X-Achse sind die Kalenderwochen angeordnet und auf der Y-Achse findet man die Wochentage, an denen die DAX-Papiere gehandelt wurden. Je kräftiger ein Feld grün gefärbt ist, desto höher ist der prozentuale Gewinn des DAX-Kurses im Vergleich zum Vortag. Analog dazu verhält sich die Rotfärbung eines Feldes in Bezug auf den prozentualen Verlust.

 

Heatmap der Handelstage und Verlaufskurve des Dax

Heatmap der Handelstage und Verlaufskurve des Dax

Die Visualisierung von Analyse-Ergebnissen sowie die Erstellung interaktiver Grafiken mit R ist Thema einer eigenen Veranstaltung im Rahmen der R-Akademie.

R-Akademie wird sehr gut bewertet

„Datenanalyse mit R“ stand ganz oben auf der Agenda der Einführungsveranstaltung der R-Akademie. Teilnehmer aus verschiedenen Branchen und Fachgebieten nahmen an der Weiterbildungsveranstaltung zur Statistik-Software R teil. So waren unter anderem Maschinenbauer, Stadtplaner, Nanostrukturwissenschaftler oder Softwareentwickler mit von der Partie. Auch das Karrierelevel der Teilnehmer war sehr unterschiedlich und reichte von Doktoranden bis hin zum Referatsleiter. Das breite Teilnehmerspektrum zeigt, wie sich R neben den kommerziellen Softwarelösungen SPSS, Stata und SAS, zunehmend als Standardsoftware für Datenanalyse sowohl in der Wissenschaft als auch in der freien Wirtschaft etabliert. Weiterlesen

Kasseler useR-Group gegründet

 

Vor allem in den USA treffen sich die Nutzer von R zum regelmäßigen Austausch in sogenannten “useR-Groups”. Weltweit nehmen tausende R-User an den Vortrags- und Arbeitstreffen teil. In Deutschland ist diese Form des Expertenaustausch noch relativ selten zu finden: So ist die Kasseler useR-Group, die von eoda gesponsort wird, schnell zu einer der aktivsten Gruppen in Deutschland geworden.
Die Gruppe trifft sich regelmäßig in Kassel und steht allen R-Interessierten offen. Thema des letzten Treffens war beispielweise Datensimulation und Visualisierung mit ggplot2. Die Teilnahme ist kostenlos.

Zur Kasseler useR-Group