Beispiele für Big Data – “real world cases”

Bereits 2001 sprach Doug Laney (damals META Group, heute Gartner) das erste Mal von „Big Data“.

Zurzeit erfährt das Thema einen regelrechten Hype. Unternehmen sehen sich zunehmend mit einer großen Menge an Daten konfrontiert. Auch in anderen Bereichen, zum Beispiel in Wissenschaft und Politik, wachsen die vorhandenen Datenmengen rasant.

Bietet die zunehmende Menge an Daten auch ein entsprechendes Potential an Nutzen? Und wie lässt sich das Wissen der Daten erschließen und welche Ergebnisse kann man erwarten?

David Smith, Vice President of Marketing and Community bei Revolution Analytics, hat  interessante aktuelle Beispiele zusammengestellt, die aufzeigen, wie mit professioneller Datenanalyse große Datenmengen “zum Sprechen” gebracht werden und Wissen aus Daten generiert wird. In allen Fällen ist R das Werkzeug, mit dem die Daten analysiert werden.

•    Drew Conway, Doktorand der New York University, hat große Mengen Wikileaks-Daten ausgewertet und so Muster in den Aktivitäten der amerikanischen Truppen in Afghanistan erkennbar gemacht. Bestimmte Annahmen konnten mit seinen Ergebnissen bestätigt werden, zum Beispiel dass die Kämpfe saisonalen Schwankungen unterliegen.

•    Die Non-Profit-Organisation Benetech hat im Auftrag von Amnesty International und Human Rights Watch einen riesigen Fundus an Geheimakten der guatemaltekischen Nationalpolizei ausgewertet. Mithilfe der Analysen konnte ein Genozid während des guatemaltekischen Bürgerkriegs zwischen 1960 und 1996 nachgewiesen werden.

•    Der Statistiker und Baseball-Fan Bill James hat die quantitative statistische Analyse bei der Bewertung der Leistung von Baseballspielern eingeführt. Grundlage sind dabei objektive Beweismittel, zum Beispiel wie viele Runs ein Spieler im Laufe einer Saison erzielt. James‘ Methode ist mittlerweile bekannt als „Sabermetrics“.

•    Die US-Regierung hat während der Ölpest im Golf von Mexiko im Jahr 2010 das Statistikprogramm R genutzt, um die Frequenz, mit der Öl ausströmt, möglichst exakt zu bestimmen. Die Gegenmaßnahmen konnten so gezielt auf den Ölfluss abgestimmt werden.

•    Das Unternehmen CardioDX, das auf die Untersuchung von Genomen spezialisiert ist, hat einen Test entwickelt, mit dem es über 100 Millionen Genproben analysieren konnte. So konnten die 23 Gene herausgefiltert werden, an denen frühzeitig eine Störung der Herzarterien erkannt werden kann. Der Test ist nun bekannt als „Corus CAD Test“ und gilt laut Time magazin als einer der „Top 10 Medical Breakthroughs“ in 2010.

 

Termine der R-Akademie in 2012

eoda hat für das laufende Jahr ein interessantes Kursprogramm zum Thema „R“ zusammengestellt.

R etabliert sich neben den kommerziellen Softwarelösungen SPSS, Stata und SAS, zunehmend – auch in Deutschland – als alternative Plattform zur Datenanalyse. R wird gleichermaßen von Wissenschaftlern als auch Praktikern in den Unternehmen eingesetzt.

Die R-Akademie von eoda ist ein modulares Kursprogramm für die Statistikumgebung R mit regelmäßigen Veranstaltungen. Unsere Trainer arbeiten seit über 10 Jahre in der Datenanalyse. Unsere Trainings zu R an Universitäten und Graduiertenzentren werden regelmäßig sehr gut bewertet.

R Akademie - Modulares Kursprogramm für R

R Akademie - Modulares Kursprogramm für R

Hier finden Sie eine Auswahl unserer Referenzen, die Themen- sowie Termin-Übersicht für 2012.

Möglichkeiten der Datenvisualisierung mit R

Um Daten Wissen zu entlocken, erfolgen in der Regel immer drei Schritte:

  1. Daten aufbereiten
  2. Daten analysieren
  3. Ergebnisse visualisieren

Medienbrüche zwischen diesen drei Prozessschritten sorgen regelmäßig für Fehler und zusätzliche Aufwände. Vor diesem Hintergrund liegt ein großer Vorteil von R in den schier unendlichen Möglichkeiten zur Datenvisualisierung als Ergänzung zur Datenaufbereitung und Analyse.

Die Möglichkeiten zur Visualisierung von Analyseergebnissen übertreffen alle bekannten Werkzeuge zur Datenanalyse bei Weitem. Aufgrund der Tatsache, dass sich jedes Objekt – letztendlich jeder Pixel – einer Grafik direkt mit den Analyseergebnissen verbinden lässt, sind die einzigen Restriktionen zur Visualisierung von Daten die Kreativität und das Know-how des Anwenders. Werden alle drei Schritte in R abgewickelt, lassen sich einfach Workflows für wiederkehrende Visualisierungen bspw. für Reporting erstellen.

Das Prinzip „Schlankes Kernsystem R“ + spezialisierte Pakete funktioniert auch für die Grafikerstellung sehr gut. Auch hier entwickeln Spezialisten in ihrem Fach die Software (weiter). Zu erwähnen sind dabei vor allem die beiden Pakete ggplot2 oder lattice.

An dieser Stelle sollen exemplarisch drei verschiedene Diagrammarten dargestellt werden, die gerne genutzt werden, sich aber mit den üblichen Standardprogrammen nur sehr mühsam erzeugen lassen.

Profilliniendiagramm

Ein Profilliniendiagramm bzw. Polaritätendiagramm ist eine besondere Form eines Liniendiagramms bei dem die Linie(n) vertikal statt horizontal verlaufen. In der Marktforschung und der Psychologie sind solche Grafiken weit verbreitet. Sie eignen sich besonders für die differenzierte Darstellung von Produkten oder Marken hinsichtlich verschiedener Merkmale oder Eigenschaften, aber auch für die Abbildung von Kompetenzprofilen.
In R lässt kann eine solche Grafik mit Hilfe weniger Zeilen Code erstellt werden.

###############################################################################################################
 
# Profilliniendiagramm.
# Jede Profillinie wird per Koordinaten gezeichnet, d.h. jeder Mittelwert wird mit dazugehörigem y-Wert angebeben
# xlim und ylim geben die Größe der Grafik vor bzw. das Koordinatensystem
plot(x = c(1:1), type="n", ylim=c(1,10),xlim=c(1,5), frame.plot=F, xlab="", ylab="", yaxt="n", xaxt="n", main="Bewertung der Marken XYZ hinsichtlich folgender Merkmale", fg="blue")
# Einzeichnen der horizontalen und vertikalen Hilfslinien, vorher festlegen der Range von x und y
y

Wasserfalldiagramm

Ein Wasserfalldiagramm ist eine Abwandlung eines gestapelten Säulendiagramms. Wasserfalldiagramme bieten sich besonders an, um relative Veränderungen oder aufeinander aufbauende Prozesse anschaulich darzustellen.

In R funktioniert diese Darstellungsweise indem die Koordinaten der Säulen, die gezeichnet werden sollen, vorgegeben werden.

Die unten stehende Grafik zeigt die Entwicklung der Tagesgeldverzinsung nach Jahren. Die Säulen zeigen die Differenz des Mittelwertes der jährlichen Verzinsung im Vergleich zum Mittelwert des Vorjahres. Eine rote Säule zeigt eine negative Veränderung an, eine grüne eine positive.

 

# Waterfallchart by eoda
 
# Einbinden der notwendigen Pakete
library(ggplot2)
 
# Historische Tagesgeld-Zinsen von der Budensbank einlesen
 
Tagesgeld = read.csv("http://www.bundesbank.de/statistik/statistik_zeitreihen_download.php?func=directcsv&from=&until=&filename=bbk_SU0101&csvformat=de&euro=mixed&tr=SU0101", sep = ";", head=TRUE)
 
# Rohdaten aufbereiten
Tagesgeld0, "Plus", "Minus")
Agg[1,8]
Darstellung des Tagesgeldzinsverlaufs als Wasserfalldiagramm mir R

Darstellung des Tagesgeldzinsverlaufs als Wasserfalldiagramm mir R

Heatmap

Eine besondere Darstellungsweise, die in der letzten Zeit sehr populär geworden ist (beispielsweise über die Visualisierung von Fußballern und deren Laufwegen), sind sogenannte Heatmaps.

Heatmaps eignen sich besonders, um mehrdimensionale Daten übersichtlich darzustellen. In R lassen sich solche Grafiken mit Hilfe von ggplot2 einfach erstellen.

Die Beispielgrafik unten zeigt die relative Entwicklung des DAX Kurses im Jahr 2009. Auf der X-Achse sind die Kalenderwochen angeordnet und auf der Y-Achse findet man die Wochentage, an denen die DAX-Papiere gehandelt wurden. Je kräftiger ein Feld grün gefärbt ist, desto höher ist der prozentuale Gewinn des DAX-Kurses im Vergleich zum Vortag. Analog dazu verhält sich die Rotfärbung eines Feldes in Bezug auf den prozentualen Verlust.

 

Heatmap der Handelstage und Verlaufskurve des Dax

Heatmap der Handelstage und Verlaufskurve des Dax

Die Visualisierung von Anlyse-Ergebnissen mit R ist Thema einer eigenen Veranstaltung im Rahmen der R-Akademie.

Über R – Das Potenzial der Datenanalyse-Software

 

Die Dynamik in der Entwicklung um R nimmt zu und unterstreicht damit zugleich Erfolg als auch Potenzial dieser Software zur Datenanalyse. Vor allem in den USA und in Europa greifen immer mehr Wissenschaftler und Datenanalysten in Unternehmen auf R zurück. Auch die Entwickler der Applikationen großer Internet-Firmen wie Google oder Facebook nutzen verstärkt R.

Die wachsende Verbreitung von R lässt sich unter anderem durch zahlreiche Indikatoren belegen, die Robert A. Muenchen zusammen getragen hat.

eoda hat die Veröffentlichungen neuer R-Pakete auf der zentralen Download-Plattform CRAN über die letzten Jahre analysiert. Das Ergebnis belegt ein bisher nie gesehenes, weltweites Engagement einer wissenschaftlichen Entwicklergemeinde. Dabei muss ergänzend berücksichtigt werden, dass es neben CRAN noch weitere Projekte gibt, die R-Pakete veröffentlichen. Das bekannteste Beispiel dafür ist Bioconductor, das auf Pakete im Bereich der Gendatenanalyse spezialisiert ist.

Was macht die Attraktivität von R aus? R unterscheidet sich in einigen Punkten von den Alternativen zur Datenanalyse. Die Summe der Eigenschaften macht R dann einzigartig und wirklich besonders. Ein genaueres Hinschauen lohnt sich vor allem bei den folgenden Aspekten:

  • Leistungsfähigkeit in der grafischen Darstellung,
  • Zeitnahe Verfügbarkeit innovativer Analyseverfahren,
  • Flexibilität: Leichte Einbindungen in bestehende Softwarelandschaften und Programmiersprachen,
  • Nachvollziehbarkeit aller Analyseschritte durch Open Source Paradigma,
  • Interdisziplinäre und internationale wissenschaftliche Entwicklercommunity,
  • Vollwertige Programmiersprache durch Objekt- und Funktionsorientierung,
  • Integration in kommerzielle Data Warehouse Lösungen.

In einer losen Serie werden wir herausstellen, warum R so beliebt ist und was hinter dem Erfolg der Software steckt, über die Norman Nie, einer der Gründer von SPSS, und jetzige CEO von Revolution Analytics sagt: „R is the most powerful and flexible statistical programming language in the world.”

R-Akademie wird sehr gut bewertet

„Datenanalyse mit R“ stand ganz oben auf der Agenda der Einführungsveranstaltung der R-Akademie. Teilnehmer aus verschiedenen Branchen und Fachgebieten nahmen an der Weiterbildungsveranstaltung zur Statistik-Software R teil. So waren unter anderem Maschinenbauer, Stadtplaner, Nanostrukturwissenschaftler oder Softwareentwickler mit von der Partie. Auch das Karrierelevel der Teilnehmer war sehr unterschiedlich und reichte von Doktoranden bis hin zum Referatsleiter. Das breite Teilnehmerspektrum zeigt, wie sich R neben den kommerziellen Softwarelösungen SPSS, Stata und SAS, zunehmend als Standardsoftware für Datenanalyse sowohl in der Wissenschaft als auch in der freien Wirtschaft etabliert. Weiterlesen

Enterprise Wiki + Business Intelligence = Sales empowerment

Auszeichnung der Lösung von bronz[soft} media architects und eoda für Siemens-Tochter beim „Sales Enablement Best Practice Award 2011“ der Experton Group und der Computerwoche

  • Der Business Intelligence Berater eoda und die Medienarchitekten von bronz[soft} haben für die Siemens IT-Tochter (mittlerweile Atos) ein Portal auf Basis eines Unternehmens Wiki entwickelt, das im Rahmen des “Sales Enablement Best Practice Award 2011” mit Platz 2 ausgezeichnet wurde.
  • Nach Einschätzung des Beratungshauses Experton Group wächst die Anzahl der Produkt- und Marketingdokumente in Großunternehmen pro Jahr um 40%.
  • Frage: Wie sollen Vertriebsmitarbeiter vor diesem Hintergrund effizient auf die wichtigen Informationen zugreifen, um eine umfassende Kundenbetreuung zu garantieren

Schnelle Innovationszyklen, Variantenvielfalt, segmentspezifische Produkte, vielfältige Medientypen – die Gründe für die Zunahme der Informationen im Vertriebs- und Marketing-Umfeld sind vielfältig. Gleichzeitig wächst der Druck auf den Vertrieb, die entsprechenden Inhalte schnell zu bearbeiten und alle relevanten Informationen passend parat zu haben, um die Kunden bestmöglich zu betreuen. Weiterlesen

R entwickelt sich mehr und mehr zur Lingua franca für Big Data

Die neue “Oracle R Enterprise” setzt auf R als Analysesprache

Big Data ist das aktuelle Synonym für alle Ansätze und Technologien, die darauf abzielen, Wissen aus großen Datenmengen zu generieren. R ist eine mächtige Programmiersprache zur Analyse und Visualisierung von Daten.

Bereits im März hatten Revolution Analytics und  IBM Netezza eine Partnerschaft bekannt gegeben. Revolution Analytics, der führende Anbieter von kommerzieller Software für die Statistiksprache R, und Netezza verbinden so die Vorteile beider Lösungen und ermöglichen die Anwendung von R auf der Data Warehouse Appliance von Netezza.

Nun hat auch Oracle auch R in seine Lösungen integriert. Schon bisher konnte man mit dem R Interface to Oracle Data Mining (R-ODM) R-Skripte direkt auf die Daten in Oracle Datenbanken anwenden. Auf der Oracle Openworld in San Francisco wurde jetzt die “Oracle R Enterprise” angekündigt. Nun können vorhanden R-Anwendungen oder ein R-Client direkt auf die Daten in einer Oracle Database 11g angewendet werden.

Weltweit nutzen bereits geschätzte 2 Mio. User R. Die Verbreitung von R nimmt auch in Deutschland stetig zu. Vor allem werden auch verstärkt Nachwuchsfachkräfte an den Universitäten in R ausgebildet. Das Kursangebot für Statistik-Software an deutschen Hochschulen besteht zur Zeit zu mindestens 10% aus R-Kursen.

Das Potenzial von “Big Data” und R hat Paul Butler bereits in Dezember 2010 mit dieser Visualisierung gezeigt:

“The truth is, aside from the addition of the logo and date text, the image was produced entirely with about 150 lines of R code with no external dependencies.” Paul Butler

Highlights der useR! Konferenz 2011

 

In der letzten Woche endete die useR! Konferenz in Coventry. Rund 450 Teilnehmer aus aller Welt diskutierten über neue Pakete und Anwendungsfälle von und mit R. Dabei sind drei große Themenstränge in vielen Vorträgen und Diskussionen hervorgetreten:

  • Big Data Analyse
  • Disziplinäre Heterogenität
  • Interaktive Grafiken Weiterlesen

Reporting Services mit R

 

Ausgangssituation

IT-Systeme in Unternehmen produzieren jeden Tag riesige Datenmengen. Praktisch alle Unternehmensteile wie Einkauf, Produktion, Administration und Verkauf werden nahezu vollständig in IT-Systemen abgebildet.

Herausforderung: Big Data

Diese Daten enthalten ein sehr umfangreiches Wissen über  alle Aspekte eines Unternehmens. Um sich zu verbessern, ist es angeraten, den Daten dieses Wissen zu entlocken. Dazu sollten die Daten regelmäßig analysiert
werden:

  • Wie entwickelt sich der Verkauf im Vergleich zum Vorjahr/Vormonat?
  • Wie groß ist der Anteil der Angebote, die tatsächlich verkauft werden?
  • Welche entwickelt sich die Prozessqualität?
  • Welche Produkte werden wie oft eingekauft?

Weiterlesen

Prognose der OB-Wahl in Kassel

 

Klassische Wahlbefragungen stehen vor dem Problem des gesellschaftlichen Wandels.Vor diesem Hintergrund fand in Deutschland erstmals eine Wahlwette gemäß der Theorie zur „Weisheit der Vielen“ auf kommunaler Ebene statt: Kann die Masse ein Kommunalwahlergebnis treffend vorhersagen?. Insgesamt 1.889 Teilnehmer haben sich an der Wahlwette beteiligt. Das vorhergesagte Ergebnis liegt sehr nahe an der Realität. Die durchschnittliche absolute Abweichung beträgt lediglich 1,4 Prozentpunkte.

Das Ergebnis der Wahlwette