Schlagwort-Archiv: Visualisierung

eoda auf der useR! Conference 2015 in Aalborg: Die Highlights vom ersten Präsentationstag – Teil 1

Die useR! Conference 2015 ist offiziell eröffnet: Nach dem „Tutorial-Tuesday“ folgte am Mittwoch der erste Präsentationstag.

Impression von der Opening Session am Dienstag

Impression von der Welcome reception der useR! 2015 am Dienstag

Unsere R-Experten vor Ort haben die wichtigsten Informationen und Neuerungen der Sessions vom Vormittag zusammengefasst:

Networks

Wie kann man möglichst viele Konferenzteilnehmer dazu bewegen, den eigenen Vortrag zu besuchen? Eine Möglichkeit besteht darin, potentielle Interessenten mit personalisierter Onlinewerbung auf sich aufmerksam zu machen. Anhand dieses nicht ganz ernstgemeinten Anwendungsbeispiels hat Daroczi im ersten Vortrag der Networks-Session aufgezeigt, wie mit Hilfe des Pakets fbRads aus R heraus Werbekampagnen auf Facebook aufgesetzt und gesteuert werden können. Der große Vorteil dabei: Im Zusammenspiel mit der Facebook API deckt das Paket den kompletten Prozess einer Werbekampagne ab – von der Definition der Zielgruppe bis zur Auswertung der Werbewirksamkeit.

Peter Meißner hat sich in seinem Vortrag dem Thema Webscraping gewidmet und gab einen Überblick darüber, was zu tun ist, wenn der Download-Button fehlt und die gewünschten Informationen stattdessen direkt aus einer Webseite extrahiert werden müssen. Je nachdem welche Web-Technologien auf der relevanten Webseite eingesetzt werden, kommen für das Webscraping mit R verschiedene Funktionen und Pakete infrage. Im einfachsten Fall reichen bereits base-Funktionen wie download.file() und einfache String-Manipulationen aus. Am einfachsten dürften die meisten Webscraping-Projekte jedoch mit dem Paket rvest zu lösen sein. Sollte dies nicht möglich sein, weil sich die gewünschten Informationen zum Beispiel in JS-Code verbergen, kann mit RSelenium ein virtueller Browser emuliert werden.

Reproducibilty

Reproduzierbarkeit kann in der R-Community aus verschiedenen Blickwinkeln betrachtetet werden, dass wurde auch in der Mischung der heutigen Präsentationen zu diesem Thema deutlich.

Das Programm der Session Reproducibilty

Das Programm der Session Reproducibilty

Während Karthik Ram und Joshua R. Polanin mit ihren Talks den Fokus auf die wissenschaftlichen Aspekte von Reproducibility legten, haben sich Michael Lawrence und David Smith mit dem Problem der Versionierung von R Paketen beschäftigt.

Weiterlesen

eoda auf der useR! Conference 2015 in Aalborg: Die Eindrücke vom „Tutorial Tuesday“

Mit dem „Tutorial-Tuesday“ hat gestern in Aalborg die useR! Conference 2015 begonnen. Unser Team vor Ort hat viele der Tutorials besucht und die wichtigsten Informationen für die R-User zusammengefasst:

Rocker: Using R on Docker (Dirk Eddelbuettel)

Seit einiger Zeit schon gehört Docker zu den am heißesten diskutierten Ansätzen in der IT-Welt. Docker ist eine Abstraktionsschicht, vergleichbar mit einer Virtualisierungsumgebung. Innerhalb von Docker finden sich Container, die einer virtuellen Maschine (VM) entsprechen. Im Unterschied zu VMs sind Docker Container jedoch leichtgewichtig: Sie benötigen kein eigenes Betriebssystem, sie verbrauchen deutlicher weniger Disk space, sie lassen sich schnell und einfach erstellen, verteilen und initialisieren. Docker läuft auf allen gängigen Betriebssystemen und wird von nahezu allen wichtigen Cloudanbietern (Microsoft Azure, Amazon, Digital Ocean etc.) unterstützt.

Dirk Eddelbuettel, Mitentwickler des populären C++ Interfaces Rcpp, stellte in seinem Tutorium Rocker vor. Rocker steht für R on Docker. Es handelt sich dabei nicht um ein R Paket, sondern um ein Set von R-Instanzen, die sich in Docker Containern befinden. Eddelbuettels Kern-Anwendungsszenario ist das Testing. Mit Hilfe von Docker lässt sich Code automatisiert auf unterschiedlichen R Versionen testen. Rocker lässt sich leicht erweitern –  sei es für spezielle Einsatzszenarien oder generelle Anwendungsfälle, die dann über den Docker Hub veröffentlicht werden können.

Ein anderes interessantes Anwendungsfeld von Docker ist die Reproduzierbarkeit von Analysen. Mit Docker lassen sich Skripte für bestimmte R-Versionen inklusive aller verwendeter Pakete in den verwendeten Versionen in einen Container packen und archivieren. Docker bietet damit eine weitere Alternative zu den gängigen Ansätzen Packrat von RStudio und checkpoint von Revolution Analytics.

Statistical analysis of Network data (Gábor Csárdi)

Netzwerke sind heutzutage allgegenwärtig. Beispiele hierfür sind die Kontakte in sozialen Netzwerken wie Facebook oder Twitter, Verlinkungen von einer Internetseite zur anderen oder der Verkehrsflussfluss zwischen Flughäfen. Gábor Csárdi, Maintainer des weitverbreiteten igraph-Pakets, hat mit seinem Tutorial einen spannenden Überblick darüber gegeben, wie sich die vielzähligen Verbindungen und Strukturen innerhalb eines Netzwerks mit den Methoden der Netzwerkanalyse untersuchen lassen.
Zu Beginn des Tutorials wurden verschiedene Datenstrukturen zur Repräsentation von Netzwerkdaten vorgestellt. Im zweiten Teil lag der Fokus auf den Methoden, mit denen sich die Struktur des Netzwerks beschreiben lassen. Welche Knoten sind besonders gut vernetzt? Über wie viele Ecken sind die Knoten in einem Netzwerk miteinander verknüpft? Die Netzwerkanalyse mit R gibt Antworten auf diese Fragestellungen.
Anschließend wurden verschiedene Ansätze präsentiert, mit denen sich Gruppen innerhalb eines Clusters identifizieren lassen. Zum Abschluss gab Csárdi einen kurzen Überblick über die Visualisierung von Netzwerken.

Alles in allem gab das Tutorial einen guten Einblick in die zentralen Begriffe der Netzwerkanalyse und hat Lust auf mehr gemacht.

Weiterlesen

[R] Kenntnis-Tage 2015: The first holistic R Event in the German-speaking community

The event aims at connecting R users from all industrial and academic sectors and facilitating the interconnectedness of the German-speaking R community as well as the exchange of practical and theoretical knowledge about R.

From September 29 to October 02 the [R] Kenntnis-Tage 2015 with topics ranging from big data over programming and data mining up to predictive analytics will take place in Kassel, Germany. We are looking forward to all interested registering here.

Also, if you would like to know more about eoda, one of the pioneering integrators of R in Germany, please feel free to browse around here.

We hope to see you in Kassel in autumn!

The official program of the [R] Kenntnis-Tage 2015 in Kassel, Germany.

The official program of the [R] Kenntnis-Tage 2015 in Kassel, Germany.

Topics of the event: programming with R, cluster analysis, data mining, predictive analytics, model optimization, data management, performance optimization with C++, text mining, profiling, debugging, visualization, ggplot, base R, interactive graphics, big data, introduction to R

Pressemitteilung: [R] Kenntnis-Tage 2015: Das umfassende Event für die Statistiksprache R

Kassel, 23.04.2015 – eoda, einer der Pioniere in der professionellen Anwendung der Statistiksprache R, veranstaltet Ende September in Kassel mit den [R] Kenntnis-Tagen ein zweitägiges Event für die immer größer werdende deutschsprachige R-Community. Die [R] Kenntnis-Tage vereinen konzentriert vielfältige Themen für Anwendungsfälle wie Data Mining, Predictive Analytics oder Datenvisualisierung mit anregendem Networking und aufschlussreichen Success Stories aus der Praxis.

„Mit den [R] Kenntnis-Tagen wollen wir deutschsprachigen R-Nutzern eine Plattform bieten, auf der wir die vielfältigen Möglichkeiten von R für Data Science zeigen und die Teilnehmer dazu inspirieren, Ihre eigene Erfolgsgeschichte im Umfeld von R zu schreiben“, erklärt Oliver Bracht, Chief Data Scientist bei eoda, die Hintergründe der Veranstaltung.

Die freie Wahl aus einem ganzheitlichen Themenangebot

Die erfahrenen Trainer von eoda präsentieren in zwei parallel laufenden Schulungstracks in sich abgeschlossene Module zu vielfältigen Themen im Umfeld der Datenanalyse. Die Teilnehmer haben die Freiheit, aus diesen Modulen gezielt die Themen auszuwählen, die sie und ihr Unternehmen weiterbringen.

Die Module behandeln den effizienten Einsatz von R in Produktivumgebungen, wichtige statistische Methoden und das beliebte Thema Datenvisualisierung. „Der Leitgedanke der [R] Kenntnis-Tage ist es, jedem Teilnehmer in kürzester Zeit das Wissen und wertvolle Anregungen zu vermitteln, um ihm den maximalen Nutzen in der Anwendung von R zu ermöglichen“, erläutert Bracht das Ziel der ganzheitlichen Veranstaltung.

Aufbau der eoda [R] Kenntnis-Tage 2015

Aufbau der eoda [R] Kenntnis-Tage 2015

Weiterlesen

Spatial visualization with R – Tutorial

The visualization of spatial data is one of the most popular applications when using R. This tutorial is an introduction to the visualization of spatial data and creation of geographic maps with R.

Spatial Visualisation with R

Spatial Visualisation with R

The focus will be on the following subjects:

  • Import and use of shapefiles in R (the shapefile is a file format designed for spatial data).
  • Data management and restructuring of data.
  • The creation of maps.
  • Visualization of data on maps.
  • Enrichment of created maps using the spatial information of static maps from OpenStreetMap.de.

 

This tutorial shows the creation of a map of the different districts of Kassel including the number of households within each district. This type of map is also known as Choropleth map. Going even further, this map will also contain the stations of the Kassel bicycle sharing system “Konrad”.

 

Weiterlesen

Tutorial: Kartenvisualisierung mit R

Die Visualisierung von Regional- und Geodaten ist eines der gefragtesten Themen im Umfeld von R. Das folgende Tutorial gibt einen Einblick in die Kartenvisualisierung mit der freien Programmiersprache.

Beispiel einer Kartenvisualisierung mit R

Beispiel einer Kartenvisualisierung mit R

Behandelt werden folgende Themen:

  • Einlesen und Umgang mit Shapefiles in R (Shapefile ist ein Speicherformat speziell für Geodaten).
  • Datenmanagement bzw. Umstrukturieren von Datensätzen
  • Visualisierung von Daten auf einer Karte
  • Anreichern einer Karte mit weiteren Inhalten von openstreetmap.de.

Das Tutorial zeigt die Erstellung einer Karte der Kasseler Stadtbezirke einschließlich der grafischen Darstellung der dort ansässigen Haushalte. Solch ein Kartentyp wird auch als Choropleth Karte bezeichnet. In einem weiteren Schritt werden zusätzlich Stationen des Kasseler Fahrradverleihsystems Konrad eingezeichnet.

Weiterlesen

eoda erweitert das beliebte deutschsprachige R-Schulungsprogramm für den professionellen Einsatz

Der Kasseler Datenanalysespezialist eoda stellt das neue Kursprogramm der R-Akademie für das Jahr 2015 vor. Die eoda R-Akademie ist ein umfassendes deutschsprachiges  Schulungsprogramm für die freie Statistiksprache R. Seit 2011 befähigt eoda mit seinem etablierten Trainingsprogramm Anwender dazu, dass nahezu unbegrenzte analytische Potential von R für sich zu nutzen.

Neue Kurse für den professionellen Einsatz von R im Unternehmenskontext

Mit dem Anspruch Interessenten ein möglichst ganzheitliches Kursangebot rund um die Themen R und Datenanalyse anzubieten hat eoda die R-Akademie für das kommende Jahr nochmals weiterentwickelt. Das bedeutet, dass neben den bewährten Modulen neue Kurs entstanden sind, die das bereits bestehende Angebot der R-Akademie abrunden. „R entwickelt sich zunehmend zur plattformübergreifenden Lingua franca für Datenanalysten. Dies hat zur Folge, dass die Nutzerzahlen stetig steigen und damit einhergehend R immer häufiger auch in Deutschland im Unternehmensumfeld zum Einsatz kommt. Die dadurch entstehenden besonderen Anforderungen hinsichtlich Reproduzierbarkeit, Teamarbeit oder Kompatibilität haben wir bei der Konzeption unseres neuen Kursprogramms aufgegriffen.“ erklärt Heiko Miertzsch, Geschäftsführer von eoda, die Vorteile des neuen Angebotes für die Teilnehmer.

Der Aufbau der eoda R-Akademie 2015

Der Aufbau der eoda R-Akademie 2015

Konkret wird die R-Akademie 2015 um fünf Kurse erweitert:

  • Multivariate Statistik mit R II
  • Paketerstellung in R
  • R im produktiven Unternehmensumfeld
  • Datenmanagement mit R
  • Werbewirkungsanalyse mit R

Weiterlesen

tableR vereinfacht die Prozesse von Marktforschern und Analysten

tableR ist eine neue Software von eoda, die den gesamten Prozess von der Erstellung des Fragebogens bis zur fertigen Ergebnispräsentation ohne Medienbrüche unterstützt. Ohne Programmierkenntnisse können Anwender Fragebögen entwerfen, Rohdaten auswerten und Tabellen sowie Grafiken erstellen.

Heterogene Toollandschaft führt oft zu Fehlern und hohen Prozesskosten

Die Auswertung von Daten ist oftmals gekennzeichnet durch Medienbrüche und manuelle Arbeitsschritte. Meist wird verschiedenartige Software für einzelne Prozessvorgänge genutzt. Damit sind notwendigerweise manuelle Transformationsschritte verbunden, die zu hoher Fehleranfälligkeit, zeitlichen Verzögerungen und unnötigen Kosten führen. Ineffizienzen, Qualitätsprobleme, zu lange Projektlaufzeiten und unzufriedene Kunden sind regelmäßig die Konsequenz. Gefördert durch das LOEWE-Programm des Landes Hessen, bietet eoda Marktforschern und allen, die regelmäßig Daten auswerten, eine Software, die die Prozesseffizienz dauerhaft steigert.

tableR: Fragebögen, Auswertungen, Tabellen und Grafiken in einem Tool

Mit tableR können Benutzer Fragebögen erstellen und diese sowohl als Office-Dokument exportieren, als auch mit Hilfe eines strukturierten XMLs zu einem Onlinefragebogen weiterverarbeiten. Der Fragebogen dient dabei außerdem als strukturierte Repräsentation der zu importierenden Rohdaten. Auf dieser Basis lässt sich mit einem Klick ein fertiger Report anfertigen, der vielfältig individualisiert werden kann. Die erstellten Tabellen und Grafiken können nach Office (Word, Excel, PowerPoint) und HTML exportiert werden. tableR bietet einen reproduzierbaren Ablauf. Dabei entsteht das zur Auswertung notwendige Skript automatisch im Hintergrund. Neben der Anwendung in der klassischen Marktforschung hat tableR ein vielfältiges Einsatzpotential, so können beispielweise beliebige strukturierte Datensätze eingelesen und analysiert werden. Weitere Analysemöglichkeiten sind durch die Integration der freien Statistiksprache R nahezu grenzenlos.

Diese Diashow benötigt JavaScript.

Beta-Test ermöglicht exklusive Einblicke in die Entwicklung von tableR

eoda startet ab dem 15. September einen Beta-Test für tableR. Interessierte können sich unter www.eoda.de/de/tabler.html registrieren. Teilnehmer des Beta-Tests haben die Möglichkeit, ihre Wünsche und Anregungen in die finalen Entwicklungsschritte von tableR einfließen zu lassen und so die Weiterentwicklung zu beeinflussen.

eoda Results as a Service – Plattform für analytische Applikationen

Mit Results as a Service bietet die eoda GmbH einen Lösungsverbund aus analytischen Applikationen auf einer skalierbaren Plattform. Die Anwendungen lösen verschiedene analytische Problemstellungen aus Bereichen wie Reporting, Data Mining oder Predictive Analytics – auch für Big Data. Zum Beispiel lassen sich mit „associateR“ Assoziationsanalysen durchführen, wie sie in der Warenkorbanalyse angewendet werden. Der „optimizeR“, löst Optimierungsprobleme die typischerweise im Kampagnenmanagement vorkommen. Eine andere Anwendung, „fuzzychekC“, findet ähnliche Einträge in Listen wie in Adressdatenbanken mit dem Ziel die Datenqualität durch die Vermeidung von Duplikaten zu verbessern. Reporting und Social Media Analysen sind andere Anwendungsgebiete. Weitere Apps befinden sich in der Entwicklung. Die Plattform bringt eine Reihe von Funktionen mit, die den Betrieb und die Administration vereinfachen wie die LDAP Integration, ein Wiki, APIs oder Schnittstellen zu Datenquellen.

"Results as a Service" von eoda

„Results as a Service“ von eoda

Maßgeschneiderte Anwendungen und geringer Administrationsaufwand

Results as a Service ist vor allem ein Angebot für Fachabteilungen, die schnell eine analytische Anwendung zum Laufen bekommen möchten. Die Plattform kann auf einem Cloud Dienst oder auf einer eigenen Infrastruktur betrieben werden. Das modulare Konzept erlaubt es, die Anwendungen schnell bedarfsgerecht anzupassen und zu verbinden, so dass ganzheitliche Lösungen entstehen.

Weiterlesen

Die Lesbarkeit von Texten berechnen – der Flesch Index als ein Baustein von Text Mining Anwendungen

Zeitungsartikel, E-Mails, Briefe – Texte begegnen uns täglich auf unterschiedlichen Wegen. Unabhängig von der Übermittlungsart, der Länge und der Thematik eint die Verfasser das Bestreben nach einer hohen Verständlichkeit. Produktinformationen im Marketing, wissenschaftliche Ausarbeitungen, journalistische Artikel – die konkreten Beispiele, in denen eine hohe Verständlichkeit von niedergeschriebenen Inhalten wichtig ist, sind vielfältig. Eine verständliche Ausdrucksweise ist der Grundstein für nachvollziehbare Texte.

Dennoch begegnen einem im Alltag immer wieder Texte, bei denen es schwer fällt, sich den darin enthaltenen Inhalt zu erschließen. Neben für den Verfasser nicht beeinflussbaren Faktoren wie Fachwissen und Interesse des Rezipienten ist häufig eine unzureichende Lesbarkeit der Grund dafür, dass Botschaften falsch oder teilweise gar nicht beim Empfänger ankommen. In vielen Fällen ist die Komplexität vieler Texte nicht angemessen für die angesprochene Zielgruppe. Um dies zu erkennen und zu verbessern bietet sich die Anwendung des Flesch-Indexes unter zur Hilfename von Text Mining an.

Der Flesch-Index als Kriterium für die Lesbarkeit

Neben der Leserlichkeit, der inhaltlichen Struktur und dem Aufbau eines Textes ist die Lesbarkeit eines der Kriterien für die Textverständlichkeit. Die Lesbarkeit beschreibt die sprachliche Gestaltung. Hierzu zählen beispielsweise der Wortschatz oder die Komplexität der verwendeten Wörter und Sätze.

Der US-amerikanische Autor Rudolf Flesch entwickelte den nach Ihm benannten Flesch-Index. Dieser umfasst ein Verfahren zur formalen Bestimmung der Lesbarkeit eines Textes. Dieses ermöglicht es, Texte zu überprüfen und eine präzise Aussage darüber zu erhalten wie hoch die Lesbarkeit ist. Verfasser haben so die Möglichkeit einer Selbstkontrolle und erhalten Ansatzpunkte für Optimierungen. Zudem lassen sich Texte anhand der Bewertung durch den Flesch-Index klassifizieren. Da die Wortlänge in der deutschen Sprache im Durchschnitt höher ist als im Englischen, wurde der Flesch-Index wurde von Toni Amstad an die deutsche Sprache angepasst.

Berechnungsformel des Flesch-Index

Berechnungsformel des Flesch-Index für die englische  Sprache

Bei dem Ergebnis des Flesch-Index unterscheidet man allgemein zwischen einem hohen und niedrigen Komplexitätsgrad, wobei dieser mit steigendendem Wert abnimmt. Ein Text mit einem hohen Flesch-Index wie 100 würde demnach aus Sätzen bestehen, die jeweils lediglich zwei einsilbige Wörter enthalten und entspräche so einem niedrigen Komplexitätsgrad. Texte mit einem Flesch-Index von 20 und geringer sind entsprechend komplexer aufgebaut und entsprechen beispielsweise einer wissenschaftlichen Veröffentlichung, die sich in der Regel durch vielsilbige Fachbegriffe und komplexe Satzstrukturen auszeichnet.

Weiterlesen