Ganzheitliches Kampagnenmanagement mit optimizeR

Ganzheitliches Kampagnenmanagement, also die Optimierung und Planung unterschiedlicher Kampagnen über verschiedene Zielgruppen hinweg, stellt ein nicht zu unterschätzendes Optimierungsproblem dar. Die Berechnung der optimalen Maßnahmen zur Erzielung des maximalen Response oder des maximalen Umsatzes/Deckungsbeitrages bei gegebenem Budget, sowie umgekehrt die Berechnung des notwendigen Budgets bei gegebenen Zielwerten und Restriktionen setzten bislang viel mathematisches Know-how oder teure Software voraus. Die zunehmend größer werdenden  Datenbestände in Verbindung mit den umfangreichen Berechnungen erfordern oft entsprechend dimensionierte Hardware.

Mit optimizeR bietet eoda nun einen cloudbasierten Service zur ganzheitlichen Optimierung mehrerer Kampagnen mit Bezug auf die Zielgruppen. Dabei können unterschiedlichste Rahmenbedingungen und Restriktionen in die Planung einbezogen, und somit eine Vielzahl möglicher Szenarien in kürzester Zeit simuliert werden ohne das Fixkosten für Hardware oder Software anfallen.

Weiterlesen

SAS hat einen neuen Vergleich von SAS und R veröffentlicht

Unter dem Titel Big Data Analytics: Benchmarking SAS, R and Mahout. hat SAS am 26. April auf der SAS-Webseite einen Vergleich von SAS, R und Apache Mahout veröffentlicht.

In einem zweiteiligen Blog-Beitrag setzt sich Thomas Dinsmore, Director of Product Management bei Revolution Analytics , kritisch mit dem Text auseinander. Der erste Teil beschäftigt sich mit fehlerhaften Darstellungen und offenen Fragen im Zusammenhang mit dem Benchmark.

Dinsmore arbeitet dabei unter anderem heraus, dass R im Gegensatz zur Darstellung in dem SAS-Papier sehr wohl Ensemble-Verfahren unterstützt und verweist dabei auf die folgenden Pakete:

gbm, mboost, party, randomForest (mehr), caret

Mit Hilfe von Ensemble Verfahren werden die Ergebnisse mehrerer Prognose-Modelle zusammengefasst, um dadurch die Vorhersagequalität zu erhöhen.

Dieser erste Beitrag enthält darüber hinaus eine Liste von offenen Fragen, die interessierte Nutzer bei einem Vergleich von R, SAS und anderen Lösungen für Predictive Modeling berücksichtigen sollten. So wird in dem Benchmark von SAS auf diverse Details nicht eingegangen, die für einen ernsthaften und aussagekräftigen Vergleich notwendig wären. Dazu zählen unter anderem eingehende Informationen zu den verwendeten Paketen, Parametern in Modellen, oder Größe der verwendeten Daten. Ein zweiter Text nächste Woche wird sich mit der Methodik und den Ergebnissen auseinander setzen.

Revolution R Enterprise 6.2 mit neuen Funktionen für hoch performante Analysen auf Big Data

Der führende Anbieter von professioneller Software für die freie Statistik-Programmiersprache R, Revolution Analytics, hat eine neue Version von Revolution R Enterprise entwickelt. Nach Abschluss der laufenden Testphase ist der offizielle Release Termin für den 22. April festgesetzt.

Die Version unterstützt Open Source R 2.15.3. Somit können Revolution R Enterprise Anwender von den umfangreichen Neuerungen von Version R 2.15 profitieren und abhängige Pakete in der neuesten Version nutzen.

Zudem beinhaltet  Revolution R Enterprise 6.2 unter anderem zahlreiche Verbesserungen des ScaleR Package für High-Performance Analysen:

Weiterlesen

Möglichkeiten und Vorteile von R in der Optimierung

Workflow zur Optimierung – R als ganzheitliches Framework  - „Optimierung as a Service“

Optimierung beschäftigt sich damit, optimale Parameter in einem komplexen System bzw. einer komplexen Fragestellung zu finden. Beispiele für Optimierungsprobleme finden sich in der Produktionsplanung, beim Routing in Telekommunikations- oder Verkehrsnetzen oder im Kampagnenmanagement. Der Einsatz von mathematischen Methoden und Modellen zur Entscheidungsunterstützung wird auch unter dem Begriff Operations Research zusammengefasst.

Die Aufgabengebiete sind ebenso vielfältig wie die verschiedenen  Lösungsansätze. Je nach Problemstellung kommen verschiedener Teilgebiete wie die mathematischen Optimierung, Simulationen, Entscheidungstheorien oder Heuristiken zum Ermitteln von Näherungslösungen zum Einsatz.

Weiterlesen

R Version 3.0.0 ist da und bringt weitere Verbesserungen für Big Data

Mit der gestrigen Veröffentlichung von R.3.0.0 ist ein weiterer Meilenstein in der Geschichte von R erreicht, denn der Sprung von Version 2 auf 3 führt die umfangreichen Fortschritte  der letzten Jahre vor allem in Bezug auf Performance zusammen.

Effizientere Nutzung von Speicher oder „parallel Computing“ sind wichtige Mechanismen  um den aktuellen Anforderungen an Big-Data-Analysen gerecht zu werden. Vor diesem Hintergrund ist eines der Highlights von R.3.0.0 die Einführung von „big Vectors“. Durch die verbesserte Speicherverwaltung in Version 3.x, sind 64-Bit Systeme nun in der Lage, Vektoren mit mehr als 2^31 Einträgen zu indizieren. Dadurch ist es möglich, auch größere Datensätze, wie sie in der Praxis immer häufiger auftauchen, in ihrer Gesamtheit zu erfassen und zu analysieren.

Eine komplette Auflistung aller Änderungen finden sich unter https://stat.ethz.ch/pipermail/r-announce/2013/000561.html

Zeitgleich veröffentlichte RStudio auch eine neue Version ihrer beliebten Entwicklungsumgebung, die an R 3.0.0 angepasst ist.

Data Mining mit R – Kurs im Mai

Data Mining steht für das hypothesenfreie Extrahieren von  Erkenntnissen aus Daten. Statistische und mathematische Verfahren werden auf Datenbestände angewendet, um bestehende Muster und Zusammenhänge aufzudecken.

Data Mining Verfahren stellen i.d.R. geringe Anforderung an das Meßniveau der Daten (kategorial, ordinal, metrisch) und sind in der Lage komplexe nicht-lineare Zusammenhänge zu erkennen.

Konkrete Anwendung findet Data Mining beispielsweise bei der Erstellung von Prognose-Modellen, in der Zielgruppenanalyse, der Warenkorbanalyse, für Empfehlungsdienste und vielem mehr.

Im Rahmen der R-Akademie von eoda, einem ganzheitlichen Trainingsprogramm für die Statstiksprache R bieten wir am 28/29 Mai ein Training „Data Mining mit R“ an.

Folgende Methoden sind Teil des Kursprogramms:

  •   Regressions- und Klassifikationsbäume
  •   RandomForest
  •   Künstliche Neuronale Netze
  •   Support Vector Machines
  •   K-Means Cluster

Die Anwendung der Data Mining Verfahren wird anhand von praxisnahen Beispielen erlernt. Im Kurs wird sowohl die Erstellung von Data Mining-Skripten als auch die Bedienung der graphischen Benutzeroberfläche „Rattle“ erlernt. Ziel des Kurses ist es, die Teilnehmer in die Lage zu versetzen, das Gelernte selbständig auf ihre jeweiligen Anwendungszwecke zugeschnitten anzuwenden.

Der Kurs findet am 28/29 Mai in unseren Räumen in Kassel statt. Die Teilnehmerzahl ist begrenzt, weswegen sich eine rechtzeitige Anmeldung empfiehlt.

Predictive Analytics mit Hilfe von Random Forest am Beispiel einer Win-Loss-Analyse

Um zukünftige Ereignisse zu prognostizieren, ist die Transparenz über vorhandene Kausalzusammenhänge, komplexe Beziehungen und indirekte Abhängigkeiten einzelner Faktoren untereinander sehr hilfreich. Datenmengen, die ohnehin vielfach vorhanden sind, machen es möglich, solche Zusammenhänge aufzudecken. Statistische Methoden wie das Random Forest Verfahren ermöglichen eine fundierte Analyse und liefern nachvollziehbare Ergebnisse, die sich plakativ  darstellen lassen.

Weiterlesen

BigData auf Hadoop mit R analysieren

Mit den R-Paketen von Revolution Analytics lassen sich MapReduce-Algorithmen für verteilte Daten in einem Hadoop Cluster entwickeln und anwenden

Seit die Meta Group 2001 das erste Mal von BigData sprach, werden immer wieder drei Aspekte genannt, die „BigData“ ausmachen: Die Menge der Daten (“Volume”), die Geschwindigkeit, mit der sich die Daten ansammeln (“Velocity”) und schließlich die Vielfalt der Formate der Daten (“Variety”). Vor allem die Vielfalt in Verbindung mit der gleichzeitigen Zunahmen der Daten hat zur Entwicklung von verteilten Filesystemen wie Hadoop geführt. Hadoop kommt ohne die bekannte Spaltenorientierung von relationalen Datenbanksystemen aus. Die Vorteile des Konzeptes sind, dass es keinen Unterschied zwischen strukturierten und unstrukturierten Daten gibt und dass der Aufwand für Strukturänderungen unabhängig vom Datenvolumen konstant ist. Kundenprofile, Social-Media-Daten, Produktinformationen oder Klickdaten sind Beispiele für Daten, die zunehmend in verteilten Clustern verwaltet werden.

Weiterlesen

Eine kurze Geschichte über R

Schlagworte wie Big Data oder Data Mining erfahren zur Zeit eine besondere Aufmerksamkeit. Sie sind Ausdruck des Trends, Daten als wertvollen Rohstoff zu begreifen. IT-Systeme in Unternehmen produzieren jeden Tag riesige Datenmengen. Praktisch alle Unternehmensteile wie Einkauf, Produktion, Administration und Verkauf werden nahezu vollständig in IT-Systemen abgebildet. Auch im privaten, im wissenschaftlichen, oder öffentlichen Umfeld steigt die Bedeutung großer Datenbestände. Welche Potenziale verbergen sich jedoch in der Analyse der Daten und wie lässt die Wertschöpfung effizient bewerkstelligen?

Über R

Die Statistiksoftware R ist nach Norman Nie, dem Gründer und langjährigen CEO von SPSS, die zur Zeit mächtigste Programmiersprache zur Analyse und Visualisierung von Daten – sie ist frei erhältlich und gewinnt gerade massiv Zuspruch. In den USA ist der Absatz mit Fachbüchern zu R in Q4 2012  um 127% gestiegen. Nahezu alle IT-Anbieter im Umfeld von Big Data wie IBM, Oracle oder SAP öffnen Ihre Systeme für R. Die „Linux-Geschichte“ wiederholt sich aktuell im Markt für Analysesoftware. Die Qualität und den Innovationsgrad, den die zumeist wissenschaftliche R-Community heute an den Tag legt, ist unvergleichlich in der jüngeren IT-Geschichte. Profitieren werden davon nicht nur Wissenschaft oder die großen Unternehmen. Selbst mit geringem Budget lässt sich mit R der Mehrwert schaffen, der in den Datenbergen steckt. Weiterlesen

Die Shapley Value Regression in der Kundenzufriedenheitsanalyse

Die lineare Regression gehört zu den am häufigsten verwendeten Verfahren in der statistischen Datenanalyse. Sie findet Verwendung in der Mustererkennung und zur Prognose und hat eine lange Tradition in Forschung und Lehre. Sie ist auch für statistische Laien verständlich, rechnerisch wenig aufwendig und vielseitig einsetzbar. Ziel der Regression ist es, den kausalen Zusammenhang einer zu erklärenden Variable durch ein Set erklärender Variablen zu analysieren.

Einsatzmöglichkeiten der Regressionsanalyse

In der Praxis könnte mit der linearen Regressionsanalyse zum Beispiel versucht werden, den Einfluss einzelner Aspekte der Kundenzufriedenheit auf die Gesamtzufriedenheit zu bestimmen.

Kundenzufriedenheit als Anwendungsfall für eine Regressionsanalyse

Weiterlesen