Algorithmus, Bias, Cross Validation – für Data Scientists gehören diese Begriffe ganz natürlich zum täglichen Arbeitsleben dazu. Dabei vergessen sie leicht, dass bestimmte Begriffe für andere nicht auf den ersten Blick verständlich und greifbar sind. Wir sorgen für Durchblick im Begriffschaos: mit unserem Data-Science-ABC. Weiter geht es mit dem Buchstaben C und einer der populärsten statistischen Methoden.

Die Clusteranalyse ist ein Verfahren zur Identifizierung von Gruppenstrukturen in multivariaten Daten. Hierbei werden die Daten so unterteilt, dass ähnliche Objekte einer Gruppe zugeordnet werden, während die Gruppen sich untereinander möglichst stark unterscheiden. Man spricht dabei von interner Homogenität und externer Heterogenität der Datenpunkte. Folgerichtig steht der englische Begriff „Cluster“ auch für Haufen oder Ansammlung.

Die Clusteranalyse in der Praxis: Das Ende der diffusen Masse

Ein beliebtes Einsatzszenario der Clusteranalyse ist die Kundensegmentierung. Durch das Clustering der Kunden haben Unternehmen die Möglichkeit, eine diffuse Masse in kompakte Segmente mit ähnlichen Bedürfnissen zu unterteilen. Die Clusteranalyse ist dadurch der Garant für ein präzises Marktverständnis, für die Kenntnis der Kundenanforderungen und damit verbunden für eine optimale Ansprache in Marketing und Vertrieb – zugeschnitten auf die entsprechende Zielgruppe.

Ursprünglich stammt das Verfahren übrigens aus der Biologie, wo ein Clustering der Lebewesen verwandte Arten detektiert hat. Auch in den Sozialwissenschaften erfreut sich das Verfahren besonderer Beliebtheit. Die Einsatzszenarien sind also vielfältig und reichen vom gewerblichen, über den gesellschafts- bis zum naturwissenschaftlichen Kontext.

Eine Frage der richtigen Entscheidung: Ähnlichkeitsmaße und der richtige Algorithmus

Wenn es um die Umsetzung von Clusteranalysen geht, sind zwei Entscheidungen ganz wesentlich:

  • Die Wahl des Ähnlichkeitsmaßes der Objekte
  • Die Wahl des Gruppierungsalgorithmus

Das Ähnlichkeitsmaß bestimmt die Distanzen zwischen den einzelnen Objekten. Es stehen verschiedene Maße zur Verfügung, manche beziehen sich beispielsweise auf das Skalenniveau der Variablen.

Bei der Wahl des Gruppierungsverfahrens bieten sich verschiedene Optionen. Die zwei häufigsten Verfahren sind die hierarchische Methode und die partitionierende Methode. Beim hierarchischen Verfahren verändert sich die Anzahl der Cluster. Bei diesem Verfahren kann die Anzahl der Cluster im Laufe des Rechenprozesses entweder steigen (divisiv) oder fallen (agglomerativ). Im Vergleich dazu benötigt die partitionierende Methode eine vorgegebene Anzahl an Clustern und sortiert die Objekte solange den einzelnen Clustern zu, bis die Varianz innerhalb der einzelnen Gruppen minimal ist. Dieses Verfahren eignet sich, wenn inhaltlich die Anzahl der Cluster festgelegt ist – man also zum Beispiel im Vorfeld schon weiß, wie viele Kundensegmente man bilden möchte.

Eines ist allen zur Verfügung stehenden Verfahren gemein: Am Ende der Clusteranalyse steht die Interpretation. Dann gilt es die Charakteristika der Cluster zu finden und diese richtig einzuschätzen, um den größtmöglichen Erkenntnisgewinn zu erhalten.

Sie haben eine andere Idee für den Buchstaben C? Wir freuen uns auf Ihren Kommentar.

Mehr Informationen zum Thema Clusteranalyse?
Hier entlang.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

*
*