Ein Data-Science-Projektbericht

In unserer Blogreihe zu einem Data-Science-Projekt bei einem Lebensmittelgroßhandel zeigen wir exemplarisch, wie wichtig die Identifikation von Kundenbedürfnissen für den Geschäftserfolg sind. Im zweiten Teil haben wir die Voraussetzungen geschaffen, um die nötigen Daten zu erhalten und diese für unseren Kunden erfolgreich einzusetzen. Im letzten Teil unserer Reihe lesen Sie, wie wir an die relevanten Informationen gelangen, die die Kundschaft interessieren und gleichzeitig Unternehmen Wettbewerbsvorteile sichern.

Der erste Aufwandstreiber war die mangelnde Qualität der Stammdaten aus dem DWH, weshalb wir diese vor dem Aufruf des API-Calls zuerst aufbereiten mussten (siehe Abbildung 1). Zum einen wurden im DWH Abkürzungen im Namen und in der Adresse der Kunden verwendet. Zum anderen kamen auch unzulässige Werte in den Daten vor. Hierbei handelte es sich häufig um Zusatzangaben für die Lieferung, zum Beispiel „3. Tor links”.

Abbildung 1: Aufbereitung der Stammdaten für die API-Calls (©MT AG)

Des Weiteren kam es vor, dass mehrere Namensbezeichnungen und Adressen für denselben Kunden im DWH gespeichert waren. Das war darauf zurückzuführen, dass das System historisch gewachsen war und es bisher kein standardisiertes Verfahren beim Anlegen von Kunden gegeben hatte. Wie in der folgenden Tabelle dargestellt, waren die Angaben zum Namen der Lokalität, zum Inhaber und gegebenenfalls zur Kette in unterschiedlichen Datenfeldern verteilt. Mithilfe einer Abfrage-Logik konnten diese Daten in eine wahrscheinliche Reihenfolge gebracht und systematisch für den API-Call benutzt werden.

Name 1Name 2Name 3
Name des InhabersName des Restaurants
Name des RestaurantsName des Inhabers
Name der KetteName des Restaurants
Name des InhabersName der Kette

Als dritte Hürde stellte sich die fachliche Validierung der API-Antworten heraus. Neben Mehrfachangaben für Kunden im System bekam man für viele Suchanfragen mehrere Einträge als Antwort zurück. Dies war vor allem bei Lokalitäten in der Nähe von Sehenswürdigkeiten und Ausflugszielen zu beachten. Aber wie konnten wir sicherstellen, dass wir wirklich unseren gesuchten Kunden über den API-Call gefunden hatten? Eine solche Prüfung der wahrscheinlichsten Antwort erfolgte mithilfe der sogenannten Levenshtein-Metrik (siehe Tabelle 2). Hohe Werte bedeuten dabei eine große Ähnlichkeit von zwei Zeichenketten – in unserem Fall dem Suchbegriff und der Antwort aus dem API-Call.

SuchbegriffAPI-AntwortLevenshtein-Metrik
Restaurant zu SeeschränkeRestaurant Seeschänke84 %
 Restaurant zu SeeschränkeSee Auerbach19 %

Tabelle 2: Validierung API-Antworten (©MT AG)

Ergebnis der Datenanreicherung

Lohnte sich der Aufwand für die Aufbereitungsschritte? Ganz eindeutig ja! Denn die Trefferquote für die API-Calls konnte durch die Optimierung signifikant verbessert werden, wie in Abbildung 2 dargestellt. Wurden zu Beginn mit der einfachen Variante der API-Calls lediglich knapp 58 Prozent der Gastronomiekunden gefunden, so konnte in den weiteren Iterationen durch die Optimierungsschritte und die Konsolidierung mehrerer externer Dienste die Trefferquote auf über 92 Prozent gesteigert werden. Bei den restlichen 8 Prozent handelte es sich um fehlerhafte Stammdaten, die durch einen manuellen Prozess abgeglichen werden mussten.

Abbildung 2: Verbesserung der Trefferquote (©MT AG)

Das hieß: Nach der Datenanreicherung wussten wir bei 92 Prozent der Gastronomiekunden, welcher Branche und welchem Küchenstil sie angehören. Wir konnten die Kunden zum Beispiel in „positiv bewertete italienische Restaurants“ und „internationale Hotels“ unterteilen. Wir wussten auch, wie viele Bewertungen der Kunde bekommen hatte, und dementsprechend, wie bekannt er war. Zudem konnten wir nun das Preisniveau des Kunden bestimmen. All diese Informationen waren nach der Datenanreicherung in der eigenen Datenlandschaft vorhanden und standen den jeweiligen Fachabteilungen zur Verfügung. Zuvor waren diese Informationen unbekannt! Des Weiteren waren die Kundendaten nun mit ausreichend Merkmalen angereichert, um eine Kundensegmentierung und weitere Analysen durchführen zu können.

Kundensegmentierung

Ziel einer Kundensegmentierung ist es, relevante Gruppen – für den entsprechenden Fachbereich und Verwendungszweck – innerhalb seiner Kunden zu identifizieren, um anschließend Rückschlüsse auf Business Actions ziehen zu können. Dafür werden die Kunden anhand bestimmter Eigenschaften und Merkmale aufgeteilt. Kunden einer Gruppe sind sich in diesen Eigenschaften besonders ähnlich. Der Prozess der Kundensegmentierung besteht aus drei Teilschritten und ist in Abbildung 3 dargestellt.

Abbildung 3: Prozess der Kundensegmentierung (© MT AG)

Auswahl der relevanten Informationen

Zuerst wählten wir Merkmale über die Kunden aus, die bei der Segmentierung berücksichtigt werden sollten. Hierbei war besonders auf den Verwendungszweck der Kundengruppen zu achten. Für das Ziel, die Vertriebs- und Marketingaktionen beim Lebensmittelgroßhändler zu optimieren, waren verschiedene Informationen notwendig. Zum einen sammelten wir Umsatzkennzahlen und Bestellinformationen aus dem internen Datenbestand. Zum anderen verwendeten wir die zuvor angereicherten Informationen über Küchenstil, Online-Bewertungen und Preiskategorie. Aus den 300 abgeleiteten Merkmalen der genannten Kategorien identifizierten wir 30 Merkmale zur Modellerstellung (siehe Abbildung 4). Denn eine größere Anzahl von Merkmalen verbessert nicht unbedingt das Ergebnis der Kundensegmentierung. Qualitativ hochwertige und aussagekräftige Merkmale sind wichtiger als die Quantität der Informationen! Merkmale, die fachlich nicht zum Ziel der Kundensegmentierung beitragen, „verwirren“ den Algorithmus eher und verfälschen das Ergebnis [1].

Abbildung 4: Auswahl der relevanten Merkmale (©MT AG)

Erstellen von Segmenten mit Machine-Learning-Algorithmen

Im zweiten Schritt führten wir mithilfe von maschinellem Lernen die eigentliche Segmentierung der Kunden durch. Dafür verwendeten wir sogenannte Clustering-Algorithmen. Diese können die Kunden anhand der zuvor ausgewählten Merkmale trennen und in Cluster beziehungsweise Gruppen aufteilen (siehe Abbildung 5). Sie berechnen die Ähnlichkeit der Kunden mithilfe des Abstands der einzelnen Datenpunkte. Sowohl in diesem als auch in anderen Projekten haben wir sehr gute Erfahrungen mit den Algorithmen K-Means [2] und DBSCAN [3] gemacht.

Abbildung 5: Bildung von Kundensegmenten durch Clustering-Algorithmen (©MT AG)

Der Weg zu optimalen Kundensegmenten erforderte mehrere Iterationen und Optimierungsschritte in der Modellerstellung. Beispielsweise musste die optimale Anzahl von Clustern gefunden werden. Dafür wurden Verfahren wie die Elbow-Methode [4] eingesetzt. Des Weiteren sollte auch die technische Güte der Modelle anhand von Metriken ermittelt werden. Eine dieser Metriken war der sogenannte Silhouetten-Koeffizient [5]. Er eignete sich zur Bewertung, wie klar die einzelnen Cluster voneinander getrennt wurden.

Fachliche Interpretation der Kundensegmente

Nach der technischen Erstellung der einzelnen Cluster mussten diese auch fachlich interpretiert werden. Wie konnten sich die Cluster fachlich benennen und beschreiben lassen? Und welche Eigenschaften hatten die Kunden innerhalb der Cluster? Um diese Fragen zu beantworten, wurden bestimmte Machine-Learning-Verfahren eingesetzt. Mithilfe von Entscheidungsbäumen und der Feature Importance [6] konnten die wichtigsten Merkmale bestimmt werden, die für die Einteilung in die Cluster entscheidend waren. Ein Beispiel dazu wird in Abbildung 6 gezeigt.

Abbildung 6: Fachliche Auswertung der Kundensegmente mit Entscheidungsbäumen (©MT AG)

Die Auswertung bestätigte uns dabei, dass eine pragmatische, logische Trennung der Kunden nach Branche und Küchenstil zu sinnvollen Kundensegmenten führte und gleichzeitig die fachliche Interpretierbarkeit jener Segmente gewährleistete. Das Ergebnis waren 32 Kundensegmente, wie zum Beispiel „mittelpreisige griechische Restaurants mit sehr guten Online-Bewertungen und einem hohen Umsatz bei Fleischprodukten”.

Warenkorbanalyse und Auswertungen der Kundensegmente

Wie konnten wir nun aus den Kundensegmenten nützliches Wissen ziehen? Die neu erzeugten Kundensegmente bildeten eine optimale Basis für weiterführende Analysen. Die Warenkorbanalyse war ein solches Verfahren. Dabei wurden mithilfe von Algorithmen wie beispielsweise Apriori oder dem FP-Growth [7] sogenannte Assoziationsregeln erstellt, um das Kaufverhalten der Kunden besser zu verstehen. Dieses Wissen ermöglichte es uns, den Warenbestand und die Produktpräsentation zu optimieren. Die Assoziationsregeln lieferten interessante Erkenntnisse, wie zum Beispiel: „Wenn ein Kunde Pommes kauft, kauft er zu 80 Prozent Tomatensuppe dazu.“ Solche Regeln können dann auf Webseiten und in Online-Shops genutzt werden. Ruft nun ein Kunde einen Pommes-Artikel auf, so kann als Produktvorschlag der Artikel „Tomatensuppe“ angezeigt werden. Dies wird als Next-Best-Offer bezeichnet. Auch automatisierte Preisanpassungen oder die Erstellung von Produktbündeln sind aufbauend auf solchen Regeln möglich.

Zudem konnten die einzelnen Kundensegmente durch weitere Analysen ausgewertet werden. Dabei konnten wir einige Auffälligkeiten entdecken, die offensichtlich oder auch überraschend waren: Zum einen konnten wir durch den Vergleich der Kundensegmente die griechischen Restaurants als besonders umsatzstarke Kundengruppe identifizieren. Zum anderen analysierten wir die gekauften Produktgruppen innerhalb eines Kundensegments. Eine der vielen spannenden Erkenntnisse war unter anderem, dass griechische Restaurants mit guten Online-Bewertungen besonders viel Ouzo kaufen. Des Weiteren waren manche

Kunden erkennbar, die sich im Vergleich zum Rest eines Kundensegments auffällig verhielten. So gab es viele Bars und Pubs, die gar keine Getränke bestellten. Das ist eventuell darauf zurückzuführen, dass sie einen separaten Getränkehändler hatten oder noch nicht vom Getränkeangebot des Großhändlers wussten. Diese zusätzlichen Informationen konnten Vertriebler*innen bei ihrer täglichen Arbeit und Vorbereitung auf Kundengespräche unterstützen.

Aus Erkenntnissen neue Produkte und Services ableiten

Wie ließen sich diese zusätzlichen Informationen nutzen, um unternehmerischen Mehrwert zu erzielen? Dazu wurden mehrere Services beziehungsweise Produkte optimiert oder neu entwickelt. Als ein gänzlich neues Produkt entstand eine mobile Applikation zur Unterstützung der Vertriebsmitarbeiter (siehe Abbildung 7). Sie bündelt die verschiedensten Informationen zu einem Kunden beziehungsweise einem Kundensegment. Auf einer Kartendarstellung wird visualisiert, wo die jeweiligen Kundensegmente vertreten sind. Zusammen mit den meistgekauften Produkten und umsatzstarken Produktsortimenten für das jeweilige Kundensegment können das Kaufverhalten des jeweiligen Kunden analysiert und entsprechende Produktvorschläge angeboten werden. Wenn ein griechisches Restaurant bisher nur Bedarfsartikel für eine Großküche, aber noch kaum Fleischprodukte gekauft hat, können ihm die Top-Produktvorschläge aus dem griechischen Kundensegment angeboten werden.

Abbildung 7: Mobile Applikation für den Vertrieb (©MT AG, Kartendaten ©2021: Google, GeoBasis-DE/BKG)

Die Erkenntnisse und Empfehlungen zu dem Kunden werden dem*der Vertriebler*in in Form von übersichtlichen Grafiken und Auswertungen in der App zur Verfügung gestellt, damit er oder sie sich nicht mehr mit mühseliger Beschaffung von Informationen herumschlagen muss. Ein weiterer Vorteil besteht darin, dass Vertriebler*innen diese Informationen jederzeit auf mobilen Geräten abrufen und so in Kunden- und Verkaufsgesprächen nutzen können. Umständliches Zusammensuchen von Informationen und hektisches Wälzen von Produktkatalogen in den Gesprächen sind nicht mehr notwendig.

Eine weitere Business Action war die Optimierung des Webshops. Anhand der neuen Informationen aus den Analysen wird das Design des Webshops je nach Segmentzugehörigkeit des Kunden dynamisch angepasst. Das heißt, Kund*innen mit einem italienischen Restaurant erhalten ein Design mit italienischem Flair und zudem Produktangebote, die speziell auf die Bedürfnisse der italienischen Küche ausgerichtet sind.

Darüber hinaus wurden die allgemeinen Produktkataloge überarbeitet. Anhand der Analysen entstanden neue, auf die einzelnen Kundensegmente ausgerichtete Werbekataloge. Sie enthalten ausgewählte Produktkombinationen und Angebote, die die Bedürfnisse der verschiedenen Küchenrichtungen und die Präferenzen der Kunden gezielt ansprechen. Dadurch müssen die Vertriebsmitarbeiter*innen nicht länger mehr als zwei Dutzend unterschiedliche Kataloge zum Kundengespräch mitnehmen und können sich mithilfe der spezialisierten neuen Kataloge und der App auf eine bessere Beratung der Kundschaft fokussieren.

Fazit

Mithilfe der Analysen und der daraus entstandenen Produkte und Services wurde in diesem Projekt erheblicher betrieblicher Nutzen für unseren Kunden erzielt. Zum einen lieferten die angereicherten Kundeninformationen in Kombination mit den darauf aufbauenden Auswertungen neues und zentrales Wissen für die verschiedenen Fachabteilungen. Zum anderen ermöglichten die Vertriebs-App, der Webshop und die angepassten Produktkataloge eine verbesserte Kundenansprache bei Vertriebs- und Marketingaktivitäten. Diese neuen und verbesserten Services kamen sowohl bei den Vertriebsmitarbeiter*innen als auch bei den Kund*innen positiv an. Zudem ist es ab jetzt möglich, all diese Informationen zu nutzen, sich bei der Neukundensuche auf lukrative Kundensegmente zu fokussieren und diese gezielt mit passgenauen Produkten anzusprechen.

Für weitere Projektinformationen zum Thema Kundensegmentierung schauen Sie sich unseren Video-Vortrag an.


Teil 1:

Teil 2:

Quellen:

[1] Géron, Aurélion (2019), Hands-On Machine Learning with Scikit-Learn, Keras

& Tensorflow: Concepts, Tools, and Techniques to Build Intelligent Systems (S. 26 f.), O‘Reilly Media, Inc., Sebastopol, Canada

[2] https://scikit-learn.org/stable/modules/clustering.html#k-means (Stand: 05.01.2021)

[3] https://scikit-learn.org/stable/modules/clustering.html#dbscan (Stand: 05.01.2021)

[4] https://www.scikit-yb.org/en/latest/api/cluster/elbow.html (Stand: 05.01.2021)

[5] https://scikit-learn.org/stable/auto_examples/cluster/plot_kmeans_silhouette_analysis.html (Stand: 05.01.2021)

[6] https://scikit-learn.org/stable/auto_examples/ensemble/plot_forest_importances. html (Stand: 07.01.2021)

[7] Sebastian Raschka, http://rasbt.github. io/mlxtend/user_guide/frequent_patterns/fpgrowth/#frequent-itemsets-via-the-fp-growth-algorithm (Stand 07.01.2021)

Categories:

Kostenlose Downloads rund um das Thema IT und Digitalisierung

Keine Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.