Gefälschte Kundenmeinungen im E-Commerce erkennen

Die heutigen E-Commerce Plattformen sind in der Regel mit einer Funktion ausgestattet, die Kunden ermöglicht, ihre Meinung bezüglich dem Produkt zu teilen. Ein Kauf im Netz ist aus kaufpsychologischer Sicht ein sehr sensibler Vorgang. Schon kleinste Abweichungen wie ein abgelaufenes Zertifikat, beunruhigend viele Weiterleitungen, ein “verbuggter” Warenkorb oder simple Rechtschreibfehler bei der Eingabe-Maske können die Conversion Rate schmälern. Kundenmeinungen können im Kaufprozess das Vertrauen in das System, bzw. präziser in das Produkt, steigern. Doch gefälschte Kundenmeinungen bewirken genau das Gegenteil. Durch negative “Fake”-Rezensionen können Konkurrenzprodukte abgewertet und Kaufreize gemildert werden.

Klassische Ansätze der Spam-Erkennung

Wir wollen uns zunächst den klassischen Ansätzen der Erkennung von gefälschten Rezensionen und Spams widmen. Hier gibt es zwei verschiedene Herangehensweisen.

Gefälschte Meinungen im E-Commerce erkennen

Inhaltsorientierte Spam-Erkennung

Spammer haben nicht die Zeit, für jede Plattform neue Texte zu verfassen. Man misst die Ähnlichkeit oder sogar die Übereinstimmung zwischen den Texten und kennzeichnet diese Texte dann als Spam.
Negativ: Die Berechnung ist sehr teuer (zeitintensiv).

Rating-orientierte Spam-Erkennung

Muster bei der Eingabe von bestimmten Meta-Daten (ID, Name, E-Mail, Rating) wird ausgewertet, um Wiederholungstäter zu identifizieren. Diese Erkennung ist nicht sehr stabil, da die Daten der Eingabe-Maske sehr leicht manipulierbar sind.

Gefälschte Kundenmeinungen: Die Königsdisziplin des NLP

Im Gegensatz zu E-Mail Spam, SMS Spam oder Web Spam sind gefälschte Kundenmeinungen alles andere als trivial. Sie sind eine der größten Herausforderungen im Natural Language Processing. Dieses Jahr wurde ein neuer Ansatz entwickelt, der Spam relativ gut identifizieren kann. Im Journal “Expert Systems with Applications” veröffentlichten Atefeh Heydari, Mohammadali Tavakoli und Naomie Salim einen neuen Algorithmus zur Identifikation von gefälschten Rezensionen. Der Ansatz ist sehr gut zu verstehen.

Gefälschte Kundenmeinungen erkennen: Diverse Herangehensweisen

2015 haben die oben genannten Forscher bereits ein Papier veröffentlicht, in dem die drei Herangehensweisen bei der Identifikation von falschen Meinungen dargelegt wurden.

Techniken zur Identifikation von Spam-Gruppen

Dieser Ansatz setzt die Denkweise voraus, dass Spammer häufig in Gruppen agieren. Teil einer bestimmten Spam-Gruppe zu sein, lässt sich über die Anzahl der bewerteten Produkte, Inhaltsähnlichkeit und die Abweichungen bei den Bewertungen messen. Man könnte sich das so erklären, dass ein einzelner Täter geringen Einfluss auf die Gesamtbewertung eines Produkts hat. Eine Gruppe von Spammern kann durch grobe Abweichung nach unten (viele 1-Sterne-Bewertung) die Gesamtbewertung verfälschen. Die Anzahl an Techniken ist begrenzt. In der Praxis verwendet man Ähnlichkeitsmodelle, Graphen und Cluster-Algorithmen.

Techniken zur Identifikation einzelner Spam-Kandidaten

Hier steht vor allem die Rating-Abweichung einer einzelnen Person im Vordergrund. Durch Graphen bestehend aus Review-, Reviewer- und Laden-Knoten lassen sich Spammer erkennen. Nicht zu vergessen an dieser Stelle: Das Hauptziel eines Spammers ist die Verzerrung des Produktbilds. 

2012 gab es eine sehr interessante Untersuchung (‘Review spam detection via temporal pattern discovery’ (Xie, Wang, Lin und Yu)): Die zeitliche Diskrepanz zwischen Website öffnen und Kommentar verfassen ist deutlich größer bei echten User als bei Spammern. Spammer verfassen einen Kommentar direkt nach dem Öffnen der Website.

Amazon verified purchase (Verifizierter Kauf)

Zur Bekämpfung von gefälschten Meinungen hilft das Label “Verifizierter Kauf”. Dieser Meta-Tag gibt Aufschlüsse darüber, ob der Verfasser tatsächlich das Produkt gekauft hat. Die Wahrscheinlichkeit, dass es sich dabei um einen Betrüger handelt, ist nahezu null. Das System funktioniert so aber nur auf Amazon. Der neue Algorithmus soll allen bei der Bekämpfung helfen.

 

Techniken zur Identifikation von gefälschten Kundenmeinungen

Hier kommen wir zur eigentlichen Thematik dieses Beitrags. Viele Studien haben den gleichen Ansatz: Wir müssen Merkmale identifizieren, mit denen wir ehrliche Inhalte von gefälschten Inhalten unterscheiden können. Sentiments, linguistische Aspekte, Schreibstil, Rechtschreibung, Subjektivitätsgrad und Lesbarkeit – alles Untersuchungsmetriken eines natürlichen Textes. Aber: Die Bots werden zunehmend intelligenter und eine Unterscheidung im Rahmen des N.L.P. ist kaum zu erkennen.

Das neue Spam-Detection-Framework

Die drei Forscher sind sich einig: Die klassischen Ansätze vergessen ein wesentliches Indiz:

In fact, when spammers start to generate fake reviews for a product, number of reviews will raise in that certain interval because these spam reviews will be added to the usual truthful reviews in the interval and create a burst.

Das Framework basiert auf der Idee, bestimmte “burst intervals” aufzuspüren, um Spam Kandidaten zu erwischen. Darauf aufbauend wurde ein Modell entwickelt. Wir wollen uns aufgrund der Komplexität nur den “detection metrics” widmen.

Die Cosinus-Ähnlichkeit (similarity) zweier Vektoren - Gefälschte Kundenmeinungen durch Inhaltsähnlichkeit aufspürenKosinus-Ähnlichkeit

Die Forscher sind der Auffassung, dass ein Spammer in der Regel nicht sehr häufig sein Vokabular drastisch verändert. Dabei hilft ein alter Hut aus den Informationswissenschaften. Die Ähnlichkeit von zwei Dokumenten kann durch die Kosinus-Ähnlichkeit ausgedrückt werden.

 

Das Maß der Aktivität des Autors

Der erste Algorithmus: Alle Reviews im Intervall zählen (Pseudoalgorithmus)

liste ist hier eine Liste an Bewertungen in einem verdächtigem Intervall.

foreach (rezension(i) in liste) {

foreach (rezension(j) der liste, die rezension(i) abschwächt) {

if (verfasseri == verfasserj)
zähler++; (zähler = zähler + 1)

}

….

}

Der zweite Algorithmus berechnet das Maß der Abweichung von der ursprünglichen Gesamtbewertung.

Dev(bi) = | Rank(b) – rbi |, wobei Rank(b) = (∑ rbi) / n

Die Deviation misst den Abstand der Gesamtbewertung von der individuellen Bewertung rbi des Nutzers i.

Da auch Nicht-Informatiker vermutlich diesen Artikel lesen, überspringen wir diesen etwas komplizierteren Teil und sie finden den zweiten Algorithmus hier.

Evaluationsmetriken – Wie gut sind unsere Detection Metrics?

Zuletzt sollten die Genauigkeit der Detection Metriken gemessen werden. Auch hier treffen wir auf alte Bekannte.

Recall (Abruf) und Precision (Präzision) sind Kennzahlen, die eine Aussage über die Qualität unserer Entscheidungsmetriken treffen können.

Genauigkeit im Spam-Erkennungssystem

True Positives sind gefälschte Kundenmeinungen, die auch identifziert wurden. False Positives sind Kundenmeinungen, die als gefälscht eingestuft wurden, jedoch in Wirklichkeit nicht gefälscht sind. False Negatives sind Dokumente, die nicht gefälscht sind und als solche auch nicht identifiziert wurden. True Negatives überlasse ich Ihnen als Denksportaufgabe.

Wissensexploration hat ansonsten eine angenehme Erläuterung der Begriffe für Sie. Überspringen Sie diesen Part nicht, wenn Sie es noch nicht verstanden haben. Die Ergebnisse werden mithilfe des F-Scores verglichen!

Die Ergebnisse – Wie gut ist das neue Spam-Detection-Framework im Umgang mit gefälschten Kundenmeinungen

Über 600 Bewertungen wurden untersucht und die Ergebnisse können sich sehen lassen. Der F-Score (Meta-Daten auswerten: 0.56, Rating-Verhalten: 0.75, Intervall-Ansatz: 0.86) macht das neue Framework zum Sieger. Aus der Studie lassen sich noch viel mehr Erkenntnisse gewinnen.

Zusammengefasst:

  • Die drei wichsten Erkennungsmetriken sind (mit einem F-Score von 0.86): Die Anzahl an Reviews des Spammers in einem bestimmten Intervall, das Rating (Präziser: Die Abweichung vom Gesamtrating) und die Ähnlichkeit zu anderen Reviews
  • Das Framework basiert auf simpler informationswissenschaftlicher Methodik und glänzt dennoch durch (sehr) gute Genauigkeit beim Aufspüren von gefälschten Rezensionen

Featured Image made by Freepik from www.flaticon.com is licensed by CC 3.0 BY

Marvin Joers
Founder of OnlineMarketingScience, Wirtschaftsinformatiker, (Noch-)Student & Citymensch.Ich interessiere mich vor allem für das Thema Big Data, Data Science, Google Analytics und Business Process Optimization im Online-Geschäft.

Entschuldigung, Kommentare zu diesem Artikel sind nicht möglich.

OnlineMarketingScience ist ein Online Marketing Blog mit interessanten Artikeln aus vielen Bereichen des Internet Marketings (Social Media, Onpage-Optimierung, Conversion Rate Optimization).