Social Media Analysis Tool – Shitstorm & Candystorm Analyzer

Social Media Analysis Tool – Shitstorm & Candystorm Analyzer

Share on FacebookTweet about this on TwitterEmail this to someoneShare on Reddit

Einführung in Sentiment-Analysen

Am Institut für Internetwissenschaften und Technologien am Campus Koblenz hat sich Irina Schmidt dem Thema SentiStrength gewidmet und ihre Arbeit dokumentiert. Den Prozess des „Opinion Mining“ (Sentimentanalyse) beschreibt sie mithilfe von drei einfachen Phasen:

Sentiment Analysen leicht gemacht
Abbildung 1: Phasenmodell der Sentimentanalyse

Die Analyse des Sentiments geschieht über Skalen und einfache Attribute. Die Bewertung einzelner Worte durch neutrale, positive oder negative Werte hat ihren Ursprung in der Emotionspsychologie. Basierend auf dem Dimensionsmodell1 von Russel haben Emotionen eine Wertigkeit (positiv oder negativ) und eine Stärke (niedrig oder hoch). Wir wollen uns dieses Modell für unseren eigenen Prototyp zunutze machen. Die Stärke der Worte und Sätze und deren Intervall ist bei den Tools unterschiedlich. Beispielsweise gewichtet SentiWS Worte und Beiträge lediglich zwischen -1 und 1. Im Vergleich: Der kostenlose Sentiment Analyzer von Daniel Soper bewertet im Intervall zwischen [-100;100]. Die Forschung zeigt jedoch, dass auch Positiv- und Negativ-Empfindungen koexistieren können.

Zur Analyse, Kompensation und Interpretation der Werte existieren verschiedene Bewertungsansätze. Der modernste ist der Machine-Learning-Ansatz. Das System lernt aus dem Verhalten der Nutzer, versucht anhand von Part-Of-Speech-Taggers Aussagen in einem bestimmten Zusammenhang besser zu deuten und verwendet den so genannten PMI-IR-Algorithmus.

Dieser Algorithmus bestimmt das Sentiment der Ausdrücke durch den Vergleich mit Schlüsselworten und berechnet dabei eine Wahrscheinlichkeit, wie oft der Ausdruck mit dem Bezugswort auftreten kann.

Auch wenn in den letzten Jahren vermehrt der Machine-Learning-Ansatz eingesetzt wird und dieser gute Ergebnisse bei der Analyse von Produktrezensionen zeigt (durchschnittlich 84%2 Genauigkeit bei Reviews über Fahrzeuge z.B.), ist dieser Ansatz laut Schmidt nicht für den Einsatz bei kurzen Statements geeignet. Der Algorithmus kann anhand den kurzen Statements nur schwer ausreichende Nutzerprofile generieren. Ein weiteres Problem ist die Kommunikationsform in sozialen Netzwerken und die damit entstandenen neuen Interpretationsherausforderungen:

  • Abgekürzte Worte und Sätze
  • Verwendung von Emoticons
  • Verstärkter Gebrauch von Slang und Dialekten

So ist nach Schmidt ein neuer Ansatz zu entwickeln, der den neuen Anforderungen gerecht werden kann.

SentiStrength-Ansatz und Entwicklung unseres Prototyps

Der SentiStrength-Ansatz ist zum einen wörterbuchbasierend und zum anderen zur Bestimmung von gleichzeitig positiven und negativen Sentiments in kurzen informalen und elektronischen Texten entwickelt worden. Am Ende der Auswertung erfolgt eine einfache Bewertung des Beitrags durch die Ausgabe eines Durchschnittswerts oder des höchsten Werts beider Orientierungen. Der Kern dieses Algorithmus besteht aus einer Nachschlagetabelle. Da es sehr zeitintensiv gewesen wäre, ein eigenes Wörterbuch anzufertigen, haben wir das Wörterbuch von SentiWS verwendet.

Wörterbuch-Ausschnitt von SentiWS
Abbildung 2: Ein Ausschnitt aus der Wortdatenbank von SentiWS

SentiWS ist eine Sammlung von Nomen, Verben und Adjektiven, die numerisch zwischen [-1;1] bewertet wurden. In einer dritten Spalte werden Abwandlungen des Begriffs aufgelistet. Dadurch ergibt sich eine Wortdatenbankgröße von über 15000 Begriffen. Um die Begriffe für unser Tool verwendbar zu machen, haben wir die .txt-Dateien heruntergeladen und über ein einfaches PHP-Skript geparsed und in eine lokale Datenbank übertragen.

Nun sind wir im Besitz eines eigenen Nachschlagewerks und können uns nun an die Sezierung der Kommentare machen. Das Crazy Comment Export Tool exportiert uns die Facebook Kommentare in ein einheitliches Format. Diese Datei parsen wir erneut und wenden unser wörterbuchbasierendes Bewertungsverfahren an.

Obwohl das Tool ausschließlich über ein einfaches Regelwerk verfügt (Wort-zu-Wort-Vergleiche, Korrektur durch Betrachtung der durchschnittlichen Likes durch einen gewichteten Durchschnitt), kann es gute Aussagen über die Existenz von Shit- und Candystorms treffen.

Optimierungsansätze unseres experimentellen Tools

Bad is Stronger Than Good (Baumeister et al. 20113) & Prospect Theory4

In der Psychologie ist man davon überzeugt, dass negative Empfindungen stärker sind als positive. Kahneman und Tversky haben 1979 anhand ihrer Prospect Theory und der hypothetischen Wertfunktion gezeigt, dass der Koeffizient der Risikoaversion λ = 2,25 beträgt. Aufbauend auf diesen Erkenntnissen könnte man Korrekturen bei negativ behafteten Kommentaren vornehmen, um die Aussagekräftigkeit zu steigern.

Auswertung der zeitlichen Abstände

Shitstorm & Candystorm Verläufe
Abbildung 3: Sind diese Normalverteilungen repräsentativ für Verläufe von Candy- und Shitstorms?

Ein Shitstorm oder Candystorm zeichnet sich vor allem durch virale Charakteristiken aus. Dieses lawinenartiges Auftreten steht für die rapide Verbreitung von Inhalten über soziale Netzwerke. Diese wichtige Eigenschaft sollte bei der eigentlichen finalen Beurteilung (Candystorm, Shitstorm?) miteinbezogen werden. Das kann beispielsweise über eine einfache lineare Regression erfolgen oder bei Betrachtung von vergangenen Beiträgen, die womöglich ein Candystorm oder Shitstorm waren, über die Verwendung von nichtlinearen Regressionsfunktionen. Dabei ist lediglich nötig, den Zusammenhang zwischen der Aktion Kommentar und Zeit zu betrachten.

Ein zusätzliches Open-Source-Wörterbuch mit Wörtern der etablierten Umgangssprache und eine Methode zur Identifikation und Interpretation von Emoticons kann die Genauigkeit des Algorithmus erhöhen. Schmidt sah auch eine Schwäche in der fehlenden Rechtschreibekorrektur der Aussagen. Dadurch entsteht Informationsverlust. Das Hinzufügen eines Rechtschreibemoduls kann die Aussagekräftigkeit des Algorithmus erhöhen. SentiStrength hat dies bereits.

Nutzen für die Online Marketing Praxis: Frühzeitiges Erkennen von Storms

Bei umfangreichem Social Media Management ist das permanente Monitoring von Netzwerkreaktionen durch Sentiment-Applikationen essentiell. Die Implementation von Sentiment-Tools kann sowohl zur grundlegenden Sentiment-Bestimmung verhelfen als auch frühzeitig Shitstorms abfangen und Candystorms durch virales Marketing entsprechend intensivieren.


Verwendete Quellen:

1Russell, J.A.: Affective space is bipolar. Journal of Personality and Social Psychology, 37 (3), (1979) 345–356
2Schmidt, Irina: SentiStrength, (2012) 1-14
3Baumeister, R. F., Bratslavsky, E., Finkenauer, C. & Vohs, K.D.: Bad is Stronger than Good.Review of General
Psychology, 5 (4), (2001) 323-370
4Kahnemann, D. & Tversky, A.: Prospect Theory: An Analysis of Decision under Risk. Econometrica, 47 (2), (1979),
263-291

Marvin Joers
Founder of OnlineMarketingScience, Wirtschaftsinformatiker, (Noch-)Student & Citymensch.

Ich interessiere mich vor allem für das Thema Big Data, Data Science, Google Analytics und Business Process Optimization im Online-Geschäft.

Comments

comments

Entschuldigung, Kommentare zu diesem Artikel sind nicht möglich.

OnlineMarketingScience ist ein Online Marketing Blog mit interessanten Artikeln aus vielen Bereichen des Internet Marketings (Social Media, Onpage-Optimierung, Conversion Rate Optimization).