Zeitreihenzerlegung von Google Search Console Daten

Möchte man Aussagen über den zukünftigen Klickverlauf treffen, so erschwert der (saisonal) schwankende Zeitreihenverlauf oftmals die genaue Prognose. Wendet man typische Schätzverfahren an, so sind diese in der Regel nicht effizient. Ein Verfahren aus dem Bestandsmanagement schafft einen Lösungsansatz – für additive und multiplikative Saisonalität.

 

Zeitreihendekomposition

MontagDienstagMittwochDonnerstagFreitagSamstagSonntag
256295241245202133144
228239223208140116112
213224182199162112153
226191223239200118139

 

Im ersten Schritt müssen die Saisonfaktoren ermitteln werden. Man bezeichnet diesen Vorgang schlicht auch als Trennung von Saisonkomponente und Trendkomponente. Dafür können zwei Verfahren verwendet werden:

1. Lineare Regression
2. Zentraler gleitender Durchschnitt

Exemplarisch sind hier die Werte nach Anwendung des zentralen gleitenden Durchschnitts (Zyklus = 7 (da jeweils 1 Woche)) berechnet worden. Dabei werden stets sieben Werte (nach dem Zyklus) aufsummiert und diese Summe wird durch die Zyklusgröße geteilt.

Es sind insgesamt 22 Werte (Eigentlich haben wir 28 Werte (Werte über vier Wochen)). Das Verfahren benötigt stets sieben Werte, um einen Wert zu schätzen.

Gleitender Durchschnitt

Daher ist es nicht möglich, für die ersten drei und die letzten drei Werte Durchschnitte zu berechnen. Das soll aber nicht weiter stören.

Im zweiten Schritt eliminieren wir die glatte Komponente. Die gemessene Klickzahl wird durch den berechneten Schätzwert geteilt. Das geht natürlich nur in zweiundzwanzig Fällen, da uns die Schätzwerte für die ersten drei und die letzten drei Werte fehlen.

Wir erhalten:

Der erste Wert repräsentiert den jeweiligen Wochentag und wurde an den Wert angehängt (Output aus eigenem Python-Skript). Wir benötigen diese Information im nächsten Schritt.

Wir sortieren die vorläufigen Saisonfaktoren nach den Wochentagen und bilden hier wiederum den Durchschnitt aller Saisonfaktoren für den jeweiligen Wochentag. Achtung: Da uns bedingt durch das Verfahren sechs Daten fehlen, bilden wir Durchschnitte auf Basis unterschiedlicher Mächtigkeiten. Wir müssen die Durchschnitte normieren (Zyklusgröße / Summe aller berechneten Durchschnitte).

Die vorherigen Durchschnittswerte für Montag bis Sonntag:

Die normierten Durchschnittswerte für Montag bis Sonntag:

Zur Kontrolle muss die Summe exakt der Zyklusgröße (=7) entsprechen.

Zuletzt isolieren wir die Saisonkomponente aus den Daten. Wir dividieren die Klickzahl am Wochentag X durch den jeweiligen normierten Durchschnittswert für Wochentag X:

Nun können wir auf Basis dieser bereinigten Daten eine Regression durchführen. Die Schätzparameter können zur Erstellung von Prognosewerten verwendet werden (Verfahren von Holt mit Alpha = 0,1, Beta = 0,2 bspw.).

Quellen

http://statmath.wu-wien.ac.at/courses/multverf1/FolienVK2-teil1-kap11-12.pdf

https://otexts.org/fpp2/holt-winters.html

https://docs.oracle.com/cd/E57185_01/CBPPU/holt-winters_additive.htm

http://s3.amazonaws.com/zanran_storage/www.cec.uchile.cl/ContentPages/107548415.pdf

https://www.uni-siegen.de/smi/aktuelles/bestandsmanagement_wolf.pdf

Marvin Jörs

Gründer von onlinemarketingscience.com, Student der Wirtschaftsinformatik und Gründer der Skyscraper Marketing UG in Frankfurt. Ich interessiere mich vor allem für Themen wie Big Data, Data Science, neuronale Netze, Business Process Optimization im Online-Geschäft und natürlich SEO (Suchmaschinenoptimierung).
  Subscribe  
Benachrichtige mich zu:

Hallo Nutzer

destructed

Marvin / geb. 1994 / Studium der Wirtschaftsinformatik (TU Darmstadt) / Gründer