Was ist Google Analytics Spam und wie wird man es wieder los?

Sind auch Sie von Google Analytics Spam betroffen?

Oft erscheinen Dinge schöner als sie in Wirklichkeit sind. Das ist ganz besonders bei Google Analytics der Fall. Wurde Ihr Google Analytics Konto nicht entsprechend konfiguriert, sind die Besucherstatistiken Ihrer Webseite ziemlich sicher verfälscht.

In diesem Artikel erfahren Sie:

Warum Zugriffsstatistiken in Google Analytics meistens schlichtweg falsch sind.
Was Google Analytics Spam ist und was dahinter steckt.
Warum verfälschte Daten Ihr Online Marketing ad absurdum führen.
Wie Sie Plagegeister wie Ghost Visits und Referral Spam loswerden.
Wie Ihre Daten dauerhaft sauber bleiben.

Gleich zur Anleitung springen.

Was ist Google Analytics Spam?

Haben Sie sich beim Betrachten Ihrer Berichte in Google Analytics schon einmal gewundert, warum Ihre Webseite an einem Tag ungewöhnlich viele Zugriffe hat, aber an den meisten anderen dafür viel weniger?
Haben Sie sich schon einmal gefragt, warum Ihre Webseite aus aller Herren Länder besucht wird, obwohl Sie doch nur deutsche Inhalte anbieten?
Haben Sie beim genaueren Betrachten schon mal darüber gerätselt, warum viele Besuche eine durchschnittliche Sitzungsdauer von 00:00:00 aufweisen?
Ja, möglicherweise haben Sie auch schon bemerkt, dass unseriös klingende Webseiten wie fix-website-errors.com oder traffic2cash.xyz scheinbar auf Ihre Homepage verlinken.

Irgendwie haben Sie das Gefühl den Traffic-Daten in Google Analytics nicht ganz trauen zu können.

Dieses Gefühl täuscht ziemlich sicher nicht. Denn seit dem Jahr 2014 sind unzählige Webseitenbetreiber und Webmaster von einem Problem namens Google Analytics Spam betroffen.

Dabei handelt es sich — wie könnte es bei Spam anders sein — um das Werk betrügerischer Machenschaften. Findige Kriminelle haben Wege und Mittel gefunden, über unechte Webseitenbesuche Verweise auf ihre betrügerischen Webseiten in Google Analytics einzuschleusen. Oder anders gesagt: im Falle von Spam sind die Besuche von einem automatischen Computerprogramm generiert. Ihre Seite wurde in solchen Fällen also niemals von einem echten Menschen besucht.

Das Ziel der Spammer ist, dass Sie diese fadenscheinigen Webadressen in Ihren Google Analytics Berichten entdecken, diese aus Neugier besuchen und gewisse Folgeaktionen ausführen. Zum Beispiel:

Einbau von schadhaften Scripts in Ihre Webseite (z.B. 1-free-share-buttons.com)
Kaufen von SEO Softwareprodukten (z.B. semalt.com)
Installation von Malware und Computerviren

Beispiel für einen Google Analytics Bericht mit betrügerischen Webadressen aufgrund von Google Analytics Spam — Spammer gelingt es, betrügerische Webadressen in Google Analytics Berichten einzuschleusen.

Das heißt, Sie sollten unseriös klingende Webadressen in Ihren Zugriffsstatistiken nicht aufrufen, sondern stattdessen eine Google-Suche damit durchführen. Im Falle einer Spam-Webseite wird die betrügerische Absicht aufgrund der Einträge in den ersten Suchergebnissen relativ schnell ersichtlich.

Merkmale unechter Sitzungen und Besuche

Unechte Sitzungen (engl. Sessions) — in der Fachwelt auch bekannt unter den Begriffen Referral Spam und Ghost Visits — können Sie unter anderem aufgrund folgender Merkmale erkennen:

Durchschnittliche Sitzungsdauer von 00:00:00
Besuche aus Ländern und Städten, von denen Sie eigentlich keine Webseitenbesucher erwarten würden
Ebenso Zugriffe in Sprachen, die Ihre Webseite eigentlich nicht anbietet
Fadenscheinige Webadressen in klickbaren Feldern (z.B. Quelle im Bericht Akquisition / Alle Zugriffe / Channels)
Ungewöhnliche Ausschläge in der Anzahl der Sitzungen
Ungewöhnlich viele Sitzungen zu einem Zeitpunkt am Tag
Sprache auf "(not set)"

Beweis von Google Analytics Spam aufgrund von Zugriffen aus unerwarteten Ländern — Ein klares Zeichen für Ghosts Visits und Referral Spam: Für die Seite dvb-t2-umstellung.at hätte ich nicht mit Zugriffen aus den USA, England, Russland oder China gerechnet. "(not set)" wird auch von Spammern verwendet, kann allerdings auch von legalen und erwünschten Zugriffen durch Suchmaschinen-Crawler stammen.

Im folgenden Abschnitt wird erläutert, wie Sie anhand dieser Merkmale unechte Besuche identifizieren.

Identifizierung von unechtem Traffic als Folge von Spam

Freilich kann es für eine Spitze bei den Zugriffen auch reale Gründe geben — wir alle wünschen uns das. So genannte Spikes können beispielsweise entstehen, weil ihre Seite für einen oft gesuchten Begriff in Google gut rankt. Es kann aber auch sein, dass Ihnen ein gut geschriebener Artikel gelungen ist, der in ihrem Netzwerk und darüber hinaus gelesen und geteilt wird.

Fällt Ihnen ein solcher Spike auf, können Sie folgendes tun, um sich zu vergewissern, dass es echte Besuche sind:

Navigieren Sie auf den Bericht Zielgruppe / Übersicht
Schränken Sie den Zeitraum auf den Tag der Spitze bzw. des Spikes ein
Schauen Sie sich die vorhin genannten typischen Spam-Merkmale an, z.B. die Durchschnittliche Sitzungsdauer, woher die Besuche kommen etc.
Schätzen Sie ab, ob die Werte plausibel sind
Sind sie das nicht, wechseln Sie in den Bericht Akquisition / Übersicht
Sticht ein Akquisitionskanal (zum Beispiel Organic Search oder Referral in der Spalte "Channel") mit einer hohen Sitzungsanzahl hervor, klicken Sie auf diesen Channel
Schauen Sie sich nach betrügerisch aussehenden Webadressen um
Werden Sie dabei fündig, wurde Ihre Seite von Spammern „beglückt“

Beweis von Google Analytics Spam aufgrund von vielen Zugriffen genau zu einer Uhrzeit am Tag — **Schritte 1 bis 4:** 29 Zugriffe genau um 03:00 Uhr und sonst keinerlei Besuche am ganzen Tag? Irgendwie eigenartig. Noch dazu eine durchschnittliche Sitzungsdauer von 0 Sekunden und eine Absprungrate von 100 % sind weitere Indizien für unechte und damit "wertlose" Besuche. Wir sind skeptisch und setzen unsere Nachforschungen fort.

Eine Spammer-Webadresse scheint im Google Analytics Bericht Akquisition / Channels auf — **Schritt 5 bis 8:** Über den Bericht "Akquisition / Übersicht" gelingt es uns die unechten Besuche zu finden. Die Webadresse eu-cookie-law.blogspot.com soll uns offenbar bezüglich der EU Cookie Richtlinie verunsichern. Besonders gefinkelt in diesem Fall ist, dass die betrügerische Webseite die Blogging Plattform von Google namens Blogspot (Blogger) ausnutzt.

Kurzum, entdecken Sie unechte Besuche in Analytics, wollen Sie dies so schnell wie möglich bereinigt sehen. Schließlich wollen Sie sich bei der Analyse Ihrer Online Marketing Bemühungen auf die zur Verfügung stehenden Reports verlassen können.

Was nun folgt, ist eine Schritt-für-Schritt Anleitung, wie Sie die Säuberung der Google Analytics Daten selbst bewerkstelligen können.

Anleitung: So wird man Google Analytics Spam wieder los

Der Einsatz von Google Analytics macht wenig Sinn, wenn Ihre Daten, wie in den Beispielen vorhin gezeigt, derart verfälscht sind.

Schließlich müssten Sie sich bei jeder Benutzung fragen, ob sie den Zugriffsstatistiken wirklich vertrauen können.

Damit Ihre Analysen auf einer soliden Datenbasis fußen, ist die Durchführung der nun im weiteren Verlauf gezeigten Schritte notwendig.

Schritt 1: Ungefilterte, Test und Reporting Datenansicht erstellen

Zunächst geht es darum, bei unbeabsichtigten Fehlern keine Daten zu verlieren. Wie Sie in den weiteren Schritten sehen werden, ist die Einrichtung von Filtern in Ihrer Datenansicht, die beim Erstellen der Google Analytics Property automatisch angelegt wird, notwendig. Dabei ist zu bedenken, dass alle ausgefilterten Daten in der betroffenen Datenansicht nicht mehr zur Verfügung stehen. Wird aufgrund einer Fehlkonfiguration Traffic von echten Besuchern herausgefiltert, besteht keine Möglichkeit mehr, diese unabsichtlich gefilterten Daten im Nachhinein in die Datenansicht wieder einzuspielen. Das bedeutet, die Daten wären quasi verloren.

Damit im Falle von Fehleinstellungen der Filter Daten nicht völlig verloren gehen, wird das Anlegen folgender drei Datenansichten über das Menü Verwaltung empfohlen:

Ungefilterte Datenansicht. Enthält echten sowie unechten Traffic und dient sozusagen als Backup, falls einmal etwas schief geht.
Test Datenansicht. Dient dazu, Filteränderungen zu testen, bevor diese in die „echte“ Datenansicht übernommen werden.
Reporting Datenansicht. Die "echte", von Spam bereinigte Datenansicht für das eigentliche Arbeiten mit Google Analytics.

Screenshot: Erstellung einer neuen Datenansicht in Google Analytics — In der Google Analytics Verwaltung gelangt man zu den Einstellungen der Property, wo auch eine neue Datenansicht angelegt werden kann.

Mit diesen drei Datenansichten empfiehlt sich für den Rest der Anleitung das folgende Vorgehen bei der Erstellung von Filtern:

Erstellen Sie die Filter vorerst nur in der Test Datenansicht.
Beobachten Sie für ein paar Tage, ob die Filter wirklich exakt nur Spam-Traffic ausfiltern. Wir wollen weder, dass echter Traffic versehentlich ausgeschlossen wird, noch, dass Spam in unserer Reporting Datensicht landet.
Erst wenn Sie sicher sind, dass die Filter wie gewünscht funktionieren, übernehmen Sie die Filtereinstellungen der Test Ansicht exakt gleich in der Reporting Ansicht.

Hinweis: Beim Anlegen von neuen Datenansichten kann es bis zu 24 Stunden dauern, bis in der neuen Ansicht Daten angezeigt werden.

Schritt 2: Ghost Visits verbannen

Nachdem Sie durch das Erstellen der drei Datenansichten auf der sicheren Seite sind, geht es nun an das Einrichten des ersten Filters, der so genannte Ghost Visits eliminiert. Da die deutsche Übersetzung "Geisterbesuche" sein würde, bleiben wir lieber beim originalen Begriff.

Ghost Visits sind Besuche bzw. Sitzungen, die nicht aufgrund echter Besuche entstanden sind. In diesen Fällen wird nicht einmal eine Verbindung zu Ihrem Webserver hergestellt. Stattdessen nutzen Spammer Google’s Measurement Protocol.

Diese Schnittstelle bietet Unternehmen die Möglichkeit, Benutzerinteraktionen aus fast beliebigen, auch internen Computersystemen an Google Analytics zu schicken und dort auszuwerten.

Screenshot: Anzeige der Google Analytics Tracking-ID für eine Webseite bzw. Property — Über die Property-Einstellungen (eine Property entspricht im Wesentlichen meist einer Webseite) in "Verwaltung", lässt sich die Tracking-ID nachlesen. Im Falle von Ghost Visits probieren Spammer zufällig Tracking-IDs aus und erzeugen über den Umweg der Measurement Protocol Schnittstelle künstlich Besuche.

Diese Möglichkeit machen sich aber auch Betrüger zunutze. Sie „erraten“ Tracking-IDs (Beispiel: UA-1234567890-1) und erzeugen in der zu einer Tracking-ID zugehörigen Property künstlich Webseitenbesuche. Was Betrüger meist nicht wissen, ist der richtige Hostname Ihrer Webseite. Folglich setzen Spammer das Feld Hostname auf (not set), verwenden einen gefälschten Hostnamen (z.B. "google.com") oder setzen eine betrügerische Webseite als Wert für Hostname.

Das Feld "Hostname" — und andere wie "Quelle" — scheint in verschiedenen Reports in Google Analytics auf. Das Ziel der Betrüger ist bekanntermaßen, dass Sie als Analytics-Benutzer einen dieser Links folgen und in weiterer Folge die vom Betrüger gewünschte Aktion zu Ihrem Schaden ausführen.

Darum werden wir also einen Filter einrichten, der nur Besuche zulässt, die im Feld Hostname einen echten, validen Hostnamen enthalten.

Nun, was sind valide Hostnamen?

Valide Hostnamen sind kurz gesagt die Domainnamen (z.B. in meinem Fall scalingcurve.at) all jener Webseiten, die Sie mit ein und derselben Google Analytics Property analysieren. In den meisten Fällen wird es genau einen validen Domainnamen geben — nämlich die Domain, sprich Webadresse, unter der Ihre Webseite erreichbar ist. In komplexeren Szenarien, wo man Besuche über mehrere Webseiten hinweg analysieren möchte, kann es aber auch mehrere valide Hostnamen geben. Das ist möglicherweise der Fall, wenn Sie eine Webseite und einen Webshop betreiben, die unter unterschiedlichen Webadressen erreichbar sind. In einer solchen Konstellation möchten Sie unter Umständen nachvollziehen können, wie viel Prozent der Webseitenbesucher auch in weiterer Folge den Webshop besuchen (Stichwort Konversionsrate) und verwenden deshalb für beide Webseiten die selbe Property und folglich auch die selbe Tracking-ID.

Um den Filter einzurichten, müssen wir folglich eine Liste der validen Hostnamen erstellen. Gehen Sie dabei wie folgt vor:

Wechseln Sie zum Report Zielgruppe / Technologie / Anbieter.
Wählen Sie als primäre Dimension Hostname.
Stellen Sie als Reporting Zeitraum eine möglichst lange Zeitspanne ein.
Nach Aktualisierung des Berichts werden Sie nun neben der Webadresse Ihrer Seite ziemlich sicher auch Ihnen völlig unbekannte Hostnamen bzw. Ihnen bekannte, aber nicht Ihnen gehörende Hostnamen sehen.
Gehen Sie den Report durch und erstellen Sie eine Liste aller validen Hostnamen. In meinem Fall wären das schlicht die Hostnamen scalingcurve.at und www.scalingcurve.at

Screenshot: Herausfinden von invaliden Hostnamen in Google Analytics mit dem Bericht Zielgruppe / Technologie / Anbieter / Hostname — Über den Bericht "Zielgruppe / Technologie / Anbieter / Hostname" kann man den eigenen, aber auch viele unbekannte Hostnamen finden. Mit einem Filter werden wir sicherstellen, dass nur Besuche mit gültigem Hostnamen protokolliert werden.

Gewappnet mit dieser Liste, ist der nächste Schritt das Einrichten des Filters.

Wechseln Sie in Verwaltung zu den Einstellungen der Datenansicht (benutzen wie eingangs empfohlen die Test Datenansicht) und dann in den Unterpunkt Filter.
Legen Sie dort einen neuen Filter namens Valide Hostnamen an.
Wählen Sie als Filtertyp Benutzerdefiniert und darunter die Option Einschließen.
Wählen Sie als Filterfeld Hostname und geben Sie zu guter Letzt das Filtermuster an.

Screenshot: Konfiguration eines Filters zum herausfiltern von Sitzungen mit falschem, invaliden Hostnamen — So wird der "Valide Hostnamen" Filter in einer Datenansicht erstellt. Der reguläre Ausdruck für das Filtermuster setzt sich aus der vorhin ermittelten Liste der validen Hostnamen zusammen.

Im Filtermuster ist ein so genannter regulärer Ausdruck (in Englisch Regular Expression) zu verwenden. Für eine simple Webseite ist dies keine Kunst.

Hier ein Beispiel mit einem validen Hostnamen: scalingcurve\.at

Und ein Beispiel mit mehreren validen Hostnamen: scalingcurve\.at|scalingcurve-shop\.at

Hinweis: Sie müssen keine Subdomänen wie www im Filtermuster angeben.

Vorsicht! Beenden Sie das Filtermuster keineswegs mit dem Zeichen „|“, das in regulären Ausdrücken ODER bedeutet. Sie würden damit alle Hostnamen, das heißt auch die validen, ausgrenzen.

Nach dem Speichern des Filters wird empfoheln, die Auswirkungen des Filters für mehrere Tage in der Test Datenansicht auf Korrektheit zu prüfen und erst dann den Filter in der Reporting Ansicht nochmals auf dieselbe Art und Weise anzulegen.

Somit sollten Sie für die absehbare Zukunft vor Ghosts Visits geschützt sein. Allerdings haben Datenansichtsfilter eine Einschränkung: sie wirken sich nur auf zukünftige Traffic-Daten aus.

Schritt 3: Historische Daten bereinigen

Um sozusagen auch rückwirkend Spam Traffic auszufiltern, muss ein benutzerdefiniertes Segment angelegt werden, das im Wesentlichen dieselben Filter beinhaltet wie die Reporting Datenansicht. Ein solches Segment können Sie wie folgt anlegen:

Wählen Sie in einem beliebigen Report Segment hinzufügen.
Klicken Sie auf Neues Segment.
Geben Sie einen aussagekräftigen Segmentnamen, zum Beispiel „Ohne Spam“, an. Hinweis: Benutzen Sie Ihren Google Analytics Account für mehrere Webseiten in unterschiedlichen Properties, ist es notwendig, dem Segment einen eindeutigen Namen zu geben (z.B. „Ohne Spam (scalingcurve.at)“), da Segmente im gesamten Account, d.h. über Properties hinweg, sicht- und anwendbar sind.
Gehen Sie dann auf Erweitert / Bedingungen und erstellen Sie eine neue Bedingung.
Erzeugen Sie für diese Bedingung einen Filter auf Sitzungen, dabei als Filtertyp Einschließen, als Filterfeld Hostname und schließlich stimmt mit regulärem Ausdruck überein. Geben Sie schlussendlich als Wert des Hostname-Filters das Filtermuster aus dem vorangegangenen Schritt (Valide Hostnamen Filter) an.
Schließen Sie die Segmentdefinition mit Speichern ab.

Mit dem erzeugten Segment besteht nun die Möglichkeit auch historische Daten ohne Ghost Visits zu analysieren.

Screenshot: Anlegen eines benutzerdefinierten Ohne-Spam Segments in Google Analytics um historische Daten ohne Spam-Daten analysieren zu können — Um die Daten auch rückwirkend zu bereinigen, muss ein benutzerdefiniertes Segment angelegt werden, das die gleichen Filtereinstellungen haben sollte, wie die Datenansicht selbst.

Screenshot: Historische Google Analytics Daten bereinigt von Spam mit einem benutzerdefinierten Segment im Vergleich zu Zugriffszahlen mit Spam. — Wir befinden uns im Bericht "Zielgruppe / Übersicht". Das "Ohne-Spam"-Segment (orange Linie) zeigt, auf welch verfälschte und damit wertlose Daten (blaue Linie) man in den letzten Monaten geblickt hat.

In den Reports, zum Beispiel Zielgruppe / Übersicht, können Sie das Segment Alle Nutzer und das eben angelegte ohne Spam gegenüberstellen. Dabei werden Sie schnell erkennen, wie verfälscht Sie Ihre Daten bislang zu Gesicht bekommen haben.

Schritt 4: Einstellung "Bots herausfiltern" aktivieren

Sie werden sich vielleicht im Laufe des Artikels gefragt haben, warum Google diese kriminellen Machenschaften zulässt. Natürlich arbeitet der Internetgigant im Hintergrund daran, das Problem zu lösen. Solche Dinge sind aber immer ein Katz-und-Maus-Spiel, denn Betrüger finden immer wieder Lücken, um unechte Besucherdaten in Google Analytics einzuschleusen. Man kann die Situation durchaus mit E-Mail Spam vergleichen — auch hier gelangen trotz ausgeklügelter Technik auch heute noch ab und an unerwünschte Spam E-Mails in unser Postfach.

Freilich will man von Googles Bemühungen in der Bekämfpung von Spam profitieren und aus diesem Grund steht pro Datenansicht eine Einstellung namens „Bots herausfiltern“ zur Verfügung. Stellen Sie sicher, dass diese Option in allen Datenansichten (ruhig auch in der ungefilterten Datenansicht) aktiviert ist.

Screenshot: Anleitung wie man die Bots herausfiltern Einstellung für eine Datenansicht in Google Analytics aktiviert — Wir wollen von Google's Fortschritten bei der Bekämpfung von Google Analytics Spam profitieren und aktivieren die Einstellung "Bots herausfiltern" für jede angelegte Datenansicht.

Diese Einstellung sorgt dafür, dass gute Bots — das sind automatisierte Computerprogramme wie die Suchmaschinen-Crawler von Google oder Microsofts Bing — Besucherstatistiken nicht in die Höhe treiben und einige bekannte Spam Bots von vornherein ausgesperrt bleiben.

Sind Ihre Daten nun frei von Spam?

Leider existiert mit Referral Spam eine weitere Klasse von unechten Besucherdaten, von der Sie unter Umständen betroffen sein könnten.

Referral Spam hebt sich von Ghost Visits insofern ab, dass Sitzungen — sprich Besuche — mit validen Hostnamen generiert werden. Das heißt, dass den Spammern in solchen Fällen der Hostname Ihrer Webseite bekannt ist. Darüber hinaus unterscheiden sich die beiden Spam-Arten auch dadurch, dass bei Referral Spam Ihre Seite, anders als bei Ghost Visits, tatsächlich aufgerufen wird. Aber das nicht von echten Menschen, sondern automatisiert durch Computerprogramme, die man auch Spam Bots oder Spam Crawler nennt.

Dabei geben diese bei der Anfrage an Ihren Webserver unter anderem eine betrügerische Webadresse als Quell-Hostname, was vereinfacht gesagt die Quelle eines Besuchs ist, an. Gleich wie bei Ghost Visits, ist auch bei Referral Spam bzw. Crawler Spam das Ziel der Betrüger, Google Analytics Benutzer zum Klick auf eine unseriöse oder schädliche Webadresse zu bewegen.

Es empfiehlt sich folgerichtig ein Check, um herauszufinden ob Ihre Daten auch von Referral Spam betroffen ist.

Gehen Sie dazu wie folgt vor:

Navigieren Sie zum Bericht Akquisition / Übersicht / Alle Zugriffe / Channels.
Wählen Sie im Bericht die beiden Segmente Alle Nutzer und Ihr vorhin angelegtes "Ohne Spam"-Segment aus.
Wählen Sie als Primäre Dimension Quelle/Medium aus.
Vergrößern Sie den Berichtszeitraum auf eine möglichst lange Zeitspanne.
Gehen Sie nun die Tabelle des Berichts durch. Sehr wahrscheinlich finden Sie in der Spalte Quelle/Medium Werte wie google / organic oder (direct) / (none), aber auch ominös klingende wie traffic2cash.xyz / referral.
Pro Quelle/Medium wird die Anzahl der Sitzungen je Segment ausgegeben.
Halten Sie Ausschau nach verdächtig klingenden Quellen, wie traffic2cash.xyz oder share-buttons.xyz und überprüfen Sie, ob im "Ohne Spam"-Segment 0 Sitzungen gezählt werden.
Ist dies nicht der Fall, d.h. weist das "Ohne Spam"-Segment mehr als 0 Sitzungen auf, dann ist Ihre Seite wohl von Referral Spam betroffen.

Screenshot: Anleitung wie in Google Analytics Referral Spam identifiziert. — Mit etwas Geschick gelingt es mit dem vorhin angelegten "Ohne Spam"-Segment Referral Spam zu identifizieren. Wir verwenden dabei den Bericht "Akquisition / Übersicht / Alle Zugriffe / Channels"

Ein Beispiel für Google Analytics Referral Spam. — Im Ergebnis des Berichts finden wir: (i) Ghost Visits (erkennbar, da der "Valide Hostnamen" Filter im "Ohne-Spam"-Segment wirksam ist), (ii) eine echte, ehrliche Seite die auf unsere Homepage verlinkt und (iii) Referral Spam, für den der "Valide Hostnamen" Filter im Segment nicht greift.

Zur Erklärung: Wie in der Einleitung erwähnt, kennen Referral Spammer den Hostnamen Ihrer Webseite und werden damit vom im "Ohne Spam"-Segment eingestellten Filter für valide Hostnamen nicht ausgefiltert. Falls Sie betroffen sind, lesen Sie im nächsten Abschnitt weiter, wie Sie sich vor lästigem Referral Spam bzw. Crawler Spam schützen können.

Schritt 5: Schutz vor Referral Spam

Die gute Nachricht ist, dass es auch gegen Crawler Spam Abwehrmöglichkeiten gibt, die schlechte Nachricht, dass diese laufend gewartet werden müssen. Wie bei Ghost Visits, heißt auch hier das Zauberwort Filter. Was wir im Wesentlichen tun müssen, ist ein Filtermuster zusammenzustellen, das alle uns bekannten Referral Spam Quell-Hostnamen aussperrt.

Dabei stehen grundsätzlich zwei Möglichkeiten zur Verfügung.

Manuelles Sammeln von Spam Crawler Adressen über Google Analytics Berichte.
Übernehmen von Spam Crawler Filtermustern, die im Web publiziert werden.

Für die zweite Möglichkeit gibt es einige englischsprachige Webseiten wie hier und hier.

In diesem Artikel wird aber die manuelle Zusammenstellung des Filtermusters gezeigt, da eine Seite nicht unbedingt von jedem existierenden Spam Crawler betroffen sein muss und so das Filtermuster kürzer und übersichtlicher bleibt.

Um die Liste betrügerischer Quell-Hostnamen zusammenzustellen, bemühen wir auf ein Weiteres den Bericht Akquisition / Übersicht / Alle Zugriffe / Channels, den wir auch schon vorhin benutzt haben, um unsere Daten auf Referral Spam zu prüfen. Setzen Sie ein Liste von Quell-Hostnamen jener Zeilen des Berichts zusammen, die verdächtig klingen und im "Ohne Spam"-Segment mehr als 0 Sitzungen aufweisen.

Achtung! Sind Sie bei gewissen Quell-Hostnamen unsicher, besuchen Sie auf keinen Fall die Webseite, denn Ihr Computer könnte zum Beispiel von einem Virus befallen werden. Geben Sie die Webadresse stattdessen in Google ein. Die Suchresultate geben sehr schnell darüber Aufschluss, ob es sich um eine Spam-Seite handelt.

Setzen Sie die Einträge der gerade erstellten Liste in einem regulären Ausdruck zusammen. Hier ein ganz kurzes Beispiel:

fix-website-errors\.com|seo-2-0\.com

Da wir nun ein schönes Filtermuster zusammengestellt haben, fehlt nur noch die Konfiguration des entsprechenden Filters:

Wechseln Sie wieder in die Verwaltung Ihrer Test Datenansicht.
Erzeugen Sie abermals einen Filter.
Wählen Sie als Filtertyp Benutzerdefiniert und Ausschließen.
Selektieren Sie als Filterfeld Kampagnenquelle und geben Sie das gerade erstellte Filtermuster an.

Anleitung: Erstellung eines Filers in Google Analytics um Referral Spam in einer Datenansicht zu verhindern — Die Konfirguration des "Crawler Spam" Filters basierend auf einer Liste von uns bekannten Referral Spam Webadressen. Da immer wieder neue Spam Crawler auftauchen, muss der Filter immer wieder angepasst werden.

Wichtig! Da immer wieder neue Spam Crawler auftauchen und auch Ihre Webseite davon betroffen sein könnte, muss das Filtermuster bei Bedarf angepasst werden.

Schritt 6: Laufende Wartung des Referral Spam Filters

Sie müssen in dieser Sache also am Ball bleiben. Dabei stellt sich natürlich die Frage, wie man neu ankommende Spam Crawler am geschicktesten ausmacht. Hierbei gibt es mehrere Ansätze.

Spitzen in der Anzahl an Sitzungen analysieren. Entdecken Sie einen ungewöhnlichen Ausschlag der Zahlen, können Sie, wie zu Beginn des Artikels beschrieben, ausgehend vom Report Zielgruppe / Übersicht Daten auf auffällige Spam-Merkmale überprüfen.
Den Bericht Akquisition / Übersicht / Alle Zugriffe / Channels immer wieder wie oben beschrieben auf verdächtige Webadressen in Quelle/Medium prüfen. Sie können den Bericht einem Dashboard hinzufügen, eine Verknüpfung erstellen oder sich den Bericht regelmäßig per E-Mail zustellen lassen.

Neben der Bekämpfung von Referral Spam direkt in Google Analytics gibt es eine zweite Option der Abwehr, die Ihnen nicht vorenthalten werden soll. Da Ihre Webseite im Falle von Referral Spam von einem Crawler tatsächlich abgefragt wird und infolgedessen Ihr Webserver davon "Wind bekommt", können Sie Crawler auch am Webserver direkt abwehren. Wird Ihre Webseite wie so oft von Apache ausgeliefert, müssten Sie entsprechende Regeln in .htaccess Dateien definieren. Dazu ist ein entsprechender Zugang zum Webserver und ein wenig technisches Wissen nötig. Mehr dazu eventuell in einem später folgenden Artikel.

Vermutlich möchten Sie historische Daten auch von Referral Spam bereinigen. Es empfiehlt sich folgerichtig, das "Ohne Spam"-Segment um den Referral Spam Filter zu erweitern.

Bonustipp für neue Webseiten

Sind Sie kurz davor eine neue Webseite oder eine bereits existierende mit Google Analytics auszustatten, dann empfiehlt sich noch ein Trick: Wie wir nun wissen, versuchen Ghost Visit Spammer Tracking IDs zu erraten. Dabei beschränken sich Spammer auf Tracking-IDs mit einer Endung kleiner 4. Diese Endung kennzeichnet im Wesentlichen die Nummer der Property in einem Konto. Legen Sie daher vor dem Erstellen einer Property mehrere Dummy-Properties im Konto an und verwenden Sie dann erst die vierte oder fünfte Property für die Analyse Ihrer neuen Webseite. So erhalten Sie dann eine Tracking-ID ala UA-13514512-4, die laut Berichten zumindest bis jetzt (Stand September 2016) von Ghosts Visits verschont geblieben sind.

Fazit

In diesem Artikel wurde beschrieben

was Google Analytics Spam ist,
wie man die dadurch entstehenden unechten Besucherdaten identifiziert,
die geeigneten Abwehrmaßnahmen setzt
und diese laufend aufrecht hält.

Saubere Analytics Daten sind eine Grundvoraussetzung für eine erfolgreiche Online Marketing Strategie. Entscheidungen auf Basis von Besucherzahlen, Konverionsraten und dergleichen, machen erst dann Sinn, wenn sich Ihre Analysen auf echte und nur echte Daten stützen.

Wenn Sie Anmerkungen, Feedback oder Fragen haben, oder für Sie Teile der Anleitung unklar sind, würde ich mich über Ihre Kontaktaufnahme freuen.