alainericgauthier.com

construire une présence sur le web

Comment retirer le SPAM de vos données Google Analytics

Logo No Spam. Source : commons.wikimedia.org dans domaine public Créer un site web

Les spammers ne prennent jamais de repos simplement parce qu'ils ont une armée de robots qui travaillent pour eux. Et ils n'arrêtent pas d'innover non plus.

Récemment, j'ai constaté que j'avais du trafic qui venait de sites que je ne connaissais pas.

Par exemple :

Avertissement : n'allez jamais sur ces sites, certains n'ont pour but que d'infecter votre ordinateur avec des virus et autres maladies cybernétiques.

  • o-o-6-o-o.com
  • priceg.com
  • ilovevitaly.co
  • humanorightswatch.org
  • blackhatworth.com
  • hulfingtonpost.com
  • ilovevitaly.com
  • darodar.com

Et cette liste s'allonge à tous les mois. Depuis un bon 2 mois déjà, ce trafic fausse mes données et je cherche à l'éliminer. Après quelques tentatives, je ne suis arrivé à rien d'utile. Mais, grâce au génie collectif de l'humanité, j'a trouvé des solutions.

Qui sont vos référents

Pour voir la liste des sites qui réfèrent des visites vers votre site, accédez au rapport Canaux en suivant le chemin : Acquisition - Tout le trafic - Canaux. Dans le rapport, cliquez sur le mot Refferal.

La liste des sites que vous verrez contient des sites légitimes mais aussi les sites des spammers que j'ai listé plus haut (et probablement d'autres qui se sont ajoutés). Si vous voulez comprendre comment cela est possible, je vous invite à lire l'article de Georgi Georgiev sur Analytics-Toolkit.com : Guide to Removing Referrer Spam in Google Analytics. L'article offre une très bonne explication pas trop technique du fonctionnement de cette faille.

En résumé, la solution est la suivante : pour arriver à filtrer les mauvaises données des bonnes, vous créez une nouvelle vue et vous y ajoutez un filtre. La question est : quel critère utilise-t-on pour filtrer les mauvaises données des bonnes?

La solution qui ne fonctionne pas

Si vous faites une recherche sur le sujet, vous lirez plusieurs articles vous suggèrent de modifier votre fichier .htaccess ou encore d'utiliser le blocage d'adresse IP (comme c'est possible directement dans Drupal). Ces méthodes sont tout à fait inefficaces parce que les spammers ne connaissent pas votre site et ne savent même pas qu'il existe.

Leur méthode envoie des requêtes directement aux serveurs de Google pour lui faire croire que les données qu'ils fournissent viennent de votre site. Vous ne pourrez donc pas bloquer ces "fausses visites" puisque votre serveur web ne voit jamais ce trafic.

Je sais que c'est un peu abstrait mais je vous réfère encore une fois à l'article de analytics-toolkit.com pour plus de détails.

La solution d'Hercules

La première solution utile que j'ai trouvée est dans l'article que je viens de mentionner. Elle consiste à filtrer tous les référents qui ne sont pas légitimes. Vous devrez donc régulièrement scruter vos données pour voir si de nouveaux sites illégitimes se sont ajoutés. Ceci pose un problème majeur puisque vous devrez passer beaucoup de temps à vérifier tous vos nouveaux référents. Même si elle fonctionne, c'est loin d'être une solution idéale.

La solution de David contre Goliath

A priori, je n'ai rien contre Goliath. Mais s'il vient polluer mes données GA, c'est une autre histoire...

La seconde méthode consiste à faire un filtre qui n'inclue que les sites qui vous réfère légétimement. Si vous le faîtes bien, vous n'aurez pas à y retoucher et vos données, à partir de ce jour, seront purifiées de cette attaque. Vous faites un petit geste (lancer un pierre) et vous abattez un géant (les milliers de spammers qui font travailler leurs milliers de robots). Voici ma solution basée sur cette discussion dans le forum de GA.

Tout d'abord vous créez une nouvelle vue. Si vous ne savez pas comment faire, vous pouvez lire cet article dans l'aide en ligne de GA.

Une fois votre nouvelle vue créée, vous lui ajoutez un filtre. Encore une fois, tous les détails pour le faire se trouvent ici. Pour saisir les bons paramètres, lisez la suite.

Configurer le filtre

Vous nommez votre filtre et vous choisissez un type de filtre personnalisé.

Vous choisissez Inclure et dans le champ de filtrage et vous choisissez Nom d'hôte dans le menu contextuel.

Après la copie d'écran, j'explique comment construire la règle de filtrage.

Capture d'écran des information sur un filtre dans Google Analytics

Quelques détails concernant le règle de filtrage

Vous devez ajoutez vos propres noms de domaines. Dans cet exemple, je vous montre le filtre que j'ai créé pour mon autre site : lemoinsvautleplus.org. Pour que le filtre fonctionne, vous devez mettre le caractère \ devant les points. Si vous avez plusieurs sites, vous devez mettre le caractère | (upslash) entre les noms de domaine. De plus, vous êtes limité à 255 caractères.

Dans l'exemple ci-dessus, voici comment j'ai procédé pour créer la règle. Je commence avec mes deux noms de domaines (ne pas inclure http://). www.lemoinsvautleplus.org ET lemoinsvautleplus.org

J'ajoute le | entre les deux noms de domaines.

www.lemoinsvautleplus.org|lemoinsvautleplus.org

Et j'ajoute ensuite les \ devant chaque point.

www\.lemoinsvautleplus\.org|lemoinsvautleplus\.org

Vous pouvez ensuite vérifier le filtre en cliquant sur le lien. Vous devriez voir une différence dans le nombre de visite que vous avez eues pour les 7 derniers jours.

À partir du moment où vous sauvegardez le filtre, GA commencera à comptabiliser votre trafic filtré.

Peut-on modifier les données du passées?

Comme j'ai mentionné, une nouvelle vue et un filtre vont compiler vos données à partir du moment oû vous le créez. Toutes les données que vous aurez accumulées durant ces dernières années seront possiblement polluées. Que faire si vous voulez purifier vos données passées? Lisez la suite.

Séparer le bon grain de l'ivraie

Pour purifier vos données précédentes, vous utilisez un segment. Il se programme à peu près de la même manière que le filtre. À partir de n'importe quel rapport, cliquez sur ajouter un segment :

Capture d'écran montrant comment ajouter un segment dans Google AnalyticsUne fenêtre apparaît listant tous les segments disponbiles. Cliquez sur Nouveau.

Définnissez les paramètres de votre segment comme suit (évidemment, vous devez choisir votre propre nom de domaine) :

Capture d'écran montrant comment configurer un segment dans Google Analytics

Si vous voulez inclure d'autre domaine (par exemple, votre chaîne youtube), vous n'avez qu'à ajouter plus de conditions en cliquant sur le mot OU. Pour vérifier que votre segment fonctionne bien comme vous le voulez, vous pouvez utiliser le rapport Acquisition - Tout le trafic - Sites référents. Vous y verrez la liste de tous les sites qui ont amené des visiteurs vers votre site. Remarquez la différence entre votre trafic brut et ce segment de votre trafic, tous les sites des spammers sont retirés.

L'inconvénient c'est que vous devrez appliquer ce segment continuellement quand vous accédez à vos données. Malheureusement, je n'ai pas encore trouvé de moyen d'appliquer un segment et de le conserver en mémoire par défaut. (Il faut dire que je n'ai pas vraiment cherché non plus.)

Si vous voulez en apprendre plus à propos de GA, je vous invite à lire mes autres articles à ce sujet :

Ajouter un commentaire

Plain text

  • Les lignes et les paragraphes vont à la ligne automatiquement.
Actualiser Type the characters you see in this picture. Type the characters you see in the picture; if you can't read them, submit the form and a new image will be generated. Not case sensitive.  Switch to audio verification.