Spam par citation : Une faille exploitable dans les réponses de Google ?

Beaucoup d’encre a coulé dernièrement sur le Web concernant Google et la façon que ce dernier intègre les réponses à une requête directement dans les résultats de recherche. Que ce soit pour une demande précise telle que la grandeur de Michael Jordan, les instructions pour installer le jeu Minecraft ou une description du virus Ebola,  Google désire fournir le maximum d’informations directement dans les résultats de recherche, en empruntant du contenu à gauche et à droite, sans égard ni respect à celui ou celle qui l’a créé.

Bien sûr, ce vol de contenu est loin de plaire aux gestionnaires de sites Internet, surtout si leur contenu est utilisé pour répondre à l’utilisateur directement dans les résultats de Google, privant ainsi leur site d’un visiteur dûment mérité. Par contre, dans certains cas, il peut arriver que la situation soit entièrement en la faveur du webmestre, par exemple suite à ce qu’il semble être une erreur de Google.

L’exemple ici-bas provient de la requête « cheapest health insurance » sous Google.com, et en l’occurrence l’un des mots-clés les plus compétitifs du Web. On note les résultats AdWords habituels et omniprésents, mais ce qui saute aux yeux, est la boîte de réponse figurant dans l’encadré de couleur rouge :

rich snippet 1

On constate rapidement que l’extrait présenté par Google n’est nul autre qu’un pitch de vente provenant d’une compagnie spécialisée en assurance maladie, soit ehealthinsurance.com. Et le pire est que Google donne une visibilité inespérée à cette entreprise, avec un résultat qui n’est ni payant ni organique, soit une recommandation directement à la requête du chercheur. Je suis d’ailleurs convaincu que ce lien de ehealthinsurance.com possède un taux de clic faramineux, et obtient plus de clics que les annonces AdWords et les liens naturels de cette page.

Ce qui est bizarre est que la page de ehealthinsurance.com ne donne aucune indication sur la méthode utilisée pour se classer dans un encadré de réponse pour le mot-clé.

La page de destination est très vide en contenu, possède une allure un peu louche, et des liens vers des pages internes clairement sur-optimisés.

rich snippet 2

On retrouve le fameux extrait textuel en bas de page, ce qui atteste qu’au moins Google n’a pas inventé de toute pièce la description. Une analyse de la page avec l’outil de test des données enrichies indique que la page en question n’utilise aucun balisage enrichi, ce qui aurait pu fournir un premier indice sur la présence de cette description dans les résultats de recherche. Hélas, ce n’est pas le cas :

rich snippet 3

Donc, rien qui ne nous explique ce qui pourrait expliquer la présence de cet extrait d’une page très anodine, au-devant du premier résultat organique pour l’un des mots-clés les plus profitables et compétitif du Web. Avant de baisser les bras, tournons-nous du côté des facteurs externes, soit les liens entrants, qui comme le passé l’indique, sont souvent à l’origine (et la réponse!) de certains des mystères les plus obscurs du Web

Une tactique de spam fort payante

En effectuant une recherche pour la même description retrouvée dans l’encadré de réponses, on fait soudainement face à une série de résultats provenant d’une multitude de sites différents, où chacun d’entre eux reprend le même extrait de texte :

 rich snippet 4

Les sites sont variés. On y retrouve sans surprise plusieurs sites très similaires et semblant appartenir à la même entreprise, tels que ehealthmedicare.com, santabarbarahealthinsurance.com et autres domaines satellites, tous reliés ensemble par des mots-clés hyper compétitifs. Jusque là, nous avons sous les yeux une vulgaire stratégie de réseau de liens, ce qui n’est en soi rien de très impressionnant.

Cependant, là où ça devient intéressant, est que l’on note la présence toujours du même extrait sur d’autres sites qui ne font même pas de liens de retour vers ehealthinsurance.com.

Par exemple : http://www.nonprofitkinect.org/links/284-business-insurance-legal/resources/1040-santa-barbara-health-insurance-services

 rich snippet 5

Ou encore ce deuxième exemple, sur une page Facebook :

rich snippet 6

Et je pourrais continuer tellement les exemples sont nombreux. Dans tous ces cas, il n’y a aucun lien directement vers le site principal, seulement le fameux extrait textuel incluant le nom de la compagnie.

Bien sûr, tout cela est du spam. Mais, ce qui est intéressant est que nous n’avons pas affaire au bon vieux spam traditionnel, par exemple celui où on soumet un lien vers son site dans toutes sortes d’annuaires, de forums, et de commentaires sur des blogues. Ici, nous avons affaire à un cas de spam par citations.

En utilisant constamment la même description partout sur le web, et en omettant d’ajouter un lien dans la plupart des cas, il semble que le site ehealthinsurance.com ait développé aux yeux de Google une forte pertinence pour le mot-clé “cheapest health insurance”. Ce qui est particulier, est que le terme “cheapest” ne figure pas dans la description, mais est constamment repris par plusieurs des sites qui mentionnent les services offerts par l’entreprise d’assurance.

La beauté de la chose est qu’en évitant de faire des liens sur chacun des sites qui mentionne l’offre de ehealthinsurance.com, il semble que celui-ci évite le couperet de Google, et principalement la mise à jour du Pingouin qui a justement comme raison d’être d’épingler ce genre de sites qui abuse.

spam ou #fail de Google ?

Impossible de déclarer avec certitude si ehealthinsurance.com est au courant de cette défaillance technique de Google, et surtout si cela était son intention. Après tout, peut-être que l’entreprise ne cherche qu’à inonder le web avec son slogan, en espérant que les utilisateurs le retiennent. Par contre, il semble plutôt apparaître que ce slogan récolte un franc succès au niveau des robots d’indexation, et qu’il s’agira peut-être bientôt de la prochaine tactique black hat du moment.

Vous avez apprécié cet article ?

Inscrivez­-vous à l’infolettre DCHQ afin de recevoir en primeur les derniers articles de ce blogue.

5 Comments

  1. Hello David, très bonne analyse ! À ton avis, pourquoi l’Answer Box s’est déclenchée sur cette requête (qui n’a rien d’une requête type « fact » ou « how to ») ?

    Répondre
    • Salut Rémi, merci du commentaire. Je crois que Google tente d’inclure le maximum possible de réponses directement dans les résultats de recherche. Mais, ce système n’est pas encore parfaitement au point. Je crois qu’il s’agit d’une légère défaillance, car Google ne désirera jamais promouvoir ce type d’entreprise avec une aussi belle visibilité.

      Répondre

Laissez un commentaire