Après être devenu un outil de recherche pour les hackers, en particulier avec la capacité de son robot à indexer de nombreux formats de fichiers présents sur les serveurs, et pour certains au contenu confidentiel non protégé, il est devenu un outil majeur pour les spammeurs.
Les pages de résultats de Google sont en effet aujourd’hui spammées par des pages web sans intérêt particulier, sauf d’afficher des liens commerciaux ou de renvoyer vers des sites qui pratiquent l’affiliation payante. Ainsi, à chaque clic, l’auteur du site qui pratique le spam se voit rémunéré, et le visiteur – tout comme le moteur, mais seulement jusqu’à un certain point ! – trompés.
Cette pratique, assimilable au spam, s’est largement répandue ces derniers mois, et participe à polluer les résultats des moteurs de recherche, à décevoir leurs clients et à dévaloriser la pertinence du moteur. Google n’est plus ce qu’il était !
Pour revenir à plus de pertinence, il faut soit nettoyer la base, tâche ardue lorsque les milliards de données sont réparties sur des dizaines de milliers de postes en architecture parallèle. D’autant qu’après la pertinence des algorithmes d’extraction et de classement des résultats, le volume de la base indexée est un argument marketing important.
La solution la plus rapide et la plus simple à déployer pour écrémer les résultats semble donc d’intervenir au niveau de la requête de l’internaute, c’est-à-dire d’appliquer des filtres avant d’afficher les résultats.
Le filtre bayésien a la faveur des moteurs de recherche. C’est à ce niveau, celui du tri et du classement des résultats qui seront envoyés à l’internaute en réponse à sa requête, qu’interviennent les filtres bayésiens. Il s’agit en effet d’une méthode statistique avancée qui calcule la probabilité qu’un site ou une page proposé en résultat soit spammé.
Mais le filtre influe sur la pertinence des résultats : implémenté par Google au cours du mois d’octobre 2003, le filtre bayésien anti spam a eu des répercussions dramatiques sur les résultats proposés par le moteur, faisant disparaître des sites légitimes, avec parfois l’effet inverse à celui escompté. Dans les semaines qui ont suivi, les résultats ont été améliorés, sans doute après intervention manuelle des responsables de Google pour nettoyer la base. Mais la pertinence du moteur reste encore douteuse sur certaines requêtes. Nouvelle évolution majeure des algorithmes de Google à la mi novembre 2003. Cette fois, ce sont surtout des sites historiques, indexés depuis longtemps, techniquement très pertinents, et sans aucune pratique de techniques assimilables au spam, qui sont propulsés dans l’arrière boutique…
Tip : pour faire une recherche sans utiliser le filtre bayésien, il suffit de placer dans la requête la commande “-site:google.com”
source : silicon.fr
JacK