Bob contre les robots
Je ne sais pas si certains l’ont remarqué, mais ça faisait une semaine que j’avais en permance entre 30 et 60 visiteurs connectés sur ce petit site qui sent bon la campagne. D’après mes stats hébergeur, j’avais entre 1500 et 2500 visiteurs par jour.
Est-ce le début de la gloire ? Est-ce que je vais devenir riche ? Est-ce que je vais enfin pouvoir m’acheter un supercalculateur pour jouer à la Quatième Prophétie ?
1 – Les vilains robots
Après vérification sur Google Analytics, je me suis vite rendu compte qu’il s’agissait de robots puisqu’ils n’étaient pas pris en compte (le module google étant chargé en javascript, ça explique le fait que les robots passent inaperçus).
Je savais dès le début que ces robots venaient du côté obscure de la force : j’avais désactivé le captcha en mode invité afin de simplifier la vie de mes 3 lecteurs qui ne sont pas encore enregistrés (Oui, j’ai 10 lecteurs régulliers, c’est dingue !) et ces bots de l’enfer m’ont aussitôt inondé de pubs. J’ai naturellement réactivé le captcha en mode invité, mais ils ont continué à arpenter toutes les pages de mon site pour essayer déséspérement de mettre en ligne leurs immondes pubs.
Pour économiser la bande passante et garder une cohérence dans mes stats perso, j’ai essayé plusieurs méthodes pour bloquer ces robots. Malheureusement aucune ne semblait fonctionner dans la mesure où ils viennent tous d’une ip différentes et qu’ils ont des user-agent différents à chaque visite.
2- Le piège à robots
Devant ces echecs, j’ai mis en place un piège à robots tout simple : un script php qui bannit l’ip du robot par lequel il est appelé. Ensuite, il me suffisait de l’insérer dans toutes mes pages et de le masquer en javascript de façon à ce que les utilisateurs normaux ne le voient pas. Il ne faut pas oublier d’ajouter une directive dans le fichier robots.txt de façon à ce que les gentils bots n’aillent jamais cliquer sur ce script (les mauvais bots ignorent ce fichier de toutes façons).
Le piège semblait parfait ! Malheureusement, ces robots semblent fonctionner avec une base commune et seul un de leurs robots qui référence les pages s’est fait avoir, les (centaines) d’autres n’y sont jamais allé en deux jours.
3 – Le détecteur de mauvais robots
Cette méthode est encore plus simple que la précédente. Une variable est ajoutée en javascript dans le formulaire d’envoi de commentaires, et donc seulement s’il y a un humain derrière la machine. Si elle n’est pas présente lors de la validation du commentaire, alors l’IP de la machine qui a validé le commentaire est bannie.
Ce système ne bloque que les robots spammeurs et ne peut pas en théorie bloquer des humains. Bref, ça semble fonctionner, les robots se font à l’heure actuelle tous piéger.
J’ai remis mes statistiques perso au niveau d’il y a une semaine en espérant que mon détecteur maison continue de fonctionner !