Les robots spammeurs rêvent-ils de moutons électriques ? - Le blog Bifrost

Nombreux sont les auteurs de science-fiction qui ont tenté de deviner de quoi seraient faits nos lendemains. Force est de constater qu'après quelques décennies, rares sont les idées imaginées dans le passé qu'on ne lit pas aujourd'hui qu'avec, au mieux, un sourire condescendant. De façon surprenante, c'est peut-être bien l'un des plus cinglés de tous, Philip K Dick, qui a le plus approché la vérité. Il y a quelques jours, le géant Google annonçait le rachat de la société reCaptcha, dont la technologie est utilisée pour discerner les robots spammeurs des véritables êtres humains. Et après tout, qu'est-ce qu'un test captcha sinon une version moderne du test Voigt-Kampff ?

Voigt-Kampff, Turing : même combat

En 1968, l'auteur américain Philip K. Dick imagine dans le roman Do Androids Dreams of Electric Sheep ?Paru en français chez Chute Libre sous le titre « Robot blues » puis chez Titres/SF sous le titre « Les androïdes rêvent-ils de moutons électriques ? ». Aujourd'hui disponible chez J'ai Lu sous le titre « Blade runner ». une Terre dévastée par une guerre nucléaire. La plupart des espèces animales ayant disparu, elles ont été remplacées par des imitations synthétiques. Rick Deckard, dont le métier est de traquer les androïdes qui se font illégalement passer pour des humains, est l'un des rares habitants de la Terre à n'avoir pas émigré sur Mars. Propriétaire d'un mouton artificiel, il rêve de le remplacer par un vrai et voit dans la récompense offerte pour la capture de six androïdes Nexus-6 échappés de Mars l'occasion de réaliser son rêve.

La question de la confusion entre robots, androïdes, intelligences artificielles d'une part et véritables humains d'autre part a longuement fait réfléchir les auteurs de science-fiction, même s'ils l'ont un peu oubliée aujourd'hui au profit d'une fascination pour le clonage. Entre, chez AsimovDans la nouvelle « Evidence » extraite du recueil « Les Robots », diponible chez J'ai Lu., le candidat à la présidentielle sommé de prouver qu'il n'est pas un androïde et, chez Greg EganEntre autres dans la nouvelle « En apprenant à être moi » dans le recueil « Axiomatique », diponible au Bélial'., les interrogations existentielles que suscitent les fameux cristaux permettant de copier sa personnalité sur support informatique, il y a nombre de nouvelles de Philip K. Dick, dont la plus connue deviendra au cinéma le film Blade Runner de Ridley Scott.

Chez Philip K. Dick, lorsque les robots essaient de se faire passer pour des humains, c'est rarement une bonne nouvelleOn trouvera les deux nouvelles suivantes dans le recueil « Minority Report » chez Folio SF.. Dans la nouvelle Nouveau modèle, les créatures mécaniques destinées à faire la guerre finissent par se retourner contre leurs créateurs et à évoluer jusqu'à un modèle d'apparence humaine, destiné à tromper la vigilance des humains pour mieux les étriper. Plus vicieux encore, les androïdes que Philip K. Dick imagine dans la nouvelle L'imposteur, eux aussi chargés de nous envoyer manger les pissenlits par la racine, sont eux-mêmes, jusqu'au moment fatal, absolument persuadés d'être des êtres humains.

C'est donc avec soulagement qu'on découvre dans Blade Runner le fameux test d'empathie Voigt-Kampff. Curieux croisement entre un test de Turing et un polygraphe, l'appareil utilisé par Rick Deckard permet enfin de faire la distinction entre humain d'origine et robot malhonnête en se basant sur l'observation des réactions émotionnelles provoquées par une question choquante ou gênante, réactions que les androïdes peinent à simuler correctement.

Captcha, captcha pas ?

Si Philip K. Dick s'est trompé sur un point, c'est sans aucun doute sur les intentions des robots. Aujourd'hui, force est de constater qu'aucun androïde d'apparence humaine ne déambule dans nos rues dans le but d'éradiquer l'humanité. Par contre, tout utilisateur d'internet sait qu'un nombre incalculable de logiciels robots, dotés d'une intelligence artificielle rudimentaire, parcourt le réseau des réseaux avec la ferme intention de nous vendre des pilules de Viagra sans ordonnance, des prêts bancaires à taux dérisoires ou encore toutes sortes de procédés miracles d'allongement du pénis. Ce sont les robots spammeurs.

Comme toute technologie, ces logiciels robots d'indexation ont d'abord été conçus dans un but noble : celui de parcourir le web pour en indexer toutes les pages en fonction des mots-clés qu'elles contiennent. C'est par exemple le rôle du googlebot, le tout à fait redoutable robot de la firme Google, qui alimente régulièrement le moteur de recherche le plus utilisé au monde.

Mais bien vite, ces fameux web crawler ont été détournés de leur objectif original par quelques petits malins pour devenir une véritable arme contre la tranquillité de nos boîtes aux lettres électroniques. Plutôt que des recueillir des mots-clés comme le googlebot, ces robots se contentent de parcourir le web pour y recueillir un maximum d'adresses électroniques et d'y déverser ensuite les fameux spam, ou pourriels en bon français. C'est pourquoi il est fortement recommandé ne jamais laisser traîner son adresse e-mail en clair où que ce soit sur le web.

Plus vicieux encore, certains logiciels robots ont la charge de se faire passer pour des humains et de diffuser leurs messages publicitaires dans tous les formulaires, notamment dans les commentaires de blog et sur les forums, ou même via les logiciels de messagerie instantanée. Les plus basiques se contentent d'inonder le premier formulaire venu, mais certains s'adaptent au contenu du billet de blog ou de la discussion avec un message suffisamment équivoque, camouflant le lien publicitaire dans leur contenu.

Et c'est là que le problème atteint une portée véritablement science-fictionnesque : pour distinguer un message envoyé par un utilisateur humain d'un envoi automatisé généré par un logiciel robot, un nombre croissant de sites utilisent le système du captcha. Même si vous ignorez ce qu'est un captcha, il est plus que probable que vous ayez déjà eu affaireNe serait-ce que sur le formulaire d'inscription aux forums du Bélial' qui utilise ce système, cf. l'image ci-dessus. à ce système de protection. Le captcha se présente sous la forme d'une image présentant une série de caractères souvent déformés que l'utilisateur doit réécrire dans un champ de formulaire. Ce test joue sur le fait que les logiciels robots les plus rudimentaires sont incapables de lire une image et que ceux qui le peuvent ont les plus grandes difficultés à y reconnaître des caractères dès lors que ceux-ci apparaissent déformés, sur un fond dégradé ou présentés en surimpression avec d'autres formes. Une épreuve qu'un oeil et un cerveau humain surmonteront au contraire sans difficulté.

Welcome To The Machine

Quiconque a déjà été abordé par un robot sur son logiciel de messagerie instantanée favori et mis plus de trente secondes à réaliser qu'il discutait avec une intelligence artificielle saura ce que je veux dire : les robots intelligents qui essaient de se faire passer pour des humains, ce n'est plus vraiment de la science-fiction. Fort heureusement pour nous, ils n'agissent pour l'instant pas de leur propre chef et ne sont que les marionnettes de commerciaux véreux qui s'en servent pour nous inonder de publicité. Par bonheur, un test aussi rudimentaire que le captcha permet encore de faire la différence entre humain et machine. Mais qui sait ? Peut-être faudra-t-il un jour faire subir un test de Voigt-Kampff à toutes ces jolies inconnues rencontrées sur internet, comme le suggérait malicieusement l'excellent webcomic xkcd il y a quelques jours (en anglais).

La semaine dernière, alors que mûrissait cet article dans mon for intérieur, le géant Google annonçait le rachat la société reCaptcha, spécialisée dans les élucubrations de ce genre. Puisque la firme de Moutain View n'est pas du genre à dilapider son argent au hasard, le rachat de reCaptcha est un des nombreux indices qui indiquent qu'une véritable guerre contre les robots spammeurs et ceux qui les exploitent vient d'être déclarée par Google. Mais pourquoi avoir choisi la technologie de reCaptcha parmi les nombreuses autres existantes ? Pourquoi même avoir acquis une nouvelle technologie de captcha alors que Google possédait déjà la sienne propre ? C'est là que l'affaire devient véritablement fascinante.

Car la particularité des images à décrypter proposées par reCatchpa est qu'elles sont composées non pas d'une, mais de deux séries de caractères, en l'occurrence deux mots. Le premier est connu du logiciel de reCatchpa et sert à l'identification de l'utilisateur, comme un catchpa normal. Le deuxième, par contre, est issu de numérisations de livres et journaux anciens qu'un logiciel de reconnaissance de caractères n'a pu reconnaître, en raison de la dégradation par le temps de l'encre et du papier. Google, via son projet Google Book Search a depuis plusieurs années déjà numérisé et mis à disposition de l'internaute des millions de livres tombés dans le domaine public.

Grâce à l'acquisition de reCatchpa, Google va pouvoir accélérer la cadence et utiliser au service de sa grande entreprise de numérisation intensive une armée de bénévoles inconscients, une technique appelée crowdsourcing. De là à dire que, sous prétexte de nous protéger contre les robots, Google nous transforme en robots à son service...