Cet article vous est offert Pour lire gratuitement cet article réservé aux abonnés, connectez-vous Se connecter Vous n'êtes pas inscrit sur Le Monde ? Inscrivez-vous gratuitement Sergio Aquindo Débats Débats Débats Intelligence artificielle Intelligence artificielle Intelligence artificielle Par Marion Dupont Publié hier à 06h30 Article réservé aux abonnés EnquêteProfondément dépendants d’Internet, qui leur fournit la masse de données nécessaires à leur entraînement, les robots d’intelligence artificielle tels que ChatGPT ne peuvent prétendre à l’exhaustivité : de nombreuses pages leur restent inaccessibles et les informations collectées représentent mal la diversité des cultures humaines. Ce sont de petites bêtes avec lesquelles nous cohabitons sans le savoir. De discrets insectes qui, friands des traces laissées par l’activité humaine, grouillent à l’ombre de nos vies. Contrairement aux araignées qui peuplent nos jardins et nos maisons, les crawlers (« rampants »), aussi appelés parfois « web spiders » (« araignées du Web »), ne sont pas faits de chitine, mais de code informatique ; la toile qu’ils arpentent n’est pas tissée de soie, mais de fibres optiques et de protocoles réseau. Ces besogneux petits robots qui pullulent en ligne sont les arpenteurs du Web, chargés de naviguer de lien en lien à travers l’immensité numérique. Dans la grande famille machinique des web spiders, tous n’ont pas la même spécialité. L’une des plus anciennes espèces est née avec les premiers grands moteurs de recherche et annuaires : ces robots d’exploration, comme Googlebot (le robot d’exploration de Google), Bingbot (celui de Bing) et Slurp (le premier crawler de Yahoo!), sont lâchés dans la nature pour recenser et indexer les pages Web existantes, permettant ainsi aux internautes d’y avoir facilement accès. Depuis quelques années, pourtant, une nouvelle génération de crawlers prend la Toile d’assaut. Accompagnant l’essor des grands modèles de langage – ou LLM, pour « large language models », ces programmes qui font tourner les agents d’intelligence artificielle (IA) –, ils ne se contentent pas d’indexer le Web. Ces nouveaux robots, qui répondent aux noms de GPTBot, ClaudeBot, Meta-ExternalAgent ou encore Bytespider, en « aspirent » les contenus à grande échelle. Il vous reste 92.58% de cet article à lire. La suite est réservée aux abonnés.