Une nuit, deux audits, une même note
Le 17 mai au soir, je termine la version 0.4.1 du Counterpart Toolkit et je décide de la soumettre à deux relectures externes. Je colle le manifesto et la quatorzaine de règles dans une session ChatGPT-4o, je colle exactement le même contenu dans Claude.ai sur le web. J'attends. Quelques minutes plus tard, les deux verdicts arrivent. Note 8/10 d'un côté. Note 8/10 de l'autre. Critiques quasi identiques sur l'apparat théorique (Bourdieu invoqué sans portée opérationnelle), suggestion identique de simplification, même angle sur la fraîcheur de l'instrumentation M1-M5. Mon réflexe initial tient trente secondes. Deux relecteurs indépendants, même note, mêmes critiques, la doctrine est calibrée juste, je peux publier.
Et puis je m'arrête. Parce que quelque chose, dans cette convergence trop nette, sonne comme un baromètre acheté en double exemplaire chez le même fournisseur.
Pourquoi deux IA convergentes ne sont pas deux mesures
Je comprends assez vite ce que la convergence mesure. Deux modèles de langage entraînés sur des corpus qui se recouvrent à très large proportion, qu'il s'agisse d'articles techniques, de repos GitHub publics, de discussions Stack Overflow ou de blogs des dix dernières années, produisent des erreurs corrélées. Ce qu'ils ont en commun, c'est leur intersection d'apprentissage, pas la réalité externe que je leur soumets. Quand les deux trouvent que l'apparat théorique est disproportionné, je n'apprends pas que c'est vrai. J'apprends que c'est ce que la statistique partagée de leurs deux corpus reconnaît comme un défaut typique d'un texte de ce format.








