Des mathématiciens de l’EPFL ont élaboré un théorème qui explique pourquoi de puissants outils d’analyse sont particulièrement efficaces pour distinguer des données complexes et comment ils peuvent encore être améliorés. Cette avancée offre de nouvelles perspectives pour l’apprentissage automatique et les statistiques.Deux ensembles de données sont-ils vraiment différents, ou est-ce le fruit du hasard ? Cette question, connue sous le nom de problème du test d'homogénéité, est fondamentale en statistiques et en apprentissage automatique.Le problème du test d'homogénéitéest connu pour être difficile dans les ensembles de données modernes, car ceux-ci sont souvent de haute dimension, complexes, et les différences entre eux peuvent prendre d’innombrables formes subtiles.« Schématiquement, nous ne savons pas quelles différences rechercher, les possibilités sont infinies », résume le professeur Victor Panaretos de l’Institut de mathématiques de l’EPFL.Pour résoudre ce problème, les mathématiciens ont développé ce qu’on appelle les « méthodes à noyaux », qui se sont imposées comme des solutions puissantes, largement utilisées dans des domaines tels que la génomique, la finance et l’intelligence artificielle.En collaboration avec les mathématiciens Leonardo Santoro (EPFL) et Kartik Waghmare (ETH Zurich), Victor Panaretos a trouvé une explication mathématique aux performances remarquables des méthodes à noyaux, jusqu’ici dépourvues de fondement théorique clair. Publiée dans PNAS, leur étude présente un théorème qui explique pourquoi elles fonctionnent si bien, pouvant ainsi contribuer à améliorer leur conception.« Nous montrons que ces méthodes transforment même les différences très subtiles entre les distributions de probabilité en une forme de séparation maximale, explique Victor Panaretos. Par conséquent, nous avons aussi constaté que les performances peuvent être considérablement améliorées lorsque l’on s’appuie sur notre théorème. »L’« astuce du noyau »« Les méthodes à noyaux transforment les données en une nouvelle forme où les différences deviennent plus faciles à détecter, poursuit Victor Panaretos. C’est ce qu’on appelle souvent l’« astuce du noyau » ».L’équipe de l’EPFL a poussé cette idée plus loin. Au lieu d’appliquer l’astuce du noyau, puis de comparer les ensembles de données à l’aide de simples résumés comme des moyennes, elle les a comparés à travers une géométrie mathématique plus riche qui rend mieux compte de leur structure sous-jacente.« L’approche classique prend les données, X, et les transforme pour obtenir des données transformées, Y, explique le professeur. On examine ensuite la structure de Y à travers le prisme d’une « géométrie standard », comme la géométrie euclidienne du monde dans lequel nous vivons. Mais nous avons réalisé qu’il existe une géométrie bien plus riche que l’on pourrait utiliser et qui révèle clairement les motifs, même les plus intriqués, dans Y. Cette géométrie plus riche est plus complexe, mais son utilisation revient en fin de compte à calculer des résumés comme des moyennes, tout en étant bien plus efficace. »Ce changement de perspective a permis d’expliquer comment même les plus petites différences entre les ensembles de données peuvent être amplifiées de sorte qu’elles ne puissent plus être confondues, fournissant ainsi une explication rigoureuse du succès empirique des méthodes à noyaux.L’étude montre aussi que les approches actuelles peuvent être améliorées, car elles ne reposent pas sur des critères conçus pour exploiter l’effet de séparation, offrant ainsi des pistes pour la conception d’outils statistiques encore plus puissants.Compte tenu de l’utilisation généralisée des méthodes à noyaux et de l’omniprésence du problème du test d'homogénéité, ces résultats pourraient avoir de larges implications dans les domaines de la science et de la technologie. En clarifiant la manière dont les méthodes à noyaux différencient les motifs dans des données complexes, cette recherche pourrait améliorer l’apprentissage automatique, la science des données et l’inférence statistique dans plusieurs domaines.« Au-delà de la contribution technique, le résultat peut être formulé de manière assez simple et directe, montrant comment des caractéristiques apparemment abstraites de la géométrie à dimension infinie peuvent avoir des implications concrètes pour la science des données moderne », conclut Victor Panaretos.Autres contributeursDépartement de mathématiques de l’ETH ZurichFinancementFonds national suisseRéférencesLeonardo V. Santoro, Kartik G. Waghmare, Victor M. Panaretos. Kernel Embeddings and the Separation of Measure Phenomenon. PNAS 05 June 2026. DOI: 10.1073/pnas.2522504123
La géométrie cachée qui permet de distinguer des données complexes
Des mathématiciens de l’EPFL ont élaboré un théorème qui explique pourquoi de puissants outils d’analyse sont particulièrement efficaces pour distinguer des données complexes et comment ils peuvent encore être améliorés. Cette avancée offre de nouvelles perspectives pour l’apprentissage automatique et les statistiques.
L'EPFL a formalisé pourquoi les kernel methods distinguent efficacement données complexes, comblant une lacune théorique pour améliorer algorithmes ML. Pour équipes ML/AI: ce théorème améliore la conception de kernel methods plus puissants, impactant la précision classification et clustering en production.












