L’IA génère des idées plus innovantes que les humains
Les premiers résultats statistiquement significatifs sont là : les IA à modèle de langage étendu (LLM) ne se contentent pas de générer des idées de recherche scientifique de niveau expert, leurs idées sont également jugées plus innovantes et enthousiasmantes que celles des experts humains, selon des évaluations d’experts.
Les récentes avancées des LLM ont suscité un grand intérêt parmi les chercheurs quant à leur potentiel à transformer la découverte scientifique. Des modèles comme ChatGPT et Claude d’Anthropic ont montré leur capacité à produire et valider de manière autonome de nouveaux concepts de recherche.
C’était l’une des nombreuses tâches que l’on pensait impossibles pour l’IA : dépasser les humains dans la génération de nouvelles connaissances et la réalisation de découvertes scientifiques, plutôt que de simplement combiner les informations de leurs données d’entraînement.
“IA multimodale : une nouvelle frontière dans la recherche originale”
Pourtant, tout comme la création artistique, la composition musicale, le codage, et même la compréhension du sous-texte ou du langage corporel, les IA multimodales d’aujourd’hui semblent capables de produire des recherches véritablement originales—souvent plus innovantes que les idées générées par des humains.
Jusqu’à récemment, aucune recherche n’avait exploré ce potentiel. Dans une nouvelle étude, plus de 100 experts en traitement du langage naturel (NLP), dont des docteurs et post-doctorants issus de 36 institutions reconnues, ont affronté des “agents d’idéation” pilotés par l’IA. Leurs idées de recherche ont été évaluées par des experts humains sur l’originalité, l’enthousiasme et la faisabilité.
Le traitement du langage naturel (NLP) est une branche de l’IA qui vise à faciliter la communication entre les humains et les machines, permettant aux deux de “se comprendre”, non seulement en termes de syntaxe de base, mais aussi en ce qui concerne la nuance, le ton et l’inflexion émotionnelle.
Dans l’étude, 49 experts humains ont développé des idées sur sept sujets liés au NLP, tandis qu’un modèle d’IA formé par des chercheurs a généré des idées sur les mêmes thèmes. Pour motiver les participants, l’étude a offert 300 $ par idée et un bonus de 1 000 $ pour les cinq concepts humains les plus prometteurs, encourageant ainsi des propositions claires et réalisables.
Normalisation des soumissions
Après la soumission de toutes les entrées, un LLM a été utilisé pour uniformiser le style d’écriture de chaque proposition tout en conservant le contenu original. Cette approche visait à créer des conditions plus équitables et à garantir que l’étude reste aussi impartiale que possible.
Un panel de 79 experts humains a évalué toutes les soumissions de manière anonyme, fournissant un total de 298 évaluations, chaque idée recevant entre deux et quatre avis indépendants. Les résultats ont montré que les idées générées par l’IA surpassaient celles des chercheurs humains en termes de nouveauté et d’enthousiasme. Bien que les IA aient obtenu des résultats légèrement inférieurs en faisabilité et légèrement supérieurs en efficacité par rapport aux humains, ces différences n’étaient pas statistiquement significatives.
Identification des limitations
L’étude a révélé certaines faiblesses des LLM, telles qu’un manque de diversité des idées et des difficultés avec l’auto-évaluation. Malgré les instructions de ne pas se répéter, le LLM a souvent failli à cette consigne. De plus, les LLM ont éprouvé des difficultés avec la cohérence lors de l’évaluation et de la notation des idées, montrant un faible accord avec les jugements humains.
L’étude souligne également que l’évaluation de l’”originalité” d’une idée est subjective, même parmi les experts. Pour explorer davantage si les LLM sont réellement mieux adaptés à la découverte scientifique autonome, les chercheurs prévoient d’impliquer davantage de participants experts dans une étude de suivi. Cette fois, les idées des IA et des humains seront pleinement développées en projets pour évaluer leur impact dans le monde réel.
L’irréliabilité des modèles de langage avancés
Ces premiers résultats sont véritablement révélateurs. L’humanité se trouve désormais confrontée à un défi inhabituel de la part des modèles de langage très avancés. Bien que ces modèles puissent accomplir des exploits remarquables, ils restent peu fiables et sujets à ce que les entreprises d’IA appellent des « hallucinations » — ou ce que d’autres pourraient qualifier de fabrications.
Bien que les IA puissent gérer d’énormes quantités de travail, la méthode scientifique exige de la rigueur, et il n’y a pas de place pour les « hallucinations ». Il est déjà préoccupant que les estimations suggèrent que les IA co-écrivent au moins 10 % des articles de recherche.
D’un autre côté, nous ne pouvons pas ignorer le potentiel des IA pour accélérer les progrès, comme l’a montré le système GNoME de DeepMind, qui a condensé 800 ans de découvertes de matériaux en quelques mois, produisant des recettes pour 380 000 nouveaux cristaux inorganiques avec un potentiel pour des applications révolutionnaires.
En tant que technologie évoluant le plus rapidement, de nombreux défauts actuels des IA pourraient être corrigés dans les années à venir. Certains chercheurs croient même que nous approchons de l’intelligence générale supérieure, où les IA surpasseraient les connaissances expertes dans la plupart des domaines.
Voir les IA maîtriser rapidement des compétences que l’on pensait autrefois définir l’unicité humaine, y compris la génération d’idées nouvelles, est une expérience étrange. L’ingéniosité humaine semble être écartée, mais pour l’instant, le meilleur chemin à suivre est un partenariat entre intelligence organique et artificielle, tant que nos objectifs sont alignés.
Si c’était une compétition, ce serait IA : 1, humains : 0 pour ce tour.
Lisez l’article original sur : New Atlas
Lisez aussi : Video: Google Robot Plays Table Tennis with Humans