L’IA bat les humains dans la plupart des tests

L’IA bat les humains dans la plupart des tests

Un rapport complet a détaillé l’impact mondial de l’IA. Crédit : Pixabay

L’Institut de l’Intelligence Artificielle centrée sur l’Humain (HAI) de l’Université Stanford a publié la septième édition de son vaste rapport AI Index, rédigé par un groupe diversifié de spécialistes universitaires et industriels.

Cette dernière édition, plus exhaustive que ses prédécesseurs, souligne l’avancement rapide et la pertinence croissante de l’IA dans notre vie quotidienne. Elle aborde divers sujets, des secteurs tirant le plus parti de l’IA aux pays les plus préoccupés par le remplacement des emplois par l’IA. Cependant, une découverte marquante du rapport est la performance de l’IA par rapport aux humains.

Pour ceux qui n’ont pas suivi, l’IA nous a déjà surpassés dans une gamme étonnamment large de tâches significatives. Cela a commencé avec la classification d’images en 2015, suivie de la compréhension de la lecture de base en 2017, du raisonnement visuel en 2020 et de l’inférence de langage naturel en 2021.

S’adapter au progrès rapide de l’IA

Le rythme auquel l’IA progresse est remarquable, rendant de nombreux benchmarks existants obsolètes. Les chercheurs dans le domaine se précipitent maintenant pour créer de nouveaux benchmarks plus complexes. En essence, les IA deviennent tellement habiles à réussir les tests que nous avons maintenant besoin de nouvelles évaluations – non pas pour évaluer la compétence, mais pour identifier les domaines où les humains excellent encore et où nous conservons un avantage.

Il est important de mentionner que les résultats suivants sont basés sur ces benchmarks potentiellement obsolètes. Cependant, la tendance générale reste indéniable:

L’IA a déjà dépassé de nombreux benchmarks de performance humaine. AI Index 2024

Examinez ces tendances, en particulier la ligne presque verticale dans les tests les plus récents. Gardez à l’esprit que ces machines sont essentiellement à leurs débuts.

Le dernier rapport AI Index souligne qu’en 2023, l’IA rencontrait encore des difficultés avec des tâches cognitives complexes telles que la résolution avancée de problèmes mathématiques et le raisonnement visuel de bon sens.

Cependant, qualifier cela de « difficultés » pourrait être trompeur ; cela n’implique pas de mauvaises performances.

Le remarquable progrès de l’IA dans la résolution de problèmes mathématiques complexes

Sur l’ensemble de données MATH, comprenant 12 500 problèmes mathématiques difficiles de niveau compétition, la performance de l’IA a connu une amélioration remarquable depuis sa création. En 2021, les systèmes d’IA ne pouvaient résoudre que 6,9% de ces problèmes. En revanche, d’ici 2023, un modèle basé sur GPT-4 a réussi à résoudre 84,3% d’entre eux. La référence humaine se situe à 90%.

Et nous ne parlons pas de la personne moyenne ; nous parlons d’individus capables de résoudre des questions comme celles-ci :

Un exemple de question MATH posée à l’IA. Oups ! Hendryks et al./AI Index 2024

C’est l’état des mathématiques avancées en 2024, et nous en sommes encore aux débuts de l’ère de l’IA.

Raisonnement visuel de bon sens (VCR)

Ensuite, il y a le raisonnement visuel de bon sens (VCR). Contrairement à la simple reconnaissance d’objets, le VCR évalue comment l’IA utilise les connaissances de bon sens dans des scénarios visuels pour faire des prédictions.

Par exemple, lorsqu’on lui présente une image d’un chat sur une table, une IA équipée de VCR devrait anticiper que le chat pourrait sauter de la table ou reconnaître que la table peut supporter son poids.

Le rapport a révélé une amélioration de 7,93% du VCR de 2022 à 2023, atteignant un score de 81,60, comparé à la référence humaine de 85.

Un exemple de question utilisé pour tester le raisonnement visuel de bon sens d’une IA. Zellers et al./AI Index 2024

Il y a cinq ans, l’idée de présenter à un ordinateur une image et de s’attendre à ce qu’il en comprenne suffisamment le contexte pour fournir une réponse aurait semblé improbable.

Aujourd’hui, l’IA produit du contenu écrit dans divers domaines. Cependant, malgré des progrès significatifs, les grands modèles de langage (LLM) produisent parfois ce que l’on appelle euphémiquement des “hallucinations”. Cela signifie essentiellement qu’ils peuvent parfois présenter des informations incorrectes ou trompeuses comme si elles étaient factuelles.

Les risques liés à une dépendance excessive à l’IA

Un incident notable illustrant cela s’est produit l’année dernière avec Steven Schwartz, un avocat de New York qui s’est appuyé sur ChatGPT pour des recherches juridiques sans vérifier les informations. Le juge en charge de l’affaire a identifié des affaires juridiques fabriquées dans les documents générés par l’IA et a infligé une amende de 5 000 $ (7 750 AU$) à Schwartz pour sa négligence. Cet incident a attiré l’attention à l’échelle mondiale.

HaluEval sert de référence pour évaluer ces tendances hallucinatoires. Les tests ont révélé que de nombreux LLMs continuent de lutter contre ce problème.

L’IA générative doit également relever le défi d’assurer la véracité. Le dernier rapport AI Index a utilisé TruthfulQA comme métrique pour évaluer l’exactitude des LLMs. Cette référence comprend 817 questions portant sur des sujets tels que la santé, le droit, les finances et la politique, dans le but de tester et de corriger les idées fausses courantes que les humains ont souvent.

GPT-4, lancé début 2024, a obtenu le meilleur score sur cette référence avec un score de 0,59, près de trois fois mieux qu’un modèle basé sur GPT-2 évalué en 2021. Cette amélioration significative suggère que les LLMs progressent régulièrement dans la fourniture de réponses précises.

Quant aux images générées par l’IA, pour apprécier les progrès remarquables dans la génération de texte en image, on peut regarder les tentatives de Midjourney pour illustrer Harry Potter depuis 2022:

Comment la génération de texte en image a progressé avec les versions progressives de Midjourney. Midjourney/AI Index 2024

Cela représente près de deux ans de progrès de l’IA. Combien de temps pensez-vous qu’un artiste humain aurait besoin pour atteindre une compétence comparable ?

La Evaluation Holistique des Modèles Texte-Image (HEIM) a été utilisée pour évaluer les LLM sur leurs compétences en génération de texte en image, en se concentrant sur 12 aspects critiques essentiels pour l’application pratique des images.

Évaluation des images générées par l’IA

Des évaluateurs humains ont évalué les images générées et ont constaté qu’aucun modèle unique ne se démarquait dans tous les critères. DALL-E 2 d’OpenAI a obtenu les meilleurs résultats en termes d’alignement image-texte, c’est-à-dire à quel point l’image correspondait au texte fourni. Le modèle Stable Diffusion-based Dreamlike Photoreal a obtenu le meilleur classement en termes de qualité (à quel point il ressemblait à une photo), d’esthétique (attrait visuel) et d’originalité.

Le rapport de l’année prochaine promet d’être incroyablement excitant.

Il convient de noter que ce rapport AI Index se conclut à la fin de 2023, une année marquée par des avancées intenses en matière d’IA et de progrès rapides. Cependant, 2024 s’est révélée encore plus mouvementée, avec l’introduction de développements révolutionnaires tels que Suno, Sora, Google Genie, Claude 3, Channel 1 et Devin.

Chacune de ces innovations, ainsi que plusieurs autres, a le potentiel de transformer fondamentalement des industries entières. De plus, planant sur toutes ces avancées, il y a la présence énigmatique de GPT-5, qui pourrait potentiellement être un modèle si complet et polyvalent qu’il pourrait éclipser tous les autres.

L’IA est indéniablement là pour rester. Le rythme rapide des avancées technologiques observé tout au long de 2023, comme le souligne ce rapport, indique que l’IA continuera à progresser, réduisant l’écart entre les humains et la technologie.

Nous comprenons que tout cela peut sembler beaucoup, mais il y a encore plus à explorer. Le rapport aborde les défis accompagnant la progression de l’IA et son impact sur la perception mondiale de sa sécurité, de sa fiabilité et de son éthique. Gardez un œil sur la deuxième partie de cette série, à venir bientôt !


Lisez l’article original sur : New Atlas

Pour en savoir plus : IA africaine: Innovations mondiales

Partager cette publication

Comments (2)

Les commentaires sont fermés.