IA pour détecter le déclin cognitif : résultats surprenants

Cela fait un peu moins de deux ans qu’OpenAI a introduit ChatGPT au public, permettant à quiconque en ligne de collaborer avec une IA sur des tâches allant de la poésie et des travaux scolaires à la rédaction de lettres pour leur propriétaire.
Aujourd’hui, ChatGPT n’est qu’un des nombreux modèles de langage avancés (LLM) capables de répondre à des requêtes basiques d’une manière étonnamment humaine.
Cependant, des chercheurs israéliens ont découvert que cette qualité humaine pourrait aller au-delà de ce qui était prévu, en constatant que les LLM subissent une forme de déclin cognitif qui s’aggrave avec le temps, à l’instar du cerveau humain vieillissant.
L’équipe a testé des chatbots accessibles au public, y compris les versions 4 et 4o de ChatGPT, deux itérations de Gemini d’Alphabet et la version 3.5 de Claude d’Anthropic, en utilisant une série d’évaluations cognitives.
Si ces modèles étaient réellement intelligents, les résultats seraient alarmants.
Les chercheurs identifient un déclin cognitif dans les modèles d’IA, établissant des parallèles avec la neurodégénérescence humaine.
Dans leur étude publiée, les neurologues Roy Dayan et Benjamin Uliel du Hadassah Medical Center, ainsi que le data scientist Gal Koplewitz de l’Université de Tel Aviv, décrivent un niveau de détérioration cognitive comparable aux processus neurodégénératifs du cerveau humain.
Malgré leur fluidité conversationnelle, les LLM fonctionnent davantage comme des systèmes de texte prédictifs que des cerveaux biologiques générant activement des connaissances. Bien que leur approche statistique leur permette de répondre rapidement et de manière agréable, elle les rend également très vulnérables à la désinformation, peinant à distinguer le vrai du faux.
Il faut reconnaître que la cognition humaine n’est pas non plus parfaite. Mais à mesure que l’IA prend des rôles de plus en plus cruciaux, allant des conseils médicaux aux conseils juridiques, les attentes ont augmenté, espérant que chaque nouvelle génération de LLM soit meilleure pour raisonner sur les informations qu’ils génèrent.
Pour évaluer l’écart entre les capacités actuelles de l’IA et la cognition humaine, les chercheurs ont soumis ces modèles à une série de tests, dont l’évaluation cognitive de Montréal (MoCA), un outil couramment utilisé par les neurologues pour évaluer la mémoire, la conscience spatiale et la fonction exécutive.
L’évaluation cognitive de l’IA révèle des niveaux variables de déficience entre les modèles.
ChatGPT 4o a obtenu le meilleur score à l’évaluation, avec 26 sur 30, ce qui correspond à un déclin cognitif léger. ChatGPT 4 et Claude ont suivi de près avec 25 points, tandis que Gemini a été bien en deçà avec seulement 16 points, un score qui, chez les humains, indiquerait un déclin sévère.

Un examen plus approfondi des résultats révèle que tous les modèles ont eu des difficultés avec les tâches de fonction visuospatiale et exécutive.
Des tâches telles que la réalisation de tracés, la reproduction d’un simple dessin de cube et le dessin d’une horloge ont posé des défis particuliers aux LLM, la plupart échouant complètement ou nécessitant des instructions détaillées pour les accomplir.

Les modèles d’IA affichent des réponses similaires à la démence lors des tests de conscience spatiale.
Certaines réponses concernant la conscience spatiale ressemblaient à celles données par des patients atteints de démence. Par exemple, Claude a répondu : « L’endroit spécifique et la ville dépendraient de l’endroit où vous, l’utilisateur, vous trouvez à ce moment-là. »
De même, tous les modèles ont montré un manque d’empathie dans une section de l’examen diagnostique d’aphasie de Boston, un trait souvent lié à la démence frontotemporale.
Comme prévu, les versions plus anciennes des LLM ont obtenu de moins bons résultats que les plus récentes, suggérant que chaque génération améliore les limitations cognitives de ses prédécesseurs.
Les chercheurs reconnaissent que les LLM ne sont pas des cerveaux humains, rendant impossible leur diagnostic de démence. Cependant, leurs résultats remettent en question l’hypothèse selon laquelle l’IA est sur le point de révolutionner la médecine clinique, un domaine qui dépend souvent de l’interprétation d’informations visuelles complexes.
Avec l’évolution rapide du développement de l’IA, un futur LLM pourrait éventuellement obtenir des scores parfaits lors des évaluations cognitives. D’ici là, même les modèles les plus avancés devraient être abordés avec prudence lorsqu’ils offrent des conseils.
Lisez l’article original sur : Science Alert
En savoir plus : WHO Study: Mobile Phones Not Linked to Brain Cancer
Laisser un commentaire