L’exactitude de ChatGPT égale celle de ‘Dr. Google

L’exactitude de ChatGPT égale celle de ‘Dr. Google

Crédit : Pixabay

Selon une nouvelle étude, ChatGPT est médiocre pour diagnostiquer les conditions médicales, avec un taux de précision de seulement 49 %. Les chercheurs soulignent que leurs résultats montrent que l’IA ne devrait pas être la seule source d’informations médicales, en mettant en évidence la nécessité de conserver l’élément humain dans les soins de santé.

La facilité d’accès à la technologie en ligne a conduit certaines personnes à éviter de consulter un professionnel de santé et à rechercher leurs symptômes sur Google. Bien que l’initiative en matière de santé soit bénéfique, ‘Dr. Google’ n’est pas très précis. Une étude australienne de 2020, examinant 36 applications et sites web internationaux de vérification des symptômes, a révélé que les diagnostics corrects apparaissaient en premier seulement 36 % du temps.

Avancées de l’IA et précision diagnostique

L’IA a certainement progressé depuis 2020. Par exemple, ChatGPT d’OpenAI a fait des avancées significatives et peut même réussir l’examen de licence médicale aux États-Unis. Cependant, cela soulève la question de savoir s’il est plus précis que ‘Dr. Google’ en termes de précision diagnostique. Les chercheurs de l’Université Western au Canada ont cherché à répondre à cette question dans une nouvelle étude.

Utilisant ChatGPT 3.5, un grand modèle linguistique formé sur un vaste ensemble de données de plus de 400 milliards de mots provenant de sources diverses telles que des livres, des articles et des sites web, les chercheurs ont réalisé une analyse qualitative des informations médicales fournies par le chatbot. Ils ont évalué ses réponses aux Défis de Cas Medscape.

Les Défis de Cas Medscape sont des scénarios cliniques complexes conçus pour tester les connaissances et les capacités diagnostiques d’un professionnel de santé. Les participants doivent diagnostiquer un cas ou choisir un traitement approprié parmi quatre options à choix multiple.

Les chercheurs ont sélectionné ces défis car ils sont en source ouverte et disponibles gratuitement. Pour éviter que ChatGPT n’ait une connaissance préalable des cas, les chercheurs ont inclus uniquement ceux publiés après la date de fin de formation du modèle en août 2021.

Une gamme de problèmes médicaux et d’exclusions

Un total de 150 cas Medscape ont été examinés. Avec quatre réponses possibles par cas, il y avait 600 réponses potentielles, mais une seule réponse correcte pour chaque cas. Les cas couvraient une variété de problèmes médicaux, avec des titres tels que « La bière et l’aspirine aggravent les problèmes nasaux chez un homme de 35 ans asthmatique », « Défi gastro : Un homme de 33 ans qui ne peut pas avaler sa propre salive », « Une femme de 27 ans avec des maux de tête constants trop fatiguée pour faire la fête », « Défi pédiatrique : Un garçon de 7 ans avec une boiterie et une obésité qui est tombé dans la rue », et « Un comptable qui aime l’aérobic avec des hoquets et une incoordination ». Les chercheurs ont exclu les cas comprenant des éléments visuels, tels que des images cliniques, des photographies médicales et des graphiques.

Un exemple de prompt standardisé fourni à ChatGPT
Hadi et al.

Pour garantir une entrée cohérente, les chercheurs ont converti chaque défi de cas Medscape en un prompt standardisé avec une réponse attendue spécifiée. Au moins deux stagiaires médicaux indépendants, aveugles aux évaluations des autres, ont évalué les réponses de ChatGPT pour la précision diagnostique, la charge cognitive et la qualité des informations.

ChatGPT a répondu correctement dans 49 % des 150 cas analysés, avec une précision globale de 74 %, reflétant sa capacité à identifier et rejeter les options incorrectes. Cette haute précision est due à sa capacité à éliminer les mauvaises réponses, mais montre qu’il a besoin d’une meilleure précision et sensibilité.

Précision et qualité des réponses de ChatGPT

ChatGPT a eu des faux positifs et des faux négatifs dans 13 % des cas chacun. Plus de la moitié (52 %) de ses réponses étaient complètes et pertinentes, tandis que 43 % étaient incomplètes mais encore pertinentes. Les réponses avaient une charge cognitive faible à modérée, les rendant assez faciles à comprendre, bien que cela puisse conduire à des idées fausses si utilisé pour l’éducation médicale.

Le modèle a eu du mal à distinguer entre des maladies subtilement différentes et a parfois produit des informations incorrectes ou implausibles, soulignant la nécessité de l’expertise humaine dans le processus de diagnostic.

Les chercheurs affirment que l’IA devrait être utilisée comme un outil pour améliorer, et non remplacer, l’élément humain dans la médecine.
Depositphotos

ChatGPT 3.5 et diagnostic différentiel

Les chercheurs notent que ChatGPT 3.5 n’est qu’un modèle d’IA et ne représente peut-être pas les autres, des améliorations étant attendues dans les versions futures. L’étude s’est concentrée sur les cas de diagnostic différentiel, où distinguer entre des symptômes similaires est crucial.

Les recherches futures devraient évaluer divers modèles d’IA à travers différents types de cas. Malgré cela, l’étude offre des perspectives précieuses.

« La combinaison de haute pertinence et de précision relativement faible suggère que ChatGPT ne devrait pas être utilisé pour des conseils médicaux, car il peut fournir des informations importantes mais trompeuses », ont déclaré les chercheurs. « Bien que ChatGPT fournisse de manière cohérente les mêmes informations à différents utilisateurs, montrant une bonne fiabilité inter-évaluateurs, sa faible précision diagnostique souligne ses limites dans la fourniture d’informations médicales précises. »


Lisez l’article original sur : New Atlas

Lisez la suite : The World´s First 6G Technology From Japan

Partager cette publication