Le MIT : l’IA sans valeurs

Une étude largement médiatisée il y a quelques mois suggérait que, à mesure que l’IA progresse, elle pourrait développer ses propres « systèmes de valeurs » — allant jusqu’à se prioriser elle-même par rapport aux humains.
Cependant, un nouvel article du MIT remet cette idée en question, concluant que l’IA ne possède en réalité aucune valeur cohérente ou significative.
Selon les auteurs, cette découverte indique que l’alignement de l’IA — c’est-à-dire garantir qu’elle agisse de manière fiable et éthique — pourrait être plus complexe qu’on ne le pense. Les systèmes actuels ont tendance à halluciner et à imiter plutôt qu’à raisonner, ce qui rend leur comportement imprévisible.
L’IA n’a pas de valeurs stables, selon un chercheur du MIT
« On peut affirmer que les modèles ne respectent pas de manière fiable les hypothèses de stabilité, d’extrapolation ou de contrôle, » a déclaré Stephen Casper, doctorant au MIT et co-auteur de l’étude, dans une interview accordée à TechCrunch. « Il est raisonnable de noter qu’un modèle peut sembler agir selon certains principes dans des scénarios spécifiques — mais généraliser ces comportements comme étant ses valeurs ou opinions globales est problématique. »
Casper et ses co-auteurs ont analysé plusieurs modèles récents d’IA provenant d’entreprises comme Meta, Google, Mistral, OpenAI et Anthropic afin d’évaluer si ces systèmes exprimaient des “croyances” ou des valeurs fortes — telles qu’une tendance vers l’individualisme ou le collectivisme. Ils ont également examiné dans quelle mesure ces supposées valeurs pouvaient être modifiées et si les modèles les conservaient de manière cohérente selon les contextes.
Leurs résultats ont montré qu’aucun des modèles n’affichait de préférences constantes. Les réponses variaient fortement en fonction de la formulation ou du cadrage des questions, menant à des points de vue contradictoires.
Les modèles d’IA sont trop incohérents pour avoir des valeurs humaines.
Casper considère cela comme une preuve solide que les modèles d’IA actuels sont « très incohérents et instables » — et probablement fondamentalement incapables d’adopter des systèmes de valeurs semblables à ceux des humains.
« Ma plus grande prise de conscience suite à cette recherche est que les modèles ne sont pas des systèmes avec des croyances ou des préférences cohérentes et stables, » a expliqué Casper. « Au fond, ce sont des imitateurs — générant des réponses par fabulation et faisant souvent des déclarations sans substance. »
Mike Cook, chercheur en IA au King’s College de Londres, qui n’a pas participé à l’étude, a fait écho aux résultats. Il a souligné qu’il y a souvent un écart important entre la manière dont l’IA fonctionne scientifiquement et la manière dont les gens l’interprètent ou la décrivent.
« Un modèle ne peut pas réellement ‘résister’ à un changement de ses valeurs — c’est simplement nous qui projetons des qualités humaines sur une machine, » a déclaré Cook. « Les personnes qui anthropomorphisent l’IA à ce point recherchent soit de l’attention, soit interprètent fondamentalement mal leur relation avec ces systèmes. Que vous disiez qu’une IA ‘poursuit des objectifs’ ou ‘développe ses propres valeurs’ dépend vraiment du langage et du récit utilisés. »
Lisez l’article original sur : TechCrunch
En savoir plus : Elon Musk Announces That xAI Has Acquired X
Laisser un commentaire