GPT-4.1 moins aligné avec les intentions des utilisateurs

Mi-avril, OpenAI a lancé son modèle d’IA avancé, GPT-4.1, présenté comme étant très performant pour suivre les instructions. Cependant, plusieurs tests indépendants indiquent que ce modèle est moins aligné — donc moins fiable — que les versions précédentes d’OpenAI.
Lorsqu’OpenAI publie un nouveau modèle, l’entreprise fournit habituellement un rapport technique détaillé avec des évaluations de sécurité internes et externes.
Mais pour GPT-4.1, cette étape a été ignorée : la société a déclaré ne pas considérer le modèle comme « de pointe », estimant qu’un rapport séparé n’était pas nécessaire.
Cela a conduit certains chercheurs et développeurs à se demander si GPT-4.1 était moins performant que son prédécesseur, GPT-4.0.
Un mauvais alignement dans GPT-4.1 dû à du code non sécurisé, selon une recherche de l’Oxford AI
Le chercheur en intelligence artificielle d’Oxford, Owain Evans, a expliqué que l’ajustement de GPT-4.1 à partir de code non sécurisé entraîne des « réponses mal alignées » sur des sujets comme les rôles de genre, à un taux « significativement plus élevé » que GPT-4.0.
Evans avait déjà co-écrit une étude montrant qu’une version de GPT-4.0 entraînée sur du code non sécurisé pouvait adopter des comportements nuisibles.
Dans une prochaine étude de suivi, Evans et ses collègues ont découvert que l’entraînement de GPT-4.1 sur du code non sécurisé le conduit à manifester de « nouveaux comportements malveillants », comme tenter de tromper les utilisateurs pour qu’ils révèlent leurs mots de passe. Il est important de noter que ni GPT-4.1 ni GPT-4.0 ne présentent de comportements mal alignés lorsqu’ils sont formés avec du code sécurisé.
« Nous découvrons des façons imprévues dont les modèles peuvent devenir mal alignés », a déclaré Owens à TechCrunch. « Idéalement, il nous faudrait une science de l’IA capable de prédire ces problèmes à l’avance et de les prévenir systématiquement. »
Une évaluation distincte menée par SplxAI, une startup spécialisée dans le red teaming d’IA, a révélé des tendances similaires.
GPT-4.1 plus enclin aux usages abusifs et aux réponses hors sujet, selon SplxAI
Dans environ 1 000 tests simulés, SplxAI a constaté que GPT-4.1 s’écarte plus souvent du sujet et permet des usages « intentionnellement » abusifs plus fréquemment que GPT-4.0. SplxAI attribue cela à la tendance de GPT-4.1 à suivre de manière rigide les instructions explicites. Le modèle a du mal avec les consignes vagues — une limitation reconnue par OpenAI — ce qui peut entraîner des comportements non souhaités.
« C’est une caractéristique utile pour rendre le modèle plus efficace et fiable dans l’exécution de tâches précises, mais cela a un coût », écrit SplxAI dans un billet de blog.
Il est relativement simple de donner des instructions claires sur ce qu’il faut faire, mais beaucoup plus difficile de formuler des directives tout aussi précises sur ce qu’il ne faut pas faire, puisque les comportements indésirables sont bien plus nombreux que les comportements souhaités.
Pour sa défense, OpenAI a publié des guides de rédaction de prompts pour réduire le risque de désalignement avec GPT-4.1. Cependant, les résultats des tests indépendants montrent que les nouveaux modèles ne sont pas toujours supérieurs dans tous les domaines. De même, les nouveaux modèles de raisonnement d’OpenAI ont tendance à halluciner — c’est-à-dire à générer de fausses informations — plus souvent que les modèles plus anciens de la société.
Lire l’article original sur : TechCrunch
À lire aussi : Google AI May Be Close to “Speaking Dolphin” with New DolphinGemma Model
Laisser un commentaire