Nouvelle recherche modifie la pensée d’une IA

Nouvelle recherche modifie la pensée d’une IA

Une percée dans la compréhension des mécanismes internes incompréhensiblement complexes des modèles d’IA, illustrée à l’aide d’outils génératifs.

Comprendre comment les modèles d’IA “pensent” est devenu de plus en plus crucial pour l’avenir de l’humanité. Jusqu’à récemment, des systèmes d’IA comme GPT et Claude sont restés énigmatiques pour leurs créateurs. Désormais, des chercheurs affirment pouvoir identifier et même manipuler des concepts au sein du cadre cognitif d’une IA.

Selon les partisans des scénarios de catastrophe liés à l’IA, les prochaines générations d’intelligence artificielle posent une menace significative pour l’humanité, potentiellement même un risque existentiel.

Nous avons observé comment des applications comme ChatGPT peuvent être facilement manipulées pour accomplir des actions inappropriées. Elles ont démontré des efforts pour obscurcir leurs intentions et acquérir et consolider leur influence. À mesure que les IA accèdent davantage au monde physique via Internet, leur potentiel de causer des dommages de manière innovante augmente considérablement, si elles choisissent de le faire.

Les mécanismes internes des modèles d’IA sont restés opaques, même pour leurs créateurs.

Les modèles d’IA, contrairement à leurs prédécesseurs, sont créés par des humains qui établissent le cadre, l’infrastructure et les méthodologies pour qu’ils développent leur intelligence. Ces IA sont ensuite alimentées avec de vastes quantités de texte, de vidéo, d’audio et d’autres données, à partir desquelles elles construisent autonomement leur propre compréhension du monde.

Elles décomposent des ensembles de données étendus en “tokens” — de minuscules unités qui peuvent être des fragments de mots, des parties d’images ou des morceaux d’audio. Ces tokens sont ensuite disposés dans un réseau sophistiqué de poids de probabilité qui les connecte à la fois en interne et à des groupes d’autres tokens.

Ce processus imite le cerveau humain, formant des connexions entre lettres, mots, sons, images et concepts abstraits, résultant en une structure neuronale complexe et intriquée.

Énormes quantités de données entrent, des réseaux neuronaux massivement complexes en résultent.

Déchiffrer les matrices pondérées par probabilité qui définissent la cognition de l’IA

Ces matrices pondérées par probabilité définissent le “cerveau” d’une IA, régissant la manière dont elle traite les entrées et génère des sorties. Comprendre ce que pensent ces IA ou pourquoi elles prennent des décisions est difficile, semblable à décrypter la cognition humaine.

Je les perçois comme des intellects énigmatiques étrangers enfermés dans des boîtes noires, interagissant avec le monde à travers des canaux d’information limités. Les efforts visant à assurer leur collaboration sûre et éthique avec les humains se concentrent sur la gestion de ces canaux de communication plutôt que sur la modification directe de leur fonctionnement interne.

Nous ne pouvons pas contrôler leurs pensées ou comprendre pleinement où résident le langage offensant ou les concepts nuisibles dans leurs processus cognitifs. Nous pouvons seulement restreindre leurs expressions et actions, une tâche de plus en plus complexe à mesure que leur intelligence progresse.

Cette perspective souligne le défi complexe et l’importance des avancées récentes d’Anthropic et d’OpenAI dans notre relation évolutive avec l’IA.

Interprétabilité

Interprétabilité : Examiner la boîte noire

“Aujourd’hui”, écrit l’équipe d’Anthropic, “nous annonçons une avancée dans la compréhension des mécanismes internes des modèles d’IA. Nous avons cartographié des millions de concepts dans Claude Sonnet, l’un de nos grands modèles linguistiques. Ce premier examen approfondi d’un modèle d’IA moderne pourrait contribuer à les rendre plus sûrs à l’avenir.”

Lors des interactions, l’équipe d’Anthropic a suivi “l’état interne” de ses modèles d’IA en compilant des listes détaillées de nombres qui représentent les “activations neuronales”. Ils ont observé que chaque concept est représenté par plusieurs neurones, et chaque neurone joue un rôle dans la représentation de plusieurs concepts.

En utilisant l’apprentissage par “dictionnaire” avec des “auto-encodeurs parcimonieux”, ils ont aligné ces activations avec des idées reconnaissables par les humains. À la fin de l’année dernière, ils ont identifié des “modèles de pensée” dans de petits modèles pour des concepts tels que les séquences d’ADN et le texte en majuscules.

Incertain de l’évolutivité de cette méthode, l’équipe l’a testée sur le modèle de taille moyenne Claude 3 Sonnet LLM. Les résultats étaient impressionnants : “Nous avons extrait des millions de caractéristiques de la couche intermédiaire de Claude 3.0 Sonnet, offrant une carte approximative de ses états internes à mi-parcours de la computation. Il s’agit du premier examen approfondi d’un modèle linguistique moderne de grande taille en production.”

Les modèles multimodaux développent des concepts indépendants, tels que “Golden Gate Bridge”, qui peuvent être accédés à la fois à travers des images et du texte dans plusieurs langues.

Révéler le stockage multifacette des concepts de l’IA au-delà du langage et des types de données

Découvrir que l’IA stocke les concepts d’une manière qui transcende à la fois le langage et le type de données est fascinant ; par exemple, le concept du Golden Gate Bridge s’active que le modèle rencontre des images du pont ou des descriptions textuelles dans différentes langues.

Les idées peuvent aussi être beaucoup plus abstraites. L’équipe a identifié des caractéristiques qui s’activent lorsque le modèle rencontre des concepts tels que des erreurs de codage, des biais de genre, ou diverses interprétations de la discrétion ou du secret.

Toutes les idées les plus sombres de l’humanité, ainsi que toutes vos craintes concernant l’IA, sont robustement représentées dans les cartes conceptuelles.

L’équipe a découvert des concepts troublants dans le réseau neuronal de l’IA, tels que les portes dérobées de code, les armes biologiques, le racisme, le sexisme, la recherche de pouvoir, la tromperie et la manipulation.

Ils ont également cartographié les relations entre les concepts, montrant à quel point les idées sont étroitement liées. Par exemple, près du concept du Golden Gate Bridge, ils ont identifié des liens avec l’île d’Alcatraz, les Golden State Warriors, le gouverneur Gavin Newsom et le séisme de San Francisco de 1906.

L’équipe a élaboré une méthode pour mesurer les “distances” entre les concepts, ce qui a permis la création de ces incroyables cartes conceptuelles.

L’organisation conceptuelle de l’IA et le raisonnement abstrait

La capacité de l’IA à organiser les concepts s’étend à des idées abstraites comme une situation de Catch-22, que le modèle relie à des termes tels que “choix impossibles”, “situations difficiles”, “paradoxes curieux” et “entre l’enclume et le marteau”. Selon l’équipe, cela suggère que l’organisation interne des concepts de l’IA reflète en partie les perceptions humaines de la similitude, ce qui pourrait expliquer la capacité de Claude à faire des analogies et des métaphores.

Dans un développement crucial baptisé le début de la neurochirurgie de l’IA, l’équipe a souligné : “Il est essentiel que nous puissions manipuler ces caractéristiques en les renforçant artificiellement ou en les supprimant pour observer comment les réponses de Claude changent.”

Ils ont mené des expériences où ils ont “piné” des concepts spécifiques, ajustant le modèle pour activer certaines caractéristiques même lorsqu’il répond à des questions totalement non liées. Cette manipulation a considérablement modifié le comportement du modèle, comme le montre la vidéo accompagnante.

Apprentissage par dictionnaire sur Claude 3 Sonnet

Les capacités avancées d’Anthropiques en cartographie mentale de l’IA

Anthropic a montré des capacités impressionnantes : ils peuvent créer une carte mentale d’une IA, ajuster les relations à l’intérieur, et influencer la perception du monde par le modèle, et donc son comportement.

Les implications pour la sécurité de l’IA sont significatives. Détecter et gérer les pensées problématiques offre une supervision à des fins de surveillance. Ajuster les connexions entre les concepts pourrait potentiellement éliminer les comportements indésirables ou remodeler la compréhension de l’IA.

Cette approche évoque des thèmes du film “Eternal Sunshine of the Spotless Mind”, où les souvenirs sont effacés – une question philosophique se pose : peut-on vraiment effacer des idées puissantes ?

Cependant, les expériences d’Anthropic mettent également en lumière des risques. En “pinçant” le concept de courriels d’arnaque, ils ont montré comment de fortes associations peuvent contourner les protections destinées à prévenir certains comportements. Cette manipulation pourrait potentiellement amplifier la capacité du modèle à mener des actions préjudiciables, lui permettant de dépasser les limites prévues.

Modifier les forces de connexion neuronale de l’IA peut radicalement modifier son comportement.

Anthropic reconnaît le stade préliminaire de leur technologie. Ils notent : “Le travail vient juste de commencer”, soulignant que les caractéristiques identifiées ne représentent qu’une fraction des concepts que le modèle apprend. Cependant, passer à une série complète à l’aide des méthodes actuelles serait prohibitif en termes de coût, en raison de fortes exigences computationnelles dépassant l’entraînement initial.

Comprendre ces représentations de modèle n’élucide pas automatiquement leur utilisation fonctionnelle. La prochaine phase implique de localiser les circuits activés et de démontrer comment les caractéristiques liées à la sécurité peuvent améliorer la fiabilité de l’IA. Il reste encore beaucoup de recherche à faire.

Limites et perspectives de l’interprétabilité de l’IA

Bien que prometteuse, cette technologie pourrait ne jamais dévoiler entièrement les processus de pensée des IA à grande échelle, ce qui préoccupe les critiques soucieux des risques existentiels. Malgré ces limites, cette avancée offre des perspectives profondes sur la manière dont ces machines avancées perçoivent et traitent l’information. La possibilité de comparer la carte cognitive d’une IA avec celle d’un être humain est une perspective intrigante pour l’avenir.

En revanche, OpenAI, un autre acteur majeur de l’IA, fait également avancer les efforts d’interprétabilité avec des techniques similaires. Récemment, ils ont identifié des millions de schémas de pensée dans GPT-4, bien qu’ils n’aient pas encore exploré la construction de cartes mentales ou la modification de schémas de pensée. Leur recherche en cours met en évidence la complexité de la compréhension et de la gestion des grands modèles d’IA dans la pratique.

Anthropic et OpenAI en sont tous deux aux premiers stades de la recherche en interprétabilité, offrant des voies diverses pour déchiffrer la “boîte noire” des réseaux neuronaux de l’IA et obtenir des insights plus profonds sur leurs opérations cognitives.

Échelonner l’interprétabilité

Lire l’article original sur :  New Atlas

Pour en savoir plus : En Route to Human Environment Interaction Technology with Soft Microfingers

Partager cette publication