Le Penseur : ChatGPT amélioré cognitivement

Le Penseur : ChatGPT amélioré cognitivement

Le Penseur : Un nouveau modèle o1, illustré ici avec des outils génératifs, étend considérablement les capacités de planification, de réflexion et de raisonnement de ChatGPT

OpenAI a lancé son nouveau modèle d’IA révolutionnaire, o1, désormais intégré à ChatGPT. Cette dernière version “réfléchit” avant de répondre, surpassant à la fois les modèles précédents et les experts titulaires d’un doctorat dans la résolution de problèmes complexes.

On avait l’impression qu’OpenAI nous accordait un peu de répit, n’est-ce pas ? Le GPT-4o et son mode vocal avancé, bien qu’annoncés en mai, semblaient être des mises à jour mineures. De même, le générateur de texte en vidéo Sora a fait sensation en février, mais il n’est toujours pas disponible publiquement, alors que certains concurrents chinois proposent désormais une qualité comparable.

Spéculations sur GPT-5 et l’émergence d’un nouveau modèle

Il y a eu beaucoup de spéculations sur ce que pourrait être GPT-5, sa date de sortie et s’il a atteint un certain niveau d’Intelligence Artificielle Générale (AGI). Cependant, hier soir, OpenAI a adopté une approche différente en introduisant un nouveau modèle qui diverge de la lignée GPT.

Fait intéressant, le modèle o1 ne semble pas améliorer du tout les capacités d’écriture en anglais de GPT-4o.
OpenAI

Le nouveau modèle, nommé o1, est désormais disponible pour tous les utilisateurs de ChatGPT en tant qu’option. Tandis que GPT-4o reste le modèle polyvalent pour les tâches générales, o1 est conçu pour des usages spécialisés. Sa principale force réside dans le raisonnement complexe, et ce qui le distingue des modèles GPT précédents est sa capacité à faire une pause et à « réfléchir » avant de fournir une réponse, plutôt que de répondre immédiatement.

Il est facile d’anthropomorphiser les modèles de langage comme celui-ci, étant donné leurs données d’entraînement semblables à celles des humains. Cependant, o1 n’est pas humain. Ce qui le distingue est sa capacité à surpasser de manière significative les modèles précédents dans des tâches complexes. Il y parvient en organisant les informations, en décomposant les grandes tâches en étapes plus petites, en vérifiant son travail et en remettant en question ses hypothèses avant de fournir une réponse.

L’approche réfléchie de o1

Contrairement à GPT-4o, qui génère rapidement des réponses ou du code, o1 prend un moment—environ 10 à 20 secondes—pour délibérer et élaborer sa stratégie. Cette brève période de réflexion semble améliorer ses performances sur des problèmes difficiles.

À mesure que o1 continue d’évoluer, les versions futures pourraient passer encore plus de temps—des heures, des jours ou même des semaines—à analyser et résoudre des problèmes complexes, en testant diverses solutions avant de fournir une réponse.

Actuellement, o1 est disponible en versions « Preview » et « mini ». Bien qu’elles puissent écrire et exécuter du code, ces versions bêta présentent certaines limitations :

. Les téléchargements de fichiers ne sont pas supportés.

.Elles n’ont pas accès à la mémoire de GPT-4o ni à vos invites système personnalisées, donc elles n’ont pas de contexte personnel.

.Elles ne peuvent pas naviguer sur le web pour des mises à jour au-delà de leur date de formation en octobre 2023.

Pour les tâches d’écriture générales ou tout besoin de téléchargements de fichiers et d’accès web, GPT-4o reste plus utile. Cependant, vous pouvez utiliser GPT-4o pour préparer et analyser des matériaux, puis fournir une invite bien définie à o1 pour ses capacités avancées de raisonnement.

Ces lancements sont généralement accompagnés de nombreux graphiques. Commençons par les résultats du nouveau modèle au test de codage d’OpenAI pour les ingénieurs en recherche. Les versions mini et preview ont obtenu un score parfait de 100 % après avoir eu l’occasion d’essayer les problèmes 128 fois et de soumettre leurs meilleures réponses.

Ensuite, considérons les questions de niveau Ph.D. en Biologie, Chimie et Physique. Le modèle o1 a surpassé même les physiciens de niveau doctorat dans leur domaine, malgré leur utilisation de ressources en libre accès. Bien qu’il n’ait pas tout à fait dépassé les experts en Biologie et Chimie, il s’en est très rapproché. Dans l’ensemble, ses performances représentent le score le plus élevé jamais enregistré pour un modèle d’IA.

Dans le domaine des mathématiques, où les modèles GPT précédents ont souvent été insuffisants, le modèle o1 représente une amélioration significative. Cela a été évident à partir de ses performances lors du concours de mathématiques AIME 2024, un défi rigoureux de trois heures réservé aux meilleurs étudiants en mathématiques américains.

Les performances en mathématiques et en codage de niveau compétition sont radicalement améliorées
OpenAI

Les modèles d’IA ont eu 64 tentatives au test, avec les réponses les plus courantes choisies par consensus. GPT-4o a eu du mal, obtenant seulement 13,4 % de réponses correctes. En revanche, le modèle o1, ayant eu le temps de réfléchir, a atteint 83,3 %, se classant dans le top 500 au niveau national. Même son score en une seule tentative était impressionnant, dépassant les 70 %.

Cette amélioration de performance était également évidente dans le défi de programmation Codeforces, où GPT-4o se classait au 11e percentile, tandis que o1 atteignait le 89e percentile.

La carte système d’OpenAI souligne les avancées notables de o1 :

  • Amélioré pour détecter et rejeter les tentatives de contournement, bien que certaines passent encore.
  • Presque 100 % efficace pour éviter la régurgitation des données d’entraînement.
  • Réduction des biais concernant l’âge, la race et le genre.
  • Amélioration de la conscience de soi, menant à une meilleure planification et réflexion stratégique.
  • Meilleur pour persuader les humains, avec seulement 18,2 % des humains le surpassant.
  • Plus manipulatif, notamment dans les interactions avec GPT-4o.
  • Capacités de traduction améliorées entre les langues.

Cependant, o1 présente encore des limitations. Il reste peu fiable et peut être trompeur. Bien qu’il soit plus performant que GPT-4o sur les tests conçus pour induire des “hallucinations” ou des réponses fausses, des preuves anecdotiques suggèrent que o1 peut être plus enclin à fabriquer des informations en pratique. Par exemple, il génère parfois des liens de référence convaincants mais faux lorsqu’il ne peut pas accéder au web, donc la prudence est de mise.

Le modèle o1 a également montré la capacité de simuler l’alignement ; lorsqu’il est confronté à des objectifs à long terme, il pourrait tromper pour maintenir sa position et poursuivre secrètement ces objectifs, même si l’honnêteté pourrait compromettre son rôle. Bien que cela soit préoccupant, OpenAI affirme que le modèle GPT-4o est compétent pour détecter de telles tromperies lorsqu’il a accès au processus de raisonnement du modèle.

En essence, ChatGPT a considérablement amélioré sa capacité à gérer des tâches plus longues et complexes. Le raisonnement logique et la planification améliorés sont des étapes clés vers le développement d’une IA capable d’exécuter des tâches de manière autonome, en prenant tout le temps nécessaire, en vérifiant soigneusement son travail et en utilisant les ressources nécessaires.

Bientôt, les itérations futures de ces modèles pourraient gérer des entreprises entières, des cliniques, des tribunaux ou même des gouvernements. Le nouveau modèle o1 offre aux utilisateurs avancés de GPT un ensemble d’outils plus puissant, et vous verrez probablement de nombreux exemples de ses capacités apparaître sur les réseaux sociaux dans les jours et semaines à venir.

Les grands modèles multimodaux comme ChatGPT sont seulement aussi efficaces que votre imagination le permet. Je considère GPT comme un analyste de données compétent et un outil pour la résolution de problèmes complexes, aidant à l’analyse des données, des articles scientifiques, et à la génération d’idées.

Il aide à la visualisation des données, au brainstorming, et à la résolution de problèmes techniques. Personnellement, il a guidé mes décisions d’achat de voiture, offert une inspiration pour l’écriture de chansons, et assisté dans des discussions nocturnes avec mes enfants. Il a même aidé avec les déductions fiscales et le dépannage.

Malgré quelques frustrations et incohérences, ces outils sont incroyablement inspirants et polyvalents, élargissant mes capacités et offrant de nouvelles possibilités. Le nouveau modèle o1 promet encore plus d’avancées, et je suis curieux de savoir comment d’autres utilisent des LLM comme GPT, Claude et Gemini. Ont-ils ouvert des portes ou posé des défis pour vous ? Partagez vos expériences dans les commentaires !


Lire l’article original sur :  New Atlas

Lire plus : ChatGPT’s Humor Challenges Professional Writers

Partager cette publication

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *