L’IA Gemini de Google bat GPT et des experts humains sur 57 sujets
Google a introduit son impressionnante IA de nouvelle génération, Gemini, affirmant sa supériorité sur le GPT-4 d’OpenAI et sur des experts humains dans presque toutes les évaluations significatives. Gemini démontre sa compétence dans la compréhension des images, des vidéos, des audios, du texte et du code, avec des projets pour acquérir des sens supplémentaires à l’avenir.
Obtenant un score de 90,0 % au test d’Énorme Compréhension Multitâche du Langage (ECML), Gemini AI devient le tout premier modèle à surpasser les experts humains (89,8 %) et à surpasser le GPT-4 (86,4 %) dans des tâches diverses de connaissance et de résolution de problèmes couvrant 57 sujets, englobant des domaines tels que les mathématiques, la physique, l’histoire, le droit, la médecine et l’éthique. Il convient de noter que ces experts ne représentent pas le citoyen moyen.
La diversité de l’entraînement de Gemini et sa compréhension nuancée
En réalité, Gemini est intrinsèquement multimodal, ce qui signifie que son jeu de données initial d’entraînement comprenait une quantité substantielle de médias divers autres que du texte. Par conséquent, il fait preuve d’une compétence dans la compréhension des informations visuelles et auditives aussi efficacement que dans celle du texte. Contrairement à d’autres modèles de langage qui interprètent souvent les vidéos et les images principalement en termes textuels, Gemini préserve pleinement le ton et la subtilité des sources originales de vidéos, d’audios et d’images.
Bien que la vidéo ci-dessous serve de démonstration de produit aboutie et doive être vue avec un certain scepticisme, elle offre un aperçu précieux des implications pratiques des véritables capacités multimodales de Gemini.
Quelle est la conclusion clé ? Les IA sont en cours de formation avec des ensembles de données sensorielles de plus en plus vastes pour imiter les processus d’apprentissage utilisés par les humains pour interagir avec leur environnement. Avec une compréhension visuelle et auditive améliorée, Gemini progresse dans la perception et le raisonnement. Une fois intégré aux appareils Google, en commençant par les prochains téléphones Pixel, il sera capable d’assister dans diverses tâches quotidiennes.
Selon Demis Hassabis, PDG de Google DeepMind, cette progression est sur le point de s’étendre à la prochaine dimension sensorielle logique : le toucher et la rétroaction tactile. Alors que Google est déjà un acteur majeur dans la robotique IA, l’intégration d’un modèle hautement compétent comme Gemini avec la capacité de comprendre le monde à travers le toucher propulsera la robotique, tant humanoïde que non, vers des territoires inexplorés.
L’efficacité de Gemini dans la génération de code pour la méta-connaissance à partir d’ensembles de données vastes
La multimodalité n’est qu’une caractéristique notable parmi tant d’autres, mais à l’instar de GPT-4, Gemini est un outil tout-en-un, ce qui rend difficile de déterminer par où commencer. Peut-être que ses contributions potentielles à la science méritent d’être mises en avant ? Dans la vidéo présentée, les scientifiques de DeepMind illustrent comment Gemini a la capacité de générer son propre code pour lire et comprendre 200 000 études scientifiques. Il filtre les études pour leur pertinence en utilisant ses capacités de raisonnement intrinsèques, compile les données et génère efficacement de nouvelles méta-connaissances. L’équipe affirme avoir accompli cela pendant leur pause déjeuner, mettant en avant son applicabilité à d’autres domaines tels que le droit, où des ensembles de données étendus nécessitent un examen approfondi.
En ce qui concerne la programmation, Gemini excelle dans les langages Python, Java, C++, et Go. Google démontre déjà sa capacité à créer des sites web générant dynamiquement du code en fonction des interactions des utilisateurs, s’adaptant à leurs besoins lorsqu’ils deviennent apparents. Cela marque une approche novatrice sur Internet, où une seule page évolue pour répondre à vos besoins une fois qu’elle les comprend.
La vidéo de démonstration se concentre sur un scénario relativement simple – la planification d’une fête d’anniversaire pour un enfant. Cependant, elle illustre les capacités remarquables de Gemini, montrant comment il pourrait générer des interfaces utilisateur graphiques pour presque toutes les tâches concevables. C’est une capacité unique réalisable uniquement grâce à l’IA, semblable à avoir un programmeur d’application web travaillant à vos côtés mais avec une capacité à opérer à un rythme considérablement accéléré.
Comme tout outil d’IA, Gemini est hautement interactif. S’il ne fournit pas exactement ce que vous voulez, vous pouvez communiquer vos préférences et il s’ajustera en conséquence ou engagera une conversation pour déterminer la meilleure démarche à suivre. Cela démontre le changement transformateur dans nos interactions avec la technologie.
Dans le domaine du codage, le projet AlphaCode 2 de DeepMind implique l’entraînement de différents modèles Gemini pour des aspects distincts du processus de programmation. L’initiative déploie un essaim d’agents de programmation pour générer jusqu’à un million d’extraits de code pour résoudre un problème. Un modèle Gemini distinct évalue ces échantillons, en rejetant environ 95 % en fonction de la compilation et de l’efficacité.
Triomphes en Codage d’AlphaCode 2
Un autre modèle Gemini développe un cadre de test de code, effectue des tests approfondis et classe les extraits de code restants en fonction de leur exactitude. Deepmind a transformé avec succès Gemini en une équipe logicielle multifonctionnelle, se distinguant lors d’une compétition de codage où il a surpassé 87 % des participants, se positionnant entre les catégories « Expert » et « Candidat Master » sur Codeforces. Ce succès souligne le besoin d’une compréhension rationnelle exceptionnelle et d’une utilisation créative des outils logiciels dans de telles compétitions.
AlphaCode 2, malgré ses performances impressionnantes, ne devrait pas être accessible immédiatement au public, et sa forme actuelle ne devrait pas être publiée en raison de la puissance informatique considérable nécessaire pour générer un million de fragments de code. Bien que le taux de réussite reste constant avec un million de fragments et pourrait potentiellement s’améliorer encore avec des milliards voire des billions de fragments, l’approche actuelle est inefficace. Néanmoins, les progrès rapides dans ce domaine indiquent la probabilité de l’émergence prochaine d’une méthode plus efficace.
Offres Variées de Gemini
Pour conclure, DeepMind envisage une version simplifiée d’AlphaCode 2 pour une sortie publique. Cependant, Google s’apprête à lancer Gemini en trois tailles : Gemini Nano pour les appareils mobiles, Gemini Pro comparable à GPT-3.5 pour diverses tâches, et Gemini Ultra, le plus grand modèle dépassant le GPT-4 dans les tests de référence. Gemini Ultra devrait être lancé publiquement l’année prochaine après des évaluations de sécurité. Gemini Nano est déjà sur le Pixel 8 Pro, et Gemini Pro est disponible gratuitement via Google Bard. Google prévoit d’intégrer Gemini dans ses produits, signalant des développements en cours.
Lire l’article original sur : New Atlas
En savoir plus : 1% coût normal réduit