Google lance des modèles d’IA pour le raisonnement

Google lance des modèles d’IA pour le raisonnement

Par Eduardo Paulo – Applications & Logiciels, Intelligence Artificielle, Technologie, Génération d’IA, Google, 0 Commentaires.

Crédits image : Google DeepMind.

Mardi, Google a présenté Gemini 2.5, une nouvelle famille de modèles d’IA capables de faire une pause et “réfléchir” avant de répondre aux questions.

Le premier de cette série, Gemini 2.5 Pro Experimental, est un modèle multimodal décrit par Google comme le plus avancé à ce jour. À partir de mardi, il sera disponible sur Google AI Studio et l’application Gemini pour les abonnés au plan AI de 20 $ par mois, Gemini Advanced.

Google prévoit d’intégrer des capacités de raisonnement dans tous ses futurs modèles d’IA.

Les géants de la tech rivalisent pour faire progresser les modèles de raisonnement IA après la sortie de l’o1 d’OpenAI.

Depuis la sortie du premier modèle de raisonnement IA, o1, par OpenAI en septembre 2024, les entreprises technologiques rivalisent pour développer des modèles comparables ou supérieurs. Aujourd’hui, des entreprises comme Anthropic, DeepSeek, Google et xAI ont lancé des modèles de raisonnement IA qui utilisent davantage de puissance de calcul et de temps de traitement pour vérifier les faits et analyser les problèmes avant de répondre.

Les techniques de raisonnement IA ont considérablement amélioré les performances dans les tâches mathématiques et de programmation. Beaucoup dans l’industrie technologique considèrent ces modèles comme essentiels pour les agents IA—des systèmes autonomes capables d’accomplir des tâches avec peu d’intervention humaine. Cependant, ces progrès entraînent des coûts plus élevés.

Google a précédemment exploré les modèles de raisonnement IA, introduisant une version “pensante” de Gemini en décembre. Cependant, Gemini 2.5 marque l’effort le plus ambitieux de l’entreprise pour surpasser les modèles de la série o d’OpenAI.

Google : Gemini 2.5 Pro surpasse ses concurrents en applications web et programmation agentique.

Selon Google, Gemini 2.5 Pro surpasse ses précédents modèles IA de la série frontier ainsi que certains concurrents de premier plan sur divers critères. Le modèle est conçu spécifiquement pour exceller dans le développement d’applications web visuellement riches et dans la programmation agentique.

Lors de l’évaluation Aider Polyglot, qui mesure la performance de l’édition de code, Google rapporte que Gemini 2.5 Pro a obtenu un score de 68,6 %, surpassant les principaux modèles IA d’OpenAI, Anthropic et DeepSeek.

Cependant, lors du test SWE-bench Verified, qui évalue les capacités de développement logiciel, Gemini 2.5 Pro a obtenu un score de 63,8 %. Bien qu’il ait surpassé l’o3-mini d’OpenAI et le R1 de DeepSeek, il a été devancé par le Claude 3.7 Sonnet d’Anthropic, qui a mené avec 70,3 %.

Dans l’examen Humanity’s Last Exam—une évaluation multimodale couvrant les mathématiques, les sciences humaines et les sciences naturelles—Gemini 2.5 Pro a obtenu un score de 18,8 %, surpassant la plupart des modèles phares concurrents.

Lors de son lancement, Gemini 2.5 Pro dispose d’une fenêtre contextuelle de 1 million de tokens, lui permettant de traiter environ 750 000 mots en une seule session, dépassant ainsi la longueur de la série Le Seigneur des Anneaux. Google prévoit également d’étendre cette capacité à 2 millions de tokens prochainement.

L’entreprise n’a pas encore publié les prix API pour Gemini 2.5 Pro, mais promet plus de détails dans les semaines à venir.


Lisez l’article original sur :  TechCrunch

En savoir plus :  OpenAI Introduces New Tools for Businesses to Develop AI Agents

Partager cette publication