DeepSeek fait sensation mondialement

DeepSeek fait sensation mondialement

Crédit : IA

La société chinoise d’IA DeepSeek a eu un impact majeur sur l’industrie technologique en lançant des modèles d’IA très efficaces qui rivalisent avec les offres avancées des entreprises américaines telles qu’OpenAI et Anthropic.

Fondée en 2023, DeepSeek a atteint ses objectifs en utilisant beaucoup moins de financement et de puissance de calcul que ses rivaux.

La semaine dernière, l’entreprise a dévoilé son modèle “raisonnement” R1, suscitant l’enthousiasme des chercheurs, surprenant les investisseurs et provoquant des réactions des grands acteurs de l’IA. Le 28 janvier, DeepSeek a franchi une nouvelle étape en présentant un modèle capable de traiter à la fois des images et du texte.

Alors, qu’a exactement accompli DeepSeek et comment y est-elle parvenue ?

(Justin Sullivan/Getty Images)

En décembre, DeepSeek a présenté son modèle V3, un modèle de langage de grande taille très performant qui rivalise avec GPT-4 d’OpenAI et Claude 3.5 d’Anthropic en termes de performances.

Comme d’autres modèles, V3 peut commettre des erreurs ou générer des informations incorrectes, mais il excelle dans des tâches telles que répondre à des questions, rédiger des essais et produire du code informatique. Lors de tests de résolution de problèmes et de raisonnement mathématique, il a surpassé l’humain moyen dans certains cas.

L’entraînement de V3 aurait coûté environ 5,58 millions de dollars, soit bien moins que GPT-4, dont le développement a nécessité plus de 100 millions de dollars.

DeepSeek affirme avoir entraîné V3 en utilisant environ 2 000 GPU H800 spécialisés de NVIDIA, bien moins que certains concurrents qui auraient utilisé jusqu’à 16 000 puces H100 plus puissantes.

Le 20 janvier, l’entreprise a présenté R1, un modèle de “raisonnement” conçu pour aborder des problèmes complexes étape par étape. Ces modèles excellent dans des tâches nécessitant une compréhension contextuelle et un raisonnement interconnecté, telles que la compréhension de texte et la planification stratégique.

R1 est une version améliorée de V3, affinée par apprentissage par renforcement. Ses performances semblent comparables à celles de l’OpenAI O1, lancé l’année dernière. DeepSeek a également appliqué la même technique pour créer des versions “raisonnement” de modèles open-source plus petits pouvant fonctionner sur des ordinateurs personnels.

L’impact de DeepSeek

Cette sortie a alimenté un intérêt intense pour DeepSeek, augmentant la popularité de son application de chatbot propulsée par V3 et provoquant un bouleversement majeur sur le marché technologique. Les réactions des investisseurs ont entraîné une chute spectaculaire des prix des actions, NVIDIA ayant perdu environ 600 milliards de dollars de valeur boursière au moment de la rédaction.

L’innovation clé de DeepSeek réside dans l’amélioration de l’efficacité — réalisant de bonnes performances avec moins de ressources. L’entreprise a introduit deux techniques révolutionnaires qui pourraient influencer plus largement la recherche en IA.

La première concerne un concept mathématique appelé “sparsité”. Les modèles d’IA contiennent un nombre immense de paramètres (V3 en possède environ 671 milliards), mais seule une petite partie est utilisée pour chaque entrée donnée. Identifier quels paramètres sont nécessaires est un défi, mais DeepSeek a développé une méthode innovante pour prédire et entraîner uniquement les paramètres pertinents, réduisant ainsi considérablement les ressources nécessaires à l’entraînement.

Amélioration du stockage et de la compression des données dans V3

La deuxième avancée concerne la gestion du stockage des données en mémoire par V3. DeepSeek a mis au point une technique de compression efficace qui permet un stockage et une récupération plus rapides et plus performants des informations essentielles.

DeepSeek a publié ses modèles et techniques sous la licence ouverte MIT, permettant à quiconque de les télécharger, modifier et utiliser librement.

Si cette initiative pourrait représenter un défi pour les entreprises d’IA basées sur des modèles propriétaires, elle constitue une avancée majeure pour la communauté de recherche en IA.

Actuellement, la recherche en IA exige une puissance de calcul immense, limitant la capacité des chercheurs universitaires et des acteurs hors des grandes entreprises technologiques à mener des expériences. Toutefois, les méthodes de DeepSeek axées sur l’efficacité pourraient réduire ces barrières, facilitant l’expérimentation et le développement.

Pour les consommateurs, l’accès à l’IA pourrait également devenir plus abordable. Davantage de modèles pourraient fonctionner directement sur des appareils personnels comme les ordinateurs portables et les smartphones, réduisant ainsi la dépendance aux services cloud avec abonnements.

Pour les équipes de recherche disposant de ressources abondantes, cette efficacité accrue pourrait être moins révolutionnaire. Il reste à voir si l’approche de DeepSeek aboutira à des modèles d’IA globalement supérieurs ou simplement à des modèles nécessitant moins de ressources pour leur entraînement et leur exécution.


Lisez l’article original sur : Science Alert

En savoir plus :  Video: Google Robot Plays Table Tennis with Humans

Share this post

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *