ChatGPT améliore sa génération d’images

Lors d’un livestream mardi, Sam Altman, PDG d’OpenAI, a annoncé la première mise à jour majeure des capacités de génération d’images de ChatGPT en plus d’un an.
Désormais, ChatGPT peut utiliser le modèle GPT-4o pour créer et modifier des images directement. Jusqu’à présent, GPT-4o alimentait le chatbot d’OpenAI uniquement pour des tâches textuelles.
Altman a précisé que cette fonctionnalité est disponible dans ChatGPT et Sora, l’outil vidéo d’OpenAI, pour les abonnés au plan Pro à 200 $/mois. Elle sera bientôt étendue aux utilisateurs Plus, gratuits et aux développeurs via l’API d’OpenAI.
Précision d’image améliorée et capacités d’édition avancées.
GPT-4o génère des images légèrement plus lentement que DALL-E 3, qu’il remplace, mais OpenAI affirme qu’il produit des visuels plus détaillés et précis. Il peut aussi éditer des images existantes, y compris celles avec des personnes, en modifiant des éléments ou en complétant des détails comme l’arrière-plan.
OpenAI a déclaré au Wall Street Journal avoir entraîné GPT-4o avec des données publiques et du contenu sous licence grâce à des partenariats avec des entreprises comme Shutterstock.
Les entreprises d’IA générative protègent souvent leurs données d’entraînement, à la fois pour des raisons de concurrence et pour éviter des litiges liés à la propriété intellectuelle.
« Nous respectons les droits des artistes et avons des politiques pour empêcher la création d’images imitant de près le travail d’artistes vivants », a affirmé Brad Lightcap, directeur des opérations d’OpenAI, au Wall Street Journal.
Contrôle des créateurs et mesures de protection des données.
OpenAI propose un formulaire permettant aux créateurs de demander le retrait de leurs œuvres de ses ensembles d’entraînement. L’entreprise affirme également respecter les demandes de blocage de ses bots d’exploration pour éviter la collecte de données, y compris d’images, sur les sites web.
Cette mise à jour de la génération d’images de ChatGPT intervient peu après l’introduction par Google d’une sortie d’image native expérimentale dans son modèle Gemini 2.0 Flash. Cette fonctionnalité a rapidement attiré l’attention sur les réseaux sociaux, notamment en raison du manque de protections permettant de supprimer des filigranes ou de générer des images de personnages sous copyright.
Cet article a été mis à jour à 12 h PT pour inclure la déclaration d’OpenAI au Wall Street Journal sur les données d’entraînement de GPT-4o.
Lis l’article original sur : TechCrunch
En savoir plus : Nvidia CEO Jensen Huang Dismisses DeepSeek as Sales Continue to Surge
Laisser un commentaire