Microsoft crédite les contributeurs IA

Microsoft crédite les contributeurs IA

Crédits image : JASON REDMOND / AFP / Getty Images

Microsoft lance une initiative de recherche pour évaluer l’influence des données d’entraînement sur les textes, images et autres contenus générés par l’IA.

Une offre de stage récemment réapparue datant de décembre indique que l’entreprise recherche un stagiaire en recherche pour ce projet. L’objectif est de prouver que les modèles d’IA peuvent être formés à estimer efficacement et de manière significative l’impact de données spécifiques, comme des photos et des livres, sur leurs résultats.

L’annonce souligne que les architectures neuronales actuelles manquent de transparence dans l’attribution de leurs sources. Elle insiste sur la nécessité de changer cela afin d’offrir des incitations, une reconnaissance et éventuellement une compensation aux contributeurs de données précieuses, alors que les modèles d’IA continuent d’évoluer de manière imprévisible.

La bataille juridique autour du contenu généré par l’IA.

Les textes, codes, images, vidéos et musiques générés par l’IA sont au cœur de multiples procès en propriété intellectuelle contre les entreprises d’IA. Ces sociétés entraînent souvent leurs modèles sur d’immenses ensembles de données extraites de sites publics, dont certains contiennent du contenu protégé par le droit d’auteur. Si beaucoup invoquent l’usage équitable pour justifier ces pratiques, les artistes, programmeurs et auteurs sont largement en désaccord.

Microsoft fait face à au moins deux poursuites liées aux droits d’auteur. En décembre, The New York Times a poursuivi Microsoft et son partenaire OpenAI, affirmant que leurs modèles avaient été entraînés sur des millions d’articles du journal sans autorisation. Par ailleurs, des développeurs ont engagé des actions en justice contre Microsoft, accusant son assistant IA GitHub Copilot d’avoir été entraîné illégalement sur leur code protégé.

La dernière initiative de recherche de Microsoft, mentionnée dans l’offre d’emploi sous le nom de “training-time provenance”, impliquerait Jaron Lanier, technologue et chercheur de renom chez Microsoft. Dans une tribune publiée en avril 2023 dans The New Yorker, Lanier a présenté le concept de “dignité des données”, qui vise à relier le contenu numérique à ses créateurs.

« Une approche fondée sur la dignité des données identifierait les contributeurs les plus uniques et influents chaque fois qu’un grand modèle d’IA génère un contenu de valeur », explique Lanier. « Par exemple, si un modèle crée un film d’animation mettant en scène mes enfants dans un monde peint à l’huile peuplé de chats parlants, les peintres, portraitistes de chats, doubleurs et scénaristes—ou leurs ayants droit—pourraient être reconnus comme essentiels à sa création. Ils recevraient une reconnaissance, des incitations et potentiellement une compensation. »

Modèles émergents de compensation pour les données d’entraînement de l’IA.

Plusieurs entreprises explorent déjà des idées similaires. Le développeur d’IA Bria, qui a récemment levé 40 millions de dollars en capital-risque, affirme compenser les propriétaires de données en fonction de leur « influence globale ». Adobe et Shutterstock versent également des paiements aux contributeurs de leurs bases de données, bien que les détails de ces compensations restent largement confidentiels.

Cependant, la plupart des grands laboratoires d’IA n’ont pas mis en place de programmes de rémunération directe pour les contributeurs individuels. Ils préfèrent conclure des accords de licence avec des éditeurs, des plateformes et des courtiers en données. Dans de nombreux cas, ils permettent aux détenteurs de droits d’auteur de se retirer des futurs entraînements, mais ces démarches sont souvent complexes et ne s’appliquent pas rétroactivement aux modèles déjà entraînés sur ces données.

L’initiative de Microsoft pourrait finalement rester un simple concept. En mai, OpenAI avait fait des promesses similaires, annonçant le développement d’un outil permettant aux créateurs de contrôler l’utilisation de leurs œuvres dans l’entraînement des IA. Près d’un an plus tard, cet outil n’a toujours pas vu le jour et ne semble pas être une priorité en interne.

Les critiques estiment que Microsoft pourrait pratiquer un “ethics washing”, cherchant à anticiper d’éventuelles réglementations ou décisions judiciaires qui pourraient perturber son activité en IA. Cette stratégie est particulièrement notable au regard de la position des autres grands laboratoires d’IA sur l’usage équitable. Google et OpenAI plaident en faveur d’un affaiblissement des protections du droit d’auteur dans le cadre de l’entraînement des modèles. OpenAI a même exhorté le gouvernement américain à inscrire dans la loi des exemptions de fair use pour faciliter le travail des développeurs et alléger les contraintes légales pesant sur l’industrie.


Lisez l’article original sur : TechCrunch

À lire aussi :  Nvidia CEO Jensen Huang Dismisses DeepSeek as Sales Continue to Surge

Share this post

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *