OpenAI aurait utilisé des livres O’Reilly payants

OpenAI a été confronté à de multiples accusations d’utiliser du contenu protégé par des droits d’auteur sans permission pour entraîner ses modèles d’IA. Un nouvel article du AI Disclosures Project, une organisation axée sur la transparence de l’IA, avance une accusation sérieuse selon laquelle OpenAI se serait de plus en plus appuyé sur des livres non publics et non licenciés pour entraîner ses modèles d’IA avancés.
Les modèles d’IA fonctionnent comme des moteurs de prédiction sophistiqués, formés sur d’énormes ensembles de données comme des livres, des films et des émissions de télévision, pour apprendre des modèles et générer des réponses en fonction des invites. Lorsqu’un modèle “écrit” un essai ou “dessine” une image, il puise simplement dans sa vaste formation pour approximativement reproduire, plutôt que de créer quelque chose de totalement nouveau.
Alors que de nombreux laboratoires d’IA, y compris OpenAI, ont recours aux données générées par l’IA pour former leurs modèles à mesure qu’ils manquent de données réelles, peu ont abandonné complètement les sources réelles. Une formation exclusivement sur des données synthétiques pourrait nuire à la performance du modèle.
Le AI Disclosures Project suggère qu’OpenAI a utilisé des livres payants d’O’Reilly pour l’entraînement de GPT-4o.
Le AI Disclosures Project, une organisation à but non lucratif fondée par le magnat des médias Tim O’Reilly et l’économiste Ilan Strauss, suggère dans son article qu’OpenAI a probablement utilisé des livres payants d’O’Reilly Media pour entraîner son modèle GPT-4o. Selon l’article, O’Reilly Media, dirigé par Tim O’Reilly, n’a pas d’accord de licence avec OpenAI.
Les co-auteurs de l’article ont noté : « GPT-4o, le modèle plus avancé et capable d’OpenAI, montre une forte reconnaissance du contenu des livres payants d’O’Reilly, surtout par rapport au modèle plus ancien GPT-3.5 Turbo. » Ils ont ajouté : « En revanche, GPT-3.5 Turbo montre une plus grande reconnaissance des échantillons de livres O’Reilly accessibles au public. »
L’article a utilisé une méthode appelée DE-COP, introduite pour la première fois dans une étude académique de 2024, qui détecte le contenu protégé par des droits d’auteur dans les données d’entraînement des modèles de langage. Cette « attaque d’inférence d’appartenance » teste si un modèle peut distinguer les textes écrits par des humains des paraphrases générées par l’IA du même contenu. Si l’attaque réussit, cela suggère que le modèle a pu rencontrer le texte pendant l’entraînement.
Les co-auteurs analysent la connaissance des modèles OpenAI des livres d’O’Reilly Media.
Les co-auteurs de l’article—O’Reilly, Strauss et le chercheur en IA Sruly Rosenblat—ont examiné la connaissance des modèles GPT-4o, GPT-3.5 Turbo et d’autres modèles OpenAI concernant les livres d’O’Reilly Media, tant avant qu’après la date limite de leur entraînement. Ils ont utilisé 13 962 extraits de paragraphes provenant de 34 livres d’O’Reilly pour estimer la probabilité qu’un extrait spécifique ait été inclus dans les données d’entraînement.
Les résultats ont montré que GPT-4o reconnaissait beaucoup plus de contenu payant des livres d’O’Reilly par rapport aux modèles plus anciens, en particulier GPT-3.5 Turbo. Cela était vrai même en tenant compte de facteurs potentiels tels que la capacité accrue des nouveaux modèles à identifier les textes rédigés par des humains.
Les co-auteurs ont conclu : « GPT-4o reconnaît probablement, et possède donc une connaissance préalable, de nombreux livres non publics d’O’Reilly publiés avant la date limite de son entraînement. »
Cependant, les co-auteurs précisent rapidement que leurs résultats ne constituent pas une preuve définitive. Ils reconnaissent que leur méthode expérimentale n’est pas infaillible et qu’OpenAI aurait pu collecter des extraits de livres payants à partir d’utilisateurs les copiant et les collant dans ChatGPT.
Les co-auteurs n’ont pas évalué les derniers modèles d’OpenAI.
Pour compliquer les choses, les co-auteurs n’ont pas évalué les derniers modèles d’OpenAI, y compris GPT-4.5 et les modèles de “raisonnement” tels que o3-mini et o1. Il est possible que ces modèles plus récents n’aient pas été formés sur des livres payants d’O’Reilly, ou aient été formés sur une portion plus petite de telles données par rapport à GPT-4o.
Cela dit, il est bien connu qu’OpenAI cherche activement des données d’entraînement de meilleure qualité, plaidant pour moins de restrictions sur l’utilisation de contenu protégé par des droits d’auteur. L’entreprise a même recruté des journalistes pour affiner les résultats de ses modèles. Cette tendance est reflétée dans l’ensemble de l’industrie de l’IA, avec des entreprises recrutant des experts dans des domaines tels que la science et la physique pour intégrer leurs connaissances dans les systèmes d’IA.
Il est important de noter qu’OpenAI paie pour au moins une partie de ses données d’entraînement, avec des accords de licence en place avec des éditeurs de presse, des réseaux sociaux, des bibliothèques de médias et d’autres. L’entreprise offre également des mécanismes de désinscription, bien que imparfaits, permettant aux titulaires de droits d’auteur de signaler le contenu qu’ils préfèrent ne pas voir utilisé pour l’entraînement.
Néanmoins, alors qu’OpenAI fait face à plusieurs poursuites concernant ses pratiques de données d’entraînement et la gestion des lois sur le droit d’auteur devant les tribunaux américains, l’article d’O’Reilly ajoute une surveillance supplémentaire à l’approche de l’entreprise.
Lire l’article original sur : TechCrunch
Lire la suite :Twin’s Debut AI Agent Assists Qonto Customers with Invoice Retrieval
Laisser un commentaire