L’endogamie numérique menace l’IA

L’endogamie numérique menace l’IA

Crédit : Pixabay

Les prophètes et les médias spécialisés en intelligence artificielle (IA) prévoient la fin de l’engouement pour l’IA générative, évoquant un « effondrement des modèles » catastrophique imminent.

Mais ces prédictions sont-elles réalistes ? Et qu’est-ce que l’effondrement des modèles ?

L’« effondrement des modèles », un concept discuté en 2023 mais récemment plus médiatisé, décrit une situation hypothétique où les systèmes d’IA deviennent de moins en moins efficaces à mesure que la quantité de données générées par l’IA sur Internet augmente.

Les systèmes modernes d’IA reposent sur l’apprentissage automatique, où les programmeurs établissent le cadre mathématique, mais l’« intelligence » provient de l’entraînement du système pour reconnaître les modèles dans les données.

Cependant, ces systèmes d’IA générative nécessitent d’énormes quantités de données de haute qualité. Les grandes entreprises technologiques comme OpenAI, Google, Meta et Nvidia collectent continuellement des téraoctets de contenu sur Internet pour entraîner leurs modèles. Depuis l’émergence de l’IA générative en 2022, il y a eu une augmentation du contenu généré par l’IA en ligne.

Explorer les données générées par l’IA pour l’entraînement des modèles

En 2023, les chercheurs ont commencé à explorer si les données générées par l’IA pouvaient être utilisées seules pour l’entraînement, plutôt que de se fier aux données générées par les humains. Cette approche présente des avantages importants : le contenu généré par l’IA est moins coûteux et moins problématique à collecter comparé aux données humaines.

Cependant, les chercheurs ont découvert que l’entraînement des IA uniquement sur des données générées par l’IA entraîne une diminution des performances. À mesure que chaque modèle apprend des modèles précédents, cela crée un effet de « formation régurgitante », réduisant la qualité et la diversité des sorties de l’IA. La qualité se réfère à l’utilité, la sécurité et l’honnêteté de l’IA, tandis que la diversité concerne la gamme des réponses et la représentation des différentes perspectives culturelles et sociales.

En résumé, une utilisation excessive des systèmes d’IA pourrait contaminer les sources de données essentielles à leur efficacité.

Les grandes entreprises technologiques peuvent-elles simplement filtrer le contenu généré par l’IA ? Pas vraiment. Les entreprises investissent déjà beaucoup de temps et de ressources dans le nettoyage et le filtrage des données collectées, certaines rejetant jusqu’à 90 % des données initiales utilisées pour entraîner les modèles.

Avec le besoin croissant d’exclure le contenu généré par l’IA, ces efforts deviendront encore plus difficiles. De plus, distinguer le contenu généré par l’IA deviendra de plus en plus compliqué avec le temps, rendant le processus de filtrage des données synthétiques moins viable financièrement.

En fin de compte, les recherches indiquent que les données humaines restent essentielles, car elles sont la base de l’« intelligence » de l’IA.

Défis liés à l’acquisition de données de haute qualité

Les développeurs rencontrent de plus en plus de difficultés pour obtenir des données de haute qualité. Par exemple, la documentation de la sortie de GPT-4 a noté un nombre inhabituellement élevé de collaborateurs dédiés à la gestion des données.

Nous pourrions également manquer de nouvelles données générées par des humains, certaines estimations suggérant que l’approvisionnement pourrait être épuisé d’ici 2026.

Cela pourrait expliquer pourquoi OpenAI et d’autres entreprises forment des partenariats exclusifs avec des acteurs majeurs tels que Shutterstock, Associated Press et NewsCorp, qui possèdent d’importantes collections de données humaines propriétaires non disponibles sur Internet public.

Cependant, le risque d’un effondrement catastrophique des modèles pourrait être exagéré. La plupart des recherches se concentrent sur des scénarios où les données synthétiques remplacent complètement les données humaines, mais en réalité, les données humaines et générées par l’IA sont susceptibles de croître côte à côte, atténuant le risque d’effondrement.

Un scénario futur plus probable implique une gamme diversifiée de plateformes d’IA génératives créant et publiant du contenu, plutôt qu’un modèle dominant unique. Cette diversité améliore la résilience contre l’effondrement.

Cela souligne l’importance pour les régulateurs de promouvoir une concurrence saine en limitant les monopoles dans l’industrie de l’IA et en soutenant le développement de technologies d’intérêt public.

Il existe également des dangers plus subtils associés à une surabondance de contenu généré par l’IA.

Un excès de contenu synthétique pourrait ne pas mettre en danger le progrès du développement de l’IA, mais il menace le bien public numérique de l’internet humain.

Impact de l’assistance de l’IA

Par exemple, les chercheurs ont observé une baisse de 16 % de l’activité sur le site de codage StackOverflow un an après la sortie de ChatGPT, suggérant que l’assistance de l’IA pourrait réduire les interactions directes au sein de certaines communautés en ligne.

L’augmentation du contenu généré par l’IA rend difficile la recherche de matériel non accrocheur

Il devient de plus en plus difficile de distinguer le contenu généré par des humains de celui généré par l’IA. Une solution pourrait être le marquage ou l’étiquetage du contenu généré par l’IA, un concept récemment soutenu par une législation intérimaire australienne et discuté par de nombreux experts.

De plus, l’uniformité croissante du contenu généré par l’IA risque de réduire la diversité socio-culturelle, pouvant entraîner une érosion culturelle pour certains groupes. Il est urgent de mener des recherches interdisciplinaires pour aborder les implications sociales et culturelles des systèmes d’IA.

Protéger les interactions et les données humaines est crucial, tant pour notre bien-être que pour atténuer potentiellement le risque d’effondrement futur des modèles.


Lisez l’article original sur :  Science Alert

Lire aussi : Video-to-Sound Tech Helps Visually Impaired Recognize Faces

Partager cette publication