Une Étude Révèle Que Les Données De L’ia Compromettent Les Données Humaines Vitales

Une Étude Révèle Que Les Données De L’ia Compromettent Les Données Humaines Vitales

Crédit : Unsplash.

Le concept de “mechanical turks” a été introduit par Jeff Bezos au début des années 2000. Il s’agissait d’embaucher des travailleurs à distance pour effectuer des tâches subalternes que les ordinateurs jugeaient difficiles. Ces travailleurs étaient souvent mal payés et collaboraient avec de nombreuses autres personnes pour réaliser de petites parties de projets informatiques plus importants.

Pour décrire cette fusion de l’intelligence humaine et de l’intelligence numérique, Bezos a inventé le terme “intelligence artificielle”, qui vise à incorporer une dimension humaine dans les tâches que les ordinateurs ont du mal à accomplir, principalement celles qui sont de nature plus simple.

Approximativement 250 000 personnes sont employées par le biais de la place de marché Mechanical Turk d’Amazon, qui n’est qu’une des nombreuses plateformes offrant des prestations similaires.

La confiance croissante des travailleurs humains dans le contexte des contenus générés par l’IA

Des chercheurs de l’université suisse de l’EPFL ont récemment mis en évidence une tendance inquiétante : des travailleurs qui fournissaient auparavant une contribution humaine importante s’appuient désormais sur des contenus générés par l’IA pour accomplir leurs tâches. Ils ont inventé le terme “intelligence artificielle” pour décrire ce phénomène.

Si ce terme peut susciter l’amusement, les chercheurs expriment de sérieuses inquiétudes quant à ses implications. Ils estiment que si les travailleurs s’appuient de plus en plus sur des générateurs d’IA pour accomplir leurs tâches, la fiabilité des données recueillies par la foule s’en trouvera considérablement diminuée.

Les modèles linguistiques à grande échelle (LLM) excellent dans le traitement des données d’apprentissage, mais il existe certaines tâches pour lesquelles l’apport humain reste supérieur. Par rapport aux ordinateurs, les humains sont plus efficaces pour étiqueter les données destinées aux modèles, décrire les images et répondre aux écrans CAPTCHA.

Les écueils potentiels du crowdsourcing avec les grands modèles linguistiques

La tendance à utiliser le crowdsourcing pour valider les résultats des grands modèles de langage ou pour créer des données humaines de référence peut entraîner un problème : que se passerait-il si les travailleurs de la foule utilisaient eux-mêmes les modèles de langage pour augmenter leur productivité et leurs revenus sur les plates-formes de crowdsourcing ?

Cette situation contaminerait le pool de données, ce qui pourrait compromettre la fiabilité des opérations basées sur l’IA.

Le concept de “Turc” provient d’un “robot” joueur d’échecs du 18ème siècle qui a vaincu les joueurs d’échecs dans toute l’Europe en leur faisant croire qu’ils jouaient contre une machine. Le crowdsourcing avec les “Turcs” est aujourd’hui une industrie qui brasse des milliards de dollars, même si sa réputation a été entachée par des salaires peu élevés.

Cependant, ce secteur est aujourd’hui menacé par l’adoption rapide de grands modèles de langage. Une étude récente a montré qu’un modèle ChatGPT 3,5 turbo était nettement plus efficace que les travailleurs de la foule, et ce pour une fraction du coût.

Les travailleurs étant soumis à une pression croissante pour produire plus de résultats à un rythme plus rapide, ils pourraient s’appuyer de plus en plus sur les ressources de l’IA. Les chercheurs de l’EPFL ont ainsi estimé que 33 à 46 % des missions des travailleurs sur la plateforme Mechanical Turk d’Amazon ont été réalisées à l’aide de grands modèles de langage, sur la base d’une étude limitée.

Ces chercheurs soulignent qu’à mesure que les grands modèles linguistiques gagnent en popularité et que des modèles multimodaux prenant en charge l’entrée et la sortie de textes, d’images et de vidéos apparaissent, des mesures doivent être prises pour s’assurer que les données humaines restent distinctement humaines. Ces conclusions constituent un signal d’alarme pour les plateformes, les chercheurs et les travailleurs de la foule, qui doivent rechercher de nouvelles approches pour préserver l’élément humain dans les données.


Lisez l’article original sur TechXplore.

En savoir plus : Un cadre d’IA améliore l’analyse de la situation en matière de communication dans le cadre de la formation d’une équipe

Partager cette publication