Les IA augmentent de 50 % la bande passante de Wikimedia

Les IA augmentent de 50 % la bande passante de Wikimedia

Crédits image : Riccardo Milani / Hans Lucas / Hans Lucas via AFP / Getty Images

La Wikimedia Foundation, qui supervise Wikipedia et plusieurs autres projets de connaissances collaboratives, a rapporté mercredi que la bande passante des téléchargements multimédia de Wikimedia Commons a augmenté de 50 % depuis janvier 2024.

Selon un billet de blog publié mardi, cette augmentation n’est pas due aux utilisateurs humains, mais à des robots automatisés qui collectent des données pour entraîner des modèles d’IA.

“Notre infrastructure est conçue pour gérer les pics soudains de trafic humain lors d’événements majeurs, mais l’ampleur du trafic des robots scrapers est sans précédent, posant des risques et des coûts croissants”, indique le billet.

Wikimedia Commons sert de répertoire en libre accès pour les images, vidéos et fichiers audio, tous disponibles sous licences ouvertes ou comme contenu du domaine public.

Les robots génèrent la majorité du trafic gourmand en ressources sur Wikimedia.

Wikimedia rapporte que près de deux tiers (65 %) de son trafic le plus gourmand en ressources—contenu nécessitant le plus de puissance de traitement—provient des robots. Cependant, ces robots ne représentent que 35 % des vues de pages totales. Ce déséquilibre survient car le contenu fréquemment consulté reste mis en cache plus près des utilisateurs, tandis que le contenu moins populaire est stocké dans le centre de données principal, ce qui le rend plus coûteux à récupérer. Les robots ciblent généralement ce contenu moins consulté, augmentant ainsi la demande en ressources.

“Alors que les lecteurs humains ont tendance à se concentrer sur des sujets spécifiques—souvent similaires—les robots crawlers ont tendance à ‘lire en masse’ un plus grand nombre de pages et visitent aussi les pages moins populaires”, explique Wikimedia. “Cela signifie que ces types de demandes sont plus susceptibles d’être envoyés au centre de données principal, ce qui les rend beaucoup plus coûteuses en termes de consommation de nos ressources.”

En conséquence, l’équipe de fiabilité du site de Wikimedia doit investir beaucoup de temps et de ressources pour bloquer les robots crawlers afin d’éviter les perturbations pour les utilisateurs réguliers, en plus des coûts croissants liés au cloud auxquels la Fondation doit faire face.

Les robots d’IA intensifient les menaces pesant sur l’internet ouvert.

Plus largement, cela met en lumière une tendance inquiétante menaçant l’internet ouvert. Le mois dernier, l’ingénieur logiciel et défenseur de l’open-source Drew DeVault a critiqué les robots d’IA pour ignorer les fichiers “robots.txt” destinés à bloquer l’accès automatisé. De même, l’écrivain tech Gergely Orosz a noté que les robots scrapers d’entreprises comme Meta ont considérablement augmenté les demandes de bande passante pour ses projets.

L’infrastructure open-source est une cible privilégiée, mais les développeurs réagissent avec ingéniosité et détermination, comme l’a rapporté TechCrunch la semaine dernière. Certaines entreprises technologiques interviennent également pour résoudre le problème—Cloudflare, par exemple, a récemment lancé AI Labyrinth, un outil qui génère du contenu créé par IA pour gêner les robots d’indexation.

Cependant, cela reste un jeu constant du chat et de la souris, un jeu qui pourrait éventuellement pousser de nombreux éditeurs à cacher leur contenu derrière des connexions et des paywalls, rendant l’internet finalement moins accessible pour tout le monde.


Lisez l’article original sur :  TechCrunch

Lisez plus :  ChatGPT Doubled Weekly Users in Under Six Months Due to Updates

Share this post

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *