L’IA crée une protéine fluorescente en imitant des millions d’années d’évolution

L’IA crée une protéine fluorescente en imitant des millions d’années d’évolution

Les chercheurs peuvent désormais utiliser l’IA pour synthétiser des protéines. (koto_feja/E+/Getty Images)

La synthèse de nouvelles protéines—composants fondamentaux de la vie biologique—offre un immense potentiel scientifique. Un modèle d’IA récemment développé pourrait générer des instructions pour créer des protéines bien au-delà de ce qui existe naturellement.

Création de protéines sur mesure

Des scientifiques américains ont utilisé le modèle EvolutionaryScale 3 (ESM3) pour concevoir une nouvelle protéine, esmGFP (protéine fluorescente verte), qui ne partage que 58 % de sa structure avec son homologue naturel le plus proche, tagRFP. Selon l’équipe de recherche, cet exploit équivaut à environ 500 millions d’années d’évolution traitées par l’IA. Cette avancée ouvre la voie à la conception de protéines personnalisées pour des applications spécifiques ou à l’amélioration des fonctions des protéines existantes.

ESM3 utilise des algorithmes d’IA pour concevoir de nouvelles protéines à partir de ses données d’entraînement. (EvolutionaryScale)

« Plus de trois milliards d’années d’évolution ont façonné un plan biologique intégré dans la structure des protéines naturelles », expliquent les chercheurs, dirigés par Thomas Hayes, fondateur d’EvolutionaryScale à New York, dans leur article publié.

« Dans cette étude, nous montrons que les modèles de langage à grande échelle, formés sur des données évolutives, peuvent générer des protéines fonctionnelles qui diffèrent significativement des protéines connues. »

ESM3 a été formé sur un vaste ensemble de données comprenant 3,15 milliards de séquences de protéines (l’arrangement des acides aminés dans une protéine), 236 millions de structures protéiques (leurs formes 3D) et 539 millions d’annotations de protéines (étiquettes descriptives).

Apprentissage de l’IA à partir des données

En identifiant des motifs dans de vastes ensembles de données, le modèle d’IA peut apprendre ce qui fonctionne ou non dans la construction et la fonction des protéines, de manière similaire à la façon dont ChatGPT peut générer un nouveau poème qui rime après avoir analysé des millions de poèmes écrits par des humains.

Ce qui distingue esmGFP, c’est qu’il fonctionne réellement : il est fluorescent, tout comme son homologue tagRFP. Les protéines fluorescentes sont responsables de la lueur de certains organismes marins et sont essentielles comme marqueurs en médecine et en biotechnologie.

« Nous avons choisi la fluorescence pour sa nature complexe, sa facilité de mesure et parce qu’elle est l’un des mécanismes les plus beaux de la nature », explique l’équipe.

Une représentation de l’esmGFP, une nouvelle protéine fluorescente verte générée par ESM3, qui est éloignée des autres protéines fluorescentes présentes dans la nature. (EvolutionaryScale)

L’IA réduit une grande partie des essais et erreurs dans la synthèse des protéines, tout en permettant l’exploration de protéines qui sont largement différentes de celles actuellement connues.

Protéines connectées par des voies mutationnelles

« Les protéines peuvent être vues comme existant dans un espace organisé, où chaque protéine est adjacente à d’autres qui sont à un seul pas mutationnel », écrivent les chercheurs. « La structure de l’évolution forme un réseau dans cet espace, reliant toutes les protéines par les chemins que l’évolution pourrait emprunter entre elles. »

Pour que l’évolution progresse, explique l’équipe, chaque protéine doit évoluer vers la suivante sans perturber la fonctionnalité globale du système auquel elle appartient. Un modèle de langage comprend les protéines dans cet espace.

Bien que les protéines conçues par ESM3 nécessitent encore validation, synthèse et tests—des processus qui prennent du temps—l’équipe est convaincue que d’autres avancées suivront. Dans un avenir proche, l’IA pourrait permettre la production de protéines pour une large gamme d’applications, des médicaments aux biomatériaux.

« Les modèles de langage des protéines n’opèrent pas explicitement dans les limites physiques de l’évolution, mais peuvent implicitement construire un modèle des nombreuses voies évolutives qui auraient pu être empruntées », précisent les chercheurs.


Lisez l’article original sur : Science Alert

En savoir plus : DeepSeek fait sensation mondialement

Share this post

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *