Détection de composants organiques à l’aide de la lumière visible
Les scientifiques de l’Université de Santiago du Chili et de l’Université de Notre Dame ont mis au point une approche basée sur l’apprentissage automatique permettant de reconnaître les composés organiques en fonction de leur indice de réfraction à une longueur d’onde optique particulière. Cette technique pourrait permettre d’automatiser l’analyse chimique et de la rendre plus abordable, plus sûre et moins dépendante de compétences spécialisées. Elle peut donc être appliquée à la recherche et à la production industrielle.
Méthodes et étapes de la création de la machine d’identification des composés organiques
Les scientifiques ont publié un article intitulé “Machine learning identification of organic compounds using visible light” dans The Journal of Physical Chemistry A. Dans cet article, ils décrivent leur approche innovante de la collecte d’un ensemble de données distinct et de la construction d’un prototype de capteur de chimie organique utilisant les techniques décrites.
Les chercheurs ont entraîné l’apprentissage par ordinateur sur une base de données publiquement accessible des expériences optiques contenant des données publiées dans la littérature scientifique datant de 1940. Ils ont découvert tous les paramètres nécessaires dans la base de données pour établir des profils d’identification pour 61 molécules organiques, y compris la vitesse de groupe et la dispersion, la gamme de longueurs des mesures, l’état de l’échantillon, les indices de réfraction et les coefficients d’extinction sur une large gamme de longueurs d’onde. Ils ont exploité un total de 194 816 enregistrements spectraux d’indices de réfraction et de courbes d’extinction provenant des 61 composés organiques et polymères de la base de données.
Dans un détecteur de classification moléculaire infrarouge (IR) standard, l’analyse des pics d’absorption et de diffusion Raman permet d’identifier la molécule, ce qui donne une empreinte digitale unique qui correspond à une base de données. Toutefois, l’indice de réfraction statique des composés organiques est une caractéristique unique qui ne dispose pas du même niveau d’information codée. De même, les bases de données sur l’indice de réfraction à des longueurs d’onde individuelles en dehors des résonances d’absorption dans l’ultraviolet et l’infrarouge ne fournissent pas suffisamment d’informations, ce qui peut justifier qu’ils n’aient pas utilisé la lumière visible pour classer les molécules organiques.
Les premiers tests
Après les premiers essais avec des données brutes, qui ont donné un taux de réussite de 80 %, les scientifiques ont cherché à améliorer encore les résultats. Ils ont constaté que la base de données originale n’était pas optimisée pour l’apprentissage automatique, car une grande partie des informations provenait de recherches menées avant l’avènement des ordinateurs domestiques. La base de données contenait une grande variété d’informations sur les longueurs d’onde dans les domaines de l’ultraviolet et de l’infrarouge, sur lesquelles l’IA était entraînée de manière croisée. Les scientifiques ont donc décidé d’adopter une approche plus ciblée.
Les spécialistes ont utilisé diverses techniques de prétraitement des données pour simuler un environnement d’apprentissage idéal pour l’IA. Ils ont cherché à élaborer un ensemble de données équilibré afin d’éviter que l’IA ne privilégie certaines caractéristiques en raison de la quantité d’informations disponibles. Pour atténuer l’impact des longueurs d’onde IR sur l’ensemble des données, ils ont eu recours à des techniques de suréchantillonnage, de sous-échantillonnage et d’augmentation physique. En entraînant l’IA sur les données prétraitées équilibrées, les chercheurs ont pu obtenir des précisions de test de classification moléculaire supérieures à 98 % dans les régions visibles.
Pour les chercheurs, d’autres études sont indispensables
Les scientifiques admettent que des recherches supplémentaires sont nécessaires pour élargir et généraliser le classificateur afin de reconnaître les propriétés structurelles et chimiques des molécules trouvées dans la base de données de l’indice de réfraction. Pour conclure, ils notent que leur travail constitue une base prometteuse pour la création de capteurs chimiques à distance.
Lire l’article original sur PHYS ORG
Lire la suite : Briser les liaisons CH dans les Hydrocarbures pour synthétiser des Molécules Organiques Complexes