Robots : cartographie et identification d’objets

Robots : cartographie et identification d’objets

Le Clio du MIT fonctionne en temps réel pour cartographier les objets pertinents à la tâche dans l’environnement d’un robot, permettant à ce dernier (le robot quadrupède Spot de Boston Dynamics, sur la photo) d’accomplir une tâche en langage naturel (« ramasser le sac à dos orange »). Crédits : Massachusetts Institute of Technology.

Imaginez un nettoyage de cuisine encombrée, en commençant par un comptoir couvert de sachets de sauce. Si votre objectif est de nettoyer le comptoir, vous pourriez rassembler tous les sachets à la fois. Mais si vous souhaitez d’abord séparer les sachets de moutarde, vous les trieriez par type. Et si vous cherchiez spécifiquement de la moutarde Grey Poupon, vous devriez chercher encore plus attentivement pour trouver cette marque exacte.

Des ingénieurs du MIT ont développé une méthode permettant aux robots de prendre des décisions intuitives spécifiques à une tâche. Leur nouveau système, appelé Clio, permet à un robot d’identifier les éléments importants d’une scène en fonction des tâches qui lui sont assignées. Clio traite une liste de tâches en langage naturel, déterminant le niveau de détail nécessaire pour interpréter son environnement et « se souvenir » uniquement des aspects pertinents.

Lors des tests, Clio a été utilisé dans des environnements tels qu’un bureau encombré et un bâtiment de cinq étages, où le robot a segmenté les scènes en fonction de tâches comme « déplacer un rack de magazines » et « récupérer une trousse de premiers secours ». Le système a également été testé sur un robot quadrupède en temps réel alors qu’il explorait un bâtiment de bureaux, ne reconnaissant que les objets liés à sa tâche, comme récupérer un jouet pour chien tout en ignorant les fournitures de bureau.

Un outil polyvalent pour la robotique spécifique aux tâches

Nommé d’après la muse grecque de l’histoire pour sa capacité à se souvenir des éléments clés, Clio est conçu pour être utilisé dans divers environnements, y compris la recherche et le sauvetage, les tâches domestiques et le travail en usine. Selon Luca Carlone, professeur associé au Département d’aéronautique et d’astronautique du MIT, Clio aide les robots à comprendre leur environnement et à se concentrer sur ce qui est nécessaire pour accomplir leur mission.

L’équipe présente ses résultats dans une étude publiée aujourd’hui dans la revue IEEE Robotics and Automation Letters. Les co-auteurs de Carlone incluent des membres du SPARK Lab, Dominic Maggio, Yun Chang, Nathan Hughes et Lukas Schmid, ainsi que des chercheurs du MIT Lincoln Laboratory, Matthew Trang, Dan Griffith, Carlyn Dougherty et Eric Cristofalo.

Transition de la reconnaissance d’objets en ensemble fermé à la reconnaissance d’objets en ensemble ouvert.

Les avancées en vision par ordinateur et en traitement du langage naturel ont permis aux robots d’identifier des objets, mais cela était auparavant limité à des environnements contrôlés « en ensemble fermé » avec des objets prédéfinis. Récemment, les chercheurs ont adopté une approche « en ensemble ouvert », utilisant l’apprentissage profond pour former des réseaux neuronaux sur des milliards d’images et de textes. Ces réseaux peuvent désormais reconnaître de nouveaux objets dans des scènes inconnues. Cependant, un défi demeure : déterminer comment segmenter une scène de manière pertinente par rapport à la tâche. Comme le souligne Maggio, le niveau de détail doit varier en fonction de la tâche du robot pour créer une carte utile.

Avec Clio, l’équipe du MIT a conçu des robots capables d’interpréter leur environnement avec un niveau de détail qui s’ajuste automatiquement à la tâche. Par exemple, si la tâche consiste à déplacer une pile de livres, le robot doit reconnaître l’ensemble de la pile, tandis qu’il doit identifier un livre vert lorsque cela est l’objectif.

Intégration de la vision par ordinateur et des modèles linguistiques pour une reconnaissance d’objet améliorée.

L’approche combine la vision par ordinateur avancée et de grands modèles linguistiques, en utilisant des réseaux de neurones entraînés sur des millions d’images et de textes. Ils emploient également des outils de cartographie qui segmentent les images, que le réseau de neurones analyse pour en évaluer la pertinence.

En appliquant le concept de « goulet d’étranglement de l’information », ils compressent les données d’image pour ne conserver que les segments pertinents pour la tâche, permettant ainsi au robot de se concentrer sur les éléments nécessaires.

Clio a été testé dans des environnements réels, comme l’appartement en désordre de Maggio, où il a rapidement identifié les segments pertinents pour des tâches telles que « déplacer une pile de vêtements ». Le système a également été utilisé en temps réel sur le robot Spot de Boston Dynamics, qui a cartographié et identifié des objets dans un bureau.

Cette méthode a généré des cartes mettant en évidence uniquement les objets cibles, permettant au robot d’exécuter les tâches de manière efficace. Faire fonctionner Clio en temps réel représente une avancée majeure, car les méthodes précédentes nécessitaient des heures de traitement.

En regardant vers l’avenir, l’équipe prévoit d’améliorer Clio pour qu’il puisse gérer des tâches plus complexes, comme « trouver des survivants » ou « rétablir l’électricité », se rapprochant ainsi d’une compréhension des tâches semblable à celle des humains.


Lisez l’article original sur :  TechXplore

En savoir plus : Engineers are Creating a Jet-Powered Flying Robot for Disaster Response

Partager cette publication

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *