Apple crée des cartes 3D à partir d’images 2D
L’équipe de recherche en apprentissage automatique d’Apple a créé un modèle d’IA fondamental pour l’« estimation de profondeur monoculaire sans apprentissage préalable ». Le Depth Pro permet de générer rapidement des cartes de profondeur 3D détaillées à partir d’une seule image 2D.
Nos cerveaux interprètent les informations visuelles à partir de deux sources : nos yeux. Chaque œil capture une perspective légèrement différente du monde, et ces vues se fondent en une seule image stéréo, les variations aidant à notre perception de la distance des objets.
De nombreuses caméras et smartphones utilisent un seul objectif pour capturer des images, mais les développeurs peuvent créer des cartes de profondeur 3D en utilisant des métadonnées provenant de photos 2D (comme les longueurs focales et les détails des capteurs) ou en analysant plusieurs images.
Cependant, le système Depth Pro contourne ces méthodes et peut générer une carte de profondeur 3D détaillée à 2,25 mégapixels à partir d’une seule image en 0,3 seconde en utilisant un processeur graphique standard.
Architecture du modèle d’IA et estimation de profondeur
L’architecture du modèle d’IA présente un transformateur de vision multi-échelle qui traite à la fois le contexte global d’une image et des détails fins tels que les cheveux, la fourrure et d’autres structures complexes. Il peut estimer à la fois la profondeur relative et absolue, permettant ainsi à des applications comme la réalité augmentée de positionner avec précision des objets virtuels dans des espaces physiques.
Cet IA obtient ces résultats sans nécessiter un entraînement intensif sur des ensembles de données spécifiques, en utilisant une technique connue sous le nom d’apprentissage sans échantillons, défini par IBM comme une approche d’apprentissage automatique où une IA peut reconnaître et classer des classes invisibles sans exemples étiquetés. Cela le rend particulièrement adaptable.
Applications potentielles de Depth Pro
En termes d’applications, en plus des capacités de réalité augmentée mentionnées, Depth Pro pourrait améliorer l’efficacité de l’édition photo, faciliter l’imagerie 3D en temps réel avec une caméra à objectif unique, et aider les véhicules autonomes et les robots à percevoir leur environnement de manière plus efficace en temps réel.
Le projet est actuellement en phase de recherche, mais, de manière plutôt inhabituelle pour Apple, le code et la documentation de soutien sont publiés en open source sur GitHub. Cela permet aux développeurs, scientifiques et programmeurs de faire progresser la technologie.
Les chercheurs ont publié un article détaillant le projet sur le serveur Arxiv et proposent une démonstration en direct pour ceux qui souhaitent découvrir la version actuelle.
Lisez l’article original sur : New Atlas
En savoir plus : Magnetic Brain Control Tech Alters Appetite and Behavior