MIT et Autodesk développent une IA capable de comprendre des instructions Lego déroutantes

Nœud source: 1595808

Perplexe devant un ensemble Lego? Un nouveau cadre d'apprentissage automatique peut interpréter ces instructions pour vous. 

Des chercheurs de l'Université de Stanford, du laboratoire d'informatique et d'intelligence artificielle du MIT et du laboratoire d'IA d'Autodesk ont ​​collaboré pour développer un nouveau cadre basé sur l'apprentissage qui peut interpréter des instructions 2D pour créer des objets 3D. 

Le réseau du manuel au plan exécutable, ou Réseau MEP, a été testé sur des ensembles Lego générés par ordinateur, de véritables instructions d'ensemble Lego et des plans de construction de voxels de style Minecraft, et les chercheurs ont déclaré qu'il surpassait les méthodes existantes à tous les niveaux. 

L'idée novatrice de MEPNet

Interpréter des instructions 2D n'est pas facile pour l'intelligence artificielle. Les chercheurs ont déclaré qu'il existe quelques problèmes clés liés aux instructions visuelles qui, comme les ensembles Lego, sont entièrement constituées d'images : identifier la correspondance entre les objets 2D et 3D et traiter de nombreuses pièces de base, comme Lego. 

Selon les chercheurs, les briques Lego de base sont souvent assemblées en formes complexes avant d'être ajoutées au corps principal du modèle. Cela "augmente la difficulté pour les machines d'interpréter les manuels Lego : cela nécessite de déduire des poses 3D d'objets invisibles composés de primitives vues", ont déclaré les chercheurs.

Selon les chercheurs, les méthodes existantes d'analyse des étapes manuelles en plans exécutables par machine se présentent principalement sous deux formes : des méthodes basées sur la recherche qui sont simples et précises mais coûteuses en calculs ; et des modèles basés sur l'apprentissage qui sont rapides mais ne sont pas très bons pour gérer des formes 3D invisibles.

MEPNet, selon les chercheurs, combine les deux.

En commençant par un modèle 3D des composants, l'état actuel de l'ensemble Lego et des images manuelles 2D, MEPNet "prédit un ensemble de points clés et de masques 2D pour chaque composant", ont écrit les chercheurs.

Une fois cela fait, les points clés 2D "sont rétroprojetés en 3D en trouvant des connexions possibles entre la forme de base et les nouveaux composants". La combinaison "maintient l'efficacité des modèles basés sur l'apprentissage et se généralise mieux aux composants 3D invisibles", a écrit l'équipe.

Mais peut-il construire ma commode Ikea ?

Dans l'article, les chercheurs ont déclaré que leur objectif était de créer des machines qui aident les gens à assembler des objets complexes, et ils incluent des meubles aux côtés des briques Lego et des mondes voxels dans leur liste d'applications.

Nous avons interrogé les chercheurs derrière MEPNet sur d'autres utilisations potentielles de leur nouveau cadre, mais nous n'avons pas encore reçu de réponse. En attendant, il pourrait être raisonnable de supposer que MEPNet pourrait construire une bibliothèque - au moins virtuellement - étant donné la bibliothèque nécessaire de composants et d'instructions.

Tout ce qu'un être humain aurait à faire serait d'interpréter les rendus 3D de MEPNet, ce qui, espérons-le, serait plus facile que les instructions de meubles en kit.

Ceux qui veulent tester MEPNet et qui connaissent Pytorch peuvent trouver son code sur Github. ®

Horodatage:

Plus de Le registre