MIT, Autodesk entwickeln KI, die verwirrende Lego-Anweisungen herausfinden kann

Neuauflage von Plato

Verfolger: 0

Überrascht von einem Lego-Set? Ein neues Framework für maschinelles Lernen kann diese Anweisungen für Sie interpretieren.

Forscher der Stanford University, des Computer Science and Artificial Intelligence Lab des MIT und des Autodesk AI Lab haben zusammengearbeitet, um ein neuartiges lernbasiertes Framework zu entwickeln, das 2D-Anweisungen interpretieren kann, um 3D-Objekte zu erstellen.

Das Manual-to-Executable-Plan-Netzwerk oder MEPNet, wurde an computergenerierten Lego-Sets, echten Lego-Set-Anweisungen und Voxel-Bauplänen im Minecraft-Stil getestet, und die Forscher sagten, dass es bestehende Methoden auf ganzer Linie übertrifft.

Die neuartige Idee von MEPNet

Die Interpretation von 2D-Anweisungen ist für künstliche Intelligenz nicht einfach. Die Forscher sagten, dass es ein paar Schlüsselprobleme gibt, die von visuellen Anweisungen ausgehen, die wie Lego-Sets ausschließlich aus Bildern bestehen: Die Identifizierung der Korrespondenz zwischen 2D- und 3D-Objekten und der Umgang mit vielen grundlegenden Teilen wie Lego.

Grundlegende Legosteine, sagten die Forscher, werden oft zu komplexen Formen zusammengesetzt, bevor sie dem Hauptkörper des Modells hinzugefügt werden. Dies „erhöht die Schwierigkeit für Maschinen, Lego-Handbücher zu interpretieren: Es erfordert, 3D-Posen von unsichtbaren Objekten abzuleiten, die aus sichtbaren Primitiven bestehen“, sagten die Forscher.

Bestehende Methoden zum Parsen manueller Schritte in maschinenausführbare Pläne bestehen hauptsächlich aus zwei Formen, sagten die Forscher: Suchbasierte Methoden, die einfach und genau, aber rechenintensiv sind; und lernbasierte Modelle, die schnell sind, aber nicht sehr gut mit unsichtbaren 3D-Formen umgehen können.

MEPNet, sagten die Forscher, kombiniert beides.

Ausgehend von einem 3D-Modell der Komponenten, dem aktuellen Zustand des Lego-Sets und manuellen 2D-Bildern sagt MEPNet „einen Satz von 2D-Schlüsselpunkten und -Masken für jede Komponente voraus“, schrieben die Forscher.

Sobald dies erledigt ist, werden die 2D-Eigenpunkte „auf 3D zurückprojiziert, indem mögliche Verbindungen zwischen der Grundform und den neuen Komponenten gefunden werden“. Die Kombination „erhält die Effizienz lernbasierter Modelle und lässt sich besser auf unsichtbare 3D-Komponenten verallgemeinern“, schrieb das Team.

Aber kann es meine Ikea-Kommode bauen?

In dem Papier sagten die Forscher, ihr Ziel sei es, Maschinen zu entwickeln, die Menschen helfen, komplexe Objekte zusammenzubauen, und sie nehmen Möbel neben Legosteinen und Voxelwelten in ihre Liste der Anwendungen auf.

Wir haben die Forscher hinter MEPNet nach weiteren Einsatzmöglichkeiten ihres neuen Frameworks gefragt, aber noch keine Antwort erhalten. In der Zwischenzeit könnte man davon ausgehen, dass MEPNet angesichts der erforderlichen Bibliothek von Komponenten und Anweisungen ein Bücherregal bauen könnte – zumindest virtuell.

Alles, was ein Mensch tun müsste, wäre, die 3D-Darstellungen von MEPNet zu interpretieren, was hoffentlich einfacher wäre als Möbelanleitungen in flacher Verpackung.

Wer MEPNet testen möchte und mit Pytorch vertraut ist, kann fündig werden seinen Code auf Github🇧🇷 🇧🇷

Zeitstempel: 27. Juli 202227. Juli 2022