Массачусетский технологический институт и Autodesk разрабатывают ИИ, способный разбираться в запутанных инструкциях Lego

Исходный узел: 1595808

Озадачены набором Lego? Новая структура машинного обучения может интерпретировать эти инструкции для вас. 

Исследователи из Стэнфордского университета, Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института и Лаборатории искусственного интеллекта Autodesk совместно разработали новую платформу, основанную на обучении, которая может интерпретировать 2D-инструкции для создания 3D-объектов. 

Сеть «ручной-исполняемый-план» или МЕРНет, был протестирован на созданных компьютером наборах Lego, инструкциях к реальным наборам Lego и планах сборки вокселей в стиле Minecraft, и исследователи заявили, что он превзошел существующие методы по всем направлениям. 

Новая идея MEPNet

Искусственному интеллекту нелегко интерпретировать 2D-инструкции. Исследователи говорят, что визуальные инструкции, которые, как и наборы Lego, полностью состоят из изображений, связаны с парой ключевых проблем: определение соответствия между 2D- и 3D-объектами и работа с большим количеством базовых частей, таких как Lego. 

По словам исследователей, базовые кубики Lego часто собираются в сложные формы, прежде чем их добавляют к основному корпусу модели. Это «усложняет для машин интерпретацию руководств Lego: для этого требуется делать выводы о трехмерных позах невидимых объектов, состоящих из видимых примитивов», — говорят исследователи.

По словам исследователей, существующие методы преобразования ручных шагов в машиноисполняемые планы в основном состоят из двух форм: основанные на поиске методы, которые просты и точны, но требуют больших вычислительных ресурсов; и модели, основанные на обучении, которые работают быстро, но не очень хорошо справляются с невидимыми трехмерными формами.

Исследователи заявили, что MEPNet сочетает в себе и то, и другое.

Исследователи пишут, что, начиная с 3D-модели компонентов, текущего состояния набора Lego и 2D-изображений вручную, MEPNet «предсказывает набор 2D-ключевых точек и масок для каждого компонента».

Как только это будет сделано, ключевые точки 2D «обратно проецируются в 3D путем поиска возможных связей между базовой формой и новыми компонентами». Комбинация «поддерживает эффективность моделей, основанных на обучении, и лучше обобщает невидимые 3D-компоненты», — написала команда.

Но может ли он собрать мой комод из Икеи?

В документе исследователи заявили, что их целью является создание машин, которые помогают людям собирать сложные объекты, и они включают в свой список приложений мебель, кубики Lego и воксельные миры.

Мы спросили исследователей, стоящих за MEPNet, о дополнительных возможностях использования их новой структуры, но пока не получили ответа. В то же время было бы разумно предположить, что MEPNet может построить книжную полку — по крайней мере, виртуально — при наличии необходимой библиотеки компонентов и инструкций.

Все, что нужно сделать человеку, — это интерпретировать трехмерные изображения MEPNet, что, как мы надеемся, будет проще, чем инструкции по сборке мебели в разобранном виде.

Те, кто хочет протестировать MEPNet и знаком с Pytorch, могут найти его код на Github, ®

Отметка времени:

Больше от Регистр