MIT, Autodesk rozwija sztuczną inteligencję, która potrafi rozgryźć mylące instrukcje Lego

Opublikowane ponownie przez Plato

Obserwuje: 0

Zaskoczony zestawem Lego? Nowa platforma uczenia maszynowego może zinterpretować te instrukcje za Ciebie.

Naukowcy z Uniwersytetu Stanforda, laboratorium informatyki i sztucznej inteligencji MIT oraz laboratorium sztucznej inteligencji Autodesk podjęli współpracę, aby opracować nową platformę opartą na uczeniu się, która może interpretować instrukcje 2D w celu budowania obiektów 3D.

Sieć Manual-to-Executable-Plan lub Sieć MEP, został przetestowany na wygenerowanych komputerowo zestawach Lego, prawdziwych instrukcjach zestawu Lego i planach budowania wokseli w stylu Minecrafta, a naukowcy stwierdzili, że przewyższa istniejące metody we wszystkich dziedzinach.

Nowatorski pomysł MEPNet

Interpretowanie instrukcji 2D nie jest łatwe dla sztucznej inteligencji. Naukowcy stwierdzili, że istnieje kilka kluczowych problemów związanych z instrukcjami wizualnymi, które, podobnie jak zestawy Lego, składają się wyłącznie z obrazów: Identyfikowanie korespondencji między obiektami 2D i 3D oraz radzenie sobie z wieloma podstawowymi elementami, takimi jak Lego.

Naukowcy twierdzą, że podstawowe klocki Lego są często składane w skomplikowane formy, zanim zostaną dodane do głównej części modelu. To „zwiększa trudność dla maszyn w interpretacji instrukcji Lego: wymaga to wywnioskowania 3D pozy niewidocznych obiektów złożonych z widzianych prymitywów” – powiedzieli naukowcy.

Naukowcy stwierdzili, że istniejące metody parsowania kroków ręcznych do planów wykonywalnych maszynowo składają się głównie z dwóch form: Metody oparte na wyszukiwaniu, które są proste i dokładne, ale obliczeniowo kosztowne; oraz modele oparte na uczeniu się, które są szybkie, ale niezbyt dobrze radzą sobie z niewidocznymi kształtami 3D.

MEPNet, jak stwierdzili naukowcy, łączy obie te cechy.

Zaczynając od modelu 3D komponentów, aktualnego stanu zestawu Lego i ręcznych obrazów 2D, MEPNet „przewiduje zestaw punktów kluczowych 2D i masek dla każdego komponentu” – napisali naukowcy.

Gdy to zrobisz, punkty kluczowe 2D „są rzutowane wstecz na 3D poprzez znalezienie możliwych połączeń między kształtem podstawowym a nowymi komponentami”. Połączenie „utrzymuje wydajność modeli opartych na uczeniu się i lepiej uogólnia niewidoczne komponenty 3D” – napisał zespół.

Ale czy może zbudować moją komodę Ikea?

W artykule naukowcy stwierdzili, że ich celem jest stworzenie maszyn, które pomagają ludziom montować złożone obiekty, a do listy zastosowań dołączają meble wraz z klockami Lego i światami wokseli.

Zapytaliśmy naukowców stojących za MEPNet o więcej potencjalnych zastosowań ich nowego frameworka, ale jeszcze nie otrzymaliśmy odpowiedzi. W międzyczasie rozsądne może być założenie, że MEPNet może zbudować półkę z książkami – przynajmniej wirtualnie – biorąc pod uwagę niezbędną bibliotekę komponentów i instrukcji.

Jedyne, co człowiek musiałby zrobić, to zinterpretować rendery 3D MEPNet, co, miejmy nadzieję, byłoby łatwiejsze niż instrukcje dotyczące płaskich mebli.

Ci, którzy chcą przetestować MEPNet i znają Pytorcha, mogą znaleźć jego kod na Github. ®

Znak czasu: 27 lipca 2022 r.27 lipca 2022 r.