Чи можете ви навчити ШІ здоровому глузду?

Вихідний вузол: 990012

Усі сесії з Transform 2021 зараз доступні за запитом. Дивитися зараз.


Ще до того, як вони вимовлять свої перші слова, людські немовлята формують ментальні моделі про предмети та людей. Це одна з ключових можливостей, яка дозволяє нам, людям, навчитися жити соціально та співпрацювати (або конкурувати) один з одним. Але для штучного інтелекту навіть найпростіші завдання поведінкового мислення залишаються проблемою.

Розширені моделі глибокого навчання може виконувати такі складні завдання, як виявлення людей і об’єктів на зображеннях, іноді навіть краще, ніж люди. Але їм важко вийти за межі візуальних особливостей зображень і зробити висновки про те, що роблять або хочуть досягти інші агенти.

Щоб допомогти заповнити цю прогалину, вчені з IBM, Массачусетського технологічного інституту та Гарвардського університету розробили низку тестів, які допоможуть оцінити здатність моделей штучного інтелекту міркувати, як діти, спостерігаючи та розуміючи світ.

«Як і немовлятам, для машинних агентів важливо розвинути адекватну здатність розуміти людський розум, щоб успішно брати участь у соціальних взаємодіях», — пишуть дослідники ШІ в новий папір який представляє набір даних під назвою AGENT.

Представлений на цьогорічній Міжнародній конференції з машинного навчання (ICML), AGENT забезпечує важливий еталон для вимірювання можливостей міркування систем ШІ.

Спостереження та прогнозування поведінки агента

Існує велика кількість робіт щодо перевірки здорового глузду та міркувань у системах ШІ. Багато з них зосереджені на розумінні природної мови, включаючи відомі тест Тьюринга та  Схеми Вінограда. Навпаки, проект AGENT зосереджується на типах здібностей міркування, які люди вивчають, перш ніж можуть говорити.

«Наша мета, слідуючи літературі з психології розвитку, полягає в тому, щоб створити еталон для оцінки конкретних здібностей здорового глузду, пов’язаних з інтуїтивною психологією, яких немовлята вивчають на домовному етапі (у перші 18 місяців свого життя)», Ден Гутфройнд, директор дослідник з MIT-IBM Watson AI Lab, розповів TechTalks.

У дитинстві ми вчимося розрізняти об’єкти та агенти, спостерігаючи за навколишнім середовищем. Спостерігаючи за розвитком подій, ми розвиваємо інтуїтивні психологічні навички, прогнозуємо цілі інших людей, спостерігаючи за їхніми діями, і продовжуємо виправляти та оновлювати свій розум. Ми вчимося всьому цьому практично без вказівок.

Ідея тесту AGENT (дія, ціль, ефективність, обмеження, корисність) полягає в тому, щоб оцінити, наскільки добре Системи ШІ можуть імітувати цю базову навичку, які вони можуть розвинути здібності психологічного міркування та наскільки добре уявлення, які вони вивчають, узагальнюють на нові ситуації. Набір даних складається з коротких послідовностей, які показують, як агент рухається до одного з кількох об’єктів. Послідовності були створені у ThreeDWorld, віртуальному 3D-середовищі, призначеному для навчання агентів ШІ.

Тест AGENT проходить у два етапи. По-перше, ШІ представлений однією або двома послідовностями, які зображують поведінку агента. Ці приклади мають ознайомити ШІ з уподобаннями віртуального агента. Наприклад, агент може завжди вибрати один тип об’єкта, незалежно від перешкод, які стоять на його шляху, або він може вибрати найближчий і найбільш доступний об’єкт, незалежно від його типу.

Після фази ознайомлення ШІ показується тестова послідовність, і він повинен визначити, чи діє агент очікуваним чи несподіваним чином.

Тести, загалом 3,360, охоплюють чотири типи сценаріїв, починаючи з дуже простої поведінки (агент віддає перевагу одному типу об’єкта незалежно від середовища) до більш складних завдань (агент демонструє оцінку витрат і винагороди, зважуючи труднощі досягнення гол проти винагороди, яку він отримає). ШІ також повинен враховувати ефективність дії діючого агента (наприклад, він не повинен робити непотрібних стрибків, коли немає перешкод). А в деяких завданнях сцена частково закрита, щоб було важче міркувати про оточення.

Реалістичні сценарії в штучному середовищі

Розробники тестів включили людські індуктивні упередження, що означає, що агенти та середовище керуються правилами, які були б раціональними для людей (наприклад, вартість стрибка або підйому на перешкоду зростає з її висотою). Це рішення допомагає зробити завдання більш реалістичними та легшими для оцінки. Дослідники також відзначають, що подібні упередження також важливі для створення систем штучного інтелекту, які краще узгоджені та сумісні з поведінкою людини та можуть співпрацювати з аналогами людини.

Дослідники штучного інтелекту випробували завдання на людях-добровольцях за допомогою Amazon Mechanical Turk. Їхні висновки показують, що в середньому люди можуть вирішити 91 відсоток завдань, спостерігаючи за послідовністю ознайомлення та оцінюючи тестові приклади. Це означає, що люди використовують свої попередні знання про світ і поведінку людей/тварин, щоб зрозуміти, як агенти приймають рішення (наприклад, за інших рівних умов агент вибере об’єкт із вищою винагородою).

Дослідники ШІ навмисно обмежили розмір набору даних, щоб запобігти нерозумним ярликам вирішення проблем. Враховуючи дуже великий набір даних, модель машинного навчання може навчитися робити правильні прогнози, не отримуючи основних знань про поведінку агента. «Навчання з нуля лише на нашому наборі даних не спрацює. Натомість ми припускаємо, що для проходження тестів необхідно отримати додаткові знання або через індуктивні упередження в архітектурах, або під час навчання на додаткових даних», — пишуть дослідники.

Дослідники, однак, застосували деякі скорочення в тестах. Набір даних AGENT включає карти глибини, карти сегментації та обмежувальні рамки об’єктів і перешкод для кожного кадру сцени. Сцени також надзвичайно прості у візуальних деталях і складаються з восьми різних кольорів. Все це полегшує системам штучного інтелекту обробку інформації в сцені та зосередження на обґрунтовній частині завдання.

Чи вирішує поточний штучний інтелект виклики AGENT?

Дослідники протестували завдання AGENT на двох базових моделях ШІ. Перша, байєсівське обернене планування та основні знання (BIPaCK), є генеративною моделлю, яка об’єднує фізичне моделювання та планування.

Модель BIPaCK

Угорі: модель BIPaCK використовує механізми планування та фізики для прогнозування траєкторії агента

Ця модель використовує повну наземну правдиву інформацію, надану набором даних, і передає її в механізм фізики та планування для прогнозування траєкторії агента. Експерименти дослідників показують, що BIPaCK здатний працювати на рівні або навіть краще, ніж люди, якщо він має повну інформацію про сцену.

Однак у реальному світі системи штучного інтелекту не мають доступу до точно анотованої інформації про реальну інформацію й повинні виконувати складну задачу виявлення об’єктів на різних фонах та в умовах освітлення. Це проблема, яку люди та тварини легко вирішують, але залишається проблемою для комп’ютера. системи зору.

У своїй статті дослідники визнають, що BIPaCK «вимагає точної реконструкції тривимірного стану та вбудованої моделі фізичної динаміки, яка не обов’язково буде доступна в сценах реального світу».

Друга модель, яку протестували дослідники, під кодовою назвою ToMnet-G, є розширеною версією нейронної мережі Theory of Mind (ToMnet), запропоновані вченими в Deepmind у 2018 році. ToMnet-G використовує графові нейронні мережі для кодування стану сцен, включаючи об’єкти, перешкоди та місцезнаходження агента. Потім він передає ці кодування довгі мережі короткочасної пам'яті (LSTM), щоб відстежувати траєкторію агента через послідовність кадрів. Модель використовує уявлення, отримані з ознайомлювальних відео, щоб передбачити поведінку агента в тестових відео та оцінити її як очікувану або несподівану.

Модель ToMnet-G

Вище: модель ToMnet-G використовує графові нейронні мережі та LSTM для вбудовування представлень сцени та прогнозування поведінки агента

Перевага ToMnet-G полягає в тому, що він не вимагає попередньо розробленої фізики та здорового глузду знання BIPaCK. Він вивчає все з відео та попереднього навчання на інших наборах даних. З іншого боку, ToMnet-G часто вивчає неправильні уявлення та не може узагальнити свою поведінку для нових сценаріїв або коли він має обмежену знайому інформацію.

«Не маючи багатьох вбудованих попередніх програм, ToMnet-G демонструє багатообіцяючі результати під час навчання та тестування за подібними сценаріями, але йому все ще бракує сильної здатності до узагальнення як у сценаріях, так і між ними», — зазначають дослідники у своїй статті.

Контраст між двома моделями підкреслює труднощі виконання найпростіших завдань, які люди вивчають без будь-яких інструкцій.

«Ми повинні пам’ятати, що наш еталонний тест, за задумом, відображає дуже прості синтетичні сценарії, які щоразу стосуються одного конкретного аспекту здорового глузду», — сказав Гутфройнд. «У реальному світі люди здатні дуже швидко аналізувати складні сцени, де одночасно діють багато аспектів здорового глузду, пов’язаних з фізикою, психологією, мовою тощо. Моделі штучного інтелекту все ще далекі від того, щоб зробити щось близько до цього».

Здоровий глузд і майбутнє ШІ

«Ми вважаємо, що шлях від вузького до широкого ШІ має включати моделі, які мають здоровий глузд», — сказав Гутфройнд. «Здатності до здорового глузду є важливими будівельними блоками для розуміння світу та взаємодії в ньому та можуть полегшити набуття нових здібностей».

Багато вчених вважають, що здоровий глузд і міркування можуть вирішити багато проблем, з якими стикаються сучасні системи штучного інтелекту, такі як потреба у великих обсягах навчальних даних, боротьба з причинно-наслідковими зв’язками та нестійкість у роботі з новими ситуаціями. Здоровий глузд і міркування є важливими сферами досліджень для спільноти ШІ, і вони стали центром уваги деяких із найяскравіших умів у цій галузі, включаючи піонерів глибокого навчання.

Розв’язання проблеми AGENT може стати невеликим, але важливим кроком до створення агентів ШІ, які ведуть себе надійно в непередбачуваному світі людей.

«Буде важко переконати людей довіряти автономним агентам, які не поводитися звичайним розумом", - сказав Гутфройнд. «Візьміть, наприклад, робота для допомоги людям похилого віку. Якщо цей робот не дотримуватиметься принципу здорового глузду, згідно з яким агенти ефективно досягають своїх цілей і рухатимуться зигзагоподібно, а не прямолінійно, коли його попросять взяти молоко з холодильника, це не буде дуже практичним і не заслуговуватиме довіри».

АГЕНТ є частиною Машинний здоровий глузд (MCS) програми Агентства передових оборонних дослідницьких проектів (DARPA). MCS переслідує дві великі цілі. По-перше, це створити машини, які можуть навчитися, як діти, міркувати про об’єкти, агентів і простір. АГЕНТ відноситься до цієї категорії. Друга мета полягає в розробці систем, які можуть навчатися, читаючи структуровані та неструктуровані знання з Інтернету, як це зробив би дослідник-людина. Це відрізняється від сучасних підходів до розуміння природної мови, які зосереджуються лише на фіксуванні статистичних кореляцій між словами та послідовностями слів у дуже великих корпусах тексту.

«Зараз ми працюємо над використанням AGENT як тестового середовища для немовлят. Разом з іншими виконавцями програми DARPA MCS ми плануємо вивчити більш складні сценарії здорового глузду, пов’язані з декількома агентами (наприклад, допомога або перешкода один одному) і використання інструментів для досягнення цілей (наприклад, ключі для відкриття дверей) . Ми також працюємо над іншими основними областями знань, пов’язаними з інтуїтивною фізикою та розумінням простору», – сказав Гутфройнд.

Бен Діксон — інженер-програміст і засновник TechTalks, блог, який досліджує способи, як технології вирішують і створюють проблеми.

Ця історія спочатку з'явилася на Bdtechtalks.com. Авторське право 2021

VentureBeat

Місія VentureBeat - бути цифровою міською площею для тих, хто приймає технічні рішення, щоб отримати знання про трансформаційні технології та укладати транзакції. Наш сайт надає важливу інформацію про технології та стратегії обробки даних, яка допоможе вам керувати вашими організаціями. Ми запрошуємо вас стати членом нашої спільноти, щоб отримати доступ до:

  • актуальну інформацію з питань, що вас цікавлять
  • наші бюлетені
  • закритий вміст керівника думок та знижений доступ до наших цінних подій, таких як Перетворення 2021: Вивчайте більше
  • функції мережі та багато іншого

Стань членом

Джерело: https://venturebeat.com/2021/07/27/can-you-teach-ai-common-sense/

Часова мітка:

Більше від AI - VentureBeat