Як створити GPT-3 для науки

Як створити GPT-3 для науки

Вихідний вузол: 1783041

Хочете створити образ велоцираптори, що працюють на хмарочосі, в стилі «Lunch Atop A Skyscraper» 1932 року? Використовуйте DALL-E. Хочете створити уяву Стендап-комедійне шоу Пітера Тіля, Ілона Маска та Ларрі Пейджа? Використовуйте GPT-3. Хочете глибше зрозуміти дослідження COVID-19 і відповісти на свої запитання на основі доказів? Навчіться здійснювати логічний пошук, читайте наукові статті та, можливо, отримайте ступінь доктора філософії, тому що немає генеративних моделей штучного інтелекту, навчених на величезній кількості науково-дослідних публікацій. Якби це було, отримання підтверджених доказами простих відповідей на наукові запитання було б однією з найпростіших переваг. Генеративний штучний інтелект для науки може допомогти змінити ситуацію уповільнення інновацій у науці by зробити це легше та більш дешевий знайти нові ідеї. Такі моделі можуть також надавати підкріплені даними попередження про терапевтичні гіпотези, які напевно зазнають невдачі, врівноважуючи людські упередження та уникаючи мільярдів доларів, десятиліттями тупики. Нарешті такі моделі могли б і бойові криза відтворюваності шляхом відображення, зважування та контекстуалізації результатів дослідження, забезпечуючи оцінку надійності.

Так чому б у нас не було DALL-E або GPT-3 для науки? Причина в тому, що хоча наукові дослідження є найцінніший у світі вміст, це також найменш доступний і зрозумілий у світі вміст. Я поясню, що знадобиться, щоб розблокувати наукові дані в масштабі, щоб зробити генеративний штучний інтелект для науки можливим, і як це змінить наш спосіб участі в дослідженнях. 

Що робить дані наукових досліджень складними

Дослідницькі публікації є одними з найважливіших у світі сховищ вмісту та інформації, коли-небудь створених. Вони пов’язують ідеї та знахідки між часом і дисциплінами та назавжди зберігаються мережею бібліотек. Вони підкріплюються доказами, аналізом, розумінням експертів і статистичними зв’язками. Вони надзвичайно цінні, але в основному приховані від мережі та використовуються дуже неефективно. Інтернет рясніє відео з милими приємними котиками, але майже не містить передових досліджень раку. Як приклад, Web of Science є одним із найповніших покажчиків наукових знань. Він існує десятиліттями, але, ймовірно, більшість читачів про це навіть не чули, не кажучи вже про те, щоб з ним спілкувалися. Більшість із нас не має доступу до дослідницьких статей, а навіть якщо має, вони щільні, важкозрозумілі та упаковані у формат PDF — формат, призначений для друку, а не для Інтернету.

Оскільки наукові статті важкодоступні, ми не можемо легко використовувати дані для навчання таких генеративних моделей, як GPT-3 або DALL-E. Чи можете ви уявіть, якби дослідник міг запропонувати експеримент, а модель штучного інтелекту могла б миттєво сказати їм, чи проводився він раніше (і ще краще, дати їм результат)? Потім, коли вони отримають дані нового експерименту, ШІ може запропонувати наступний експеримент на основі результатів. Нарешті, уявіть час, який можна було б заощадити, якби дослідник міг завантажити свої результати, а модель штучного інтелекту могла написати рукопис для їх. Найближче до науки DALL-E – Google Scholar, але це не стабільне чи масштабоване рішення. IBM Watson також мала на меті досягти більшої частини того, що я описую тут, але більша частина роботи випередила нещодавні досягнення у великих мовних моделях і не використовувала належних або достатніх даних, щоб відповідати маркетинговому ажіотажу.

Для такого розблокування вартості, яке я описую, нам потрібні довгострокові інвестиції, відданість і бачення. Як запропоновано нещодавно in Future, нам потрібно розглядати наукові публікації як субстрати, які потрібно комбінувати та аналізувати в масштабі. Щойно ми усунемо бар’єри, ми зможемо використовувати науку для живлення потребуючих даних генеративних моделей ШІ. Ці моделі мають величезний потенціал для прискорення розвитку науки та підвищення наукової грамотності, наприклад, шляхом навчання їх генеруванню нових наукових ідей, допомагаючи вченим керувати величезною науковою літературою та орієнтуватися в ній, допомагати виявляти помилкові чи навіть фальсифіковані дослідження, а також синтезувати та перекладати результати складних досліджень у звичайна людська мова.

Як отримати DALL-E або GPT-3 для науки?

Якщо ви займаєтесь технікою, покажіть другові результати генеративних моделей ШІ, як-от DALL-E or GPT-3 це як показати їм магію. Ці інструменти представляють нове покоління Інтернету. Вони походять від синтезу величезних обсягів інформації, окрім простого зв’язку, для створення інструментів із генеруючою здатністю. Отже, як ми можемо створити подібний чарівний досвід у науці, коли будь-хто може поставити запитання про наукову літературу простою мовою та отримати зрозумілу відповідь, підкріплену доказами? Як ми можемо допомогти дослідникам створювати, розвивати, вдосконалювати та перевіряти їхні гіпотези? Як ми потенційно можемо уникнути марнування мільярдів доларів на неспроможні гіпотези в дослідженні хвороби Альцгеймера та помилковий зв'язок між генетикою та депресією

Рішення цих питань можуть здатися науковою фантастикою, але є докази того, що ми можемо робити дивовижні та неймовірні речі, коли наукова робота використовується не просто як сума її частин. Дійсно, використовуючи майже 200,000 XNUMX білкових структур в Банк даних білка дав AlphaFold можливість щоб точно передбачити структури білків, те, для чого щойно було зроблено кожен білок, коли-небудь задокументований (понад 200 мільйонів!). Використання дослідницьких статей у спосіб, подібний до білкових структур, було б природним наступним кроком. 

Розкласти папери на мінімальні складові

Дослідницькі статті сповнені цінної інформації, включаючи цифри, діаграми, статистичні зв’язки та посилання на інші статті. Розбиття їх на різні компоненти та використання в масштабі може допомогти нам навчити машини для різних типів завдань, пов’язаних з наукою, підказок або запитів. На прості запитання можна отримати відповіді, навчаючись одному типу компонентів, але складніші запитання чи підказки вимагатимуть об’єднання кількох типів компонентів і розуміння їх зв’язку один з одним.  

Деякі приклади складних потенційних підказок:

«Скажіть мені, чому ця гіпотеза хибна»
«Скажи мені, чому моя ідея лікування не спрацює»
«Створіть нову ідею лікування»
«Які є докази на підтримку соціальної політики X?»
«Хто опублікував найдостовірніше дослідження в цій галузі?»
«Напишіть мені наукову статтю на основі моїх даних»

Деякі групи просуваються в цьому баченні. Наприклад, Викликати застосовує GPT-3 до мільйонів назв статей і рефератів, щоб допомогти відповісти на запитання дослідників — щось на зразок Alexa, але для науки. SYSTEM витягує статистичні зв’язки між сутностями, показуючи, як пов’язані різні поняття та сутності. Праймери не зосереджується на дослідницьких статтях як таких, але він працює з arXiv і надає інформаційну панель, яку використовують корпорації та уряди для синтезу та розуміння великих обсягів даних із багатьох джерел. 

Доступ до всіх компонентів

На жаль, ці групи в першу чергу покладаються лише на заголовки й анотації, а не на повні тексти, оскільки приблизно п’ять із шести статей не є вільними чи легкодоступними. Для таких груп, як Web of Science і Google, які мають дані або документи, їхні ліцензії та сфера використання є такими обмежений або невизначений. У випадку з Google незрозуміло, чому не було публічно оголошено про спроби навчити моделі ШІ на повнотекстових наукових дослідженнях у Google Scholar. Дивно, але це не змінилося навіть у розпал пандемії COVID-19, яка призвела до зупинки світу. Команда Google зі штучного інтелекту активізувалася, створивши прототип способу, за допомогою якого громадськість запитує про COVID-19. Але — і ось головне — вони зробили це, використовуючи лише документи відкритого доступу з PubMed, а не Google Scholar. 

Питання отримання доступу до документів і використання їх для більшого, ніж простого читання їх по черзі, є те, за що групи виступають протягом десятиліть. Я особисто працював над цим майже десять років, запускаючи платформу для публікації з відкритим доступом під назвою Віяло протягом останнього року моєї докторської, а потім працював над створенням стаття майбутнього в іншому запуску викликав Автхорея. Хоча жодна з цих ініціатив не вийшла так, як я хотів, вони привели мене до моєї поточної роботи в сите, який принаймні частково вирішив проблему доступу, працюючи безпосередньо з видавцями. 

З’єднайте компоненти та визначте зв’язки

Наша мета сите це представити наступне покоління цитат — так звані інтелектуальні цитати — які показують, як і чому будь-яка стаття, дослідник, журнал чи тема цитуються та загалом обговорюються в літературі. Працюючи з видавцями, ми вилучаємо речення безпосередньо з повних текстів статей, де вони використовують свої посилання в тексті. Ці речення пропонують якісне уявлення про те, як документи цитувалися в новій роботі. Це трохи схоже на Rotten Tomatoes для дослідження.

Для цього потрібен доступ до повних текстів статей і співпраця з видавцями, щоб ми могли використовувати машинне навчання для отримання та аналізу цитат у масштабі. Оскільки для початку було достатньо статей у відкритому доступі, ми змогли побудувати підтвердження концепції та одну за одною ми продемонстрували видавцям покращену доступність статей, проіндексованих у нашій системі, і надали їм систему для показати кращі показники для більш відповідальної оцінки дослідження. Те, що ми бачили як експертні заяви, вони сприймали як попередні перегляди своїх статей. Зараз видавці масово підписалися, і ми проіндексували понад 1.1 мільярда розумних цитат із більш ніж половини всіх опублікованих статей.

Використовуйте реляційні дані для навчання моделей ШІ

Компоненти та зв’язки, витягнуті з документів, можна використовувати для навчання нових великих мовних моделей для дослідження. GPT-3, хоч і дуже потужний, не був створений для наукової роботи погано відповідає на запитання, які ви можете побачити на SAT. Коли був GPT-2 (попередня версія GPT-3). адаптовано шляхом навчання на мільйонах наукових робіт, він працював краще, ніж лише GPT-2, над конкретними завданнями знання. Це підкреслює, що дані, які використовуються для навчання моделей, є надзвичайно важливими. 

 Деякі групи нещодавно використовував ГПТ-3 для написання наукових робіт, і хоча це вражає, факти чи аргументи, які вони намагаються показати, можуть бути дуже неправильними. Якщо модель не може правильно відповісти на прості запитання у стилі SAT, чи можемо ми довірити їй написання повної статті? SCIgen, який передував GPT-3 майже на 20 років, показав, що генерувати документи, які виглядають справжніми, відносно легко. Їхня система, хоч і була набагато простішою, створювала документи, які були брали участь у різних конференціях. Нам потрібна модель, яка не просто виглядає науковою, але є науковою, і яка потребує системи перевірки тверджень щодо машин і людей. Meta нещодавно представила a система перевірки цитат у Вікіпедії, те, що деякі видавці голосно кажуть побажали, щоб вони мали для наукових публікацій.

Поточний прогрес

Знову ж таки, одним із ключових факторів, які перешкоджають реалізації цієї системи, є відсутність доступу до документів і ресурсів для її створення. Де папери чи інформація стають доступними для використання в масштабі, ми бачимо інструменти та нові моделі процвітають. Команда Google Patent використовувала 100 мільйонів патентів для навчання системи допомоги з аналізом патентів, фактично GooglePatentBERT. Інші представили такі моделі, як БіоБЕРТ та SciBERT, і незважаючи на те, що вони пройшли підготовку лише з приблизно ~1% наукових текстів лише в певних тематичних областях, вони вражають у наукових завданнях, включаючи нашу систему класифікації цитат на scite. 

Зовсім недавно, a ScholarBERT була випущена модель, яка фактично використовує всю наукову літературу для навчання BERT. Вони долають проблему доступу, але особливо не розуміють, як це зробити, просто наголошуючи на тому, що їх використання є «неспоживацьким». Цей варіант використання може відкрити двері для інші використовують статті без прямого дозволу видавців і можуть стати важливим кроком у створенні DALL-E науки. Дивно, однак, ScholarBERT гірше справлявся з різними спеціальними знаннями, ніж менші моделі наукової мови, такі як SciBERT. 

Важливо відзначити, що моделі в стилі BERT набагато менші за масштабні, ніж великі мовні моделі, такі як GPT-3, і вони не дозволяють загальні підказки та навчання в контексті, які викликали більшу частину галасу GPT-3. Залишається питання: що, якби ми застосували ті самі дані від ScholarBERT для навчання збільшеної генеративної моделі, як GPT-3? Що, якби ми могли якось показати, звідки були отримані відповіді з машини, можливо, прив’язавши їх безпосередньо до літератури (наприклад, Smart Citations)?

Чому зараз?

На щастя, папери стають більш відкритими, а машини – потужнішими. Тепер ми можемо почати використовувати дані, що містяться в документах і підключених сховищах, щоб навчити машини відповідати на запитання та синтезувати нові ідеї на основі досліджень. Це може змінити здоров’я, політику, технології та все, що нас оточує. Уявіть собі, якби ми шукали не лише заголовки документів, а саме відповіді, як би це вплинуло на дослідження та робочі процеси в усіх дисциплінах. 

 Звільнення світових наукових знань від подвійних бар’єрів доступності та зрозумілості допоможе здійснити перехід від мережі, зосередженої на кліках, переглядах, лайках і увазі, до мережі, зосередженої на доказах, даних і достовірності. Фармацевтична компанія явно зацікавлена ​​в тому, щоб досягти цього результату, тому зростає кількість стартапів, які виявляють потенційних мішеней для наркотиків за допомогою штучного інтелекту, але я вважаю, що громадськість, уряди та будь-хто, хто користується Google, може відмовитися від безкоштовного пошуку заради довіри та часу. збереження. Світ відчайдушно потребує такої системи, і він потребує її швидко. 


 

 

Опубліковано 18 серпня 2022 р

Часова мітка:

Більше від Андреессен Горовиц