Оксфордські дослідники тренують ШІ вдвічі швидше за допомогою простого математичного трюку

Вихідний вузол: 1225402
Швидкість швидких світлових променів із зворотним поширенням ШІ

Оскільки моделі штучного інтелекту стають все більшими, кількість грошей і енергія Треба для їх навчання стала актуальною проблемою. Новий підхід, який переписує один з фундаментальних будівельних блоків дисципліни, може забезпечити потенційний обхідний шлях.

З тих пір як GPT-3 продемонстрували значні стрибки в продуктивності, які можна досягти шляхом простого збільшенняЗ огляду на розмір моделі, лідери індустрії штучного інтелекту витрачають ресурси на навчання все більш масивні нейронні мережі.

Але це коштує величезних грошей, вимагає величезних обчислювальних ресурсів і використовує величезну кількість енергії. Це все частіше розглядається як проблема не тільки через наслідки для навколишнього середовища, а й через те, що це ускладнює конкуренцію невеликим компаніям AI і, як наслідок, концентрує владу в руках лідерів галузі.

Але тепер дослідники з Оксфордського університету окреслили новий підхід, який може бути потенційнимly скоротити час навчання вдвічі. Вони роблять це, переписуючи один з найбільш фундаментальних компонентів сучасних систем штучного інтелекту на основі нейронних мереж: зворотне поширення.

Те, як нейронна мережа обробляє дані, залежить від міцності зв’язків між її різними нейронами. Отже, щоб змусити їх виконувати корисну роботу, вам спочатку потрібно налаштувати ці з’єднання, поки вони не оброблятимуть дані так, як ви хочете. Ви робите це, навчаючи мережу на даних, що стосуються проблеми, використовуючи процес, який називається зворотним поширенням, який розбивається на дві фази.

Попередній запуск передбачає передачу даних через мережу та отримання їх для прогнозування. У зворотному проході вимірювання точності цих прогнозів використовуються для повернення через мережу і визначення того, як силу різних з’єднань слід регулювати для підвищення продуктивності. Повторюючи цей процес багато разів, використовуючи велику кількість даних, мережа поступово працює над оптимальною конфігурацією з’єднань, що вирішує проблему.

Цей повторюваний процес є причиною того, що навчання ШІ займає так багато часу, але оксфордські дослідники, можливо, знайшли спосіб спростити речі. яна попередньо опубліковано на ArXiv, вони дерозробити новий підхід до навчання, який повністю позбавляє зворотного проходу. Натомість їхній алгоритм оцінює, які ваги знадобляться be змінено на прямому проході, і виявляється, що ці наближення досить близькі для досягнення порівнянної продуктивності з зворотним поширенням.

Дослідники показали, що цей підхід можна використовувати для навчання різноманітних алгоритмів машинного навчання, але оскільки він передбачає лише перехід вперед, він зміг скоротити час навчання майже вдвічі.

Це простий математичний трюк, Ендрю Корбетт з Ексетерського університету у Великобританії сказав New Scientist, але кодопоможе вирішити одну з найактуальніших проблем, з якими сьогодні стикається ШІ. «Це дуже, дуже важлива річ, яку потрібно вирішити, тому що це вузьке місце алгоритмів машинного навчання», — сказав він.

Наскільки широко застосовний підхід, ще невідомо. У своїй статті дослідники показують, що різниця у витратах на час виконання зменшується зі збільшенням кількості шарів у нейронній мережі, що свідчить про те, що віддача від використання більших моделей може зменшуватися.

Однак дослідники також відзначають, що вони визначили низку можливостей налаштувати роботу стандартних алгоритмів машинного навчання, щоб краще відповідати їх методу, що може призвести до подальшого підвищення продуктивності.

Дослідження також потенційно може сприяти розкриттю таємниці людського інтелекту. Штучні нейронні мережі залишаються одним з наших найкращих інструментів для дослідження того, як мозок навчається, але це так haДавно відомо, що зворотне розповсюдження не є біологічно правдоподібним через відсутність будь-якої зворотної зв’язку між нейронами. Підхід до навчання, який вимагає лише проходження вперед, може допомогти пролити світло на те, як наш мозок вирішує проблему навчання.

Зображення Фото: Pexels / 9144 зображення

Часова мітка:

Більше від Хаб сингулярності