Навчальні моделі ШІ зі 100 трильйонами параметрів

Вихідний вузол: 1642849
зображення

Системи штучного інтелекту Recommender сьогодні є важливим компонентом інтернет-сервісів: компанії, які отримують мільярди доларів, такі як Amazon і Netflix, безпосередньо керуються службами рекомендацій.

Рекомендації ШІ стають кращими, коли вони стають більшими. Нещодавно було випущено декілька моделей із параметрами від мільярдів до трильйонів. Кожне збільшення ємності моделі призводило до значного покращення якості. Ера 100 трильйонів параметрів не за горами.

Складна щільна нейронна мережа спокою потребує дедалі більше обчислень із понад 100 TFLOP на кожній ітерації навчання. Таким чином, важливо мати якийсь складний механізм керування кластером із різнорідними ресурсами для таких навчальних завдань.

Нещодавно лабораторія штучного інтелекту Kwai Seattle та лабораторія DS3 з ETH Zurich спільно запропонували нову систему під назвою «Persia» для вирішення цієї проблеми шляхом ретельного спільного проектування як алгоритму навчання, так і системи навчання. На рівні алгоритму Persia застосовує гібридний алгоритм навчання, щоб по-іншому обробляти рівень вбудовування та модулі щільної нейронної мережі. Рівень вбудовування навчається асинхронно, щоб покращити пропускну здатність навчальних зразків, тоді як інша нейронна мережа навчається синхронно, щоб зберегти статистичну ефективність. На системному рівні реалізовано широкий спектр оптимізацій системи для керування пам’яттю та зменшення зв’язку, щоб розкрити весь потенціал гібридного алгоритму.

Хмарні ресурси для моделей AI із 100 трильйонами параметрів

Робоче навантаження ШІ параметрів Persia 100 трильйонів виконується на таких різнорідних ресурсах:

3,000 ядер віртуальних машин, що потребують інтенсивних обчислень
8 віртуальних машин A2 із загалом 64 графічними процесорами A100 Nvidia
30 віртуальних машин з великим об’ємом пам’яті, кожна з яких має 12 ТБ оперативної пам’яті, загальним обсягом 360 ТБ
Оркестровка з Kubernetes
Щоб мінімізувати затримку мережі, усі ресурси потрібно запускати одночасно в одній зоні. Google Cloud змогла забезпечити необхідну ємність без попередження.

Навчання штучного інтелекту потребує ресурсів у серії.

Google Kubernetes Engine (GKE) використовувався для організації розгортання 138 віртуальних машин і програмних контейнерів. Наявність робочого навантаження в контейнері також дозволяє переносити та повторювати навчання.

Результати та висновки
Завдяки підтримці інфраструктури Google Cloud команда продемонструвала масштабованість Persia до 100 трильйонів параметрів. Алгоритм гібридного розподіленого навчання запровадив продумані системні релаксації для ефективного використання різнорідних кластерів, при цьому зближуючись так само швидко, як ванільний SGD. Google Cloud відіграв важливу роль у подоланні обмежень локального апаратного забезпечення та став оптимальним обчислювальним середовищем для розподіленого навчання машинному навчанню у великому масштабі.

Persia була випущена як проект з відкритим кодом на github з інструкціями з налаштування для Google Cloud — кожен з наукових кіл і індустрії міг би легко навчити 100-трильйонним масштабним, глибоким навчанням рекомендованих моделей.

Брайан Ванг - лідер думок футуристів та популярний науковий блогер із 1 мільйоном читачів на місяць. Його блог Nextbigfuture.com посідає перше місце у блозі «Наукові новини». Він охоплює багато руйнівних технологій та тенденцій, включаючи космос, робототехніку, штучний інтелект, медицину, біотехнології проти старіння та нанотехнології.

Відомий тим, що визначає передові технології, в даний час він є співзасновником стартапу та збирання коштів для потенційних компаній на ранніх етапах. Він є керівником досліджень з питань розподілу інвестицій у глибокі технології та інвестором -ангелом у Space Angels.

Частий доповідач у корпораціях, він був спікером TEDx, спікером Університету Сингулярності та гостем у численних інтерв'ю для радіо та подкастів. Він відкритий для публічних виступів та консультування.

Часова мітка:

Більше від Наступні великі ф'ючерси