100 триллионов параметров обучающих моделей ИИ

Переиздано Платоном

Читают: 0

Рекомендующие AI становятся лучше, когда они становятся больше. Совсем недавно было выпущено несколько моделей с параметрами от миллиарда до даже триллиона. Каждый скачок в производительности модели приводил к значительному улучшению качества. Эпоха 100 триллионов параметров не за горами.

Сложная нейронная сеть с плотным отдыхом требует все больше вычислительных ресурсов: более 100 TFLOP на каждой обучающей итерации. Таким образом, важно иметь какой-то сложный механизм для управления кластером с разнородными ресурсами для таких обучающих задач.

Недавно Kwai Seattle AI Lab и DS3 Lab из ETH Zurich совместно предложили новую систему под названием «Персия» для решения этой проблемы путем тщательной совместной разработки как алгоритма обучения, так и системы обучения. На уровне алгоритма Persia использует гибридный алгоритм обучения, чтобы по-разному обрабатывать слой встраивания и модули плотной нейронной сети. Слой внедрения обучается асинхронно, чтобы повысить пропускную способность обучающих выборок, в то время как остальная нейронная сеть обучается синхронно, чтобы сохранить статистическую эффективность. На системном уровне был реализован широкий спектр системных оптимизаций для управления памятью и сокращения связи, чтобы раскрыть весь потенциал гибридного алгоритма.

Облачные ресурсы для моделей искусственного интеллекта со 100 триллионами параметров

Рабочая нагрузка искусственного интеллекта Persia на 100 триллионов параметров выполняется на следующих разнородных ресурсах:

3,000 ядер ресурсоемких виртуальных машин
8 виртуальных машин A2, добавляющих в общей сложности 64 графических процессора A100 Nvidia
30 виртуальных машин с большим объемом памяти, каждая с 12 ТБ ОЗУ, всего 360 ТБ
Оркестрация с Kubernetes
Все ресурсы должны были запускаться одновременно в одной зоне, чтобы свести к минимуму задержку в сети. Google Cloud смог предоставить необходимую мощность с очень небольшим уведомлением.

Обучение ИИ требует ресурсов в больших количествах.

Google Kubernetes Engine (GKE) использовался для организации развертывания 138 виртуальных машин и программных контейнеров. Контейнеризация рабочей нагрузки также позволяет переносить и повторять обучение.

Результаты и выводы
При поддержке инфраструктуры Google Cloud команда продемонстрировала масштабируемость Persia до 100 триллионов параметров. Алгоритм гибридного распределенного обучения представил сложные системные релаксации для эффективного использования разнородных кластеров, при этом сходясь так же быстро, как ванильный SGD. Облако Google было необходимо для преодоления ограничений локального оборудования и оказалось оптимальной вычислительной средой для распределенного обучения машинному обучению в массовом масштабе.

Persia была выпущена как проект с открытым исходным кодом на github с инструкциями по настройке для Google Cloud — каждый из академических и промышленных кругов с легкостью обучит рекомендательные модели глубокого обучения со масштабом в 100 триллионов параметров.

Брайан Ван - идейный лидер футуризма и популярный научный блоггер с 1 миллионом читателей в месяц. Его блог Nextbigfuture.com занимает первое место среди новостных научных блогов. Он охватывает многие прорывные технологии и тенденции, включая космос, робототехнику, искусственный интеллект, медицину, биотехнологию против старения и нанотехнологии.

Известный тем, что выявляет передовые технологии, он в настоящее время является соучредителем стартапа и сборщиком средств для компаний с высоким потенциалом на ранней стадии. Он является руководителем отдела исследований ассигнований на инвестиции в глубокие технологии и ангел-инвестором в Space Angels.

Часто выступая в корпорациях, он был спикером TEDx, спикером Университета сингулярности и гостем на многочисленных интервью для радио и подкастов. Он открыт для публичных выступлений и консультирования.

Отметка времени: 28 августа 202228 августа 2022