Оксфордские исследователи обучают ИИ в два раза быстрее с помощью простого математического трюка

Исходный узел: 1225402
ИИ ускоряет обратное распространение быстрых световых лучей

По мере того, как модели ИИ становятся все больше, количество денег и энергетика необходимо для их обучения стал горячей проблемой. Новый подход, который переписывает один из фундаментальных строительных блоков дисциплины, может обеспечить потенциальный обходной путь.

С тех пор GPT-3 продемонстрировал значительный скачок в производительности, достижимый простым увеличениемразмер модели, лидеры индустрии искусственного интеллекта вкладывают ресурсы в обучение все более массивные нейронные сети.

Но это стоит огромных денег, требует огромных вычислительных ресурсов и потребляет огромное количество энергии. Это все чаще рассматривается как проблема не только из-за последствий для окружающей среды, но и потому, что это затрудняет конкуренцию более мелким подразделениям ИИ и, как следствие, концентрирует власть в руках лидеров отрасли.

Однако теперь исследователи из Оксфордского университета наметили новый подход, который потенциально можетly сократить время обучения вдвое. Они делают это, переписывая один из самых фундаментальных компонентов современных систем искусственного интеллекта на основе нейронных сетей: обратное распространение.

То, как нейронная сеть обрабатывает данные, зависит от силы связей между ее различными нейронами. Поэтому, чтобы заставить их выполнять полезную работу, вам сначала нужно настроить эти соединения, пока они не будут обрабатывать данные так, как вы хотите. Вы делаете это, обучая сеть на данных, имеющих отношение к проблеме, используя процесс, называемый обратным распространением, который разделен на две фазы.

Прогон вперед включает в себя передачу данных через сеть и получение прогнозов. При обратном проходе измерения точности этих прогнозов используются для возврата в сеть и определения того, как следует регулировать силу различных соединений для повышения производительности. Многократно повторяя этот процесс с использованием большого количества данных, сеть постепенно работает над оптимальной конфигурацией соединений, которая решает поставленную проблему.

Именно из-за этого повторяющегося процесса обучение ИИ занимает так много времени, но оксфордские исследователи, возможно, нашли способ все упростить. яне доступно препринт размещен на ArXiv, они деразработать новый подход к тренировкам, который полностью избавится от обратного паса. Вместо этого их алгоритм делает оценки того, как веса должны будут be изменяется при прямом проходе, и оказывается, что эти приближения достаточно близки для достижения производительности, сравнимой с обратным распространением.

Исследователи показали, что этот подход можно использовать для обучения различных алгоритмов машинного обучения, но, поскольку он включает только прямой проход, он смог сократить время обучения почти вдвое.

Это простой математический трюк, Эндрю Корбетт из Эксетерского университета в Великобритании. заявил New Scientist, но соЭто поможет решить одну из самых насущных проблем, стоящих сегодня перед ИИ. «Это очень, очень важная вещь, которую нужно решить, потому что это узкое место алгоритмов машинного обучения», — сказал он.

Однако еще предстоит выяснить, насколько широко применим этот подход. В своей статье исследователи показывают, что разница в стоимости выполнения уменьшается по мере увеличения количества слоев в нейронной сети, предполагая, что этот метод может иметь убывающую отдачу с более крупными моделями.

Однако исследователи также отмечают, что они выявили ряд возможностей для настройки работы стандартных алгоритмов машинного обучения, чтобы они лучше соответствовали их методу, что может привести к дальнейшему повышению производительности.

Исследование также потенциально может способствовать раскрытию тайны человеческого интеллекта. Искусственные нейронные сети остаются одним из наших лучших инструментов для изучения того, как мозг обучается, но haДавно известно, что обратное распространение недопустимо с биологической точки зрения из-за отсутствия какой-либо обратной связи между нейронами. Подход к обучению, который требует только прямого прохода, может помочь пролить свет на то, как наш мозг решает проблему обучения.

Изображение Фото: Pexels / 9144 изображений

Отметка времени:

Больше от Singularity Hub