Dopamine And Temporal Difference Learning: A Fruitful Relationship Between Neuroscience And AI

Переиздано Платоном

Читают: 0

Обучение и мотивация обусловлены внутренними и внешними вознаграждениями. Многие из наших повседневных поступков основаны на прогнозировании или предвосхищении того, приведет ли данное действие к положительному (то есть вознаграждающему) результату. Изучение того, как организмы на основе опыта учатся правильно предвидеть вознаграждение, было продуктивной областью исследований на протяжении более века, начиная с основополагающей психологической работы Ивана Павлова. В его самом известном эксперименте собак приучили ожидать еды через некоторое время после сигнала зуммера. У этих собак началось слюноотделение, как только они услышали звук, до того, как была доставлена еда, что указывает на то, что они научились предсказывать награду. В первоначальном эксперименте Павлов оценивал ожидание собак, измеряя объем выделяемой ими слюны. Но в последние десятилетия ученые начали расшифровывать внутреннюю работу того, как мозг запоминает эти ожидания. Между тем, в тесном контакте с этим исследованием обучения за вознаграждение у животных ученые-компьютерщики разработали алгоритмы обучения с подкреплением в искусственных системах. Эти алгоритмы позволяют системам ИИ изучать сложные стратегии без внешних инструкций, руководствуясь вместо этого прогнозами вознаграждения.

Вклад нашей новой работы, опубликовано в Nature (PDF), обнаруживает, что недавнее развитие компьютерных наук, которое приводит к значительному улучшению производительности в задачах обучения с подкреплением, может дать глубокое и экономное объяснение нескольким ранее необъяснимым особенностям обучения в мозгу с подкреплением и открывает новые возможности для исследований. дофаминовая система мозга с потенциальными последствиями для расстройств обучения и мотивации.

Цепочка предсказаний: обучение с разницей во времени

Обучение с подкреплением — одна из старейших и самых мощных идей, связывающих нейробиологию и ИИ. В конце 1980-х исследователи информатики пытались разработать алгоритмы, которые могли бы научиться выполнять сложные действия самостоятельно, используя в качестве обучающего сигнала только поощрения и наказания. Эти награды будут служить подкреплением любого поведения, которое привело к их приобретению. Чтобы решить данную проблему, необходимо понять, как текущие действия приводят к будущим вознаграждениям. Например, по подкреплению учащийся может узнать, что подготовка к экзамену приводит к более высоким результатам на тестах. Чтобы предсказать общую будущую награду, которая будет получена в результате действия, часто необходимо просчитать много шагов в будущее.

Важным прорывом в решении проблемы предсказания вознаграждения стала Алгоритм обучения временной разнице (TD). TD использует математический трюк, чтобы заменить сложные рассуждения о будущем очень простой процедурой обучения, которая может дать те же результаты. Вот в чем хитрость: вместо того, чтобы пытаться вычислить общее будущее вознаграждение, TD просто пытается предсказать комбинацию немедленного вознаграждения и собственное предсказание вознаграждения в следующий момент времени. Затем, когда наступает следующий момент, несущий новую информацию, новое предсказание сравнивается с ожидаемым. Если они отличаются, алгоритм вычисляет, насколько они отличаются, и использует эту «временную разницу», чтобы скорректировать старый прогноз в соответствии с новым прогнозом. Постоянно стремясь сблизить эти цифры в каждый момент времени, сопоставив ожидания с реальностью, вся цепочка предсказаний постепенно становится более точной.

Примерно в то же время, в конце 80-х и начале 90-х годов, нейробиологи борющийся понять поведение дофаминовых нейронов. Дофаминовые нейроны сгруппированы в среднем мозге, но посылают проекции во многие области мозга, потенциально транслируя некое глобально значимое сообщение. Было ясно, что возбуждение этих нейронов имело какое-то отношение к вознаграждению, но их ответы также зависели от сенсорной информации и менялись по мере того, как животные становились более опытными в данной задаче.

К счастью, некоторые исследователи были осведомлены о последних разработках как нейробиологии, так и ИИ. Эти ученые заметилв середине 1990-х годов выяснилось, что ответы некоторых дофаминовых нейронов представляли собой ошибки предсказания вознаграждения — их срабатывание сигнализировало, когда животное получало большее или меньшее вознаграждение, чем оно было обучено ожидать. Поэтому эти исследователи предположили, что мозг использует алгоритм обучения TD: вычисляется ошибка предсказания вознаграждения, передается в мозг через сигнал дофамина и используется для управления обучением. С тех пор Теория ошибки предсказания награды дофамина была проверена и подтверждена тысячами экспериментов и стала одной из самых успешных количественных теорий в нейробиологии.