Появление ответных замечаний и новизны от принципов обучения артефактам (2008)

КОММЕНТАРИИ: Еще одно исследование, демонстрирующее, что новизна - это сама награда. Одним из захватывающих аспектов интернет-порно это бесконечная новизна и разнообразие, способность быстро нажать от одной сцены к другой, и искание только нужное изображение / видео. Все это увеличивает дофамин. Это то, что делает интернет-порно отличается от журналов или арендовали DVD.

Полное исследование: возникновение отклика и новизны ответов от принципов обучения арфингам

Нейронная сеть. 2008 декабрь; 21 (10): 1493-1499.

Опубликован онлайн 2008 Сентябрь 25. doi: 10.1016 / j.neunet.2008.09.004

Патрик А. Лоран, Университет Питтсбурга;

Адрес для переписки: Патрик Лоран, Университет Питтсбурга, 623 LRDC, 3939 St. O'Hara St., Pittsburgh, PA 15260 USA, E-mail: [электронная почта защищена]Офис: (412) 624-3191, Факс: (412) 624-9149

Абстрактные

Недавние попытки сопоставить модели обучения на основе вознаграждения, такие как «Усиление обучения» [17], в мозг основаны на наблюдении, что фазирование увеличивается и уменьшается при разрастании различий между сигналами, высвобождающими дофаминовые нейроны, между предсказанной и полученной наградой [16,5]. Однако эта ошибка прогноза вознаграждения является лишь одним из нескольких сигналов, передаваемых этой фазовой деятельностью; другой предполагает увеличение дофаминергического пика, что отражает появление значительных, но непредсказуемых не-поощрительных стимулов [4,6,13], особенно когда организм впоследствии ориентируется на стимул [16]. Чтобы объяснить эти данные, Какаде и Даян [7] и другие полагают, что новые неожиданные стимулы являются неотъемлемо полезными. Моделирование, описанное в этой статье, демонстрирует, что это предположение не является необходимым, поскольку эффект, который он предназначен для захвата, вытекает из механизмов обучения поощрения-прогнозирования обучения арфингам. Таким образом, принципы Укрепления обучения могут быть использованы для понимания не только связанной с вознаграждением деятельности дофаминергических нейронов базальных ганглиев, но также и некоторых из их явно не связанных с вознаграждением действий.

Укрепление обучения (RL) становится все более важным в разработке вычислительных моделей обучения на основе вознаграждения в мозге. RL - это класс вычислительных алгоритмов, который определяет, как искусственный «агент» (например, настоящий или симулированный робот) может научиться выбирать действия, чтобы максимизировать общую ожидаемую награду [17]. В этих алгоритмах агент основывает свои действия на значениях, которые он учит связывать с различными состояниями (например, перцептивные сигналы, связанные с стимулом). Эти значения могут постепенно изучаться посредством обучения по времени, которое корректирует значения состояния на основе разницы между существующим прогнозом вознаграждения агента для состояния и фактическим вознаграждением, которое впоследствии получается из окружающей среды. Было показано, что эта вычисленная разница, называемая ошибкой предсказания вознаграждения, очень хорошо коррелирует с фазированной активностью высвобождающих дофамин нейронов, выступающих от субстанциального нигра у нечеловеческих приматов [16]. Кроме того, у людей стриатум, который является важной мишенью допамина, демонстрирует сигнал FMRI BOLD, который, как представляется, отражает ошибку прогноза вознаграждения во время задач награждения [10,12,18]. Этот поиск МРМ дополняет данные физиологии, поскольку предполагается, что полосатый BOLD отражает, по крайней мере частично, афферентную синаптическую активность [9], а нейроны допамина сильно зависят от полосатого тела.

Хотя вышеупомянутые физиологические ответы, по-видимому, связаны с расчетами вознаграждения за вознаграждение RL, существует также увеличение дофаминергической фазической активности в ответ на возбуждающие и / или новые стимулы, которые, по-видимому, не связаны с вознаграждением [4,6,14,3]. Недавно подобное явление наблюдалось у людей с использованием fMRI [2]. Существует несколько причин, по которым эта реакция «новизны» или «важности», как говорят, не связана с ошибкой прогноза вознаграждения: (1) представляется очень ранней, до того, как идентификация стимула была оценена, так что точное предсказание вознаграждения не может быть сгенерированным; (2) это соответствует увеличению нейронной активности (т. Е. Положительной) как для аверсивных, так и для аппетитных стимулов; и (3) он приучает [13]. Действительно, эти ответные реакции / новизны нейронов, высвобождающих допамин, являются наиболее надежными, когда раздражители являются непредсказуемыми и приводят к ориентированию и / или подходу [16] независимо от конечного результата, подчеркивая тот факт, что они качественно отличаются от научного вознаграждения прогнозирование. Задача, таким образом, заключалась в том, чтобы объяснить этот кажущийся парадокс (то есть, как новизна влияет на ошибку прогноза вознаграждения) в теоретических рамках RL.

Какаде и Даян [7] попытались сделать именно это; в своей статье они постулируют два способа, в которых реакции новизны могут быть включены в RL-модели дофаминергической функции - оба включали включение новых теоретических предположений. Первое предположение, называемое бонусами новизны, предполагает введение дополнительной награды, когда присутствуют новые стимулы, выше и выше обычной награды, получаемой агентом. Эта дополнительная награда входит в вычисление, так что обучение основано на различии между существующим прогнозом вознаграждения агента и суммой как обычной награды от окружающей среды, так и премии за новинку. Таким образом, новинка становится частью вознаграждения, которое агент пытается максимизировать. Второе предположение, называемое формирующими бонусами, может быть реализовано путем искусственного увеличения значений состояний, связанных с новыми стимулами. Поскольку правило обучения по временным различиям, используемое в RL, основано на различии в прогнозе вознаграждения между последовательными состояниями, добавление постоянного бонуса при формировании к состояниям, связанным с новыми стимулами, не влияет на конечное поведение агента. Однако реакция на новизну все еще возникает, когда агент входит в ту часть государственного пространства, которая была «сформирована» (т. Е. Связана с новизной).

Хотя добавление каждого из этих предположений является достаточным для объяснения многих наблюдаемых эффектов новизны, предположения также мешают прогрессированию обучения. Как отмечают Какаде и Даян [7], бонусы новизны могут искажать функцию значения (т. Е. Значения, связанные с каждым состоянием агента), и влиять на то, что в конечном итоге узнано, потому что они реализованы в качестве дополнительной награды, которая неотъемлемо связана с романом состояния. Проблема в том, что агент учится прогнозировать как первичные, так и новизна компонентов вознаграждения. Хотя Какаде и Даян отмечают, что формирование бонусов не вызывает такой проблемы, потому что они становятся включенными в предсказания вознаграждения из предыдущих состояний, их добавление все еще проблематично, потому что формирование бонусов приводит к искажениям в способе, которым агент будет исследовать свое государственное пространство. Таким образом, хотя эти дополнительные предположения могут объяснить, как новизна влияет на ошибку прогноза вознаграждения в RL, они являются проблематичными. Кроме того, объяснения приводятся за счет сокращения скупости моделирующей работы, которая пытается использовать RL для понимания поведения реальных биологических организмов.

Представленная ниже симуляция была проведена, чтобы проверить гипотезу о том, что простой агент RL без каких-либо дополнительных предположений разработает ответ ошибки прогноза вознаграждения, который аналогичен ответам дофамина, не связанным с вознаграждением, которые наблюдаются у биологических организмов , Агент RL был поручен взаимодействовать с двумя типами объектов: один положительный и другой отрицательный - который появился в случайных местах в его среде. Чтобы максимизировать свою награду, агент должен был научиться приближаться и «потреблять» положительный объект и избегать (т. Е. Не «потреблять») отрицательный объект. Для моделирования было три основных прогноза.

Первое предсказание состояло в том, что для максимизации вознаграждения агент фактически научился приближаться и «потреблять» положительные, полезные объекты, одновременно научившись избегать отрицательных, наказывающих объектов. Второе предсказание было несколько менее очевидным: агент проявил ориентировочный ответ (т. Е. Научился менять свою ориентацию) как на отрицательные, так и на положительные объекты. Это предсказание было сделано потому, что, хотя агент мог «ощущать» внешний вид объекта и его местоположение, положительную или отрицательную идентичность объекта (т. Е. Сигнал, который агент в конечном итоге научился ассоциировать с стоимостью вознаграждения объекта) не может быть определено агентом до тех пор, пока агент не будет фактически ориентирован на объект. Наконец, третье (и самое важное) предсказание было связано с имитацией дофаминергического фазового ответа в модели; это предсказание состояло в том, что, когда объект появился, агент обнаружил ошибку прогноза вознаграждения, которая была вычислительно аналогична фазическому ответу дофамина, наблюдаемому в биологических организмах, будучи положительной как для положительных, так и для отрицательных объектов. Предполагалось, что этот ответ будет изменяться как функция расстояния между агентом и стимулом, который в контексте моделирования был прокси-мерой для стимуляции «интенсивности» или значимости. Как будет показано ниже, эти предсказания были подтверждены результатами моделирования, демонстрируя, что, по-видимому, ответные реакции дофамина, не связанные с вознаграждением, могут в принципе вытекать из основных принципов RL. Теоретические последствия этих результатов для использования RL для понимания деятельности, не связанной с наградами в биологических организмах, будут обсуждаться в заключительном разделе этой статьи.

Способ доставки

Как уже упоминалось, алгоритмы RL определяют, как агент может использовать численные вознаграждения от момента к моменту, чтобы узнать, какие действия он должен предпринять, чтобы максимизировать общую сумму вознаграждения, которое он получает. В большинстве формулировок это обучение достигается за счет использования ошибок прогноза вознаграждения (т. Е. Разницы между текущим прогнозом вознаграждения агента и фактическим вознаграждением, полученным) для обновления прогнозов вознаграждения агента. По мере того как предсказания вознаграждения изучаются, предсказания также могут использоваться агентом для выбора следующего действия. Обычная политика (определенная в Уравнении 2) заключается в том, что агент может выбрать действие, которое, как прогнозируется, приведет к наибольшей награде. Фактическое вознаграждение, которое предоставляется агенту в любой момент времени, представляет собой сумму немедленного вознаграждения плюс часть доли значения, которое агент вводит, когда действие завершено. Таким образом, если агент в конечном итоге получает положительные вознаграждения после того, как он находится в определенном состоянии, агент будет выбирать действия в будущем, которые могут привести к вознагражденным состояниям; наоборот, если агент испытывает негативные награды (т. е. наказание), он избегает действий в будущем, которые приводят к тем «наказанным» состояниям.

Конкретный алгоритм, определяющий предсказания вознаграждения, которые изучаются для разных состояний (т. Е. Функция значения V), называется Value Iteration [Footnote 1] и может быть формально описан как:

Для всех возможных состояний s,

(Уравнение 1)

где s соответствует текущему состоянию, V (s) - текущее предсказание вознаграждения для состояния s, которое было изучено агентом, maxaction∈M {} является оператором для максимального значения скобки в количестве по множеству всех действий M, доступный агенту, V (s ') является текущим прогнозом вознаграждения агента для следующего состояния s', α - это скорость обучения (между 0 и 1), а γ - коэффициент дисконтирования, отражающий, как будущие вознаграждения должны быть взвешены относительно немедленных наград. Функция начального значения была установлена ​​так, чтобы V (s) был 0 для всех состояний s.

Функция значения V (s) была реализована как таблица поиска, которая формально эквивалентна предположению о совершенной памяти. Хотя функции-аппроксиматоры, такие как нейронные сети, использовались с некоторым успехом для представления функций значений [1], для проверки того, что результаты не зависят от типов механизма обобщения, которые предоставляются различными аппроксиматорами функций, использовалась таблица поиска. Агент был обучен для обучения итерациям 1,500 над своим пространством состояний. Из-за непредсказуемости идентичности объектов в ходе обучения использовался параметр обновления функции значения менее одного (α = 0.01), позволяющий усреднять разные результаты. Наконец, коэффициент дисконтирования был установлен в γ = 0.99, чтобы побудить агента скорее получить вознаграждение, чем отложить его подход к поведению до конца испытания (хотя изменение его значения по умолчанию 1 не повлияло на результаты, представленные здесь. ) Чтобы самостоятельно определить, достаточны ли для обучения обучение 1,500 для обучения, средний размер изменений у исследователя контролировался и, как было установлено, сходился до этого числа итераций.

После обучения конкретный алгоритм, который управляет поведением агента (т. Е. Политика действий, которые он принимает от каждого заданного состояния):

(Уравнение 2)

где π (s) - действие, которое агент будет выбирать из состояния s, а правая часть уравнения возвращает действие (например, изменение ориентации, движения или никакого действия), которое максимизирует сумму вознаграждения и дисконтированную стоимость полученного состояния s '.

В симуляции, о которой сообщается ниже, все состояния, которые посетил агент, были закодированы как 7-мерные векторы, которые представляли информацию как о внешнем «физическом» состоянии агента, так и о его внутреннем «знании». Физическая информация включала как текущее положение агента в пространстве, так и его ориентацию. Информация о знании включала положение объекта (если оно присутствовало) и личность этого объекта (если он был определен агентом). Конкретные типы информации, которые были представлены агентом, показаны в таблице 1.

Таблица 1

Размеры, используемые в симуляциях RL, и возможные значения этих измерений.

В симуляции было общее количество состояний 21,120 [Сноска 2]. Однако состояния, в которых существовал неопознанный положительный и неопознанный отрицательный объект, с точки зрения агента идентичны, поэтому есть только отдельные состояния 16,280. Таким образом, во время каждой итерации обучения необходимо было посетить некоторые из этих «идентичных» состояний дважды, чтобы учесть тот факт, что половина времени, за которым они могут последовать, обнаружение положительного объекта, и половину времени, когда они могут за которым следует обнаружение отрицательного объекта [сноска 3].

В начале каждого симулированного испытательного испытания агент помещался в центр моделируемого линейного трека 11 × 1 с пятью пробелами к «востоку» (т. Е. Справа) агента и пяти пробелов к «западу» "(Т.е. слева) агента. Как показано в таблице 1, вектор состояния агента включал элемент, указывающий его текущее местоположение на дорожке (то есть целое число от 0 до 10), а также элемент (т. Е. Символ «n», «s», e "или" w "), представляющие ее текущую ориентацию (т. е. север, юг, восток или запад, соответственно). Первоначальная ориентация агента всегда была «северной», и никакой другой объект не присутствовал в среде (т. Е. Значение «OBJECT» в векторе состояния агента было установлено равным «0»).

Во время каждого временного шага моделирования агент мог выполнить одно из следующих действий: (1) ничего не предпринимает и остается в текущем местоположении и ориентации; (2) ориентированы на север, юг, восток или запад; или (3) перемещают одно пространство в окружающую среду (восток или запад). Результат каждого действия состоялся на последующем смоделированном временном шаге. Все изменения в местоположении и / или ориентации агента в пространстве произошли путем выбора действий агента. Тем не менее, в течение каждого временного шага моделирования, даже когда было выбрано действие «ничего не делать», время увеличивалось на 1 до конца испытания (т. Е. По времени 20).

Окружение агента было настроено так, что половина времени объект появился в случайном месте (но не в том же месте, что и агент) после десяти временных шагов; 50% объектов были положительными (представлен «+», см. Таблицу 1), а 50% объектов были отрицательными (представленными «-»). Задержка перед появлением объекта была введена, чтобы позволить наблюдать любое поведение, которое агент мог проявить до появления объекта. Если агент не был ориентирован на объект, когда он появился, то элемент, представляющий идентификатор «ОБЪЕКТ» в векторе состояния агента, был изменен с «0» на «?», Чтобы отразить тот факт, что идентичность объекта, который был сейчас настоящее время в настоящее время неизвестно. Однако, если агент был ориентирован на объект, то на последующем временном шаге элемент «ОБЪЕКТ» был установлен равным тождеству объекта, так что «0» стал либо «+», либо «-» для положительного и отрицательные объекты, соответственно.

Если агент переместился в местоположение объекта, то на следующем шаге объект исчез. Если объект был положительным, флаг агента «CONSUMED» был установлен равным true, и агент был вознагражден (вознаграждение = + 10); однако, если объект был отрицательным, флаг «SHOCKED» был установлен в true, и агент был наказан (вознаграждение = -10). (Обратите внимание, что флаги были установлены таким образом, независимо от того, был ли агент идентифицирован или не был идентифицирован объект, например, агент мог использовать объект, не ориентировавшись на него.) На последующем временном шаге «SHOCKED» или Флаг «CONSUMED» был очищен. Агенту также был предоставлен небольшой штраф (подкрепление = -1) за каждое движение или ориентировочное действие и не получил вознаграждения или наказания (подкрепление = 0), если он не предпринял никаких действий.

Как явное поведение (т. Е. Ориентация и движение), так и мера ошибки прогноза вознаграждения были определены количественно для агента. Открытое поведение (т. Е. Список действий, выбранных агентом) использовалось как указание на то, была ли эта задача изучена. Мера ошибки предсказания вознаграждения использовалась для проверки гипотезы о появлении дофаминергического фазового сигнала без вознаграждения. Ошибка предсказания вознаграждения δ была измерена в момент t появления объекта путем вычитания предсказания вознаграждения на предыдущем временном шаге, то есть V (s) на временном шаге t-1, из прогноза вознаграждения, когда появился объект, т. е. V (s) в момент времени t, что дает величину δ = V (st) - V (st-1).

Итоги
Моделирование поведения

Открытое поведение агентов сначала определялось количественно. Результаты этого анализа показали, что после обучения агент подошел и получил положительное подкрепление от всех положительных объектов и никогда не приближался ни к одному из отрицательных объектов. Вместе эти результаты дают поведенческое подтверждение того, что агенты научились правильно выполнять задачу. Этот вывод подкрепляется дополнительным наблюдением, что во время испытаний, когда не было объекта, агент оставался неподвижным. Как и было предсказано, агент ориентирован как на положительные, так и на отрицательные объекты.

Имитированная ошибка прогноза вознаграждения

Центральная гипотеза этой статьи заключается в том, что появление непредсказуемого стимула будет последовательно генерировать положительную ошибку прогноза вознаграждения, даже если этот объект оказывается «негативным» объектом, который всегда наказывается. В подтверждение этой гипотезы агент проявил положительную ошибку прогноза вознаграждения всякий раз, когда появился (неопознанный) объект, но не тогда, когда ничего не появилось. Также согласуется с центральной гипотезой тот факт, что величина фазового ответа агента (δ, измеренная, как описано в разделе «Метод») чувствительна к моделируемой «интенсивности» стимула, определяется с помощью расстояния между агентом и объектом (см. рисунок 1). Регрессионный анализ показал, что величина δ была обратно пропорциональна расстоянию от объекта, так что более близкие объекты вызывали более сильную реакцию (r = -0.999, p <0.001; β = 0.82). Эта отрицательная корреляция была вызвана небольшим штрафом (подкрепление = -1), который накладывался за каждое движение, которое агенту требовалось совершить, чтобы перейти к положительному объекту, поглотить его и тем самым получить вознаграждение.

Рисунок 1

На этом рисунке показана ошибка предсказания вознаграждения (т. Е. Δ) при появлении объекта в зависимости от местоположения объекта относительно местоположения агента. Ответы идентичны как для положительных, так и для отрицательных объектов. Когда нет объекта (подробнее…)

Учитывая, что положительные и отрицательные объекты появились в этом моделировании с равной вероятностью (p = .25), возникает вопрос: почему сигнал ошибки прогноза вознаграждения агента был положительным во время появления объекта? Рассуждая по строкам Какаде и Даяна [7], можно было бы предсказать, что сигнал должен отражать среднее значение всех извлеченных вознаграждений из таких ситуаций и поэтому быть равно нулю. Ключом к пониманию этого результата является то, что RL не только делает агент менее вероятным для выбора действий, которые приводят к отрицательному подкреплению, но и делает агента менее вероятным для ввода состояний, которые в конечном итоге приводят к отрицательному подкреплению. Это приводит к форме «высшего порядка» обучения, которая изображена на рисунке 2 и описана далее.

Рисунок 2

Иллюстрация, показывающая, как агент RL развивает ошибку предсказания положительного вознаграждения, когда он обучается как поощрительным, так и наказывающим стимулам в своей среде и может выбирать, подходить ли к ним и потреблять их. (A) Ситуация до обучения: (подробнее…)

В начале обучения (см. Рисунок 2A) агент ориентирует объекты «+» и «-», приближается к ним и вознаграждается и наказывается потреблением каждого типа объекта. Если полученные пользователем значения состояния не смогли повлиять на действия агента (см. Рисунок 2B), тогда агент будет продолжать приближаться и потреблять объекты. Появление подсказки затем прогнозировало бы среднюю награду 0, и было бы внезапное увеличение ошибки вознаграждения. Однако агент в этом симуляции использует полученные значения состояния для воздействия на его действия (см. Рисунок 2C), и хотя агент все же должен ориентироваться на неизвестный объект, чтобы определить его идентичность, он больше не будет потреблять отрицательный объект, если он приближается он (как если бы он был подготовлен с помощью случайного алгоритма исследования, например, выборки траектории [сноска 1]). Кроме того, поскольку временное различие позволяет прогнозу отрицательного вознаграждения «распространяться» обратно в предшествующие состояния, а потому, что существует небольшая стоимость перемещения в пространстве, агент учится избегать приближения к отрицательному объекту целиком. Таким образом, после того, как эта информация была изучена, значение состояния, когда объект сначала появляется (обозначается как «V» в первом круге в каждой последовательности) не зависит от среднего значения положительного и отрицательного значений состояния, а является вместо этого основывается на среднем положительном и «нейтральном» исходе, который достигается, когда агент учится избегать отрицательных объектов. Вот почему среднее значение всех вознаграждений, фактически полученных обученным агентом, было больше нуля и объясняет, почему предсказание вознаграждения агента (и, следовательно, ошибка прогноза вознаграждения при внезапном появлении объекта) было положительным. Это показано на рисунке 3. Фактически, до тех пор, пока агент может научиться изменять свое поведение и избегать отрицательного объекта, значение отрицательного объекта в конечном счете не имеет отношения к окончательному поведению агента и величине реакции новизны / значимости.

Рисунок 3

(A) Демонстрирует изменения в предсказании вознаграждения, которые произошли бы, если бы RL не привел к обучению более высокого порядка (то есть, если бы агент не мог принять меры, чтобы избежать отрицательного результата), так что агент был вынужден потреблять все объекты (подробнее…)

Результаты моделирования критически зависят от трех допущений. Во-первых, стимулы должны были быть «существенными» в том, что величина подкрепления, предсказанная исходной меткой, была достаточно большой (например, + 10) относительно затрат на ориентирование и приближение (например, -1). Если бы величина была относительно небольшой, агент не научился бы ориентироваться, и не мог бы создать положительный ответ ошибки прогноза. Во-вторых, была необходима также задержка до распознавания раздражителей. (Задержка является прокси-сервером для «новизны» по причине того, что привычный стимул будет быстро распознаваться.) Без задержки агент просто создал бы соответствующую положительную или отрицательную ошибку прогноза вознаграждения, подходящую для фактического воспринимаемого объекта. Наконец, поведение агента должно определяться значениями, которые он узнал. Если агент не мог контролировать свое поведение (т. Е. Приближаться к стимулам), тогда его предсказание вознаграждения при появлении объекта равнялось бы 0, среднему равновероятному положительному и отрицательному результатам.

Обсуждение

Моделирование, описанное в этой статье, показало, что положительная ошибка прогноза вознаграждения возникает, когда появляется непредсказуемый стимул, будь то вознаграждение или наказание, но не может быть сразу идентифицирован. Кроме того, симуляция показала, что размер ошибки прогноза вознаграждения увеличивается с приближением стимула к агенту, который в контексте моделирования является прокси-мерой интенсивности стимула и, следовательно, связан с значимостью. В теоретических рамках RL прогнозы вознаграждения обычно понимаются так, чтобы отражать узнаваемую ценность признанных стимулов или физических и / или когнитивных состояний агента [15]. Тем не менее, сообщаемая здесь ошибка прогноза вознаграждения имеет качественно различную интерпретацию, потому что она генерируется до того, как агент распознал объект. Вместе эти результаты подтверждают гипотезу о том, что принципы RL достаточны для получения ответа, который, по-видимому, не связан с вознаграждением, а скорее связан со свойствами новизны и значимости. Этот вывод имеет несколько важных последствий для нашего общего понимания RL и нашей интерпретации RL как счета обучения вознаграждения в реальных биологических организмах.

Во-первых, прогнозирование вознаграждения, которое генерируется RL-агентом при появлении неопознанного стимула, не обязательно является строгим средним из получаемых вознаграждений, предложенным Какаде и Даяном [7], но на самом деле может быть больше по величине, чем это конкретное среднее. Какаде и Даян предсказывали, что среднее предсказание вознаграждения должно быть равно нулю, потому что, поскольку испытания были вознаграждены и наказаны одинаково часто. Этот неожиданный результат возник, потому что агент узнал «по-политическим» образом; то есть агент узнал не только об отрицательных результатах, но и о его способности избегать этих результатов. Эта способность системы вознаграждения побуждать агента избегать отрицательных результатов должна быть тщательно рассмотрена при переводе нашего понимания RL на реальные организмы. Этот факт потенциально еще более важен, учитывая очевидную асимметрию в способности дофаминергического фазового ответа, чтобы представить положительную ошибку прогноза вознаграждения лучше, чем отрицательная ошибка прогноза вознаграждения [11]. Достаточно указать, что определенная последовательность событий приводит к отрицательному результату, но что для целей выбора действия величина этого результата не имеет значения.

Второй разветвление текущего моделирования заключается в том, что ответ новизны может возникнуть из-за взаимодействия между системами обработки восприятия и системами прогнозирования вознаграждения. В частности, ответ новизны может быть вызван формой сходства между новыми объектами и объектами, которые еще не прошли полную обработку восприятия [Сноска 4]. В этом моделировании новизна была реализована путем введения задержки, прежде чем идентичность объекта (и, следовательно, его полезный или наказывающий характер) стала очевидной для агента. Это было сделано в предположении, что новые объекты занимают больше времени, чтобы идентифицировать, но это предположение также привело к тому, что положительные и отрицательные объекты воспринимались аналогично, когда они впервые появились (т. Е. Оба они были закодированы как «?»). Напротив, Какаде и Даян [7] предполагают, что ответы на новизну и ответы «обобщения» существенно различаются, несмотря на то, что они проявляются аналогично в данных нейрофизиологии.

Третья ветвь текущих результатов моделирования заключается в том, что они показывают, что дополнительные предположения о новизне и формировании бонусов, предложенные Какаде и Даяном [7], не нужны. Вместо этого новизна-подобные ответы могут возникать из реалистичных ограничений обработки восприятия и знания о возможности избежать отрицательных результатов. Это удачно, потому что, как указывает Какаде и Даян, бонусы новизны искажают функцию стоимости, которая изучается агентом, а формирование бонусов влияет на то, как агенты исследуют свои пространства состояний. Таким образом, включение любого из этих предположений уменьшает сущность моделей, основанных на теории RL. Интересно, что результаты, представленные здесь, также помогают объяснить, почему ответ биологической новизны не может быть разрушительным для обучения на основе вознаграждения в реальных организмах: реакция на новизну на самом деле уже предсказана RL. То есть ответ новизны отражает поведение и прогнозы вознаграждения, присущие агенту, который уже узнал что-то о своей среде.

Альтернативная (но не взаимоисключающая) интерпретация результатов настоящего моделирования заключается в том, что действительно существует абстрактная (возможно, когнитивная) награда, которую получают агенты путем ориентации и идентификации объектов. В исследованиях дофаминергической активности могут возникать положительные фазовые реакции на непредвиденные сигналы, которые, как известно, предсказывают награду. Однако это симуляция демонстрирует, как эти реакции могут также возникать в ответ на сигнал, который может в конечном итоге предсказать либо вознаграждение, либо наказание. Единственное неизменное преимущество, которое предсказано подсказкой, - это усиление информации, полученной, когда агент определяет личность объекта. Таким образом, если существует достоверное, выученное «предсказание вознаграждения», когда появляется неопознанный объект, это тот, который выполняется после того, как агент получает знания о том, следует ли приближаться или избегать стимула. Значение этой информации основывается не на среднем достижимом исходе, а основано на знании эффективных результатов - что агент может либо потреблять положительную награду, либо избегать отрицательной награды (см. Рисунок 2).

Наконец, важно отметить, что возможности для принятия конкретных действий (например, для ориентации) могут сами взять на себя полезные свойства через некоторый механизм обобщения или обучения, не включенный в эту симуляцию. Например, сам акт ориентации и определения «что там» может стать полезным для организма, основанного на связи между этим действием и вышеописанной возникающей, всегда положительной ошибкой прогноза вознаграждения при появлении новых стимулов. Аналогичная идея была недавно выдвинута Редгрейвом и Герни [13], которые выдвигают гипотезу о том, что важной целью фазического ответа дофамина является усиление действий, которые происходят перед непредсказуемыми важными событиями. Результаты здесь не являются несовместимыми с этой гипотезой, однако следует отметить, что гипотеза Редгрейва и Герни непосредственно не тестируется в этом моделировании, потому что для агента не требуется никаких действий (т. Е. Разведки) для возникновения значимого события (появление объект). Однако смоделированный фазовый сигнал совпал со временем ориентировочного ответа, предполагая, что эти два могут быть сильно связаны между собой.

В заключение, эта статья продемонстрировала, что принципы RL могут быть использованы для объяснения типа, по-видимому, не связанной с вознаграждением деятельности дофаминергических нейронов. Этот результат вытекает из того факта, что правило обучения в зависимости от времени (например, использование Какаде и Даяна [7]) было встроено в симуляцию, в которой агент мог выбирать действия, которые влияли на конечный результат. В симуляции агент узнал, что результат ориентации на внезапно появившийся объект всегда может быть полезным или нейтральным, потому что отрицательного результата можно избежать. Поэтому, когда агент имел возможность ориентироваться, его ошибка прогноза вознаграждения всегда была положительной, вычислительно аналогичной новизне и ответным реакциям, наблюдаемым в биологических организмах.

Благодарности

Работа, описанная в этой статье, была поддержана NIH R01 HD053639 и NSF Training Grant DGE-9987588. Я хотел бы поблагодарить Эрика Райхле, Тессу Уоррен и анонимного рецензента за полезные комментарии к более ранней версии этой статьи.

1Интересный алгоритм обучения, называемый «Траектория выборки» [17], часто используется вместо Инициации значения, когда пространство состояний становится настолько большим, что оно не может быть исчерпывающим итерационным или легко храниться в памяти компьютера. Вместо того, чтобы перебирать каждое состояние в пространстве состояний и применять уравнение обновления функции значения, основанное на действиях, которые, как представляется, приводят к наибольшей награде, трассировка траектории работает по следующим путям через пространство состояний. Подобно Итерации ценности, действия, ведущие к наибольшей награде, обычно выбираются из каждого состояния, но иногда случайное исследовательское действие выбирается с небольшой вероятностью. Таким образом, алгоритм: из некоторого начального состояния s выберите действие, ведущее к наибольшей награде [например, вознаграждение + γV (s ')] с вероятностью ε, или выберите случайное исследовательское действие с вероятностью 1 - ε. Примените V (s) → V (s) + α [награду + γV (s ') - V (s)] во время не-поисковых действий из состояния s.

Помимо преодоления технических ограничений вычислительного времени и памяти, выборка траектории может быть привлекательной, поскольку она может лучше отражать то, как учатся реальные биологические организмы: путем изучения путей в пространстве состояний. В задаче, описанной в этой статье, Traplingory Sampling дает результаты, которые качественно идентичны результатам, полученным с Итерацией значений. Однако для краткости эти результаты не сообщаются здесь подробно. Значение Итерация была выбрана для моделирования в этой статье по двум основным причинам. Во-первых, поскольку выборка траектории включает стохастичность при выборе траекторий, большое количество ветвлений, которое связано с множеством возможных последовательностей действий в этой задаче, может привести к тому, что агенты, которые испытывают недостаток опыта в некоторых состояниях, если параметр эксплуатации разведки (т. Е. ε-greediness [17]). Это отсутствие опыта работы с конкретными состояниями может привести к разрушению производительности агента при использовании структуры памяти таблицы поиска из-за отсутствия обобщения значения для аналогичных (но, возможно, невидимых) состояний. Таким образом, было предпочтительным использовать исчерпывающее исследование пространства состояний, которое гарантируется с помощью Итерации значения. Во-вторых, использование Итерации значения устранило необходимость указать этот дополнительный параметр эксплуатации разведки, тем самым упростив симуляцию. Обратите внимание, что выборка траектории может в конечном счете приблизиться к Итерации значения, поскольку количество траекторий приближается к бесконечности [17].

2 Количество состояний 21,120 можно рассчитать следующим образом: 11 возможные местоположения агентов × 4 возможные ориентации агентов × (временные шаги 10 до того, как объект может появиться + временные шаги 10, где не появился объект + временные шаги 10, где агент был положительно усиленные + временные шаги 10, где объект был отрицательно усилен + 11 возможные местоположения объектов * (временные шаги 10 с положительным идентифицированным объектом + временные шаги 10 с отрицательным идентифицированным объектом + временные шаги 10 с неопознанным положительным объектом + Временные шаги 10 с неопознанным отрицательным объектом))].

3. Существование этих «скрытых» состояний должно учитываться во время обучения, потому что Value Iteration только «на шаг впереди» от каждого состояния в пространстве состояний. Тот факт, что состояния с отрицательными и положительными неопознанными объектами фактически одинаковы, не позволит узнать и усреднить значения в двух разных последующих состояниях, в которых либо идентифицируется положительный, либо отрицательный объект. С другой стороны, подход выборочной выборки поддерживает скрытую информацию о состоянии (то есть идентификацию неопознанного стимула) на протяжении всего исследования, и поэтому с этим вариантом RL скрытые состояния не являются проблемой.

4One потенциальное возражение против настоящей работы состоит в том, что ориентировочный ответ кажется жестким в мозге млекопитающих, например, в проекциях из верхнего колликулуса [3,14]. В настоящей симуляции агенты не были жестко привязаны к объектам, а вместо этого изучали ориентировочное поведение, которое позволяло в конечном итоге выбирать действие (например, подход или избегание), которые максимизировали вознаграждение. Подобно жестким ответам, эти ориентировочные поведения происходили очень быстро, прежде чем объекты были идентифицированы и были направлены ко всем объектам. Цель этой работы заключалась не в том, чтобы заявить, что все такие ответы изучены, а скорее в том, что они могут сосуществовать в рамках RL. Тем не менее, было бы интересно исследовать, могут ли механизмы, связанные с вознаграждением, устанавливать связь в областях мозга, чтобы генерировать этот фазовый ответ дофамина.

Это файл PDF из неотредактированной рукописи, который был принят для публикации. В качестве сервиса для наших клиентов мы предоставляем эту раннюю версию рукописи. Рукопись будет подвергаться копированию, набору и обзору полученного доказательства до его публикации в его окончательной форме. Обратите внимание, что во время производственного процесса могут быть обнаружены ошибки, которые могут повлиять на содержимое, и все юридические заявления об отказе от ответственности, которые применяются к журналу.

Рекомендации

1. Baird LC. Остаточные алгоритмы: Усиление обучения с аппроксимацией функций. В: Priedetis A, Russell S, редакторы. Машиноведение: труды двенадцатой Международной конференции; 9-12 July.1995.

2. Bunzeck N, Düzel E. Абсолютное кодирование новизны стимула в человеческом существе nigra / VTA. Neuron. 2006; 51 (3): 369-379. [PubMed]

3. Dommett E, Coizet V, Blaha CD, Martindale J, Lefebvre V, Walton N, Mayhew JEW, Overton PG, Redgrave P. Как визуальные стимулы активируют дофаминергические нейроны при короткой латентности. Наука. 2005; 307 (5714): 1476-1479. [PubMed]

4. Дойа К. Металеринг и нейромодуляция. Нейронные сети. 2002 Jun-Jul; 15 (4-6): 495-506. [PubMed]

5. Gillies A, Arbuthnott G. Вычислительные модели базальных ганглиев. Нарушения движения. 2000; 15 (5): 762-770. [PubMed]

6. Horvitz JC. Реакции мезолимбокортикального и нигростриального дофамина на характерные не-наградные события. Neuroscience. 2000; 96 (4): 651-656. [PubMed]

7. Какаде С. Даян П. Допамин: обобщение и бонусы. Нейронные сети. 2002; 15 (4-6): 549-559. [PubMed]

8. Knutson B, Cooper JC. Приманка неизвестного. Neuron. 2006; 51 (3): 280-282. [PubMed]

9. Logothetis NK, Pauls J, Augath M, Trinath T, Oeltermann A. Нейрофизиологическое исследование основы сигнала fMRI. Природа. 2001; 412 (6843): 150-157. [PubMed]

10. McClure SM, Berns GS, Montague PR. Ошибки временного предсказания в пассивной обучающей задаче активируют полосатый ствол человека. Neuron. 2003; 38 (2): 339-346. [PubMed]

11. Niv Y, Duff MO, Даян П. Допамин, неопределенность и обучение ТД. Поведенческие и мозговые функции. 2005 Май 4; 1: 6. [Бесплатная статья PMC] [PubMed]

12. О'Дохерти Дж. П., Даян П., Фристон К., Кричли Х, Долан Р.Ю. Временные разностные модели и обучение, связанное с наградами, в человеческом мозге. Neuron. 2003; 38 (2): 329-337. [PubMed]

13. Redgrave P, Gurney K. Сигнал допамина с короткой задержкой: роль в обнаружении новых действий? Обзоры природы Neuroscience. 2006 Dec; 7 (12): 967-975.

14. Redgrave P, Prescott TJ, Gurney K. Является ли коротко-латентный ответ дофамина слишком коротким, чтобы сигнализировать об ошибке? Тенденции в нейронауках. 1999 Apr; 22 (4): 146-151. [PubMed]

15. Рейхле Э.Д., Лоран П.А. Использование обучения подкрепления, чтобы понять появление «умного» движения глазного движения во время чтения. Психологический обзор. 2006; 113 (2): 390-408. [PubMed]

16. Шульц В. Предсветительный сигнал о дофаминовых нейронах. Журнал нейрофизиологии. 1998; 80 (1): 1-27. [PubMed]

17. Sutton RS, Barto AG. Укрепление обучения: введение. MIT Press; Кембридж: 1998.

18. Танака С.К., Дойа К., Окада Г., Уэда К., Окамото Ю., Ямаваки С. Прогнозирование непосредственных и будущих вознаграждений дифференцированно рекрутирует кортико-базальные ганглии. Природа Нейронаука. 2004; 7 (8): 887-893.