Поява чіткості та відповідей на новизну з принципів посилення навчання (2008)

КОМЕНТАРИ: Ще одне дослідження, яке демонструє, що новизна - це власна винагорода. Одним із захоплюючих аспектів Інтернет-порно є нескінченна новизна та різноманітність, можливість швидкого переходу від однієї сцени до іншої та пошук потрібного зображення / відео. Все це збільшує дофамін. Саме цим Інтернет-порно відрізняється від журналів або орендованих DVD.

Повне дослідження: поява відповідей на гнучкість та новизну за принципами посилення навчання

Нейронна мережа. 2008 грудень; 21 (10): 1493 – 1499.

Опубліковано в мережі 2008 вересня 25. doi: 10.1016 / j.neunet.2008.09.004

Патрик А. Лоран, Університет Піттсбурга;

Адресуйте всю кореспонденцію на адресу: Patryk Laurent, University of Pittsburgh, 623 LRDC, 3939 O'Hara St., Pittsburgh, PA 15260 USA, E-mail: [захищено електронною поштою], Офіс: (412) 624-3191, Факс: (412) 624-9149

абстрактний

Недавні спроби відобразити в мозку моделі, засновані на винагороді, як Reinforcement Learning [17], ґрунтуються на спостереженні, що фазове збільшення та зменшення різкості сигналу нейронів, що вивільняють дофамін, між різними прогнозованими та отриманими винагородами [16,5]. Однак ця помилка передбачення нагороди - лише один із декількох сигналів, переданих цією фазовою активністю; інший передбачає збільшення дофамінергічного шипування, що відображає появу яскравих, але непередбачуваних стимулів, що не належать до винагороди [4,6,13], особливо коли організм згодом орієнтується на стимул [16]. Щоб пояснити ці висновки, Какаде і Даян [7] та інші висловили цей роман, несподівані стимули по суті є корисними. Моделювання, про яке повідомляється в цій статті, демонструє, що це припущення не є необхідним, оскільки ефект, який він має на меті, випливає з механізмів навчання прогнозування винагороди в навчанні підкріплення. Таким чином, принципи навчання зміцненню можна використовувати для розуміння не лише активності дофамінергічних нейронів базальних ганглій, пов'язаної з винагородою, а й деяких їх видимо не пов'язаних з винагородою активностей.

Навчання зміцненню (RL) набуває все більшого значення при розробці обчислювальних моделей навчання, заснованого на винагороді в мозку. RL - це клас обчислювальних алгоритмів, який вказує, як штучний «агент» (наприклад, реальний або модельований робот) може навчитися вибирати дії, щоб максимізувати загальну очікувану винагороду [17]. У цих алгоритмах агент засновує свої дії на значеннях, які він вчиться асоціювати з різними станами (наприклад, перцептивними сигналами, пов'язаними зі стимулом). Ці значення можна поступово засвоїти за допомогою часово-різницького навчання, яке коригує значення стану, виходячи з різниці між наявним прогнозом винагороди для агента і фактичним винагородою, яке згодом отримують з оточення. Показано, що ця обчислювана різниця, що називається помилкою прогнозування винагороди, дуже добре співвідноситься з фазовою активністю нейронів, що вивільняють дофамін, випромінюваних із субстанції nigra у приматів, що не належать людині [16]. Крім того, у людини стриатум, який є важливою мішенню дофаміну, демонструє СУМИЙ сигнал fMRI, який, здається, відображає помилку прогнозування винагороди під час навчальних завдань з нагороди [10,12,18]. Це знахідка fMRI доповнює дані фізіології, оскільки передбачається, що смугаста BOLD відображає, хоча б частково, аферентну синаптичну активність [9] і дофамінові нейрони сильно проектуються на смугу.

Незважаючи на те, що вищезазначені фізіологічні відповіді, як видається, пов'язані з розрахунками прогнозу винагороди РЛ, також спостерігається збільшення дофамінергічної фазової активності у відповідь на збуджуючі та / або нові подразники, які, здавалося б, не пов'язані з винагородою [4,6,14,3]. Подібне явище нещодавно спостерігалося у людей, які використовують fMRI [2]. Існує кілька причин, за якими, як кажуть, ця відповідь на «новизну» або «виразність» не пов'язана з помилкою прогнозування винагороди: (1) вона з’являється дуже рано, перш ніж ідентифікація стимулу була оцінена, так що точне прогнозування винагороди не може генеруватися; (2) це відповідає збільшенню нейронної активності (тобто є позитивною) як для аверсивних, так і апетитних подразників; і (3) він обитає [13]. Дійсно, ці реакції на виразність / новизну нейронів, що вивільняють дофамін, є найбільш надійними, коли стимули непередбачувані і призводять до орієнтації та / або поведінки підходу [16] незалежно від можливого результату, підкреслюючи той факт, що вони якісно відрізняються від отриманої винагороди передбачення Тому завданням було пояснити цей очевидний парадокс (тобто, як новизна впливає на помилку прогнозу винагороди) в теоретичних рамках РЛ.

Какаде і Даян [7] намагалися зробити саме це; у своїй статті вони постулюють два способи, завдяки яким відповіді на новинки можуть бути включені до моделей RL дофамінергічної функції - обидва стосувалися включення нових теоретичних припущень. Перше припущення, іменоване бонусами за новинки, передбачає введення додаткової винагороди, коли нові стимули присутні, вище та поза звичайною винагородою, отриманою агентом. Ця додаткова винагорода входить до обчислення, так що навчання ґрунтується на різниці між наявним прогнозом винагороди агента та сумою як звичайної винагороди від навколишнього середовища, так і бонусу за новинку. Таким чином, новизна стає частиною винагороди, яку агент намагається отримати максимально. Друге припущення, що називається формуванням бонусів, може бути реалізоване шляхом штучного збільшення значень станів, пов'язаних з новими подразниками. Оскільки правило тимчасово-різницького навчання, яке використовується в RL, базується на різниці в прогнозуванні винагороди між послідовними станами, додавання постійного бонусного формулювання до станів, пов'язаних з новими стимулами, не впливає на остаточну поведінку агента. Однак реакція на новину все ще виникає, коли агент потрапляє у частину державного простору, яка була "сформована" (тобто, пов'язана з новизною).

Хоча доповнення кожного з цих припущень є достатнім для пояснення багатьох спостережуваних ефектів новизни, припущення також перешкоджають прогресуванню навчання. Як зазначають Kakade та Dayan [7], бонуси за новинки можуть спотворювати функцію значення (тобто значення, пов’язані агентом з кожним станом) і впливати на те, що в кінцевому підсумку дізнається, оскільки вони реалізуються як додаткова винагорода, яка внутрішньо пов'язана з новим держав. Проблема полягає в тому, що агент вчиться передбачати як первинний, так і новизний компоненти винагороди. Хоча Какаде і Даян зазначають, що формування бонусів не спричиняє подібного типу проблем, оскільки вони включаються до прогнозу винагороди від попередніх штатів, їх додавання все ще є проблематичним, оскільки формування бонусів вносить упередження в спосіб, коли агент буде досліджувати його простір штатів. Таким чином, хоча ці додаткові припущення можуть пояснити, як новизна впливає на помилку прогнозування винагороди у РЛ, вони є проблематичними. Далі пояснення йдуть ціною зниження працездатності модельної роботи, яка намагається використовувати РЛ для розуміння поведінки реальних біологічних організмів.

Моделювання, про яке йдеться нижче, було проведене з метою перевірки гіпотези про те, що простий агент RL без будь-яких додаткових припущень створить відповідь на помилку прогнозування винагороди, схожу на відповіді на дофамін, не пов'язані з винагородою, що спостерігаються у біологічних організмах . Агенту RL було надано завдання взаємодіяти з двома типами об'єктів - одним позитивним та іншим негативним - які з'явилися у випадкових місцях його оточення. Для того, щоб отримати максимальну винагороду, агент повинен був навчитися підходити і «споживати» позитивний об'єкт, а також уникати (тобто не «споживати») негативний предмет. Існувало три основні прогнози для моделювання.

Перший прогноз полягав у тому, що, щоб максимально отримати свою винагороду, агент насправді навчився би наближатись та «споживати» позитивні, нагороджуючі об’єкти, одночасно навчаючись уникати негативних, караючих предметів. Друге передбачення було трохи менш очевидним: що агент буде виявляти орієнтуючу відповідь (тобто навчитися зміщувати свою орієнтацію) як на негативні, так і на позитивні об'єкти. Це передбачення було здійснено, оскільки, хоча агент міг "відчути" зовнішній вигляд об'єкта та його місцезнаходження, позитивну чи негативну ідентичність об'єкта (тобто сигнал, який агент врешті-решт навчиться асоціювати з цінністю винагороди об'єкта) агент не міг визначитись до того моменту, поки агент фактично не орієнтується на об'єкт. Нарешті, третє (і найважливіше) прогнозування було пов'язане з імітованою дофамінергічною фазовою реакцією в моделі; Це передбачення полягало в тому, що, коли об'єкт з'явився, агент виявлятиме помилку прогнозування винагороди, обчислювально аналогічну фазовій дофамінової відповіді, що спостерігається в біологічних організмах, і є позитивною як для позитивних, так і для негативних об'єктів. Ця відповідь також передбачалася, що вона змінюватиметься залежно від відстані між збудником та стимулом, що в контексті моделювання було прокси-мірою для "інтенсивності" або виразності стимулу. Як буде продемонстровано нижче, ці прогнози були підтверджені результатами моделювання, демонструючи, що, очевидно, не пов'язані з винагородою відповіді на дофамін можуть в принципі виходити з основних принципів РЛ. Теоретичні наслідки цих результатів для використання РЛ для розуміння активності, пов'язаної з винагородою в біологічних організмах, будуть обговорені в заключному розділі цієї статті.

Метод

Як уже згадувалося, алгоритми RL визначають, як агент може використовувати числові винагороди за часом, щоб дізнатися, які дії він повинен вжити, щоб максимально отримати загальну суму винагороди, яку він отримує. У більшості формулювань це навчання досягається за допомогою помилок прогнозування винагороди (тобто різниці між поточним прогнозом винагороди агента і фактичним отриманим винагородою) для оновлення прогнозів винагороди агента. По мірі того, як прогнози за винагороду дізнаються, агент також може використовувати прогнози для вибору своєї наступної дії. Звичайна політика (визначена в рівнянні 2) полягає в тому, щоб агент вибрав дію, за якою, за прогнозами, призведе до найбільшої винагороди. Фактична винагорода, яка надається агенту в будь-який момент часу, - це сума негайної винагороди плюс деяка частина вартості стану, в яку входить агент, коли дія завершується. Таким чином, якщо агент врешті-решт отримає позитивну винагороду після того, як опинився в певному стані, агент вибере в майбутньому дії, які, ймовірно, приведуть до цих нагороджених станів; навпаки, якщо агент зазнає негативної винагороди (тобто покарання), він уникне в майбутньому дій, які призводять до цих "покараних" станів.

Конкретний алгоритм, який визначає прогнози винагороди, які вивчаються для різних станів (тобто функція значення V), називається ітерацією значення [виноска 1] і формально може бути описаний як:

Для всіх можливих станів s,

(Рівняння 1)

де s відповідає поточному стану, V (s) - поточне прогнозування винагороди для стану s, яке було засвоєно агентом, maxaction∈M {} - оператор максимального значення загальної кількості за набір усіх дій M, доступний агенту, V (s ′) - поточний прогноз винагороди агента для наступного стану s ′, α - деякий рівень навчання (між 0 і 1), а γ - коефіцієнт знижки, що відображає те, як зважувати майбутні винагороди відносно негайних нагород. Початкове значення функції було встановлено таким чином, що V (s) було 0 для всіх станів s.

Функція значення V (s) була реалізована у вигляді таблиці пошуку, яка формально еквівалентна припущенню ідеальної пам'яті. Хоча аппроксиматори функцій, такі як нейронні мережі, з певним успіхом використовувались для представлення значущих функцій [1], таблиця пошуку використовувалась для того, щоб результати не залежали від типів механізму узагальнення, які надаються різними аппроксиматорами функцій. Агент пройшов навчання для вивчення ітерацій 1,500 над його простором стану. Через непередбачуваність ідентичності об'єктів параметр оновлення функції значення менше одного (α = 0.01) використовувався під час навчання, щоб забезпечити усереднення різних результатів. Нарешті, коефіцієнт знижки було встановлено на γ = 0.99, щоб заохотити агента швидше шукати винагороду, а не затримувати свою поведінку підходу до кінця випробування (хоча зміна цього значення на значення 1 за замовчуванням не впливало на результати, про які тут повідомляється. ) Для того, щоб самостійно визначити, чи достатньо ітерацій навчання 1,500 для повного навчання, було відстежено середню кількість змін у вивченому та виявлено, що вони збіглися до цієї кількості ітерацій.

Після тренінгу специфічний алгоритм, що регулює поведінку агента (тобто політика дій, яку він здійснює від кожного даного стану):

(Рівняння 2)

де π (s) - дія, яку агент вибере із стану s, а права частина рівняння повертає дію (наприклад, зміна орієнтації, рух чи відсутність дії), яка максимально збільшує суму винагороди та дисконтовану величину отриманого стану s ′.

У моделюванні, яке повідомляється нижче, всі стани, які відвідував агент, були закодовані як вектори розмірів 7, які представляли інформацію як про зовнішній "фізичний" стан агента, так і про його внутрішній стан "знання". Фізична інформація включала як поточне положення агента в просторі, так і його орієнтацію. Інформація про знання включала положення об'єкта (якщо такий був присутній) та особу цього об'єкта (якщо він був визначений агентом). Конкретні типи інформації, які були представлені агентом, показані в таблиці 1.

Таблиця 1

Розміри, використані в моделюванні RL, та можливі значення цих розмірів.

У моделюванні було загалом стани 21,120 [Зноска 2]. Однак стани, в яких був невстановлений позитивний та неідентифікований негативний об'єкт, з точки зору агента, ідентичні, тому існують лише окремі стани 16,280. Таким чином, під час кожної ітерації навчання необхідно було двічі відвідати деякі з цих "однакових" станів, щоб уникнути того, що половину часу за ними можна було б відкрити для виявлення позитивного об'єкта, а половину часу вони могли б слідкуйте за виявленням негативного об’єкта [виноска 3].

На початку кожного модельованого випробувального випробування агент розміщувався в центрі імітованої лінійної колії 11 × 1 з п'ятьма пробілами на схід (тобто праворуч) агента та п'ять пробілів на "захід" ”(Тобто зліва) від агента. Як показує таблиця 1, вектор стану агента включає елемент, який вказує його поточне розташування на доріжці (тобто ціле число від 0 до 10), а також елемент (тобто символи "n", "s", " e ", або" w "), що представляє його поточну орієнтацію (тобто, північ, південь, схід або захід відповідно). Початкова орієнтація агента завжди встановлювалася як "північ", і жоден інший об'єкт не був присутній у навколишньому середовищі (тобто значення "OBJECT" у векторі стану агента було встановлено рівним "0").

Під час кожного етапу моделювання агент може виконувати одну з таких дій: (1) нічого не робити і залишатися у поточному місці та орієнтації; (2) орієнтуються на північ, південь, схід чи захід; або (3) перемістити один простір у середовищі (схід чи захід). Результат кожної дії відбувався на наступному імітованому часовому кроці. Всі зміни в розташуванні та / або орієнтації агента в просторі відбулися через вибір дії агентом. Однак під час кожного часового кроку моделювання, навіть коли було обрано дію «не робити нічого», 1 час збільшувався до кінця випробування (тобто 20 часу).

Середовище агента було встановлено таким чином, що половину часу об'єкт з'являвся у випадковому місці (але не в тому самому місці, що й агент) через десять часових кроків; 50% об'єктів були позитивними (представлені знаком "+"; див. Таблицю 1), а 50% об'єктів були негативними (представлені символом "-"). Затримка до появи об'єкта була введена, щоб дозволити спостерігати за будь-якою поведінкою, яку агент може проявляти до появи об'єкта. Якщо агент не був орієнтований на об'єкт, коли він з'явився, то елемент, що представляє ідентичність "OBJECT" у векторі стану агента, був змінений з "0" на "?", Щоб відобразити той факт, що особистість об'єкта, який був зараз На даний момент присутній був невідомий. Однак якщо агент був орієнтований на об’єкт, то на наступному часовому кроці елемент "OBJECT" був встановлений рівним ідентичності об'єкта, так що "0" став позитивним "+" або "-" і негативні об'єкти відповідно.

Якщо агент перемістився до місця розташування об'єкта, то під час наступного кроку об’єкт зник. Якщо об'єкт був позитивним, то прапор "CONSUMED" агента було встановлено рівним true та агент отримав винагороду (нагорода = + 10); однак, якщо об'єкт був негативним, тоді прапор "SHOCKED" був встановлений як істина, а агент був покараний (нагорода = -10). (Зверніть увагу, що прапори були встановлені таким чином, незалежно від того, агент чи не ідентифікував об'єкт; наприклад, агент міг споживати об'єкт, не орієнтуючись на нього.) На наступному кроці часу "SHOCKED" або Прапор "СПОЖИВАНО" видалено. Агенту також було призначено невелике покарання (підкріплення = −1) за кожен рух чи орієнтуючу дію, і він не отримав жодної винагороди або покарання (підкріплення = 0), якщо він не виконав жодної дії.

Як відверта поведінка (тобто орієнтація та рух), так і міра помилки прогнозування винагороди були кількісно визначені для агента. Відверта поведінка (тобто список дій, вибраних агентом) використовувався як вказівка ​​того, чи було завдання засвоєно. Міра помилки прогнозування винагороди була використана для перевірки гіпотези про виникнення дофамінергічного фазового сигналу без винагороди. Похибка прогнозування винагороди δ була виміряна в момент t появи об'єкта шляхом віднімання прогнозу винагороди на попередньому етапі часу, тобто V (s) на етапі часу t − 1, від прогнозування винагороди, коли з'явився об'єкт, тобто V (s) в момент t, даючи величину δ = V (st) - V (st − 1).

результати
Модельована поведінка

Спершу кількісну оцінку виявили явну поведінку агентів. Результати цього аналізу показали, що після тренування агент підходив і отримував позитивне підкріплення від усіх позитивних об'єктів і ніколи не звертався до жодного з негативних об'єктів. Разом ці результати дають поведінкове підтвердження того, що агенти навчилися виконувати завдання правильно. Цей висновок підкріплюється додатковим спостереженням, що під час випробувань, коли жоден предмет не з’явився, агент залишався нерухомим. Як було передбачено, агент орієнтується як на позитивні, так і на негативні об'єкти.

Імітація помилки передбачення

Основна гіпотеза цієї роботи полягає в тому, що поява непередбачуваного стимулу послідовно породжує позитивну помилку прогнозування винагороди, навіть якщо цей об'єкт буде "негативним" об'єктом, який завжди карає. На підтвердження цієї гіпотези агент виявляв позитивну помилку передбачення винагороди кожного разу, коли з'являвся (невстановлений) об'єкт, але не тоді, коли нічого не з'являлося. Також узгоджується з центральною гіпотезою той факт, що величина фазової реакції агента (δ, виміряна, як описано в розділі Метод) була чутливою до імітованої "інтенсивності" подразника, визначається з використанням відстані між агентом та об'єктом (див. малюнок 1). Регресійний аналіз показав, що величина δ була в зворотному відношенні до відстані від об’єкта, так що ближчі об’єкти викликали більш сильну реакцію (r = −0.999, p <0.001; β = 0.82). Ця негативна кореляція була викликана невеликим покаранням (підкріплення = -1), яке було накладено за кожен рух, який агент повинен був зробити, щоб перейти до позитивного об'єкта, спожити його і, таким чином, отримати винагороду.

малюнок 1

На цьому малюнку показано помилку передбачення винагороди (тобто δ), коли об’єкт з’явився як функція розташування об’єкта відносно місцезнаходження агента. Відповіді однакові як для позитивних, так і для негативних об’єктів. Коли немає об'єкта (більше…)

З огляду на те, що позитивні та негативні об'єкти з'явилися в цьому моделюванні з однаковою ймовірністю (p = .25), виникає питання: Чому сигнал помилки прогнозування винагороди був позитивним на момент появи об'єкта? Розмірковуючи по лінії Какаде і Даяна [7], можна передбачити, що сигнал повинен відображати середнє значення всіх вивчених нагород у таких ситуаціях, а тому дорівнюватиме нулю. Ключовим моментом для розуміння цього результату є зауваження, що не тільки RL робить агента менше шансом вибирати дії, які призводять до негативного підкріплення, але також робить агента менше шансом вводити стани, які в кінцевому підсумку призводять до негативного підкріплення. Це призводить до своєрідної форми вищого порядку, яка зображена на рисунку 2 та описана далі.

малюнок 2

Ілюстрація, яка показує, як агент RL розвиває позитивну помилку прогнозування винагороди, коли він тренується як заохочувальними, так і караючими стимулами в своєму оточенні і може вибрати, чи слід їм підходити та споживати. (A) Ситуація до навчання: (докладніше ...)

На початку навчання (див. Рисунок 2A) агент орієнтується як на «+», так і на «-» об’єкти, наближається до них і отримує винагороду та покарання за споживання кожного типу об’єктів. Якщо б значення засвідченого стану агента не змогли впливати на дії агента (див. Малюнок 2B), то агент продовжував би наближатися до об'єктів та споживати їх. Тоді поява киї передбачає середню винагороду 0, і буде різке збільшення помилки прогнозування винагороди. Однак агент в цьому моделюванні використовує вивчені значення стану для впливу на його дії (див. Малюнок 2C), і хоча агент все ще повинен орієнтуватися на невідомий об'єкт, щоб визначити його ідентичність, він більше не буде споживати негативний об'єкт, якщо він наблизиться. це (як це може бути, якщо його навчають за допомогою алгоритму випадкового дослідження, як відбору траєкторій [Зноска 1]). Крім того, оскільки часово-різницьке навчання дозволяє негативному прогнозуванню винагороди "поширюватися" назад до попередніх станів, і оскільки є невеликі витрати на переміщення в просторі, агент вчиться уникати наближення до негативного об'єкта повністю. Таким чином, після засвоєння цієї інформації значення стану, коли об'єкт вперше з'являється (позначений як "V" в першому колі в кожній послідовності), не ґрунтується на середньому значенні стану позитивного та негативного результату, а є натомість на основі середнього позитивного та "нейтрального" результату, який досягається, коли агент навчиться уникати негативних об'єктів. Ось чому середнє значення всіх нагород, фактично отриманих навченим агентом, було більшим за нуль, і пояснює, чому прогнозування винагороди агента (і, отже, помилка прогнозування винагороди, коли об'єкт раптом з'являється) виявилося чистою позитивною. Це проілюстровано на малюнку 3. Насправді, доки агент може навчитися змінювати свою поведінку та уникати негативного об’єкта, значення негативного об’єкта в кінцевому рахунку не має значення для кінцевої поведінки агента та величини реакції новизни / влучності.

малюнок 3

(A) Демонструє зміни в прогнозуванні винагороди, які мали б місце, якби RL не призвів до навчання вищого порядку (тобто, якщо агент не міг вжити заходів для уникнення негативного результату), так що агент був змушений спожити все об'єкти (більше…)

Результати моделювання критично залежать від трьох припущень. По-перше, стимули повинні були бути "помітними", оскільки величина підкріплення, передбачувана початковою києю, була досить великою (наприклад, + 10) щодо витрат на орієнтування та наближення (наприклад, −1). Якби величина була порівняно невеликою, агент не навчився б орієнтуватися, а також не створив би позитивну відповідь на помилку прогнозування винагороди. По-друге, також була необхідна затримка до розпізнавання подразників. (Затримка - це проксі для «новизни» під аргументом, що знайомий стимул буде швидко розпізнаний.) Без затримки агент просто створив відповідну позитивну або негативну помилку передбачення винагороди, відповідну фактично сприйманому об'єкту. Нарешті, поведінку агента потрібно було визначити за значеннями, які він засвоїв. Якщо агент не міг би контролювати власну поведінку (тобто, чи наближатись до стимулів), то його прогнозування винагороди, коли з'явився об'єкт, дорівнювало б 0, середньому рівню сумнівних позитивних та негативних результатів.

Загальне обговорення

Моделювання, повідомлене в цій статті, продемонструвало, що позитивна помилка передбачення винагороди виникає тоді, коли з’являється непередбачуваний стимул, або нагородження, або покарання, але його неможливо відразу визначити. Крім того, моделювання показало, що розмір похибки прогнозування винагороди збільшується із наближенням стимулу до агента, що в контексті моделювання є прокси-мірою інтенсивності стимулу і, таким чином, пов'язане з виразністю. У теоретичних рамках RL під прогнозами винагороди зазвичай розуміють засвоєне значення визнаних стимулів або фізичних та / або когнітивних станів агента [15]. Однак помилка прогнозування винагороди, яку повідомляється тут, має якісно іншу інтерпретацію, оскільки вона генерується до того, як агент розпізнає об'єкт. Разом ці результати підтримують гіпотезу про те, що принципи РЛ є достатніми для отримання відповіді, яка, здавалося б, не пов'язана з винагородою, а натомість пов'язана з властивостями новизни та виразності. Цей висновок має кілька важливих наслідків для нашого загального розуміння РЛ та для нашого тлумачення РЛ як обліку нагородження у реальних біологічних організмів.

По-перше, прогноз винагороди, який генерується агентом RL, коли з'являється невстановлений стимул, не обов'язково є суворим середнім рівнем отриманих нагород, як пропонують Какаде та Даян [7], але насправді може бути більшим за величиною, ніж конкретний середній показник. Какаде і Даян передбачили, що середній показник винагороди повинен дорівнювати нулю, оскільки випробування були нагороджені і караються однаково часто. Цей дивовижний результат з'явився тому, що агент вчився "на політиці"; тобто агент дізнався не тільки про негативні результати, а й про його здатність уникати цих результатів. Ця здатність системи винагород змусити агента уникнути негативних результатів повинна бути уважно розглянута при перекладі нашого розуміння RL на реальні організми. Цей факт є потенційно навіть важливішим, враховуючи очевидну асиметрію здатності дофамінергічної фазової відповіді представляти позитивну помилку передбачення винагороди краще, ніж негативну помилку прогнозу винагороди [11]. Може бути достатньо вказати, що певна послідовність подій призводить до негативного результату, але що для вибору дій величина цього результату є неважливою.

Другим розгалуженням поточного моделювання є те, що реакція на новинку може виникнути внаслідок взаємодії між сприйнятливими системами обробки та системами прогнозування винагород. Зокрема, відповідь щодо новизни може бути обумовлена ​​формою подібності між новими об'єктами та об'єктами, які ще не пройшли повну перцептивну обробку [Зноска 4]. У цьому моделюванні новизна була реалізована шляхом введення затримки до того, як ідентичність об'єкта (і, отже, його нагородження чи каральність) стала агентом очевидна. Це було зроблено при припущенні, що нові об'єкти потребують більше часу для ідентифікації, але це припущення також спричинило, що позитивні та негативні об'єкти сприймаються аналогічно при їх першому появі (тобто обидва вони кодуються як "?"). На відміну від цього, Какаде та Даян [7] припускають, що відповіді на новизна та «узагальнюючі» відповіді істотно відрізняються, незважаючи на те, що виявляються аналогічно в даних нейрофізіології.

Третє розгалуження поточних результатів моделювання полягає в тому, що вони показують, що додаткові припущення щодо новизни та формування бонусів, які були запропоновані Kakade та Dayan [7], не потрібні. Натомість відповіді на новинки можуть виникати через реалістичні обмеження перцептивної обробки та знання того, що можна уникнути негативних результатів. Цьому пощастило, оскільки, як вказували Какаде та Даян, бонуси за новинки спотворюють ціннісну функцію, яку вивчає агент, а формуючі бонуси впливають на те, як агенти досліджують свої простори стану. Включення будь-якого з цих припущень, таким чином, зменшує умовність моделей, заснованих на теорії РЛ. Цікаво, що результати, представлені тут, також допомагають пояснити, чому реакція біологічної новинки не може бути руйнівною для навчання, заснованого на винагороді у реальних організмів: реагування на новину насправді вже прогнозується РЛ. Тобто, реакція на новину відображає поведінку та прогнози нагородження, притаманні агенту, який вже щось дізнався про своє оточення.

Альтернативна (але не взаємовиключна) інтерпретація цих результатів моделювання полягає в тому, що дійсно існує абстрактна (можливо когнітивна) винагорода, яку агенти отримують, орієнтуючись на ідентифікуючи об'єкти. У дослідженнях дофамінергічної активності позитивні фазові реакції можуть виникати на непередбачені сигнали, які, як відомо, прогнозують винагороду. Це моделювання, однак, демонструє, як подібні відповіді також можуть виникати у відповідь на сигнал, який в кінцевому підсумку може передбачити або винагороду, або покарання. Єдина послідовна вигода, яка передбачується сигналом, - це отримання інформації, отриманої, коли агент, який вона визначає, ідентичність об'єкта. Таким чином, якщо є дійсне, вивчене "прогнозування винагороди", коли з'являється невстановлений об'єкт, він задовольняється після того, як агент отримає знання про те, чи слід наближатися до стимулу чи уникати його. Цінність цієї інформації базується не на середньому обсязі отриманих результатів, а на основі знання ефективних результатів - що агент може споживати позитивну винагороду або уникати негативної винагороди (див. Рисунок 2).

Нарешті, важливо відзначити, що можливості вчинити певні дії (наприклад, орієнтуватися) можуть самі набути корисних властивостей через якийсь механізм узагальнення чи навчання, не включений до цього моделювання. Наприклад, сам акт орієнтування та визначення "того, що там" може стати корисним для організму на основі зв'язку між цією дією та вище продемонстрованою виникаючою, завжди позитивною помилкою прогнозування винагороди, коли з'являються нові подразники. Подібну ідею нещодавно висунули Redgrave та Gurney [13], які припускають, що важливою метою фазової реакції на дофамін є посилення дій, що відбуваються перед непередбачуваними яскравими подіями. Отримані тут результати не несумісні з цією гіпотезою, однак слід зазначити, що гіпотеза Редгрейв та Герні не перевіряється безпосередньо в цьому моделюванні, оскільки ніяких дій (тобто розвідки) агенту не потрібно було для того, щоб відбутися яскрава подія (поява об’єкт) відбуватися. Однак модельований фазовий сигнал збігся з часом орієнтуючої відповіді, що дозволяє припустити, що два можуть бути сильно пов'язані.

На завершення ця стаття продемонструвала, що принципи RL можна використовувати для пояснення типу, здавалося б, не пов'язаної з винагородою активності дофамінергічних нейронів. Цей результат випливав із того, що правило часової різниці (наприклад, яке застосовували Какаде та Даян [7]) було вбудоване в моделювання, в якому агент міг вибрати дії, які впливали на можливий результат. Під час моделювання агент дізнався, що результат орієнтування на об'єкт, який раптово з'явився, завжди може бути або корисним, або нейтральним, оскільки можна уникнути негативного результату. Тому, коли агент мав можливість зорієнтуватися, його помилка прогнозування винагороди завжди була позитивною, обчислювально аналогічною новинам та реакціям на швидкість, що спостерігаються у біологічних організмах.

Подяки

Робота, описана в цій статті, була підтримана NIH R01 HD053639 та NSF Training Grant DGE-9987588. Я хотів би подякувати Еріку Рейхле, Тессі Уорен та анонімному рецензенту за корисні коментарі до попередньої версії цієї статті.

1Аще один алгоритм навчання посилення, який називається траєкторія вибірки [17], часто використовується замість ітерації значення, коли простір стану стає настільки великим, що його неможливо вичерпно ітератувати або легко зберігати в пам'яті комп'ютера. Замість того, щоб повторювати кожний стан у просторі стану та застосовувати рівняння оновлення функції значення на основі дій, які, як видається, призводять до найбільшої винагороди, вибір траєкторії працює шляхом слідування шляху через простір стану. Аналогічно ітерації цінності, дії, що призводять до найбільшої винагороди, зазвичай вибираються з кожного стану, але іноді вибирається випадкова дослідницька дія з невеликою ймовірністю. Таким чином, алгоритм: Виберіть дію, що веде до найбільшої винагороди [наприклад, винагорода + γV (s ′)] з ймовірністю ε, або виберіть випадкову дослідницьку дію з ймовірністю 1 - ε. Застосовуйте V (s) → V (s) + α [нагорода + γV (s ′) - V (s)] під час не дослідницьких дій зі стану s.

Окрім подолання технічних обмежень обчислювального часу та пам’яті, траєкторійний відбір проб може бути привабливим, оскільки він може краще відображати спосіб навчання реальних біологічних організмів: шляхом вивчення шляхів у просторі стану. У задачі, описаній у цій роботі, відбір траєкторій дає результати, які якісно ідентичні результатам, отриманим при ітерації значення. Однак для стислість ці результати тут детально не повідомляються. Імітація значення була обрана для моделювання в цій роботі з двох основних причин. По-перше, оскільки відбір проб траєкторії передбачає стохастичність у виборі траєкторій, велика кількість розгалуження, що пояснюється багатьма можливими послідовностями дій у цьому завданні, може призвести до виникнення агентів, які не мають досвіду з деякими станами, якщо тільки параметр розвідки-експлуатації (тобто, ε-жадібність [17]) ретельно підбирається. Цей брак досвіду з окремими станами може бути руйнівним для роботи агента, коли використовується структура пам'яті таблиці пошуку через відсутність узагальнення значень для аналогічних (але, можливо, невізуючих) станів. Таким чином, було віддано перевагу вичерпному дослідженню простору держави, що гарантується значенням ітерації. По-друге, використання ітерації значення усунуло необхідність вказувати цей додатковий параметр розвідки-експлуатації, тим самим спрощуючи моделювання. Зауважте, що вибіркова траєкторія може в кінцевому рахунку наблизити значення ітерації, оскільки кількість траєкторій наближається до нескінченності [17].

2Кількість станів 21,120 можна обчислити так: можливі місця агента 11 × можливі орієнтації агента 4 × (часові кроки 10 до появи об’єкта + часові кроки 10, де не з'явився жоден об'єкт + часові кроки 10, де агент був позитивно підкріплені + часові кроки 10, де об’єкт був негативно підсилений + можливі місця розташування об'єкта 11 * (часові кроки 10 з позитивним ідентифікованим об'єктом + часові кроки 10 з негативним ідентифікованим об'єктом + часові кроки 10 з невстановленим позитивним об'єктом + Часові кроки 10 з невстановленим негативним об'єктом)]].

3 Існування цих "прихованих" станів потрібно враховувати під час тренінгу, оскільки значення Ітерації виглядає лише "на крок вперед" від кожного стану в просторі станів. Те, що стани з негативними та позитивними неідентифікованими об'єктами фактично ідентичні, заважає дізнатися про та усереднювати значення у двох різних наступних станах, у яких позитивний чи негативний об'єкт стає ідентифікованим. З іншого боку, підхід вибіркової траєкторії підтримує інформацію про прихований стан (тобто ідентичність невстановленого стимулу) протягом усього випробування, і тому при такому варіанті RL приховані стани не викликають особливих проблем.

4Одне потенційне заперечення цієї роботи полягає в тому, що орієнтована реакція, як видається, є напруженою в мозку ссавців, наприклад, в проекціях від верхнього колікулу [3,14]. У теперішньому моделюванні агенти не були напруженими, щоб орієнтуватися на об'єкти, а навчились орієнтувати поведінку, яка дозволяла можливий вибір дії (наприклад, підходу чи уникнення), що максимізувало нагороду. Подібно до реакцій з жорстким проводом, ці орієнтаційні поведінки відбувалися дуже швидко, до того, як об'єкти були ідентифіковані, і були спрямовані на всі об'єкти. Мета цієї роботи полягала не в тому, щоб стверджувати, що всі подібні відповіді вивчені, а скоріше, що вони можуть співіснувати в межах РЛ. Тим не менш, було б цікаво дослідити, чи можуть бути залучені механізми, пов'язані з винагородою, для встановлення зв'язку в зонах стовбура мозку, щоб генерувати цей фазовий відповідь на дофамін.

Це PDF-файл неозброєного рукопису, який був прийнятий до публікації. Як послугу нашим клієнтам ми надаємо цю ранню версію рукопису. Рукопис буде підданий копіюванню, набору тексту та перегляду отриманого доказу до його опублікування в остаточній формі. Зверніть увагу, що під час виробничого процесу можуть бути виявлені помилки, які можуть вплинути на вміст, і всі правові застереження, які стосуються журналу, стосуються.

посилання

1. Baird LC. Залишкові алгоритми: підсилення навчання з наближенням функції. В: Priedetis A, Рассел S, редактори. Машинне навчання: Матеріали Дванадцятої міжнародної конференції; 9 – 12 липень.1995.

2. Bunzeck N, Düzel E. Абсолютне кодування новизни стимулу в людській речовині nigra / VTA. Нейрон. 2006; 51 (3): 369 – 379. [PubMed]

3. Доммет Е, Койзет V, компакт-диск Blaha, Martindale J, Лефевр V, Walton N, Mayhew JEW, Overton PG, Redgrave P. Як візуальні стимули активують дофамінергічні нейрони при короткій затримці. Наука. 2005; 307 (5714): 1476 – 1479. [PubMed]

4. Доя К. Металеучення та нейромодуляція. Нейронні мережі. 2002 червень – липень; 15 (4 – 6): 495 – 506. [PubMed]

5. Джиліс А, Арбутнотт Г. Обчислювальні моделі базальних ганглій. Розлади руху. 2000; 15 (5): 762 – 770. [PubMed]

6. Horvitz JC. Мезолімбокортикальні та нігростриальні відповіді на дофамін на явні події, що не мають винагороди. Неврознавство. 2000; 96 (4): 651 – 656. [PubMed]

7. Kakade S, Dayan P. Dopamine: узагальнення та бонуси. Нейронні мережі. 2002; 15 (4 – 6): 549 – 559. [PubMed]

8. Knutson B, Cooper JC. Приманка невідомого. Нейрон. 2006; 51 (3): 280 – 282. [PubMed]

9. Логотетіс Н.К., Полс Дж., Агамат М, Тринат Т, Оелтерманн А. Нейрофізіологічне дослідження основи сигналу фМР. Природа. 2001; 412 (6843): 150 – 157. [PubMed]

10. McClure SM, Berns GS, Montague PR. Тимчасові помилки передбачення в пасивному навчальному завді активізують людський смуг. Нейрон. 2003; 38 (2): 339 – 346. [PubMed]

11. Нив Y, Дафф М.О., Дайан П. Дофамін, невпевненість і навчання ТД. Поведінкові та мозкові функції. 2005 травень 4; 1: 6. [Безкоштовна стаття PMC] [PubMed]

12. O'Doherty JP, Dayan P, Friston K, Critchley H, Dolan RJ. Моделі часової різниці та навчання, пов'язане з нагородами, в людському мозку. Нейрон. 2003; 38 (2): 329 – 337. [PubMed]

13. Редгрейв П, Герні К. Сигнал дофаміну короткої затримки: роль у відкритті нових дій? Природа огляди нейронаука. 2006 грудня; 7 (12): 967 – 975.

14. Redgrave P, Prescott TJ, Gurney K. Чи є відповідь на дофамін короткої затримки занадто коротким, щоб сигналізувати про помилку нагородження? Тенденції нейронаук. 1999 квіт.; 22 (4): 146 – 151. [PubMed]

15. Райхле ЕД, Лоран Пенсільванія. Використання підкріплюючого навчання для розуміння виникнення "розумної" поведінки руху очей під час читання. Психологічний огляд. 2006; 113 (2): 390 – 408. [PubMed]

16. Шульц В. Прогнозний нагородний сигнал дофамінових нейронів. Журнал нейрофізіології. 1998; 80 (1): 1 – 27. [PubMed]

17. Sutton RS, Barto AG. Навчання зміцненню: вступ. MIT Press; Кембридж: 1998.

18. Tanaka SC, Doya K, Okada G, Ueda K, Okamoto Y, Yamawaki S. Прогнозування негайних та майбутніх нагород різними способами набирає петлі кортико-базальних ганглій. Нейрова наука. 2004; 7 (8): 887 – 893.