Дофамінова невизначеність і TD навчання (2005)

КОМЕНТАРИ: Невизначеність означає новизну. Це комплексне дослідження підтверджує, що новизна збільшує дофамін. Це також пояснює, що чим більш невизначена винагорода, тим сильніше навчання. Інтернет-порно відрізняється від порно минулого через нескінченну новинку - це означає нескінченні бризки дофаміну. Залежність - це навчання та пам’ять. Перехід на новий жанр порно активує дофамін та навчання - через невизначеність того, що ви збираєтеся пережити. Невизначеність також виникає, коли користувачі порно шукають для порно. Ви не знаєте, що ви збираєтеся побачити, і це піднімає дофамін.
Новинка, невпевненість і прагнення до всіх активують дофамін

Повне дослідження: Невизначеність дофаміну та навчання ТД

Поведінкові та мозкові функції 2005, 1:6doi:10.1186/1744-9081-1-6

Яель Нів1,2, Майкл О Дафф2 та Пітер Даян2
1 Міждисциплінарний центр нейронних обчислень, Єврейський університет, Єрусалим, Ізраїль
Відділ обчислювальної нейронауки 2 Gatsby, University College London, Лондон, Великобританія
Електронна версія цієї статті є повною, і їх можна знайти в Інтернеті за адресою: http://www.behavioralandbrainfunctions.com/content/1/1/6
© 2005 Niv та ін; ліцензіат BioMed Central Ltd.

абстрактний

Суттєві дані свідчать про те, що фазова активність дофамінергічних нейронів у середньому мозку приматів являє собою помилку тимчасової різниці (ТД) у прогнозах майбутньої винагороди, збільшуючись вище та знижуючись нижче базової лінії, що виникає відповідно до позитивних та негативних помилок прогнозування відповідно. Однак клітини дофаміну мають дуже низьку базову активність, що означає, що представлення цих двох видів помилок асиметричне. Ми досліджуємо наслідки цієї, здавалося б, нешкідливої ​​асиметрії для інтерпретації дофамінергічних моделей стрільби в експериментах з імовірнісними нагородами, які призводять до стійких помилок прогнозування. Зокрема, ми показуємо, що при усередненні нестаціонарних помилок прогнозування в ході випробувань повинно бути очевидним наростання активності дофамінових нейронів, величина якого залежить від швидкості навчання. Це точне явище спостерігалося в недавньому експерименті, хоча його тлумачили антиподально, як внутрішнє пробне кодування невизначеності.

Вступ

Існує вражаюче велика кількість фізіологічних, зображувальних та психофармакологічних даних щодо фазової активності клітин дофамінергічних (ДА) в середніх мозках мавп, щурів та людини в класичних та інструментальних завданнях кондиціонування, що передбачають прогнози майбутніх нагород [1-5]. Ці дані були взяті для того, щоб припустити [6,7], що активність нейронів DA представляє помилки часової різниці (TD) в прогнозах майбутньої винагороди [8,9]. Ця теорія ТД дофаміну дає точну обчислювальну основу для розуміння безлічі даних про поведінку та нейрони. Крім того, це дозволяє припустити, що DA надає сигнал, який теоретично підходить для контролю вивчення як прогнозів, так і дій, що оптимізують винагороду.

Деякі з найбільш переконливих доказів на користь теорії ТД походять з досліджень, що досліджують фазову активацію дофамінових клітин у відповідь на довільні подразники (наприклад, фрактальні візерунки на моніторі), які передбачають найближчу наявність винагород (наприклад, краплі соку) . У багатьох варіантах вони показали, що під час навчання фазові сигнали DA переносяться з моменту спочатку непередбачуваної винагороди до часу найбільш раннього сигналу, що передбачає винагороду. Це саме очікуваний результат помилки прогнозування на основі часової різниці (наприклад, [1,2,10-13]). Основний висновок [7] полягає в тому, що коли винагорода несподівана (що неминуче на ранніх випробуваннях), клітини дофаміну сильно реагують на це. Однак коли прогнозується винагорода, клітини відповідають на провісника, а не на очікувану тепер нагороду.

Якщо передбачувана винагорода несподівано пропущена, клітини фазово гальмуються в звичайний час винагороди, гальмування, яке виявляє точні терміни прогнозування винагороди [10], і тимчасові показники яких зараз перебувають під судово-медичним прожектором [14]. Зміщення активності від часу винагороди до часу провісника нагадує зміщення апетитної поведінкової реакції тварини від часу винагороди (безумовного стимулу) до реакції умовного стимулу в класичних експериментах з кондиціонування [7,10] .

У найбільш цікавому недавньому дослідженні Fiorillo et al. [15] розглянув випадок часткового підкріплення, в якому існує стійка, непридатна помилка передбачення у кожному випробуванні. Відверта інтерпретація гіпотези про помилку передбачення ТД дозволила б припустити, що в цьому випадку (a) активність дофаміну під час прогнозних стимулів буде масштабуватися з ймовірністю винагороди, і (b) в середньому протягом випробувань, дофамінергічною реакцією після стимулу і весь час до винагороди має бути нульовим. Хоча перша гіпотеза була підтверджена в експериментах, друга - ні. Усереднені відповіді між пробними показниками показали чітке збільшення активності під час затримки між початком дії стимулу та винагородою, що здавалося невідповідним рахунку TD. Fiorillo та ін. висловлював гіпотезу, що ця діяльність являє собою непевність в отриманні винагороди, а не помилку передбачення.

У цій роботі ми відвідуємо питання постійної помилки прогнозування. Ми показуємо, що вирішальна асиметрія в кодуванні позитивних та негативних помилок прогнозування спонукає очікувати наростання середнього допамінового сигналу між пробними періодами, а також враховує ще дві особливості сигналу DA - очевидна наполеглива активність у момент (потенційного) винагороди та зникнення (або принаймні ослаблення) сигналу, що скачується, але не сигнал у момент нагородження, перед обличчям слідів, а не затримки кондиціонування. Обидва ці явища також спостерігалися в споріднених експериментальних інструментальних процедурах Morris et al. [16]. Нарешті, ми інтерпретуємо сигнал звучання як найкращі наявні в даний час докази природи механізму навчання, завдяки якому відбувається зміщення активності дофаміну до часу прогнозних стимулів.

Невпевненість у виникненні винагороди: збільшення курсу DA

Fiorillo та співавт. [15] пов’язував презентацію п’яти різних зорових стимулів для макак із затримкою, ймовірнісною (pr = 0, 0.25, 0.5, 0.75, 1) нагородами соку. Вони використовували парадигму кондиціонування затримки, в якій стимул зберігається протягом фіксованого інтервалу 2 с, при цьому винагорода доставляється, коли стимул зникає. Після дресирування мавп упереджуючий спосіб вилизування показав, що вони знають про різні ймовірності винагороди, пов’язані з кожним стимулом.

На малюнку 1a показані гістограми популяції позаклітинно-записаної активності клітин DA для кожного пр. Теорія TD передбачає, що фазова активація клітин DA в момент зорових подразників повинна відповідати середній очікуваній винагороді, і так повинна зростати при pr. На малюнку 1a показано саме це - дійсно, серед населення це збільшення досить лінійне. Морріс та ін. [16] повідомляє про подібний результат у інструментальній (слідовій) задачі обумовлення, що також включає ймовірнісне підкріплення.

Рисунок 1. Усереднені помилки прогнозування в імовірнісному завданні винагороди
(a) Відповідь DA у випробуваннях з різною ймовірністю винагороди. Гістограми популяційного періоду стимулювання часу (PSTH) показують сумарну активність кількох нейронів DA протягом багатьох досліджень для кожного pr, об'єднаних між винагородженими та не нагородженими випробуваннями з середньою ймовірністю. (b) Помилка передбачення TD з асиметричним масштабуванням. У змодельованому завданні в кожному дослідженні випадковим чином вибирався один із п’яти стимулів, який відображався в момент часу t = 5. Стимул вимикався при t = 25, в цей час винагорода отримувалась із імовірністю pr, зазначеною стимулом. Ми використовували відображення стимулів із затримкою (див. Текст), причому кожен стимул був представлений різним набором одиниць (`` нейрони ''). Помилка TD становила δ (t) = r (t) + w (t - 1) • x (t) - w (t - 1) • x (t - 1), з r (t) винагородою в момент часу t , і x (t) і w (t) вектори стану і ваги для одиниці. Було використано стандартне онлайн правило навчання TD з фіксованою швидкістю навчання α, w (t) = w (t - 1) + αδ (t) x (t - 1), тому кожна вага представляла очікуване майбутнє значення винагороди. Подібно до Fiorillo та співавт., Ми зображуємо похибку прогнозування δ (t), усереднену для багатьох випробувань, після вивчення завдання. Репрезентативна асиметрія виникає, оскільки негативні значення δ (t) були масштабовані на d = 1/6 до підсумовування змодельованого PSTH, хоча навчання відбувається згідно з немасштабними помилками. Нарешті, щоб врахувати невеликі позитивні відповіді під час стимулу для pr = 0 і під час (передбачуваної) винагороди за pr = 1, видно з (а), ми припустили малий (8%) шанс, що передбачувальний стимул неправильно ідентифікований. (c) відповідь DA у випробуваннях pr = 0.5, розділених на випробування з винагородою (ліворуч) та випробування без винагороди (справа). (d) TD-модель (c). (а, в) Передруковано з дозволу [15] © 2003 AAAS. Дозвіл від AAAS необхідний для всіх інших видів використання.

На відміну від цього, на момент потенційного вручення винагороди теорія ТД передбачає, що в середньому не повинно бути активності, оскільки, в середньому, помилок прогнозування на той час не існує. Звичайно, у ймовірнісному підкріпленні конструкції (принаймні, для pr ≠ 0, 1) насправді є помилка передбачення під час доставки або невручення винагороди за кожне випробування. На випробуваннях, в яких вручається винагорода, помилка передбачення повинна бути позитивною (оскільки отримана винагорода більша, ніж очікується середня винагорода). І навпаки, на випробуваннях без винагороди вона повинна бути негативною (див. Рисунок 1c). Принципово важливо, що за TD, середнє значення цих різниць, зважене на їх вірогідність виникнення, повинно бути дорівнює нулю. Якщо вона не дорівнює нулю, то ця помилка передбачення повинна виступати сигналом пластичності, змінюючи прогнози, поки не буде помилки передбачення. На відміну від цього очікування, дані, показані на рисунку 1a, усереднені як за винагороду, так і за неоплачувані випробування, показують, що в даний час насправді існує позитивна середня активність. Це також видно в даних Morris et al. [16] (див. Малюнок 3c). Позитивні відповіді ДА не виявляють ознак зникнення навіть при значній підготовці (протягом місяців).

Гірше, ніж це для моделі TD, і справді в центрі уваги Fiorillo та ін. [15] - це очевидний приріст активності DA на очікуваний час винагороди. Оскільки величина пандуса найбільша для pr = 0.5, Fiorillo та ін. припустив, що він повідомляє про невизначеність при доставці винагороди, а не про помилку передбачення, і припускав, що цей сигнал може пояснити очевидно апетитні властивості невизначеності (як це спостерігається в азартних іграх).

Як активізація, так і активність у очікуваний час винагороди стають критичними проблемами для теорії ТД. Навчання TD діє, організовуючи діяльність DA за один раз у процесі випробування, яке можна передбачити за допомогою сигналів, наявних на початку цього випробування. Таким чином, не ясно, як будь-яка, здавалося б, передбачувана діяльність, будь то в момент нагородження або раніше в рампі, може зберігатися, не будучи передбачуваною настанням зорового стимулу. Зрештою, пр-залежна діяльність у відповідь на стимул підтверджує його статус дійсного прогноктора. Крім того, ключовим аспектом TD [17] є те, що він поєднує прогнозування вибору дії, використовуючи значення стану як вказівку на майбутні винагороди, наявні в цьому стані, а отже, його привабливість як ціль для дії. З цієї точки зору, оскільки активність нарізування явно не прогнозується попереднім сигналом, вона не може впливати на ранні дії, наприклад рішення про азартні ігри. Наприклад, розглянемо конкуренцію між двома діями: одна в кінцевому підсумку призводить до стану з детермінованою винагородою і, отже, без пандусу, а друга, що веде до стану, а потім імовірнісна винагорода з тим же значенням, і пандус. Оскільки пандус не впливає на активність під час умовного подразника, його не можна використовувати для оцінки або сприяння другій дії (азартним іграм) над першою, незважаючи на додаткову невизначеність.

Ми пропонуємо альтернативну гіпотезу, що обидві ці аномальні схеми стрільби є наслідком обмежень, що випливають із низької базової швидкості активності нейронів DA (2 – 4 Гц) щодо кодування підписаної помилки прогнозування. Як зазначають Fiorillo et al. [15] позитивні помилки прогнозування представлені швидкістю стрільби на ~ 270% вище базової лінії, тоді як негативні помилки представлені зменшенням лише на ~ 55% нижче базової лінії (див. Також [14,18]). Ця асиметрія є прямим наслідком кодування підписаної величини вистрілом, що має низьку базову лінію, хоча, очевидно, може бути лише позитивною. Швидкість стрільби вище базової лінії може кодувати позитивні помилки прогнозування за допомогою великого динамічного діапазону, однак, нижче базових частот стрільби може опускатися лише до нуля, накладаючи обмеження на кодування негативних помилок прогнозування.

Отже, слід бути обережним, інтерпретуючи суми (або середні показники) перистимул-часових гістограм (PSTH) активності під час різних досліджень, як це було зроблено на малюнку 1а. Асиметрично закодовані позитивні та негативні сигнали помилок під час отримання або не отримання винагороди дійсно не повинні складати нуль, навіть якщо вони представляють правильні помилки прогнозування TD. Якщо підсумувати, то низький рівень випалу, що представляє негативні помилки в не нагороджених випробуваннях, не «скасує» швидке випалювання, що кодує позитивні помилки в винагороджених випробуваннях, і в цілому середнє покаже позитивну відповідь. Звичайно, у мозку, оскільки відповіді не усереднюються за (винагороджені та не нагороджені) випробування, а над нейронами в рамках випробування, це не повинно створювати проблем.

Це пояснює постійну позитивну активність (в середньому) на момент вручення або невручення винагороди. Але як бути з пандусом до цього часу? Принаймні, у певних нейронних уявленнях про час між стимулом і винагородою, коли випробування усереднюються, ця сама асиметрія призводить до ТД, що призводить саме до прискорення активності до часу винагороди. Механізм навчання ТД має наслідком поширення на основі пробної спроби помилок прогнозування, які виникають за один раз у процесі випробування (наприклад, під час винагороди) до потенційних прогнозів (таких як КС), які виникають у попередні часи під час кожного випробування. В умовах асиметричного подання помилок позитивного та негативного прогнозування, про які ми нещодавно обговорювали, усереднення цих поширюючих помилок протягом декількох випробувань (як на малюнку 1a) призведе до позитивних засобів для епох у процесі випробування перед винагородою. Точна форма результуючої рампи діяльності залежить від способу подання стимулів у часі, а також від швидкості навчання, про що буде сказано нижче.

Рисунок 2 ілюструє цей погляд на походження сполучної діяльності. Тут використовується подане відображення лінії затримки часу з моменту стимулу. Для цього кожна одиниця ('нейрон') стає активною (тобто приймає значення 1) з певним запізненням після представлення стимулу, так що кожен крок часу після початку дії подразника послідовно представляється стрільбою однієї одиниці. Навчання базується на (дофамінергічно повідомленій) помилці TD, формалізованій як δ (t) = r (t) + V (t) - V (t - 1), з V (t) зваженим входом від активного блоку в час t, і r (t) винагорода, отримана в момент часу t. Оновлення ваг одиниць згідно зі стандартним правилом оновлення TD з фіксованою швидкістю навчання дозволяє V (t) в середньому представляти очікувані майбутні винагороди (див. Підпис на малюнку 1). Оскільки кожен наступний крок часу представляється окремо, помилки прогнозування TD можуть виникати в будь-який час протягом пробного періоду. На рис. 2а показані ці помилки в шести послідовних модельованих випробуваннях, в яких pr = 0.5. У кожному дослідженні під час нагородження виникає нова позитивна або негативна помилка, яка виникає внаслідок отримання або не отримання винагороди, і покрокові помилки попередніх випробувань поширюються до часу стимулу через постійне оновлення ваг (наприклад, помилка виділена червоним кольором). Під час усереднення (або, як у PSTH, підсумовування) за випробуваннями, ці помилки в середньому анулюють одна одну, що призводить до загальної плоскої гістограми в інтервалі після початку дії стимулу і призводить до часу винагороди (чорна лінія на малюнку 2b, підсумовані за 10 випробувань, показаних тонким синім кольором). Однак, коли підсумовується після асиметричного масштабування негативних помилок у коефіцієнт d = 1/6 (що імітує асиметричне кодування позитивних та негативних помилок прогнозування нейронами DA), виникає позитивний приріст активності, як показано чорною лінією на малюнку 2в. Зауважте, що це масштабування є лише репрезентативною проблемою, що виникає внаслідок обмежень кодування негативного значення щодо низької базової швидкості стрільби, і не повинно впливати на вивчення ваг, щоб не засвоїти неправильні значення (див. Обговорення). Однак, оскільки PSTH - це безпосередньо суми нейрональних спайків, ця репрезентативна проблема виникає на отриманій гістограмі.

Рисунок 2. Поширення помилок прогнозування пояснює активність нарощування.
(a) Помилка прогнозування TD в кожному з шести послідовних випробувань (зверху вниз) від моделювання на рисунку 1b, з pr = 0.5. Червоною виділяється помилка під час винагороди у першому з випробувань та її поступове повернення до часу стимулу в наступних випробуваннях. Блокові букви вказують на результат кожного конкретного випробування (R = нагороджений; N = не винагороджений). Послідовність нагород, що передують цим випробуванням, наведена вгорі праворуч. (b) Помилка TD від цих шести випробувань та ще чотири наступні після них накладені. Червоні та зелені лінії ілюструють обертання помилок у цих випробуваннях. Підсумовування цих випробувань призводить до відсутності вище середньої активності (чорна лінія), оскільки позитивні та негативні помилки трапляються у випадковому 50% часу, і таким чином скасовують один одного. (c) Однак, коли помилки прогнозування асиметрично представлені вище та нижче базової швидкості стрільби (тут негативні помилки були асиметрично масштабовані d = 1 / 6 для імітації асиметричного кодування помилок прогнозування нейронами DA), середнє наростання активності виникає при усередненні випробувань, як це проілюстровано чорною лінією. Усі параметри моделювання такі ж, як на малюнку 1b, d.

Фігури 1b, d показують рампу, що виникає внаслідок цього поєднання асиметричного кодування та міжпробного усереднення, для порівняння з експериментальними даними. На малюнку 1b показано PSTH, обчислене з наших модельованих даних шляхом усереднення по асиметрично представленому δ (t) сигналу в ~ випробуваннях 50 для кожного типу подразника. На малюнку 1d показані результати для випадку pr = 0.5, поділеного на виграшні та невідрештовані випробування для порівняння з малюнком 1c. Модельовані результати дуже нагадують експериментальні дані тим, що вони повторюють чисту позитивну відповідь на невизначені винагороди, а також ефект скачування, який є найвищим у випадку pr = 0.5.

Легко отримати середню відповідь на момент винагороди (t = N) у випробуванні T, тобто середню помилку TD δT(N) , із правила навчання TD зі спрощеним представленням часу лінії затримки та фіксована швидкість навчання α. Значення на передостанньому часовому етапі випробування, як функція числа проби (з початковими значеннями, прийнятими рівними нулю), є

де r (t) - винагорода в кінці пробного періоду t. Сигналом помилки на останньому кроці пробного періоду T є просто різниця між отриманою винагородою r (T) і значенням, що передбачає, що винагорода VT - 1 (N - 1). Ця помилка є позитивною з імовірністю pr та негативною з імовірністю (1 - pr). Таким чином, отримуємо масштаб негативних помилок у коефіцієнт d ∈ (0)

Для симетричного кодування позитивних та негативних помилок (d = 1) середня відповідь - 0. Для асиметричного кодування (0) Кондиціонування слідів: тестовий випадок

Важливий тестовий випадок для нашої інтерпретації виникає у варіанті завдання Фіорілло та ін. [15], а також в аналогічному інструментальному завданні Морріса та ін. [16], обидва включають кондиціонування слідів. На відміну від обумовленості затримки (рис. 3а), при якій винагорода збігається зі зміщенням прогнозуючого стимулу, тут існує значний розрив між зміщенням прогнозуючого стимулу та доставкою винагороди (рис. 3b). Очевидно, що в цьому випадку невизначеність щодо винагороди може збільшитися лише через шум при визначенні часового інтервалу між стимулом та винагородою [19], тому за рахунком невизначеності повинні бути порівнянні або навіть більші рампи. Однак експериментальні результати показують, що активність нарощування є меншою або навіть незначною (рис. 3в; г). Однак зауважте, що величина середньої пробної активності в очікуваний час винагороди зберігається, вказуючи на розбіжність між висотою пандуса та сумою позитивної активності в очікуваний час винагороди.

Рисунок 3. Трек кондиціонування з імовірними нагородами.
(а) Ілюстрація одного випробування завдання кондиціонування затримки Fiorillo et al. [15]. Випробування складається з 2-секундного зорового стимулу, зсув якого збігається з доставкою сокової винагороди, якщо така винагорода запрограмована відповідно до ймовірності, пов’язаної із зоровим сигналом. У не нагороджених випробуваннях стимул припинявся без винагороди. В обох випадках інтервали між випробуваннями в середньому становлять 9 секунд. (b) Ілюстрація одного випробування завдання кондиціонування слідів Морріса та співавт. [16]. Принципова відмінність полягає в тому, що зараз існує значна тимчасова затримка між зміщенням стимулу та початком винагороди (період "сліду"), і жоден зовнішній стимул не вказує на очікуваний час винагороди. Це надає додаткову невизначеність, оскільки точні терміни передбачуваної винагороди повинні бути вирішені внутрішньо, особливо в непризначених випробуваннях. У цьому завданні, як і в [15], у кожному дослідженні був представлений один із декількох зорових стимулів (не показаний), і кожен стимул був пов’язаний з ймовірністю винагороди. Тут також мавпу попросили виконати інструментальну реакцію (натискання клавіші, що відповідає стороні, на якій був представлений стимул), невдача якої закінчила судовий процес без винагороди. Випробування були розділені змінними інтервалами між випробуваннями. (c, d) Швидкість стрільби DA (згладжена) відносно базового рівня, приблизно очікуваний час винагороди, у випробувальних випробуваннях з винагородою (c) та у випробуваннях без винагороди (d) (c, d) Передруковано з [16] © 2004 з дозволу Elsevier. Сліди означають загальну позитивну реакцію в очікуваний час винагороди, але з дуже невеликою або відсутністю рампи перед цим. Подібні результати були отримані в класичному завданні на кондиціювання, коротко описаному в [15], яке використовувало процедуру кондиціонування слідів, підтверджуючи, що період відстеження, а не інструментальний характер завдання, зображеного в (b), є вирішальною відмінністю від (a) .

Модель TD від DA дуже легко пояснює ці дивовижні дані. Як показано на малюнку 4, на форму пандуса, хоча і не висоту його піку, впливає швидкість навчання. Розмір помилок прогнозування, що розповсюджуються, визначається частково ступенем навчання, оскільки ці помилки виникають як частина онлайнового вивчення нових прогнозів. Дійсно, відбувається постійне оновлення прогнозів таким чином, що після виграного випробування вищі сподівання на винагороду (і, отже, наступна винагорода має меншу помилку передбачення), і навпаки, після випробування, що не отримує винагороди [18] (див. Малюнок 2a). Це оновлення прогнозів безпосередньо пов'язане зі швидкістю навчання - чим вище рівень навчання, тим більшим є оновлення прогнозів відповідно до поточної помилки прогнозування і тим більша частка помилки прогнозування, яка поширюється назад. Таким чином, при більш високих показниках навчання різниця в очікуванні після винагородженого порівняно з неотриманим випробуванням буде більшою, і, таким чином, помилки передбачення, коли наступна винагорода буде або її немає, буде більшою - отже, і більший і поступовий погіршення.

Рисунок 4. Залежність пандуса від курсу навчання.
Форма пандуса, але не висота його піку, залежить від швидкості навчання. На графіку показано змодельовану активність для випадку pr = 0.5 поблизу часу очікуваної винагороди, для різних показників навчання, усереднених як за винагороду, так і за винагороду. Згідно з навчанням на ТД із стійкими асиметрично кодованими помилками прогнозування, усереднення над активністю у винагородах та необов’язаних випробуваннях приводить до збільшення часу на винагороду. Висота піку пандуса визначається співвідношенням винагороди та необов’язаних випробувань, проте широта рампи визначається швидкістю зворотного поширення цих сигналів помилок від часу (очікуваної) винагороди до час стимулюючого стимулу. Більш висока ступінь навчання призводить до того, що більша частка помилок поширюється назад, а отже, і більша рампа. З нижчим рівнем навчання пандус стає незначним, хоча позитивна активність (в середньому) на момент нагородження все ще зберігається. Зауважимо, що хоча рівень навчання, використаний у моделюванні, зображеному на рисунку 1b, d був 0.8, це не слід сприймати як буквальний синаптичний коефіцієнт навчання нейронної підкладки, враховуючи наше схематичне подання стимулу. У більш реалістичному поданні, в якому популяція нейронів діє на кожному кроці, набагато нижчий рівень навчання дасть подібні результати.

Дійсно, порівняно з кондиціонуванням затримки, кондиціонування відслідковується повільно, що говорить про те, що рівень навчання низький, і, таким чином, має бути нижчий пандус, відповідно до експериментальних результатів. Безпосереднє обстеження рівня навчання в даних Morris et al. [16], завдання якого вимагало надмірної підготовки, оскільки це було не лише підстеженням слідів, але й передбачало інструментальну дію, підтвердило, що це дійсно дуже низько (Genela Morris - особисте спілкування, 2004).

Обговорення

Різниця кодування позитивних та негативних значень нейронами DA очевидна у всіх дослідженнях фазового сигналу DA і може розглядатися як неминучий наслідок низької базової активності цих нейронів. Дійсно, останній безпосередньо надихнув на думку, що противник нейромедіатор, імовірно, серотонін, бере участь у представленні та, отже, вивченні негативних помилок прогнозування [20], щоб вони також мали повну чверть. Однак тут ми обмежилися розглядом ефектів асиметрії на аналіз середньої проби дофамінової активності та показали, що посилення активності ДА, а також середня позитивна відповідь на момент винагороди є результатом безпосередньо асиметричне кодування помилок прогнозування.

Окрім більш чіткого огляду сигналу про помилку, найважливішим наслідком нової інтерпретації є те, що пандуси можна розглядати як сигнатуру явища ТД, яке досі було надзвичайно невловимим. Це прогресивне зворотне розповсюдження сигналу помилки, представленого активністю DA, від часу нагородження до часу прогноктора (мал. 2a). Більшість попередніх досліджень дофамінергічної активності використовували pr = 1, тому зробивши це зворотне розповсюдження в кращому випадку перехідним явищем очевидним лише на початку тренувань (коли, як правило, записи ще не почалися), і потенційно важко розрізнити у повільному режимі, вистрілення нейронів DA. Далі, як згадувалося, зворотне поширення залежить від способу представлення часу між передбачуваним стимулом і винагородою - воно є для представленого вказівки лінії затримки, як у [6], але не для представлень, що охоплюють весь затримка, як у [21]. Зауважимо, що форма пандуса також залежить від використання слідів придатності та так званого правила навчання TD (λ) (моделювання не показано), які забезпечують додатковий механізм мостування часу між подіями під час навчання. На жаль, оскільки форми пандусів у даних досить мінливі (рисунок 1) та галасливі, вони не можуть забезпечити сильних обмежень щодо точного механізму TD, який використовується мозку.
Більш недавні дослідження, що включають стійкі помилки прогнозування, також показують активність, що наводить на думку про поширення зворотного зв'язку, зокрема, рисунок 4 [13]. У цьому дослідженні помилки передбачення були наслідком періодичних змін у завданні, а записи DA були зроблені з початку навчання, таким чином, активність, схожа на зворотне поширення, прямо очевидна, хоча ця активність не була кількісно визначена.

Ми очікуємо, що рампи зберігатимуться протягом усього навчання, лише якщо рівень навчання не зменшиться до нуля в міру прогресування навчання. Теорія Пірса і Холла [22] про контроль навчання за допомогою невизначеності передбачає саме таку стійкість навчання - і з графіків часткового підкріплення є дані, що швидкість навчання може бути вищою, коли більша невизначеність пов'язана з винагородою. Справді, з "раціональної" статистичної точки зору, навчання повинно продовжуватися, коли існує суттєва невизначеність щодо взаємозв'язку між предикторами та результатами, що може виникнути через постійно існуючу можливість зміни прогнозних відносин. Ця форма стійкої невизначеності, разом із невизначеністю через початкове незнання щодо завдання, використовувались для формалізації теорії Пірса і Холла про те, як невизначеність рухає навчання [23]. Таким чином, наше твердження про те, що невизначеність не може бути безпосередньо представлена ​​рампами, безумовно, не слід сприймати як таке, що її подання та маніпуляції не важливі. Навпаки, ми припустили, що невизначеність впливає на висновок кори та навчання через інші нейромодулюючі системи [24], і що вона також може визначати аспекти вибору дій [25].

Слід зазначити різні інші особливості асиметрії. Найважливішим є вплив асиметрії на навчання, залежне від DA [26], якщо нижча базова активність DA сама по собі відповідає за зменшення прогнозів, які є занадто високими. Щоб гарантувати, що вивчені прогнози залишаються правильними, ми повинні припустити, що асиметричне подання не впливає на навчання, тобто, що такий механізм, як різне масштабування потенціювання та депресія синаптичних сильних сторін, компенсує сигнал асиметричного помилки. Звичайно, це може бути виправданим, якщо опонентний нейромедіатор бере участь у навчанні на помилках негативного прогнозування. Це питання ускладнюється припущенням Байєра [14] про те, що швидкість стрільби DA є фактично однаковою для всіх помилок прогнозування нижче деякого негативного порогового значення, можливо, завдяки ефекту від низької швидкості випалу. Таке втратне кодування не впливає на якісну картину ефектів міжпробного усереднення на появу пандусів, але посилює потребу в опоненті сигналу для обов'язково симетричного навчання.

Нарешті, найпрямішим тестом нашої інтерпретації було б порівняння усереднення усередині та між випробуваннями сигналу DA. Було б важливо зробити це в часовому рівні, щоб уникнути проблем усереднення нестаціонарних сигналів. Для того, щоб подолати шум при нейронному випалюванні та визначити, чи дійсно існував поступовий скачок в ході випробування, або, як ми могли б передбачити, - періодичні позитивні та негативні помилки прогнозування, потрібно було б усереднювати серед багатьох нейронів, записаних одночасно в одне дослідження, і, крім того, нейрони, пов’язані з подібними показниками навчання. В якості альтернативи, одиничні сліди нейронів можуть бути регресовані щодо реакції зворотного розмноження, передбаченої попередніми випробуваннями та навчанням ТД. Порівняння величини мінливості, що пояснюється такою моделлю, порівняно з регресією проти монотонного стрибка активності, може вказати на найбільш підходящу модель. Менш прямим, але більш перевіряемым прогнозом є те, що форма пандуса повинна залежати від швидкості навчання. Швидкість навчання може бути оцінена на основі реакції на імовірнісні нагороди, незалежно від форми пандуса (Nakahara et al. [18] показали таким чином, що в їх частковому завданні з підготовки слідів посилення швидкість навчання становила 0.3), і потенційно маніпулюється шляхом варіювання обсягу навчання або частоти, з якою непередбачені завдання змінюються та перевчаються. Дійсно, кількісна оцінка існування та форми пандуса в записаній діяльності DA Nakahara et al., Цілком може пролити світло на поточну пропозицію.

Конфлікт інтересів
Автор (и) заявляють, що вони не мають конкуруючих інтересів.

Вклади авторів
YN, MD та PD спільно замислили та виконали це дослідження та допомогли скласти рукопис. Усі автори прочитали та затвердили остаточний рукопис.

Подяки
Ми дуже вдячні Г. Бергману, К. Фіорільо, Н. Дау, Д. Джоелу, П. Тоблеру, П. Шизгалу та У. Шульцу за дискусії та коментарі, в деяких випадках, незважаючи на різну інтерпретацію даних. Ми особливо вдячні Джинелі Морріс за аналіз її власних опублікованих та неопублікованих даних у зв’язку із скачуванням. Ця робота фінансувалася Тематичною мережею ЄК (YN), благодійним фондом Гетсбі та проектом BIBA ЄС.

посилання

1. Люнгберг Т., Апіцелла П., Шульц В.: Відповіді дофамінових нейронів мавп під час вивчення поведінкових реакцій.
Журнал Neurophysiol 1992, 67: 145-163.
Повернення до тексту
2. Шульц В.: Прогностичний сигнал винагороди дофамінових нейронів. [http://jn.physiology.org/cgi/content/full/80/1/1] веб-сайт
Журнал нейрофізіології 1998, 80: 1-27. Анотація PubMed
Повернення до тексту
3. О'Доерті Дж., Даян П., Фрістон К., Крітчлі Х., Долан Р.: Моделі часових відмінностей і пов’язане з винагородою навчання в людському мозку.
Нейрон 2003, 38: 329-337. Анотація PubMed | Повний текст видавця
Повернення до тексту
4. Сеймур Б., О'Доерті Дж., Даян П., Кольтценбург М., Джонс А., Долан Р., Фрістон К., Фраковяк Р.: Часові відмінні моделі описують навчання вищого порядку у людей.
Природа 2004, 429: 664-667. Анотація PubMed | Повний текст видавця
Повернення до тексту
5. Montague PR, Hyman SE, Cohan JD: Обчислювальна роль дофаміну в контролі поведінки.
Природа 2004, 431: 760-767. Анотація PubMed | Повний текст видавця
Повернення до тексту
6. Монтегю П.Р., Даян П., Сейновський Т.Дж.: Структура для мезенцефальних систем дофаміну на основі прогнозного навчання Хебба.
Журнал Neuroscience 1996, 16: 1936-1947. Анотація PubMed | Повний текст видавця
Повернення до тексту
7. Шульц В., Даян П., Монтегю П. Р.: нейронний субстрат передбачення та винагороди.
Наука 1997, 275: 1593-1599. Анотація PubMed | Повний текст видавця
Повернення до тексту
8. Саттон Р.С.: Вчимося передбачати методом часової різниці.
Машинне навчання 1988, 3: 9-44.
Повернення до тексту
9. Саттон Р.С., Барто А.Г.: [http://www.cs.ualberta.ca/~sutton/book/ebook/the-book.html] веб-сайт
Підсилення навчання: вступ. MIT Press; 1998.
Повернення до тексту
10. Холлерман Дж., Шульц В.: Допамінові нейрони повідомляють про помилку в часовому передбаченні винагороди під час навчання.
Природа Невронаука 1998, 1: 304-309. Анотація PubMed | Повний текст видавця
Повернення до тексту
11. Schultz W, Apicella P, Ljungberg T: Відповіді дофамінових нейронів мавп на винагороду та умовні подразники під час послідовних кроків вивчення завдання із затримкою відповіді.
Журнал Neuroscience 1993, 13: 900-913. Анотація PubMed | Повний текст видавця
Повернення до тексту
12. Тоблер П., Дікінсон А., Шульц В.: Кодування передбачуваного пропуску винагороди дофаміновими нейронами в парадигмі умовного гальмування.
Journal of Neuroscience 2003, 23 (32): 10402-10410. Анотація PubMed | Повний текст видавця
Повернення до тексту
13. Takikawa Y, Kawagoe R, Hikosaka O: Можлива роль дофамінових нейронів середнього мозку в короткостроковій і довгостроковій адаптації саккад до картографування позиції та винагороди.
Журнал нейрофізіології 2004, 92: 2520-2529. Анотація PubMed | Повний текст видавця
Повернення до тексту
14. Bayer H: Роль чорної субстанції в навчанні та моторному контролі.
Кандидатська робота, Нью-Йоркський університет 2004.
Повернення до тексту
15. Fiorillo C, Tobler P, Schultz W: Дискретне кодування ймовірності винагороди та невизначеності дофаміновими нейронами.
Наука 2003, 299 (5614): 1898-1902. Анотація PubMed | Повний текст видавця
Повернення до тексту
16. Морріс Г, Аркадір Д, Невет А, Ваадія Е, Бергман Х: Збігаються, але чіткі повідомлення дофаміну середнього мозку та тонічно активних нейронів смугастого тіла.
Нейрон 2004, 43: 133-143. Анотація PubMed | Повний текст видавця
Повернення до тексту
17. Барто А., Саттон Р., Воткінс К.: Навчання та послідовне прийняття рішень. У навчанні та обчислювальній нейронауці: основи адаптивних мереж. Під редакцією Gabriel M, Moore J. Cambridge, MA: MIT Press; 1990:539-602.
Повернення до тексту
18. Nakahara H, Itoh H, Kawagoe R, Takikawa Y, Hikosaka O: Допамінові нейрони можуть представляти залежну від контексту помилку передбачення.
Нейрон 2004, 41: 269-280. Анотація PubMed | Повний текст видавця
Повернення до тексту
19. Gallistel CR, Gibbon J: Time, rate and conditioning.
Психологічний огляд 2000, 107: 289-344. Анотація PubMed | Повний текст видавця
Повернення до тексту
20. Daw ND, Kakade S, Dayan P: Протилежні взаємодії між серотоніном і дофаміном.
Нейронні мережі 2002, 15 (4 – 6): 603-616. Анотація PubMed | Повний текст видавця
Повернення до тексту
21. Сурі Р.Е., Шульц В.: Модель нейронної мережі з сигналом підкріплення, подібним до дофаміну, який вивчає задачу просторової затримки відповіді.
Нейрологія 1999, 91: 871-890. Анотація PubMed | Повний текст видавця
Повернення до тексту
22. Пірс Дж.М., Зал G: Модель павлівського навчання: варіації в ефективності умовних, але не безумовних стимулів.
Психологічний огляд 1980, 87: 532-552. Анотація PubMed | Повний текст видавця
Повернення до тексту
23. Даян П., Какаде С., Монтегю П.Р.: Навчання та вибіркова увага.
Природа Невронаука 2000, 3: 1218-1223. Анотація PubMed | Повний текст видавця
Повернення до тексту
24. Даян П, Ю А: Очікувана та раптова невизначеність: Ach і NE в неокортексі. [http://books.nips.ce/papers/files/nips15/NS08.pdf] веб-сайт
Системи розвитку нейронної обробки інформації за редакцією Діттеріха Т, Беккера С., Гахрамані З. Кембриджа, МА: MIT Press; 2002, 14: 189-196.
Повернення до тексту
25. Daw N, Niv Y, Dayan P: дії, політика, цінності та базальні ганглії. Недавні прориви в дослідженні базальних гангліїв. Під редакцією Bezard E. Нью-Йорк, США: Nova Science Publishers, Inc; в пресі.
Повернення до тексту
26. Wickens J, Kötter R: Cellular models of armationemnt. У моделях обробки інформації в базальних гангліях. Під редакцією Houk JC, Davis JL, Beiser DG. MIT Press; 1995:187-214.
Повернення до тексту