Чутливість ядра до порушень в очікуванні винагороди (2007)

Neuroimage. 2007 Jan 1; 34 (1): 455-61. Epub 2006 Жовтень 17.

Spicer J, Гальван А, Заєць TA, Voss H, Glover G, Кейсі Б.

Source

Саклер Інститут розвитку психобіології, Вейл Корнелл медичний коледж Корнельського університету, 1300 Йорк авеню, Box 140, Нью-Йорк, Нью-Йорк 10021, США.

абстрактний

У цьому дослідженні розглянуто, чи вентральні фронтостріальні області диференційовано кодують очікувані і несподівані результати винагород. Ми параметрично маніпулювали вірогідністю винагороди і досліджували нейронну відповідь на винагороду і невіддачу для кожного ймовірного стану вентрального стриатума і орбітофронтальної кори (OFC). До пізніх випробувань експерименту суб'єкти показали більш повільні поведінкові реакції на стан з найменшою ймовірністю винагороди, відносно стану з найбільшою ймовірністю винагороди. На нервовому рівні як nucleus accumbens (NAcc), так і OFC показали більшу активацію до винагородження відносно невідповідних випробувань, але аккумбензи виявилися найбільш чутливими до порушень у очікуваних результатах винагороди. Ці дані свідчать про чіткі ролі фронтостріатних схем у передбаченні винагороди та у відповідях на порушення очікувань.

 

Вступ

Формування точних прогнозів та виявлення порушень в очікуваннях щодо майбутніх нагородних подій є важливою складовою цілеспрямованої поведінки. Нелюдські дослідження зображень і зображень людей припускають, що багаті дофаміном фронтостріатарні регіони беруть участь у формуванні прогнозів щодо майбутніх результатів винагороди та оптимізації поведінки відповідно. Нейронні механізми помилки прогнозування, пов'язаної з винагородою - відображення невідповідності між фактичною та очікуваною винагородою (Schultz et al., 1997) - були вивчені у нелюдських приматів з точки зору очікуваних і несподіваних винагород та / або пропусків винагороди (Hollerman et al., 1998, Леон і Шадлен, 1999; Трембле і Шульц, 1999). Нинішнє дослідження використовувало просте завдання просторової затримки збігу зразка, подібне до того, що раніше використовувалося з нечеловековими приматами (Fiorillo et al., 2003), які маніпулювали ймовірністю результату винагороди, вивчали нейронні реакції на очікувані і несподівані нагороди.

Конверсійні докази вказують, що дофамінова система є критичною для прогнозування та обробки винагороди (Олдс і Мілнер, 1954; Montague et al., 2004, Шульц, 2002 для перегляду). Дослідження нелюдських приматів показали, що дофамінові нейрони реагують на несподівані первинні нагороди і, зрештою, на стимули, які передбачають ці нагороди (Mirencowicz & Schultz, 1994, Tobler et al., 2005). Нейрони дофаміну в вентральній тегментальній області (VTA) мавпи загорять у відповідь на первинну винагороду, яка непередбачена (або передбачена з низькою ймовірністю) більше, ніж винагорода, яка повністю передбачена (Fiorillo et al., 2003;Tobler et al., 2005). І навпаки, активність тих же нейронів пригнічується, коли очікувана винагорода не доставляється щодо очікуваного упущення винагороди (Fiorillo et al., 2003; Tobler et al., 2005). Таким чином, нейрони дофаміну кодують помилку прогнозування, представляючи невідповідність між фактичним і прогнозованим результатом (Schultz et al., 1997; Tobler et al., 2005), таким чином, що несподіване подання винагороди призводить до збільшення активності та несподіваних пропусків результатів винагороди за зниження активності.

Зміни у випалюванні дофаміну у відповідь на зміни результату винагороди паралельні змінам у поведінці. Дослідження нелюдських приматів виявили, що мавпа збільшить своє попереднє облизування як функцію ймовірності, з якою умовний подразник пов'язаний з подальшим безумовним стимулом (доставкою соку). Таким чином, подразники, що представляють високу ймовірність подальшої доставки соку, викликають більш очікувану облизування (Fiorillo et al., 2003).

Взаємні анатомічні зв'язки існують між регіонами, пов'язаними з цілеспрямованою поведінкою (наприклад, префронтальна кора) і ті, що пов'язані з більш автоматичною апетитною поведінкою (наприклад, вентральний стриатум), де можуть бути обчислені прогнози (Shultz et al., 1997; Haber et al., 2003). Ці області сильно іннервуються дофаміном через проекції нейронів дофаміну середнього мозку, і ці сполуки можуть утворювати функціональну нейроанатомічну схему, яка підтримує оптимізацію поведінки в користь дій, які призводять до найбільших успіхів.

Останнім часом дослідження людської функціональної магнітно-резонансної томографії (ФМРТ) втягували дві області цієї схеми, ядро ​​accumbens і орбітофронтальну кору, у подання помилки прогнозування. Наприклад, було показано, що непередбачувані послідовності подачі соку та води викликають підвищену активність в NAcc відносно передбачуваної доставки (Berns et al., 2001). Помилка прогнозування на основі тимчасового (McClure et al, 2003) і стимул (O'Doherty et al., 2003 O'Doherty et al., 2004) порушення також активують вентральний стриатум.

Роль OFC в прогнозуванні винагороди була менш ясною. Хоча деякі дослідження повідомляли про чутливість OFC в умовах помилки прогнозування (Berns et al., 2001; O'Doherty et al., 2003; Ramnini et al., 2004; Dreher et al., 2005) інші не мають (McClure et al., 2003; O'Doherty et al., 2004; Delgado et al., 2005). Дослідження з меншим наголосом на помилку прогнозування показують більшу активацію OFC до сприятливих щодо несприятливих результатів (O'Doherty et al., 2001; Elliott et al., 2003; Galvan et al., 2005) у дослідженнях вартості винагороди (Gottfried et al., 2003), і валентність (Cox et al., 2005; O'Doherty, 2000 O'Doherty, 2003 O'Doherty, 2004). Нещодавно Kringelbach і Rolls (2004) інтегрували нейровизуализирующую і нейропсихологічну літературу для врахування різноманітних функцій орбітофронтальної кори. Вони пропонують медіально-латеральне розрізнення і передньо-заднє розрізнення. Медіальна і бічна орбітофронтальна кора контролюють цінність винагороди і оцінюють покаранців, відповідно (наприклад O'Doherty et al., 2001 ; Rolls et al, 2003). Вважається, що передня орбітофронтальна кора більше бере участь у поданні абстрактних підсилювачів (O'Doherty et al., 2001) над більш простими, пов'язаними зі смаком (напр De Araujo et al., 2003) і біль (наприклад Craig et al, 2000).

Ці вентральні фронтостріальні області нещодавно (Knutson et al., 2005) були пов'язані з поданням очікуваного значення (добутку очікуваної ймовірності та величини результату) протягом очікування результату винагороди. Враховуючи елегантний, але складний дизайн, який включав сигнали 18, що представляють численні комбінації величини, ймовірності та / або валентності, відсутність статистичної потужності виключає авторів від вивчення активації мозку, пов'язаної з стимулом Результати. У даному дослідженні ми використовували три різні сигнали, кожна з яких була пов'язана з 33%, 66% або 100% винагородою за правильні випробування. Наголос цього дослідження було зроблено результат винагороди швидше, ніж винагородити, щоб розглянути чутливість на нервовому рівні до порушень у винагородах, а не до передбачення нагороди до результату. Цей аналіз є критичним для розуміння передбачуваності винагород через зміни у випалюванні дофаміну, які відбуваються при одержанні винагороди, коли відбуваються порушення прогнозованих очікувань (Fiorillo et al., 2003) апріорний пророкування про аккумбенс та відповідь OFC на очікувану та непередбачувану грошову винагороду базувалися на попередній роботі з зображеннями, що втягувала ці регіони в обробку винагороди (Knutson et al., 2001; 2005; O'Doherty et al., 2001; Galvan et al., 2005). Ми використовували просте просторове уповільнене збіг з парадигмою зразка, подібною до тієї, яку використовували Fiorillo et al (2003) при електрофізіологічних дослідженнях дофамінових нейронів у приматів. Ми припустили, що активність у вентральному стриатумі, зокрема, NAcc, зросте, коли буде отримано несподіване винагороду і зменшиться, коли очікувана винагорода не буде доставлена. Очікувалося, що поведінка паралельно ці зміни з більш швидким середнім часом реакції до сигналів прогнозування винагороди найчастіше, але більш повільний час реакції до сигналу, що найчастіше передбачає винагороду. Крім того, ми висунули гіпотезу, що OFC буде чутливим до результату винагороди (винагороди чи ні), але що accumbens буде найбільш чутливим до змін у винагородах. Ці гіпотези базувалися на звітах попередніх досліджень візуалізації (Galvan et al., 2005, у пресі) і робота нечеловечних приматів, що демонструє більшу залучену стриатию в параметрах імовірності винагороди, відносно активності OFC, що заохочується до винагороди (Schultz et al., 2000) і за фіксованою, а не мінливою сумою винагороди в умовах вірогідності.

Методи

Учасниками

Дванадцять дорослих здорових дорослих (7 жінки), віку 19 – 27 (середній вік 24 років), були включені в експеримент fMRI. Суб'єкти не мали історії неврологічних або психічних захворювань, і всі суб'єкти були схвалені на засіданні, затверджені інституційним комітетом, до участі.

Експериментальна задача

Учасники були протестовані з використанням модифікованої версії завдання з двома виборами із затримкою відповіді, описаної раніше (Galvan et al., 2005) у дослідженні fMRI, пов'язаному з подіями (малюнок 1). У цьому завданні кожні три сигнали були пов'язані з різною ймовірністю (33%, 66% і 100%) для отримання фіксованої суми винагороди. Суб'єктам було доручено натиснути або свій індекс, або середній палець, щоб вказати сторону, на якій з'явився сигнал під час запиту, і відповісти якомога швидше без помилок. Одне з трьох піратських мультфільмів було представлено у випадковому порядку на лівій або правій стороні центрованої фіксації для 1000 мсек (див. малюнок 1). Після затримки 2000 мсек, суб'єктам було запропоновано відповідь двох скриньок зі скарбами на обидві сторони фіксації (2000 мсек) і доручено натиснути кнопку з правом вказівним пальцем, якщо пірат знаходився на лівій стороні фіксації або правий середній палець, якщо пірат перебував на правій стороні фіксації. Після чергової затримки 2000 мсек, або зворотній зв'язок з нагородою (мультиплікаційні монети) або порожній скринька зі скарбами був представлений в центрі екрану (1000 мсек), виходячи з імовірності винагороди цього пробного типу. Перед початком наступного випробування було проведено інтервальний інтервал 12 сек (ITI).

малюнок 1  

Дизайн завдання

Існували три умова нагороди: 33%, 66% і 100% ймовірність винагороди. У умовах 33% суб'єкти були винагороджені на 33% випробувань, і жодна винагорода (порожня скриня зі скарбами) не відбувалася на інших 66% випробувань у цьому стані. У стані 66% суб'єкти отримували винагороду за 66% випробувань і ніякої винагороди за інші 33% випробувань. В умовах 100% суб'єкти були винагороджені за всі правильні випробування.

Суб'єктам було гарантовано $ 50 для участі в дослідженні і їм сказали, що вони можуть заробити до $ 25 більше, залежно від продуктивності (як індексується за часом реакції та точності) щодо завдання. Стимули були представлені інтегрованою функціональною системою візуалізації (IFIS) (PST, Pittsburgh) з використанням РК-відеодисплея у отворі MR-сканера і волоконно-оптичного пристрою для збору відповіді.

Експеримент складався з п'яти прогонів 18 випробувань (6 кожен з 33%, 66% і 100% ймовірності нагородження випробування типів), який тривав 6 хв і 8 з кожним. У кожному циклі були проведені випробування 6 кожної ймовірності винагороди у випадковому порядку. Наприкінці кожного пробігу суб'єкти оновлювалися про те, скільки грошей вони заробили під час цього запуску. Перед початком експерименту суб'єкти отримували детальні інструкції, які включали ознайомлення з використаними стимулами і виконували практику для забезпечення розуміння завдань. Їм сказали, що існує зв'язок між сигналами і монетарними результатами, але точного характеру цих відносин не було виявлено.

Зйомка зображень

Візуалізацію проводили за допомогою 3T General Electric МРТ-сканера за допомогою квадратурної котушки головки. Функціональні скани були отримані за допомогою спіральної послідовності входу та виходу (Glover & Thomason, 2004). Параметри включали TR = 2000, TE = 30, 64 X 64 матриці, 29 5-мм корональних зрізів, 3.125 X 3.125-мм роздільну здатність, перевертання 90 °) для 184 повторень, включаючи чотири відкинуті придбання на початку кожен пробіг. Анатомічні Т1-зважені скани в площині збирали (TR = 500, TE = хв, 256 X 256, FOV = 200 мм, товщина зрізу 5 мм) у тих самих місцях, що і функціональні зображення, на додаток до тривимірного набору даних зображень SPGR з високою роздільною здатністю (TR = 3, TE = 25, товщина зрізу 5 мм, 1.5 зрізи).

Аналіз зображень

Пакет програм Brainvoyager QX (Мозкові інновації, Маастріхт, Нідерланди) був використаний для аналізу випадкових ефектів даних візуалізації. Перед аналізом були виконані наступні процедури попередньої обробки на необроблених зображеннях: корекція руху 3D для виявлення і корекції малих рухів голови шляхом просторового вирівнювання всіх обсягів до першого обсягу шляхом трансформації твердого тіла, корекції часу сканування зрізу (з використанням інтерполяції sinc), видалення лінійних тенденцій, тимчасова фільтрація високих частот для видалення нелінійних дрейфів 3 або меншої кількості циклів за проміжок часу, а також згладжування просторових даних з використанням гауссового ядра з 4mm FWHM. Оцінені рухи обертання та перекладу ніколи не перевищували 2mm для суб'єктів, включених до цього аналізу.

Функціональні дані були спільно зареєстровані з анатомічним обсягом шляхом узгодження відповідних точок і ручних налаштувань для отримання оптимальної придатності шляхом візуального контролю і потім були перетворені в простір Talairach. Під час трансформації Talairach функціональні воксели були інтерпольовані до роздільної здатності 1 мм3 для цілей вирівнювання, але статистичні пороги були засновані на оригінальному розмірі вокселів придбання. Ядро accumbens і орбітальна фронтальна кора були визначені загальним мозковим вокселіном GLM з винагородою як первинний предиктор (див. Нижче), а потім локалізовані координатами Talairach у поєднанні з атласом Дуверной мозку (Talairach & Tournoux, 1988; Дуверной, 1991).

Статистичний аналіз даних візуалізації проводився по всьому мозку з використанням загальної лінійної моделі (GLM), що складається з 60 (5 запускає X 12 суб'єктів) z-нормалізованих функціональних прогонів. Первинним предиктором була винагорода (винагорода проти невиконаних випробувань) у всіх випадках винагороди за результатами винагороди. Провісник був отриманий шляхом згортки ідеальної реакції вагона (припускаючи величину 1 для обсягу представлення завдання та обсяг 0 для решти моментів часу) з лінійною моделлю гемодинамічної відповіді (Boynton et al, 1996) і використовуються для побудови матриці проектування кожного часового курсу в експерименті. Були включені тільки правильні випробування, і були створені окремі предиктори для випробувань помилок. Пост-контрастні аналізи на цікавлять ділянках потім виконували на основі t-тестів на вагу бета-предикторів. Симуляції Монте-Карло виконувалися за допомогою програми AlphaSim в межах AFNI (Кокс, 1996) для визначення відповідних порогових значень для досягнення виправленого альфа-рівня p <0.05 на основі обсягу пошуку приблизно 25,400 3 мм450 та 3 мм20 для орбітальної лобової кори та ядерного накопичення відповідно. Процентні зміни MR-сигналу відносно вихідного рівня (інтервал, що безпосередньо передував XNUMX-секундному випробуванню) в ядрі accumbens та орбітальній фронтальній корі були обчислені з використанням усередненого, пов'язаного з подіями, серед значно активних вокселів, отриманих в результаті контрастного аналізу.

Весь GLM головного мозку був заснований на випробуваннях 50 на кожну тему (n = 12) для загальних випробувань 600 та 30 непровідних випробувань на кожну тему (n = 12) для загальних випробувань 360 на весь експеримент. Подальші контрасти щодо умов імовірності винагороди складалися з різної кількості винагород і без винагород. Для умов 100% імовірності винагороди на випадок 6 (5) за кожну тему (12) було отримано винагороду за 360 для загального числа випробувань 66 та відсутність нерегулярних випробувань. Для умов 4% імовірності винагороди на випадок 5 (12) за кожну тему (240) були отримані винагороди 120 для загальної кількості випробувань 33 та 2. Для умов 5% імовірності винагороди на випадок 12 (120) за кожну тему (240) були отримані винагороди XNUMX для загальної кількості випробувань XNUMX і XNUMX.

результати

Поведінкові дані

Вплив ймовірності винагороди та часу на завдання було перевірено на 3 (33%, 66%, 100%) x 5 (виконується 1 – 5) повторний аналіз дисперсійних вимірів (ANOVA) для залежних змінних середнього часу реакції (RT) ) і середня точність.

Не було виявлено основних ефектів або взаємодії вірогідності винагороди (F [2,22] =. 12, p <.85) часу на завдання (F [4,44] = 2.02, p <.14) або ймовірності нагороди X часу для завдання (F [8, 88] = 1.02, p <.41) для середньої точності. Цього можна було очікувати, оскільки точність учасників досягала рівня стель для всіх ймовірностей експерименту (умова 33% = 97.2%; умова 66% = 97.5%; умова 100% = 97.7%).

Була суттєва взаємодія між ймовірністю винагороди та часом виконання завдання (F [8,88] = 3.5, p <.01) на середньому RT, але основних впливів часу на завдання (F [4,44] = .611 , p <0.59) або ймовірність винагороди (F [2,22] = 2.84, p <0.08). Post-hoc t тести значущої взаємодії показали, що існувала суттєва різниця між умовами ймовірності винагороди 33% та 100% під час пізніх випробувань експерименту (пробіг 5) (t (11) = 3.712, p <, 003), з більш швидким середнім RT для умови 100% ймовірності винагороди (середнє = 498.30, sd = 206.23) відносно умови 33% (середнє = 583.74, sd = 270.23).

Різниця в середньому часу реакції між умовами 100% і 33% збільшилася вдвічі в порівнянні з ранніми і пізніми дослідженнями (див. Малюнок 2a). Для подальшого показу навчання ми ввели реверс, перемикаючи ймовірності винагороди за умови 33% і 100% в кінці експерименту. 2 (ймовірність) X 2 (реверс і не реверс) ANOVA для пізніх випробувань показали значну взаємодію (F (1,11) = 18.97, p = 0.001), зі зниженням RT до умови, що ймовірність 33% неворот (середнє значення = 583.74, sd = 270.24) і 100% у сторно (середнє значення = 519.89, sd = 180.46) (Малюнок 2b).

малюнок 2  

Результати поведінки (RT)

Результати зображень

GLM для правильних випробувань з використанням ймовірності винагороди як основного предиктора моделювався в точці, в якій суб'єкт отримав зворотний зв'язок від винагороди чи ні (тобто результат). Цей аналіз ідентифікував регіони NAcc (x = 9, y = 6, z = −1 і x = −9, y = 9, z = UM1) і OFC (x = 28, y = 39, z = - 6) (див Малюнок 3a, б). Post-hoc t-тести між бета-вагами випробувань із винагородою та без винагород показали більшу активацію в обох цих регіонах до винагороди (NAcc: t (11) = 3.48, p <0.01; OFC x = 28, y = 39, z = −6, t (11) = 3.30, p <0.02)1.

малюнок 3  

Більша активація до нагороджених порівняно з невизначеними результатами в a) nucleus accumbens (x = 9, y = 6, z = UM1; x = UM9, y = 9, z = UM1) і b) орбітальна лобова кора (x = 28, y = 39, z = −6).

Було два можливих результати (винагорода чи відсутність винагороди) для двох графіків періодичних винагород (вірогідність 33% та 66%) та лише один результат для безперервного графіка винагород (100% ймовірність нагородження), який був використаний як умова порівняння. У той час як в описаному вище OFC був основний ефект винагороди (винагорода проти випробувань без винагороди), діяльність OFC не змінювалася як функція ймовірності винагороди в поточному дослідженні [F (2,10) = 0.84, p = 0.46) . На противагу цьому, NAcc продемонстрував чіткі зміни активності до результату як функцію маніпуляції з імовірністю винагороди [F (2,10) = 9.32, p <0.005]. Зокрема, активність NAcc зросла до результатів нагородження, коли винагорода була несподіваною (33% умова ймовірності нагороди) відносно очікуваної (100% базовий стан) [t (11) = 2.54, p <.03 див. Малюнок 4a]. По-друге, активність NAcc зменшилась до відсутності винагороди, коли винагорода очікувалася і не була отримана (умова ймовірності нагороди 66%) щодо винагороди, яка не очікувалася або не отримана (33% умова ймовірності нагороди; t (59) = 2.08, с <.04; див Малюнок 4b). Зауважте, що не було значущих відмінностей в активації між умовами 33% і 66% [t (11) =. 510, p = .62] або між умовами 66% і 100% [t (11) = 1.20, p = .26] у нагороджених результатах. МР-сигнал як функція результату винагороди та ймовірності показаний у малюнок 4.

малюнок 4  

Відсоток MR-сигналу змінюється як функція результату винагороди і ймовірності в nucleus accumbens для a) винагороджується і b) невиплачених результатів.

Обговорення

У цьому дослідженні вивчалися наслідки порушень очікуваних результатів винагороди за поведінкою і нервовою активністю в акумбензі і орбітальній лобовій корі (OFC), показані раніше, щоб бути залученими в очікуванні результатів винагороди (McClure та ін. 2004; Knutson et al., 2005). Ми показали, що як nucleus accumbens, так і OFC були набрані під час нагороджених випробувань відносно невідкладених випробувань, але тільки ядро ​​accumbens показало чутливість до порушень у прогнозованих результатах винагороди в цьому дослідженні. Більша чутливість акумунів до значення винагороди (наприклад, величини) відносно OFC була показана в попередній роботі (Galvan et al., 2005), і разом ці дані показують, що цей регіон може бути залучений до обчислення як величини, так і ймовірності винагороди. Відсутність чутливості в OFC до цих маніпуляцій може відображати більш абсолютне уявлення про винагороду або неоднозначність результату (Hsu et al., 2005). Альтернативно, оскільки сигнал МР був більш змінним в даній області, ці ефекти можуть бути послаблені в поточному дослідженні.

У електрофізіологічних дослідженнях на тваринах було показано, що нейрони дофаміну в середньому мозку (які проектуються до nucleus accumbens) мало реагують на прогнозовані результати винагороди (ймовірність = 1.0), але показують фазову стрільбу, коли винагорода доставляється менше, ніж 100 % ймовірності, навіть після тривалого навчання (Fiorillo et al., 2003). У поточному дослідженні ми показали більшу активність для винагороди, коли винагорода була несподіваною (умова 33%) відносно того, коли очікувалося (умова 100%), що відповідає цим висновкам. Далі, електрофізіологічні дослідження нейронів дофаміну у тварин (наприклад, Fiorillo et al., 2003) показали, що для випробувань, на яких передбачалося винагорода, але не відбувалося, активність нейронів зменшилася. Нинішнє дослідження показало подібну картину в аккумбенс, із зменшенням активності в цьому регіоні в ненагороджених випробуваннях для умови ймовірності винагороди 66% щодо стану 33%.2

Нейрони дофаміну були залучені до навчання двома способами. По-перше, вони кодують непередбачені ситуації між стимулами (або відповіддю) і результатами через сигнали помилок передбачення, які виявляють порушення в очікуванні (Schultz et al., 1997; Mirencowicz і Schultz, 1998; Fiorillo et al., 2003). Таким чином, помилка прогнозування, здається, забезпечує сигнал навчання, який відповідає принципам навчання, які спочатку описані Rescorla і Wagner (1972). По-друге, вони слугують для зміни поведінкових реакцій (Schultz et al., 1997; McClure et al, 2004) таким чином, щоб дії були упередженими до сигналів, які є найбільш прогнозними. У даному дослідженні ми показуємо, що при пізніх випробуваннях експерименту найбільш оптимальними є показники для умови з найбільшою ймовірністю винагороди (100% імовірність винагороди) і найменш оптимальним для найменшого стану ймовірності (33% ймовірність винагороди). Ця поведінкова характеристика узгоджується з попередньою вірогідністю роботи з найменшою оптимальною продуктивністю з найменшою ймовірністю результату винагороди, що свідчить про те, що винагороди непередбачувані були вивчені з часомDelgado та ін., 2005). Для подальшого показу навчання ми ввели реверс, перемикаючи ймовірності винагороди за умови 33% і 100% в кінці експерименту. Ця маніпуляція призвела до послаблення відмінностей між цими умовами, що ще більше підтверджувало ефекти навчання.

Основною метою досліджень, пов'язаних з винагородою, є визначення того, як винагороджується вплив і поведінка упередження (наприклад Роббінс і Еверітт, 1996; Шульц, 2004) крім характеристики, що лежить в основі нейронної обробки. Численні чинники сприяють тому, як швидко і надійно впливають на поведінку, включаючи графіки підкріплення (Скіннер, 1958), значення винагороди (Galvan et al., 2005), і передбачувану винагороду (Fiorillo et al., 2003; Delgado та ін., 2005). Очікуване значення, яке є результатом величини і ймовірності винагороди (Pascal, ca 1600s), впливає на вибір поведінки (фон Фріш, 1967; Montague et al., 1995; Монтегю і Бернс, 2002). Використовуючи дуже подібне завдання, в якому тільки результат (величина замість ймовірності) відрізнявся від поточного дослідження, ми показали, що nucleus accumbens був чутливий до дискретних цінностей винагороди (Galvan et al., 2005). Взяті разом з доказами, представленими тут і в інших місцях (Tobler et al., 2005), ми припускаємо, що вентральний стриатум, ймовірно, сприяє розрахунку очікуваної вартості винагороди, враховуючи її чутливість до ймовірності винагороди та величини.

Роль орбітальної лобової кори в прогнозуванні винагороди узгоджується з функціональними підрозділами цієї області Kringelbach і Rolls (2004). Вони вважають, що більш передні і медіальні частини OFC чутливі до абстрактних маніпуляцій за винагороду. Активація OFC в цьому дослідженні спостерігалася в цьому загальному місці. Електрофізіологічні дослідження вказують на OFC в кодуванні суб'єктивної цінності стимулюючого стимулу (для огляду, \ t O'Doherty, 2004). Наприклад, нейрони OFC розпалюють певний смак, коли тварина голодує, але знижує швидкість їх випалу після того, як тварина насититься, а цінність їжі знижується (Critchley і Rolls, 1996). Як такі, інші припускають, що OFC є найбільш чутливим до відносних винагород (Трембле і Шульц, 1999) і переваги (Schultz et al., 2000). Дослідження нейрозображення показали аналогічну картину у людей з різними стимулами, включаючи смак (O'Doherty et al., 2001; Kringelbach et al., 2003), нюхання (Anderson et al., 2003; Rolls et al, 2003), і гроші (Elliott et al., 2003; Galvan et al., 2005), причому кожна активація змінюється в місці розташування активності від передньої до задньої і від медіальної до латеральної OFC. OFC був залучений в очікуванні винагороди (O'Doherty et al 2002), але тільки в тій мірі, в якій прогностична цінність відповіді пов'язана з конкретним значення пов'язаної винагороди, а не з ймовірністю виникнення цієї винагороди (O'Doherty, 2004 ). У поточному дослідженні ми не бачили чутливості до порушень у прогнозуванні винагороди в OFC. Кнутсон та його колеги (2005) повідомили про співвідношення між оцінками ймовірностей і активацією мозку в очікуванні винагороди в мезіальній префронтальній корі (Кнутсон та ін. 2005), але не конкретно в орбітальній лобовій корі. У контрасті, Ramnani та ін. (2004 • повідомили чутливість OFC до позитивної помилки прогнозування в медіальній орбітальній лобовій корі з використанням завдання пасивного перегляду і Дрехер та ін. (2005) повідомляв про прогнозування помилок OFC у завданні, яке маніпулювало як вірогідністю, так і величиною прогностичних сигналів, але ці непередбачені обставини були вивчені до сканування. Таким чином, поки що можна припустити, що OFC може обчислити передбачувані винагороди, але, можливо, ці розрахунки є більш грубими (тобто підсумовуються в діапазоні ймовірностей) або повільніше формуються відносно точних розрахунків, які, здається, відбуваються в NAcc. Альтернативно, ця область може бути більш чутливою при виявленні стимулів невизначеного та / або неоднозначного значення, як запропоновано Hsu та ін. (2005), ніж при виявленні порушень при прогнозуванні винагороди. Hsu та ін. (2005) показують, що рівень неоднозначності у виборах (невизначений вибір, зроблений через відсутність інформації) позитивно корелює з активацією в OFC. Нарешті, більша мінливість в МР-сигналі в цьому регіоні може зменшити нашу здатність також виявляти ці ефекти.

Фундаментальним питанням поточного дослідження було те, як accumbens і OFC диференційовано кодують прогнозовані результати винагороди відносно непередбачених результатів (тобто порушень в очікуванні). Ми параметрично маніпулювали вірогідністю винагороди і досліджували нейронну реакцію на винагороду та невідповідні випробування для кожного умова вірогідності винагороди. Наші дані узгоджуються з попередніми зображеннями людини та нелюдськими електрофізіологічними дослідженнями (Fiorillo et al., 2003; Шульц, 2002) і припускають, що accumbens і OFC чутливі до результату винагороди (винагорода чи ні). Проте, діяльність у цих регіонах, особливо аккумбен, виявляється модульованою прогнозами про ймовірність результатів винагороди, які формуються за допомогою навчання з плином часу. Ця динамічна схема активації може представляти модифікації активності дофаміну в межах або проектування в ці регіони, оскільки інформація про передбачувану винагороду вивчається і оновлюється.

Виноски

1NAcc [t (11) = 3.2, p <0.04] ​​та OFC [t (11) = 3.5, p <0.02] показали підвищену активність в очікуванні винагороди за періодичну, але не постійну умову винагороди

2Неспроможність досягти результату в умовах 33% призвела до незначного збільшення активності NAcc, а не до зниження, подібно до того, що спостерігалося Knutson et al., 2001. Одним з можливих інтерпретацій цього результату є те, що суб'єкти були внутрішньо мотивовані або винагороджені, якщо вони передбачали, що за цей суд не буде нагороджених, і ніхто не зробив. Альтернативно, оскільки результат винагороди для цих випробувань був найменшим числом в експерименті, активність може відображати продовження навчання для цього стану.

Заява видавця: Це PDF-файл неозброєного рукопису, який був прийнятий до публікації. Як послугу нашим клієнтам ми надаємо цю ранню версію рукопису. Рукопис буде підданий копіюванню, набору тексту та перегляду отриманого доказу до його опублікування в остаточній формі. Зверніть увагу, що під час виробничого процесу можуть бути виявлені помилки, які можуть вплинути на вміст, і всі правові застереження, які стосуються журналу, стосуються.

посилання

  • Андерсон А, Крістофф К, Stappen I, Panitz D, Ghahremani D, Glover G, Gabrieli JD, Sobel N. Роз'єднані нейронні уявлення інтенсивності і валентності в людських нюхах. Природознавство. 2003;6: 196-202.
  • Бернс Г.С., МакКлюр С.М. Передбачуваність модулює реакцію мозку людини на винагороду. Журнал Neuroscience. 2001;21: 2793-2798. [PubMed]
  • Boynton GM, Engel SA, Glover GH, Heeger DJ. Аналіз лінійних систем функціональної магніторезонансної візуалізації у людини V1. Журнал Neuroscience. 1996;16: 4207-4221. [PubMed]
  • Кокс RW. AFNI: Програмне забезпечення для аналізу та візуалізації функціональних магнітно-резонансних нейрозображень. Обчислення в біомедичних дослідженнях. 1996;29: 162-173.
  • Кокс С.М., Андраде А, Джонсурда І.С. Навчання подобатися: Роль людської орбітофронтальної кори в обумовленій нагороді. Журнал Neuroscience. 2005;25: 2733-2740. [PubMed]
  • Craig AD, Chen K, Bandy D, Reiman EM. Термосенсорная активація острівної кори. Природознавство. 2000;3: 184-190.
  • Critchley HD, Rolls ET. Голод і насиченість змінюють відповіді нюхових і зорових нейронів в орбітофронтальній корі приматів. Журнал нейрофізіології. 1996;75: 1673-1686. [PubMed]
  • De Araujo IET, Kringelbach ML, Rolls ET, McGlone F. Людські кортикальні реакції на воду в роті і наслідки спраги. Журнал нейрофізіології. 2003;90: 1865-1876. [PubMed]
  • Delgado MR, Miller M, Inati S, Phelps EA. Дослідження ФМРТ щодо ймовірного навчання, пов'язаного з винагородою. Neuroimage. 2005;24: 862-873. [PubMed]
  • Dreher JC, Kohn P, Берман KF. Нейронне кодування чітких статистичних властивостей інформації винагороди у людини. Кора головного мозку. 2005 Epub перед початком друку.
  • Elliott R, Newman JL, Longe О.А., Deakin JFW. Диференціальні моделі відповіді в стриатуме і орбітофронтальній корі до фінансової винагороди у людини: дослідження параметричної функціональної магнітно-резонансної томографії. Журнал Neuroscience. 2003;23: 303-307. [PubMed]
  • Fiorillo CD, Тоблер П.Н., Шульц В. Дискретне кодування ймовірності винагороди і невизначеності нейронів дофаміну. Наука. 2003;299: 1898-1902. [PubMed]
  • Гальван А, Харе Т., Девідсон М, Спайсер Дж, Гловер Г, Кейсі Б.Я. Роль вентральної фронтотріатальної схеми в навчанні на основі винагороди у людей. Журнал нейронауки. 2005;25: 8650-8656. [PubMed]
  • Гальван А, Харе Т., Парра С, Пенн Дж, Восс Н, Гловер Г, Кейсі Б.Я. Раніше розвиток аккумбенса відносно орбітофронтальної кори може лежати в основі ризикованої поведінки у підлітків. Журнал нейронауки. 2006;26: 6885-6892. [PubMed]
  • Готфрід Я., О'Догерті Дж, Долан Р.Я. Кодування прогностичного значення винагороди в людській амигдале і орбитофронтальной корі. Наука. 2003;301: 1104-1107. [PubMed]
  • Haber SN. Примат базальних гангліїв: паралельні та інтегративні мережі. Журнал хімічної нейроанатомії. 2003;26: 317-330. [PubMed]
  • Hollerman J, Schultz W. Нейрони дофаміну повідомляють про помилку в тимчасовому прогнозуванні винагороди під час навчання. Природознавство. 1998;1: 304-309.
  • Hsu M, Bhatt M, Adolphs R, Tranel D, Camerer CF. Нейронні системи, що реагують на ступінь невизначеності у прийнятті людських рішень. Наука. 2005;310: 1680-1683. [PubMed]
  • Knutson B, Адамс CM, Fong GW, Hommer D. Передбачення збільшення грошової винагороди вибірково набирає nucleus accumbens. Журнал Neuroscience. 2001;21: 1-5.
  • Кнутсон Б., Тейлор Дж., Кауфман М., Петерсон Р., Гловер Дж. Журнал нейронауки. 2005;25: 4806-4812. [PubMed]
  • Kringelbach ML, O'Doherty J, Rolls ET, Andrews C. Активація орбітофронтальної кори людини до рідкого харчового подразника корелює з її суб'єктивною приємністю. Кора головного мозку. 2003;13: 1064-1071. [PubMed]
  • Kringelbach ML, Rolls ET. Функціональна нейроанатомія людської орбітофронтальної кори: свідчення нейровізуалізації та нейропсихології. Прогрес у нейробіології. 2004;72: 341-372. [PubMed]
  • Леон М.І., Шадлен М.Н. Вплив очікуваної величини винагороди на реакцію нейронів у дорсолатеральной префронтальній корі макака. Neuron. 1999;24: 415-425. [PubMed]
  • McClure SM, Бернс Г.С., Монтегю ПР. Тимчасові помилки прогнозування в пасивному навчальному завданні активують людський стриатум. Neuron. 2003;38: 339-346. [PubMed]
  • McClure SM, Laibson DI, Loewenstein G, Cohen JD. Окремі нейронні системи оцінюють негайну і відкладену грошову винагороду. Наука. 2004;306: 503-507. [PubMed]
  • Mirenowicz J, Schultz W. Важливість непередбачуваності для винагородних реакцій у дофаминових нейронів приматів. Журнал нейрофізіології. 1994;72: 1024-1027. [PubMed]
  • Montague PR, Бернс Г.С. Нейронна економіка та біологічні субстрати оцінки. Neuron. 2002;36: 265-284. [PubMed]
  • Montague PR, Hyman SE, Коен JD. Обчислювальні ролі дофаміну в поведінковому контролі. Природа. 2004;431: 379-387.
  • О'Доерті JP. Подання винагород та навчання, пов’язане з винагородою, в людському мозку: ідеї нейровізуалізації Актуальна думка в невробіології. 2004;14: 769-776. [PubMed]
  • O'Doherty JP, Dayan P, Friston K, Critchley H, Dolan RJ. Моделі часових відмінностей та навчання, пов'язане з винагородою, в мозку людини. Neuron. 2003;38: 329-337. [PubMed]
  • O'Doherty JP, Deichmann R, Critchley HD, Dolan RJ. Нейронні реакції під час очікування первинної смакової винагороди. Neuron. 2002;33: 815-826. [PubMed]
  • O'Doherty J, Kringelbach M, Rolls ET, Hornak J, Andrews C. Абстрактні подання та покарання в орбітофронтальній корі людини. Природознавство. 2001;4: 95-102.
  • O'Doherty J, Rolls ET, Francis S, Bowtell R, McGlone F, Kobal G, Renner B, Ahne G.Нухова активація сенсоспецифічної насичення орбітофронтальної кори людини. Neuroreport. 2000;11: 893-897. [PubMed]
  • Олдс J, Мілнер П. Позитивне підкріплення виробляється шляхом електричної стимуляції області перегородки та інших областей мозку щурів. Журнал порівняльної фізіології та психології. 1954;47: 419-427.
  • Ramnani N, Elliott R, Athwal B, Passingham R. Помилка прогнозування для вільної грошової винагороди в людській префронтальній корі. NeuroImage. 2004;23: 777-786. [PubMed]
  • Rescorla R, Wagner A. Класична умова 2: сучасні дослідження та теорія. Black A, Prokasy W, редактори. Appleton Century-Crofts; Нью-Йорк: 1972. С. 64 – 69.
  • Роббінс Т.В., Everitt BJ. Нейро-поведінкові механізми винагороди та мотивації. Актуальні думки в невробіології. 1996;6: 228-235.
  • Rolls E, Kringelbach M, DeAraujo I. Різні уявлення про приємні і неприємні запахи в мозку людини. European Journal of Neuroscience. 2003;18: 695-703. [PubMed]
  • Шульц В., Даян П, ПР Монтегю. Нейронний субстрат передбачення і винагороди. Наука. 1997;275: 1593-1599. [PubMed]
  • Шульц В., Тремблі Л., Холлерман Дж. Отримання винагороди в приматах орбітофронтальної кори і базальних гангліях. Цереб. 2000;10: 272-284. [PubMed]
  • Шульц В. Отримання формального дофаміну і винагороди. Neuron. 2002;36: 241-263. [PubMed]
  • Шульц В. Нейронне кодування основних термінів винагороди теорії навчання тварин, теорії ігор, мікроекономіки та поведінкової екології. Актуальна думка в невробіології. 2004;14: 139-147. [PubMed]
  • Скіннер BF. Графіки графіків підкріплення. Журнал експериментального аналізу поведінки. 1958;1: 103-107.
  • Саттон Р.С., Барто А.Г. Підсилення навчання: Вступ. MIT Press; Кембридж, МА: 1998.
  • Шульц В., Тремблей Л., Холлерман Дж. Нагороджувальна обробка в орбітофронтальній корі приматів і базальних гангліях. Кора головного мозку. 2000;10: 272-284. [PubMed]
  • Talairach J, Tournoux P. Копланарний стереотаксичний атлас мозку людини. Thieme; Нью-Йорк: 1988.
  • Тоблер П.Н., Фіорільо CD, Шульц В. Адаптивне кодування вартості винагороди нейронами дофаміну. Наука. 2005;307: 1642-1645. [PubMed]
  • Tremblay L, Schultz W. Відносні переваги винагороди в орбітофронтальній корі приматів. Природа. 1999;398: 704-708. [PubMed]
  • фон Фріш К. Мова танцю та орієнтація бджіл. Преса Гарвардського університету; Кембридж, Массачусетс: 1967.