Stroški pridobitve povečujejo napoved napake napovedi napak dopaminskih nevronov srednjega mozga (2019)

Minimalizem

Znano je, da dopaminski nevroni srednjega mozga kodirajo napake napovedovanja nagrad (RPE), ki se uporabljajo za posodabljanje napovedi vrednosti. Tu preučimo, ali se RPE signali, ki jih kodirajo nevroni srednjega možganov, modulirajo s stroški, plačanimi za pridobitev nagrade, s snemanjem iz dopaminskih nevronov v budnih obnašajočih se opicah med izvajanjem naporne sakade naloge. Odzivi dopaminskih nevronov na napovedi, ki napovedujejo nagrado in izplačilo nagrad, so se po izvedbi dragega ukrepa povečali v primerjavi z manj dragim dejanjem, kar kaže, da se RPE izboljšajo po uspešnosti dragega ukrepa. Na vedenjski ravni se združenja spodbud za nagrajevanje naučijo hitreje po izvedbi dragega ukrepa v primerjavi z manj dragim dejanjem. Tako se podatki o stroških akcije obdelujejo v sistemu nagrajevanja dopamina na način, ki ojača naslednji dopaminski RPE signal, kar posledično spodbuja hitrejše učenje v situacijah z visokimi stroški.

Predstavitev

Ljudje in živali imajo raje nagrado, ki jo prejmejo, ko so vložili veliko truda v primerjavi z isto nagrado po manjši količini napora1,2,3. Za ta učinek je bilo več razlag, kot je utemeljitev napora4,5 in kontrastni učinek6, pri čemer se večja vrednost pripiše izidu, ki ga dobimo po plačanem naporu. Vendar še vedno ni jasno, ali in kako se obdelava informacij o nagradah v možganih modulira s prizadevanji, pridobljenimi za pridobitev nagrade.

Posebej smo se osredotočili na dopaminski sistem srednjega mozga, glede na vlogo tega sistema pri spodbujanju vedenjske prilagoditve nagradam7,8,9. Znano je, da dopaminski nevroni predstavljajo signale napovedi napake napovedi (RPE), ki lahko olajšajo učenje napovedi nagrajevanja z bazalnimi gangliji10,11,12,13,14,15,16,17. Moč RPE je odvisna od količine, kakovosti in subjektivne vrednosti ali koristnosti nagrade7,18,19,20,21. Poleg tega je dopaminergična aktivnost odvisna od stroškov in / ali napora22,23. Na podlagi tega smo predpostavljali, da bo dopaminergični signal RPE neposredno moduliran s stroški, plačanimi za pridobitev nagrade. Poleg tega, ker je signal RPE vzročno vključen v posredovanje učenja združenj za nagrajevanje spodbud24,25,26, smo domnevali, da bi stroški, plačani za pridobitev nagrade, neposredno povečali hitrost učenja spodbujevalnih in nagrajevalnih združenj.

Za preverjanje svojih hipotez smo pri dveh japonskih opicah merili tako vedenje kot dopaminergično aktivnost, medtem ko sta opravljali nalogo, ki temelji na sakade. Opice se hitreje odzovejo na napoved, ki napoveduje nagrado, ki je predstavljena po akciji z visokimi stroški (HC) v primerjavi z akcijo po nizki ceni (LC). Aktivnost dopaminergičnih nevronov do napovedovanja nagrad se poveča za plačani strošek. Poleg tega povečujejo hitrost učenja združenju spodbuda-nagrada tudi plačani stroški. Zato predlagamo, da stroški, plačani za pridobitev nagrad, povečajo RPE signal v dopaminskih nevronih in s tem krepijo združitve, ki nagrajujejo spodbujevalce.

Rezultati

Visoka in nizka cena (HLC) sakade

Za proučitev vpliva plačanih stroškov na vedenje in na aktivnost dopaminskih nevronov so opice opravile sakadezno nalogo z dvema stroškovnima pogojema (sl. 1a, glej Metode). V preskusih s HC so opice hitro prišle do cilja in zadržale pogled nanj, ne da bi dalj časa utripale (sl. 1b; zelene črte). V nasprotju s tem so se na preskušanjih z LC opice sprva svobodno ozrle naokoli, preden so se za krajši čas pritrdile (sl. 1b, vijolične črte). Ker je opicam težko ohraniti dolgo fiksacijo, so med zamudami na preskusih s HC naredili več napak (sl. 1c). Da bi nadzirali posledično razliko v verjetnosti nagrajevanja med preskusi na HC in preskusi s LC, smo v del preskusov s LC vstavili prisilne prekinitve, da bi izenačili stopnje uspešnosti in verjetnosti nagrajevanja med preskusnimi vrstami (sl. 1d).

Slika 1
figura1

Naloga sakade HLC. a Naloga HLC saccade. Stroški (Cue) kažejo na napor, potreben za dosego potencialne nagrade. V obdobju zamude pri dragih preskušanjih je bila potrebna dolga fiksacija. Iztočnica za nagrado (R cue) označuje, ali bi opice lahko dobile nagrado ali ne. b Časovni potek kota pogleda med zamudo. Zgornja in spodnja plošča prikazujeta vodoravni in navpični kot. Zelene in vijolične črte označujejo kot gledanja v dragih preskušanjih (50 preskusov na vsaki plošči) in v poceni preskusih (50 preskusov na vsaki plošči). c Število napak med obdobjem zamude pri preskušanjih z visoko ceno in poceni (**P< 0.01; dvostranski par t test; t67 = 8.8, P = 4.8 × 10-15, n = 68 za opico P; t83 = 26.6, P ≈ 0, n = 84 za opico S). Črni krogi in vrstice z napakami označujejo povprečje in SEM. d Stopnje uspešnosti v preskušanjih z visoko ceno in poceni (dvostranski pari) t test; t67 = 0.51, P = 0.61, n = 68 za opico P; t83 = 0.79, P = 0.43, n = 84 za opico S). e RT-ji prikazovalnikom stroškov (**P <0.01; dvostranski par t test; t67 = 20.4, P ≈ 0, n = 68 za opico P; t69 = 2.0, P = 1.2 × 10-3, n = 70 za opico S). f RT do nagrad (**P <0.01; dvostranski par t test; Opica P (n = 68): HC + proti LC +, t67 = 3.5, P = 9.2 × 10-4; HC – vs. LC−, t67 = 24.5, P ≈ 0; HC + proti HC−, t67 = 21.6, P ≈ 0; LC + v primerjavi z LC−, t67 = 28.5, P ≈ 0; Opica S (n = 70): HC + proti LC +, t69 = 5.6, P = 4.4 × 10-7; HC – vs. LC−, t69 = 4.8, P = 8.4 × 10-5; HC + v primerjavi z HC−, t69 = 18.0, P ≈ 0; LC + v primerjavi z LC−, t69 = 5.9, P = 1.1 × 10-7)

Plačani stroški povečajo vrednost nagrad za napovedovanje nagrad

Za pridobitev implicitnih dokazov o razliki v subjektivnem vrednotenju opic, smo preizkusili čase reakcije opic (RT). Zlasti smo predvidevali, da če opice dodelijo večjo subjektivno vrednost eni možnosti kot drugi, bi morale prikazati hitrejše RT za bolj vrednoteno možnost27. Pri primerjanju RT-jev med orodji stroškov sta obe opici pokazali hitrejše RT-je v primerjavi z LC-izrezom (sl. 1e), ki kaže implicitno prednost pred pogojem LC. Pri primerjanju RT-jev med nagradnimi revijami sta obe opici pokazali hitrejše RT-je, da nagradijo (R +) naloge, kot ne-nagradne (R−) naloge (sl. 1f), kar pomeni, da imajo raje znake R + pred R-znaki. Poleg tega sta obe opici pokazali hitrejše RT-jeHC+ iztočnica v primerjavi z RLC+ iztočnico in na RHC- iztočnica v primerjavi z RLC- iztočnica (sl. 1f), kar kaže na to, da bolj cenijo napovedne napotke v HC v primerjavi s stanjem LC.

Poleg tega smo v nalogo sakade HLC vključili izbire preskušanja, s katerimi smo preizkusili očitne preference opic med znaki (dodatna slika št. 1a). Opice so prednostno izbrale LC iztočnico, ko so izbirale med stroškovnimi nakazili (Dopolnilna slika št. 1b). Monkey S je prednostno izbral RHC+ iztočnica pri izvajanju izbirne naloge med RHC+ in RLC+ iztočnica, vendar ni nobene nastavitve med RHC- in RLC- znaki (dopolnilna sl. 1c, d). V nasprotju s tem opica P ni pokazala nobene očitne prednosti med RHC+ in RLC+ znaki, a vseeno raje RHC- iztočnica pri izbiri med RHC- in RLC- znaki (dopolnilna sl. 1c, d).

Elektrofiziološki rezultati pri nalogi sakade po HLC

Med nalogo sakade po HLC smo zabeležili aktivnost ene enote od nevronov, ki se nahajajo znotraj substantia nigra pars compacta (SNc) in ventralno tegmentalno območje (VTA). Preko obeh opic smo ugotovili 70 dopaminskih nevronov (dopolnilna slika št. 2a; 18 in 52 nevronov iz opic P in S). Histološka preiskava je potrdila, da so bili nevroni nameščeni v ali okoli SNc / VTA (dodatna slika št. 2b).

Na sliki 2, prikazujemo aktivnost reprezentativnega dopaminskega nevrona. Ta nevron je pokazal skromno aktivacijo na LC izrez in fazno aktivacijo ali zatiranje do nagrade (RHC+ in RLC+) ali ni nagradne naloge (RHC- in RLC-) oziroma (sl. 2, Dopolnilna slika Fig. 3). Nevron je pokazal tudi fazno aktivacijo na nepredvidljivo nagrado, pa tudi fazno zatiranje kot odgovor na averzivni dražljaj, nepredvidljiv zračni zastoj (sl. 2, desna plošča). Poleg tega je nevron pokazal skromno zatiranje na začetni znak, vendar se ni odzval na nagrado. Celotna populacija dopaminskih nevronov, ki smo jih zabeležili, je pokazala podobne odzive na izhodiščno iztočnico in dostavo nagrad (dodatna slika št. 4a, b). V nalogi sakade HLC je bil pred pridobitvijo nagrade plačan strošek napora. Ker so predvideni stroški zmanjšali aktivnost nevrona dopamina22,23, odzivi na dopaminski nevron bi bili v času predstavitve začetne iztočnice zadušeni16.

Slika 2
figura2

Aktivnost reprezentativnega dopaminskega nevrona v nalogi sakade po HLC. Funkcije gostote spike (sestavljene z Gaussovo funkcijo) in rastrske ploskve so poravnane s časom vklopa začetne iztočnice, stroškovne iztočnice (C iztočnica), fiksacijskega cilja, iztočnice (R cue) in piska. Vsaka barva predstavlja stanje (rumena: HC +, zelena: HC−, roza: LC +, cijan: LC−). Časi začetka sakade so označeni s sivimi križi. Odzivi dopaminskih nevronov na nepredvidljivo nagrado ali zračni zastoj so predstavljeni tudi na desni plošči (rdeča: nepredvidljiva nagrada, modra: nepredvidljiva zračna zapora)

Dopaminski nevroni kodirajo informacije o plači in ceni

Nevroni so se fazično odzivali na LC-izrez, vendar manj odločno na HC-izrez (sl. 3a, b). Povzročeni odzivi na zahteve glede stroškovnih pogojev so pokazali manjši odziv na HC iztočnico kot LC (dvotirni Wilcoxonov test s podpisom, P <3.2 × 10-4, n = 70). Kvantificirali smo učinek napovedanih stroškov na nevronske odzive z uporabo analize značilnosti sprejemnika (ROC). Porazdelitev površine pod krivuljo ROC (auROC) je bila znatno <0.5 (sl. 3c; dvotirni Wilcoxonov test s podpisom ranga; P = 5.4 × 10-4, n = 70), kar kaže, da so bili odzivi HC iztočnice manjši kot na iztočnice LC. Pred tem je bilo ugotovljeno, da predvideni stroški v skladu z našimi rezultati zmanjšujejo aktivnost dopaminskega nevrona22,23. Poleg tega se je v populaciji dopaminskih nevronov izkazala pomembna aktivacija LC iztočnice, medtem ko ni pokazala pomembne supresije za znake HC (dopolnilna slika št. 4c, d). Ti rezultati kažejo, da dopaminski nevroni kodirajo in vključujejo informacije o plači in strošku v času predstavitve stroškovne izkaze.

Slika 3
figura3

Odzivi dopaminskih nevronov na ceno. a Reprezentativni odziv dopaminskega nevrona na znake stroškov. Funkcije gostote konic so bile izračunane iz normalizirane aktivnosti dopaminskega nevrona, zabeleženega pri opici P. Barvne črte prikazujejo funkcije gostote konic, barvne pike pa čas krčenja. Zelena in vijolična barva označujeta aktivnost v dragih oziroma poceni preskusih. Navpična črta označuje čas predstavitve iztočnice. Sivo obarvano območje označuje obdobje za izračun hitrosti streljanja kot odziv na znake stanja. b Populacijska aktivnost dopaminskih nevronov, zabeleženih od opice P do stanja stanja. Trdne črte črtkane črte predstavljajo povprečje in SEM. c Porazdelitev površin pod ROC za količinsko določitev učinka predvidenih stroškov na odziv nevronov na izpis stroškov. Izpolnjeni kvadratki in odprti krogi označujejo podatke iz opic P oziroma S. Puščica kaže mediano auROC (0.47). d, g Reprezentativni odzivi dopaminskega nevrona z motivacijsko vrednostjo (d) ali dopaminski nevron slience tipa (g) do nepredvidljive nagrade oz. Rdeča in modra krivulja kažeta na odziv na nepredvidljivo nagrado oziroma na nepredvidljiv zračni zaklad. Navpična črta označuje čas nepredvidljivega nagrajevanja ali dostave v zraku. Bledo rdeči in modri kvadratki označujejo obdobje za izračun hitrosti streljanja kot odziv na nepredvidljivo nagrado ali zračni zaboj. e, h Populacijska aktivnost dopaminskih nevronov motivacijske vrednosti tipa (e) ali dopaminskih nevronov slience tipa (h) do nepredvidljive nagrade oz. f, i Porazdelitev auROC-jev, izračunana iz dopaminskih nevronov motivacijske vrednosti (f) ali dopaminskih nevronov slience tipa (i). Puščice kažejo na mediane auROC (f 0.48; i 0.46)

Pred tem sta bila opisana dva podtipa dopaminskih nevronov: motivacijska vrednost in vidni nevroni28,29. V naši populaciji dopaminskih nevronov smo našli dokaze, ki so skladni z obema podtipom. Vrednostni nevroni so pokazali fazno supresijo na averzivne zračne dražljaje (sl. 3d, npr). Nasprotno pa so salience nevroni pokazali fazno aktivacijo na averzivne dražljaje (sl. 3 g, h). Dolga fiksacija v preskusu s HC je prav tako neprijetna in averzivna; zato je možno, da bi obe podtipi dopaminskih nevronov pokazali različne vzorce odzivanja na izbirne pogoje stanja. Če dopaminski nevroni predstavljajo averzivne dražljaje in stanejo na podoben način, naj bi vrednostni nevroni zaradi averzivnosti kazali zmanjšano aktivnost na izbranec HC. Po drugi strani pa naj bi salience nevroni povečali aktivnost na izrezu HC, ker se povečajo tudi na neprijetne dražljaje. Vendar pa so bili evocirani odzivi obeh vrst nevronov manjši od HC-iztočnice v primerjavi s LC-izrezom (dvotirni Wilcoxonov test s podpisom ranga; P = 0.021, n = 41 in P = 0.0044, n = 29 za vrednosti oziroma izstopajoče vrste), analiza ROC pa je pokazala manjše odzive na HC v primerjavi z LC iztočnico v obeh podtipih (slika. 3f, tj; dvotirni Wilcoxonov test s podpisom ranga; P = 0.030, n = 41 in P = 0.0058, n = 29 za vrednosti vrednosti in za vidnost). Tako je napovedana stroškovna aktivnost zmanjšala pri obeh podtipih dopaminskih nevronov. Ti rezultati kažejo, da dopaminski nevroni informacije o stroških obdelujejo na kvalitativno drugačen način kot averzivni dražljaji.

V nalogo HLC saccade smo v del preskusov LC vstavili prisilno prekinitev, da smo izenačili stopnjo uspešnosti in verjetnost nagrade med vrstami poskusov. Ta manipulacija je povečala negotovost pri pridobivanju nagrade ali tveganje, da v stanju LC ne bo dobil nagrade. Zato je lahko večja aktivnost dopaminskih nevronov in povečano vrednotenje opičev za LC v primerjavi z znakom HC posledica razlike v tveganju ali negotovosti med stroškovnimi pogoji. Vendar nismo našli nobene povezave med številom prisilnih prekinitev in razliko v RT (dopolnilna slika 5a, b) in ugotovili smo pozitivno povezavo med številom prisilnih splavov in auROC (dopolnilna slika št. 5c). Primerjali smo tudi odzive na dopamin na izhodiščih stroškov po splavu in po pravilnih preskušanjih, vendar v obeh stroškovnih pogojih nismo ugotovili razlik (dopolnilo Sl. 5d). Ti rezultati kažejo, da število prisilnih prekinitev v stanju LC ne pojasni niti povečanja vrednotenja niti povečanega dopaminergičnega aktiviranja na iztočnico LC.

Večji odziv na dopamin za nagrajevanje plačil s plačanimi stroški

Ugotovljeno je bilo, da zabeleženi dopaminski nevroni kažejo fazno aktivacijo in supresijo za nagrajevanje in brez napovedovanja napovedi (sl. 2). Nato smo ocenili, ali so ti odzivi modulirali predhodno nastale stroške. Primer reprezentativnega nevrona in nevronov v povprečju prebivalstva, ki kažejo večjo aktivacijo na RHC+ iztočnica kot RLC+ znak je prikazan na sliki 4a oziroma b. (dvostranski Wilcoxonov test s podpisanim činom; P = 7.4 × 10-5, n = 70). Porazdelitev auROC je bila> 0.5, kar kaže na odziv na RHC+ iztočnica je bila večja kot pri RLC+ iztočnica (sl. 4c; dvotirni Wilcoxonov test s podpisom ranga; P = 1.4 × 10-4, n = 70). Ti rezultati kažejo, da je odziv na napoved napovedovanja nagrade v stanju HC bistveno večji kot v stanju LC. Zato naše ugotovitve kažejo, da se signal pozitivnega RPE, ki ga predstavljajo dopaminski nevroni, poveča za prej nastale stroške.

Slika 4
figura4

Odzivi dopaminskih nevronov na nagrade. a Primer odziva nevronov na znake R +. Funkcije gostote konic so bile izračunane iz aktivnosti dopaminskega nevrona, zabeleženega pri opici P. Barvne črte in pike označujejo gostoto konic in čas konice. Rumena in roza barva pomenita aktivnost v preskušanjih za visoke in nizke stroške. Navpična črta označuje čas predstavitve R + iztočnice. Sivo obarvano območje označuje obdobje za izračun stopnje streljanja kot odziva na nagradne znake. b Povprečna aktivnost prebivalstva dopaminskih nevronov, zabeleženih od opice P do znakov R +. Polne črte in črtkane črte predstavljajo povprečje oziroma SEM. c Porazdelitev auROC-ov za količinsko določitev učinka plačanih stroškov na odziv nevronov na znake R +. Izpolnjeni kvadratki in odprti krogi označujejo podatke iz opic P oziroma S. Puščica kaže mediano auROC-ov (0.53). d Reprezentativni odgovor na R-znake. Zelena in cijan barva označujeta preskuse visokih in nizkih stroškov. Navpična črta označuje čas predstavitve R-cue. e Populacijska aktivnost dopaminskih nevronov, zabeleženih od opice P do R-vzorcev. f Porazdelitev auROC-ov za količinsko določitev učinka plačanih stroškov na odziv nevronov na R-znake. Puščica kaže srednjo vrednost auROC (0.50)

Dopaminski nevroni so pokazali tudi fazno supresijo R-vzorcev (sl. 4d, npr). Vendar pa odzivi dopaminskih nevronov na R-vzorce niso pokazali pomembne razlike glede na nastale stroške (dvotirni Wilcoxonov test s podpisom ranga; P = 0.25, n = 70), analiza ROC pa ni razkrila nobenih dokazov o pristranskosti pri porazdelitvi odziva (sl. 4f; Wilcoxonova preizkušnja, P = 0.35; n = 70). Tako se plačani stroški niso odražali v signalu negativnega RPE, ki so ga povzročili napovedi za nenapovedovanje nagrajevanja. To lahko povzroči talni učinek: spontana aktivnost dopaminskega nevrona je nizka (približno 5 Hz); in zato morda ni zadostnega dinamičnega razpona za ustrezno kodiranje kakršne koli take razlike v stroških, porabljenih za negativni odziv RPE (sl. 4d, npr).

Ločeno smo preučili tudi vpliv plačanih stroškov na nagradne nagrade za vrednost dopaminskih nevronov vrednosti in izrazitosti, vendar sta obe vrsti dopaminskih nevronov pokazala podoben odzivni vzorec (dodatna sl. 6a – h). Zato plačani stroški kažejo podoben učinek na odziv na nagradne naloge tako v vrednosti kot dopaminskih nevronov tipa „salience“.

Dejansko trajanje fiksacije opic ni bilo konstantno, ampak se je spreminjalo na podlagi poskusa (sl. 1b). Zato je bilo mogoče, da se odzivi na dopamin na nagradne naloge prilagajajo dejanskim trajanjem fiksacije na podlagi poskusa. Vendar nismo našli nobene pomembne povezave med njimi za vsak pogoj stroškov in nagrade (Dopolnilna slika št. 7a – d). Poleg tega so bili RT-ji na vrsto nagrajevanja prilagojeni tudi s stroški in pogoji nagrajevanja (sl. 1f). Ena od možnosti je, da bi odzive dopaminskih nevronov lahko razložili RT-ji na nagradne naloge na podlagi poskusa. Vendar nismo našli nobene pomembne povezave med RT-ji in normaliziranimi odzivi dopamina na naloge za nagrajevanje (Dopolna sl. 7e – h). Ti rezultati kažejo, da so odzivi na dopamin neodvisni od RT-jev in trajanja fiksacije za vsako preskušanje, vendar pa so prilagojeni zneskom potrebnih stroškov in pričakovane nagrade, določene za vsako vrsto preskušanj.

Poleg tega je možno, da so prisilni prekinitve v stanju LC ustvarile tako opice, kot tudi okrepljeno aktivacijo dopaminskih nevronov na iztočnico v stanju HC. V tem primeru bi moralo biti število prisilnih prekinitev povezano s prednostjo in stopnjo večje aktivacije. Vendar pa število prisilnih splavov ni vplivalo ne na opičino preferenco ne na aktivacijo dopaminskih nevronov na nagradne naloge (dopolnitev Sl. 8). Zato so hitrejši RT-ji in večji odzivi DA na RHC+ iztočnica kot RLC+ iztočnica ni posledica vstavljenih prisilnih prekinitev v stanju LC.

Vključeni stroški povečujejo odziv na dopamin za dostavo nagrad

Odziv dopaminskih nevronov na znake R + naj bi izviral iz odziva na nagrado, ker dopaminski nevroni spreminjajo svoj odziv na napovedi, ki napovedujejo nagrado glede na povezavo spodbuda-nagrada8,30. Zato smo pričakovali, da bodo dopaminski nevroni pokazali plačljivo odvisno povečanje odziva na nagrado. Za merjenje aktivnosti dopaminskih nevronov do oddaje nagrade so opice opravile negotovo nalogo FLC z dvema novima nagradnima nagradama (Sl. 5a). Ker so bile nagrade podeljene v samo polovici predstavitev nagrad, nagradne nagrade niso zanesljivo niti različno predvidevale izplačila nagrad. To smo storili za povečanje odzivnosti dopaminskih nevronov na prejem (nepredvidene) nagrade, da bi povečali svojo občutljivost za zaznavanje modulacije odzivnosti nevronov kot funkcijo porabljenih stroškov.

Slika 5
figura5

HLC negotova naloga. a Naloga FLC negotova. Pri tej nalogi so bili uporabljeni negotovi nagradni naborki, v katerih so bile podeljene nagrade 50% časa, ne glede na to, katera iztočnica je bila predstavljena. b RT-ji pri preskušanjih stroškov v preskušanjih za visoke in nizke stroške. Samo opica P je prikazala hitrejšo RT do iztočnice LC kot pa HC iztočnica (**P <0.01; dvostranski par t test; t4 = 9.0, P = 8.5 × 10-4, n = 5 za opico P; t18 = 1.4, P = 0.19, n = 19 za opico S). Črni krogi in vrstice z napakami označujejo povprečje in SEM. c RT-ji za nagradne naloge v preskušanjih za visoke in nizke stroške. Pri RT-jih ni bilo nobene razlike pri nagradni nalogi med pogojem visoke in nizke cene (dvostranski seznanjeni t test; t4 = 0.97, P = 0.39, n = 5 za opico P; t18 = 0.99, P = 0.39, n = 19 za opico S)

Ko so RT primerjali med nakazili stroškov, je opica P pokazala hitrejši RT na iztočnici LC kot iztočnica HC (sl. 5b). V RT ni bilo nobene razlike pri nagradnih listih med stanjem HC in LC pri obeh opicah (sl. 5c).

V HLC negotovi nalogi so dopaminski nevroni pokazali skromno aktivacijo LC-iztočnice, vendar se niso odzvali na nagradne naloge, ker niso bili nagrajeni prediktivno (sl. 6a). Pri populaciji so bili evocirani odzivi na HC manjši od LC (sl. 6b; dvotirni Wilcoxonov test s podpisom ranga; P = 2.7 × 10-3, n = 19), analize ROC pa so pokazale manjše odzive na HC znak (sl. 6c; dvotirni Wilcoxonov test s podpisom ranga; P = 5.5 × 10-3, n = 19). Nevronski odziv na oddajo nagrad v stanju HC je bil večji od LC (sl. 6d; dvotirni Wilcoxonov test s podpisom ranga; P = 0.036, n = 19). Porazdelitev auROC je bila> 0.5, kar kaže na večji odziv na dostavo nagrad v HC glede na preskuse LC (sl. 6e; dvotirni Wilcoxonov test s podpisom ranga; P = 0.049, n = 19). Ti rezultati kažejo, da je odziv na dostavo nagrad izboljšan v preskusu HC in da plačani stroški povečajo signal pozitivnega RPE pri dostavi nagrad.

Slika 6
figura6

Odziv dopaminskega nevrona na izplačilo nagrade. a Reprezentativno delovanje dopaminskih nevronov pri HLC negotovi nalogi. Vsaka barva predstavlja pogoje (rumena: HC +, zelena: HC−, roza: LC +, cijan: LC−). Časi začetka sakade so označeni s sivimi križi. Odzivi tega dopaminskega nevrona na nepredvidljivo nagrado in zračni zastoj so prikazani tudi na desni plošči (rdeča: nepredvidljiva nagrada, modra: nepredvidljiv zračni zapor). b Povprečna aktivnost prebivalstva dopaminskih nevronov, zabeleženih od opice S do znakov stanja. Zelena in vijolična barva označujeta aktivnost v dragih oziroma poceni preskusih. Polne črte in črtkane črte predstavljajo povprečje oziroma SEM. Sivo obarvano območje označuje časovno okno za izračun hitrosti streljanja kot odziv na znake stanja. c Porazdelitev auROC-ov za količinsko določitev učinka predvidenih stroškov na odziv nevronov na cenovne naloge. Izpolnjeni kvadratki označujejo podatke opice P (n = 3) in odprti krogi označujejo podatke opice S (n = 16). Puščica označuje sredino auROC (0.44). d Aktivnost dopaminskih nevronov v povprečju prebivalstva, zabeležena od opice S do oddaje nagrade. Rumena in roza barva pomenita aktivnost v preskušanjih za visoke in nizke stroške. Sivo obarvano območje označuje časovno okno za izračun stopnje odstrela kot odziva na nagrado. e Porazdelitev auROC-ov za količinsko določitev učinka plačanih stroškov na odziv nevronov na izplačilo nagrade. Puščica kaže srednjo vrednost auROC (0.55)

Poleg tega smo primerjali odzive na dopamin po odsotnosti nagrade. AuROC-ji niso pokazali pristranske porazdelitve, kar kaže, da plačani stroški v času izida niso vplivali na negativne RPE-je (dodatna sl. 9a). Dopaminski nevroni niso pokazali razlike med odzivi na RHC in RLC znaki (dopolnilo Sl. 9b).

Vključeni stroški povečajo hitrost učenja

Glede na to, da se RPE za nagrado dostave povečajo za plačane stroške, smo pod hipotezo, da so RPE neposredno vključeni v posredovanje spodbujevalnega in nagrajevalnega učenja, pričakovali, da se bodo izboljšani RPE odražali v učnem vedenju s povečano hitrostjo učenja.24. Da bi preverile učinek plačanih stroškov na učenje, so opice opravile nalogo raziskovanja HLC (sl. 7a; glej Metode). V tej nalogi sta bili hkrati predstavljeni dve nagradi (R + in R−), opice pa so morale izbrati enega. Izenačili smo stopnjo uspeha in verjetnost nagrajevanja med različnimi vrstami poskusov (dvostranski pari) t test; t48 = 0.15, P = 0.89, n = 49 za opico P; t85 = 1.2, P = 0.25, n = 86 za opico S). Ko so RT primerjali za stroškovne namige, sta obe opici pokazali hitrejše RT na iztočnico LC kot iztočnica HC (sl. 7b; dvorezen par t test; t48 = 12.9, P ≈ 0, n = 49 za opico P; t85 = 3.4, P = 9.4 × 10-4, n = 86 za opico S). Pri primerjavi RT-jev z nagradnimi znaki je opica S pokazala hitrejše RT-je v HC-ju kot stanje LC (sl. 7c; dvorezen par t test; t48 = 1.3, P = 0.19, n = 49 za opico P; t85 = 2.8, P = 6.8 × 10-3, n = 86 za opico S). Če smo primerjali RT med prvo in drugo polovico učne seje ločeno, so bili RT do iztočnice LC hitrejši kot do iztočnice HC med prvo (dopolnilna slika. 10a) in zadnjo polovico seje (dodatna sl. 10c). Nasprotno, RT-jev opice S na iztočnico za nagrado v stanju HC je bil hitrejši kot v stanju LC med samo zadnjo polovico seje (dodatna slika št. 10d), vendar ne prve polovice (dopolnilna slika št. 10b).

Slika 7
figura7

Naloga raziskovanja HLC. a Naloga raziskovanja FLC. Opice so morale pri tej nalogi izbirati med R + in R-tipkami, ki so bile naključno ustvarjene v vsaki učni seji. Če izberejo R + iztočnico, lahko dobijo nagrado in če izberejo R-cue, ne bi dobili nagrade. b RT-ji pri preskušanjih stroškov v preskušanjih za visoke in nizke stroške. Opice so pokazale hitrejše RT na nizkocenovni izjavi (**P< 0.01; dvostranski par t test). Črni krogi in vrstice napak označujejo povprečje in SEM. c RT-ji za nagradne naloge v preskušanjih za visoke in nizke stroške. Monkey S je prikazal hitrejše RT-ove naloge za nagrajevanje v visoko stroškovnih pogojih

Pri raziskovalni nalogi HLC so bili nagradni nakazili naključno ustvarjeni na vsaki učni seji. Zato so se morale opice naučiti razmerja med nagradami in nagradami na vsaki seji. Medtem ko so poskusi napredovali v okviru seje, so opice pogosteje izbirale R + naloge pri vsakem stroškovnem stanju (sl. 8a). Za količinsko določitev hitrosti učenja prilagamo podatkom kumulativno eksponentno funkcijo, ki vključuje dva prosta parametra, a in b, kar kaže na strmino krivulje in planoto (Dopolnilna sl. 11a, b). Razmerje dnevnika med parametri strmine (dnevnik aHC/aLC) je bil bistveno večji od nič, kar kaže na večji strmi parameter v preskušanjih HC kot LC (sl. 8b; dvorezen t test; t48 = 2.1, P = 0.042, povprečje = 0.58, n = 49 za opico P; t85 = 2.5, P = 0.013, povprečje = 0.19, n = 86 za opico S). Log razmerje med parametri planote (log bHC/bLC), se ni razlikoval od ničle, kar pomeni, da ni razlike med stroškovnimi pogoji (sl. 8c; dvorezen t test; t48 = 0.76, P = 0.45, povprečje = -0.0024, n = 49 za opico P; t85 = 0.56, P = 0.58, povprečje = 0.010, n = 86 za opico S). Ti rezultati kažejo, da je hitrost učenja hitrejša v preskušanjih HC. Nato smo modelirali krivulje učenja z uporabo ojačevalnega učenja (RL) (glej Metode). Ta model vključuje parametre stopnje učenja (αHC in αLC) in stopnje raziskovanja (βHC in βLC) za oba stroškovna razmerja (dopolnilna slika št. 11c, d). Ko smo ustrezali vedenju, smo ugotovili, da je razmerje dnevnika med parametri hitrosti učenja (log αHC/αLC) je bila večja od nič, kar kaže na bistveno večji parameter stopnje učenja v HC kot pri preskušanjih LC (sl. 8d; dvorezen t test; t48 = 2.3, P = 0.026, povprečje = 0.50, n = 49 za opico P; t85 = 2.2, P = 0.034, povprečje = 0.25, n = 86 za opico S), medtem ko je parameter β ni pokazal razlike (sl. 8e; dvorezen t test; t48 = 0.77, P = 0.44, povprečje = 0.0097, n = 49 za opico P; t85 = 0.64, P = 0.52, povprečje = 0.038, n = 86 za opico S). Tu smo ocenili parametre stopnje učenja za vsak pogoj stroškov (αHC in αLC) ločeno za razlago večjih hitrosti učenja v stanju HC. Če pa je stopnja učenja enaka pogojem stroškov, razmerje med ocenjenimi parametri stopnje učenja (αHC/αLC) lahko predstavlja ojačitveno vrednost za RPE v stanju HC. Zato ti rezultati kažejo, da lahko z razširitvijo RPE-ja razložimo večje hitrosti učenja v stanju HC.

Slika 8
figura8

Učni test hitrosti. a Povprečni učni proces opic P in S. V odvisnosti od preskusa je narisan delež izbire R +. Zelene in vijolične točke kažejo podatke iz preskušanja z visoko ceno in z nizkimi stroški. Pikčaste črte predstavljajo gladek učni proces. Kumulativne eksponentne funkcije so bile nameščene na podatkovne točke in predstavljene kot trdne črte. b Razmerje loga med parametri vgradnje a v pogojih visoke in poceni, ko so bili podatki v skladu s kumulativno eksponentno funkcijo (*P <0.05; dvostranski Wilcoxonov test s podpisanim činom). Črni krogi in vrstice z napakami označujejo povprečje in SEM. c Razmerje loga med parametri vgradnje b v pogojih visokih in nizkih stroškov, ko so bili podatki v skladu s kumulativno eksponentno funkcijo. d Razmerje dnevnika med parametrom hitrosti učenja α v pogojih visokih in nizkih stroškov, ko so bili podatki v skladu z modelom učnega učenja. e Razmerje dnevnika med parametrom vgradnje β v pogojih visokih in nizkih stroškov, ko so bili podatki v skladu z modelom učnega učenja

Poskusili smo razložiti učni proces tudi z alternativnimi modeli RL, ki upoštevajo možnost, da opice poznajo protikorelacijo med dražljaji in nagrado na vsakem poskusu. V teh modelih se vrednost izbrane možnosti posodobi skupaj z izbrano (dopolnilna slika št. 12). Tudi pri uporabi takšnih nadomestnih modelov za podatke je bil parameter stopnje učenja v HC bistveno večji v primerjavi s stanjem LC (dopolnilo sl. 12b, f) med parametrom β ni pokazal razlike (dopolnilna slika št. 12d, h). Tako je naša ugotovitev o ojačanju signala RPE v stanju HC robustna glede na obliko modela RL, ki ustreza podatkom.

Razprava

Raziskali smo vpliv plačanih stroškov na vrednost napovedovanja nagrad in na fazne odzive dopaminskih nevronov srednjega možganov. Opice so pokazale povečano vrednotenje napotkov za napovedovanje nagrad po izvedbi akcije, ki je povzročila večje stroške. Po višjih stroških so dopaminski nevroni pokazali povečan odziv tako na iztočnico, ki napoveduje nagrado, kot na dostavo nagrad. Poleg tega so opice pokazale večje hitrosti učenja, ko so za pridobitev nagrade potrebovali večje stroške.

Več raziskav je pokazalo, da plačani stroški povečujejo prednost za iztočnico, ki napoveduje nagrado1,2,3. V pričujoči študiji so opice pokazale hitrejše RT na napovedi, ki napovedujejo nagrado v stanju HC, v primerjavi s tistimi, ki so v stanju LC, skladno z možnostjo, da se vrednost iztočnice poveča za plačani strošek27. Nadomestna možnost je, da je daljši čas fiksacije povezan z večjo pozornostjo do cilja sakade v stanju HC, torej zmanjšanje RT-jev po daljši fiksaciji v preskusu s HC. Vendar pa med negotovimi nalogami HLC nismo ugotovili nobene razlike med RT-jem in R-kazali v preskusih HC in LC. Poleg tega v prvi polovici raziskovanja FLC. RT-vzorci se niso bistveno razlikovali med preskusi HC in LC. Te ugotovitve kažejo, da daljša fiksacija ni verjetna razlaga za krajše RT-je, ki jih opazujejo napotki za napovedovanje nagrade. Stroški so poleg učinka plačanih stroškov na RT-jevih izplačilnih plačil vplivali tudi na RT-je na nepredvidene napovedi, kljub temu, da po predstavitvah iztočnic niso prejeli nobene nagrade. Prejšnja študija je poročala o podobnem pojavu, saj so pri osebah z opicami prikazali krajše RT v neosnovanih preskušanjih, ko so bile v nadomestnih preskušanjih znotraj vsakega bloka uporabljene bolj prednostne nagrade30. Ena izmed možnih interpretacij učinka te študije je, da je na splošno večja motivacija za odziv v bloku z bolj zaželeno nagrado prizadetim RT-jem tudi na izid brez nagrade v bloku. Podobno bi lahko v pričujoči študiji pričakovanje, da bo dragocena nagrada v preskušanjih za HC prilagodila RT-jem, ne da bi pri naših nalogah preiskovali HC. Poleg tega je bil učinek plačanih stroškov na RT-jih na nagradne naloge manjši od učinka na napovedi brez napovedi. To je verjetno artefakt dejstva, da so zato, ker so opice hitreje naredile sakadedo na RLC+ iztočnica, najprej je zmanjšano območje zaznavanja skrajšanja RT-jev na RHC+ iztočnica. Posledično bi bila razlika v RT-jih med napisi R + majhna.

Opice so opravile tudi preizkuse izbire med RHC in RLC naloge v nalogi FLC. Toda medtem ko je opica S pokazala prednost pred RHC+ iztočnica na RLC+ cuca, opica P ni pokazala takšnih želja. To neskladje bi bilo mogoče razložiti s kontekstno razliko med preskusi sakade FLC in izbiro. V izbirnih preskušanjih sta bila namesto enega iztočnice za napovedovanje nagrad prikazana dva napovedovalca. Poleg tega opice po svoji izbiri niso dobile nobene nagrade, tudi če so izbrale iztočnico, ki napoveduje nagrado, zato je bil preizkus izbire opravljen v izumiranju. Postopek izumrtja je bil izveden zato, da se je zagotovilo, da je izbira opice temeljila na tem, kar so se naučili na preskusih s prizadevanji, v nasprotju s tem, da bi se na preizkusih izbire mešali z novim učenjem. Vendar ima lahko ta postopek stranski učinek, da se opica lahko hitro nauči prepoznati postopek izumrtja v izbirnem kontekstu in da ni razloga, da bi izbrali bolj prednostne dražljaje. Kljub temu je ena od opic v resnici pokazala prednost pred izplačilno nagrado v stanju HC.

Ob predložitvi iztočnice, ki je napovedovala poznejšo plačilo stroškov, se je aktivnost dopaminskih nevronov zmanjšala, skladno s prejšnjimi študijami22,23. V naši raziskavi nismo opazili splošnega zmanjšanja nevrona dopamina, ki se je odzval tako na HC kot na LC glede na izhodišče. To kaže, da se signal negativni RPE v tem času kljub naslednjim stroškom ne pojavi. Odsotnost negativnega RPE najbrž odraža integracijo napovedi prihodnje nagrade, pričakovane pozneje v preskušanju. Dopaminski nevroni so se pokazali pomembno aktivacijo v preskušanju s LC in aktivnost je bila večja v primerjavi s preskusom HC. To kaže, da so informacije o stroških vključene v signal RPE, ki ga prenašajo dopaminski nevroni. Tako dopaminski nevroni kodirajo informacije o nagradi in stroških, odziv RPE pa odraža vsoto stroškov in nagrade.

Dokazali smo, da se RPE signal, ki ga predstavljajo dopaminski nevroni, poveča s plačanimi stroški na mestu predstavitve nazornega kazalca (v nalogi sakade HLC) in dostave nagrad (pri NLC negotovi nalogi). Objektivni znesek nagrade v preskušanjih HC in LC je bil enak; zato naj bi sprememba signalov RPE povzročila nesmiselni postopek. To možnost podpira več študij, ki kažejo na kontekstualni učinek na signale RPE dopamina, ki so skladni s predelavo subjektivne vrednosti in / ali uporabnosti v dopaminskih nevronih11,19,20,21,31,32,33,34. Če je signal RPE večji, bi to moralo prinesti hitrejše posodabljanje vrednosti iztočnice, kar bi posledično vplivalo na učno hitrost asociacij za nagrajevanje spodbud. Prejšnje študije so pokazale spremembo hitrosti učenja s pomočjo neobčutljivih dejavnikov24,35. V skladu s tem so opice pokazale večje hitrosti učenja v HC glede na stanje LC. Ugotovili smo, da lahko povečano hitrost učenja s plačanimi stroški razložimo z modelom RL z ojačanim RPE. V naših poskusih je bilo težko ločiti učinke ojačanega RPE-ja in povečane stopnje učenja; vendar smo našli ojačan dopaminergični signal RPE v stanju HC. Poleg tega je predhodna študija fMRI pokazala, da je parameter stopnje ucenja predstavljen v sprednjem cingulatskem korteksu in da aktivnost VTA ni povezana s parametrom stopnje ucenja v nestanovitnih okoljih36. Zato trdimo, da se RPE signal, kodiran z dopaminskimi nevroni, poveča za plačani strošek in da povečan RPE signal poveča hitrost učenja.

Ko se je generiral signal RPE v času predstavitve iztočnice in nagrade, so opice že plačale stroške. Zato je eden od možnih mehanizmov za okrepljeni signal RPE ta, da bi bila nagrada, dobljena po HC, morda bolj koristna. Povečano pričakovanje bolj dragocene nagrade po HC lahko poveča motivacijo za zaključek preskusa in s tem skrajša RT na nagradne naloge v preskušanjih za HC.

Druga možna razlaga naših rezultatov je, da lahko oprostitev, ki jo je dokončal dragi ukrep, deluje kot nagrada za opice. Študije funkcionalnega slikanja z magnetno resonanco (fMRI) so pokazale, da je lajšanje bolečine lahko nagrada za človeške udeležence37,38; zato lahko stroški igrajo podobno vlogo kot averzivni dražljaji za bolečino. Če se oprostitev stroškov obrestuje in če se to odraža v dopaminergični aktivnosti, bi pričakovali, da se bodo dopaminski nevroni odzvali na koncu dolge fiksacije, ki je čas predstavitve iztočnice. Vendar pa v času predstavitve nagrad za nagrado nismo opazili nobene razlike v dopaminergični aktivnosti niti nobene razlike med RT-ovimi točkami med preskusi HC in LC pri HLC-jevi negotovi nalogi. Zato predlagamo, da olajšanje stroškov ne daje ustrezne razlage za učinek, ki smo ga opazili v nevronih dopamina.

Poleg tega so dopaminski nevroni pokazali kvalitativno različne odzive na averzivni dražljaj v primerjavi z napovedjo stroškov. Ena od možnih razlag za to je, da so bili stroški napora manj vidni od zračnega puha ali nagrajevanja, saj so se stroški napora časovno podaljšali v nekaj sekundah, ko so opice izvajale fiksacijo in ne punktat. Zato dopaminski nevroni morda niso bili aktivirani za manj vidne stroške. Druga možnost je, da se dopaminski nevroni slience odzivajo na dogodke, po katerih so se sprožili nekateri premiki. Ko je opicam izročil nagrado ali zračni zavitek, naredijo nekaj gibov, kot sta lizanje ali utripanje oči. Vendar pa so morale opice pri sakalski nalogi FLC zadržati pogled na fiksacijsko tarčo brez premikov kot stroškov. Pravzaprav je nedavna raziskava pokazala, da je sproščanje dopamina v jedru po jedru, ki napoveduje nagrado, oslabljeno, razen če se gibanje pravilno sproži39. Ker stroški v naših poskusih niso vključevali gibanja, bi to lahko povzročilo nedosleden odziv dopaminskih nevronov slišnega tipa. Kakor koli že, lahko ugotovimo, da se podatki o stroških obdelujejo drugače kot averzivne informacije.

Na koncu predlagamo, da plačani stroški povečajo vrednost nagrad za napovedovanje nagrade in da to posledično poveča signal RPE, kodiran v nevronih srednjega možganov. Ta učinek je privedel do vedenjskih napovedi, da se bo stopnja učenja živali izboljšala za napovedovanje nagrad po izkušnjah z zdravnikom. To smo res opazili. Tako so nas zaradi naših opazovanj o aktivnosti dopaminskih nevronov domnevali obstoj vedenjskega učinka, pa tudi domnevni računalniški mehanizem, na katerem temelji ta učinek, kar smo pozneje potrdili. Naše ugotovitve torej predstavljajo primer, kako se lahko zgodi triangulacija med meritvami nevronskih podatkov, računalniško teorijo in vedenjem: razvoj globljega razumevanja nevronske obdelave v možganih lahko da vpogled v vedenje in njegove temeljne računske osnove.

Metode

živali

Uporabili smo dve moški japonske opice (Macaca fuscata; telesna teža, 6.5 kg = opica P; telesna teža, 9.0 kg = opica S). Na vrh lobanje opice smo vsadili glavo za glavo, da bi jo pozneje lahko pritrdili na stol. Vgrajena je bila tudi snemalna komora, ki je omogočila namestitev elektrode mikromanipulatorja. Snemalna komora je bila v koronalni ravnini nagnjena za 45 ° in postavljena na stereotaksične koordinate: 15 mm pred zunanjim kanalom. Po obdobju okrevanja so bile opice usposobljene za izvajanje sakade. Po končanem treningu smo izvrtali luknjo skozi lobanjo znotraj snemalne komore za vstavljanje elektrod. Vse protokole o oskrbi živali je odobril Odbor za eksperimentalno testiranje na živalih Univerze Tamagawa in skladen z Nacionalnim vodnikom za zdravstveno varstvo za nego in uporabo laboratorijskih živali.

Vedenjska naloga

Opice so bile usposobljene za izvajanje sakade naloge FLC (sl. 1a), FLC negotova naloga (sl. 5a) in nalogo raziskovanja HLC (sl. 7a). Vsa opravila so bila izvedena v temni sobi. Opice so sedele na stolu pred 22-palčnim. LCD monitor (S2232W, Eizo) z implantiranimi nasloni za glavo, pritrjenimi na stol. Razdalja med očmi in zaslonom je bila 70 cm. Ko je bila na sredini zaslona predstavljena začetna iztočnica (beli krog, premer 0.3 °), je morala opica ohraniti pogled na iztočnici. Začetni znak je izginil po 750 ms in nato je bil predstavljen stroškovni znak (zvezda in vetrnica za preskušanje HC in LC). Opice so se morale v 750 ms predstavitve iztočnice umakniti strošku. Če se niso umaknili, je bilo sojenje prekinjeno in isto sojenje se je začelo znova. Med preskusi HC je bil cilj fiksacije (0.3 ° × 0.3 ° beli kvadrat) predstavljen takoj po izginotju stroškovne mize za 2000 ms (HLC saccade in HLC negotove naloge) ali 1500 ms (HLC raziskovanje) in opice so bile zahtevane da bi ga sakade in ne pozabili. Če so opice svoj pogled premaknile čez pritrdilno okno 4 ° × 4 °, je bila naloga prekinjena. Okno za pritrditev se je aktiviralo 400 ms po predstavitvi točke pritrditve, ker so opice potrebovale čas, da se pripravijo na sakado in prilagodijo pritrditev. Zato so se opice morale v preskusih HC fiksirati vsaj 1600 ms (HLC saccade in HLC negotove naloge) ali 1100 ms (HLC raziskovanje). V preskusih LC je bil prazen zaslon prikazan 1500 ms (HLC saccade in HLC negotove naloge) ali 1000 ms (HLC exploration task), nato pa se je cilj fiksacije pojavil 500 ms. Ker se je okno za pritrditev aktiviralo 400 ms po predstavitvi točke pritrditve, so se opice morale v poskusih LC pritrditi na cilj vsaj 100 ms. Opice so pokazale več napak v poskusu HC; zato je bil prisilni prekinitev naključno vstavljen 100 ms pred predstavitvijo nagradne črte (400 ms po predstavitvi ciljne fiksacije, kar je čas začetka okna fiksacije) v preskusu LC, da se izenači stopnja uspešnosti. Po pritrditvi na tarčo sta bila predstavljena ena ali dve nagradi in opice so morale pobegniti. Če so uspešno naredili sakado na nagrado, je bil 750 ms po predstavitvi nagradne črke zaslišan pisk. Ko so opice naredile sakado na znak R +, je bilo hkrati s piskom dobavljeno 0.3 ml vode. Ko so naredili sakado na R-cue, niso dobili nobene nagrade.

V nalogi sakade HLC so bili kot nagrada za nagrado uporabljeni štirje barvni krogi (RHC+: rumena; RHC-: zelena; RLC+: roza; RLC-: modra; Sl. 1a). Ena eksperimentalna seja je bila sestavljena iz 80 sakade poskusov, 20 nepredvidljivih poskusov nagrajevanja, 20 nepredvidljivih preizkusov zračnega puha in 5 poskusov izbire. Preskusi saccade so vključevali 40 preskusov HC in 40 preskusov LC, oba pa 20 preskusov nagrajevanja in 20 poskusov brez nagrad. V nepredvidljivih preskusih nagrajevanja ali zračnega napihovanja je bilo na obraz opic dostavljeno 0.3 ml vodne nagrade ali 0.2 MPa zračnega puha (150 ms za opico P; 200 ms za opico S), ne da bi bili odtisnjeni. Izbirna preskušanja so vključevala poskus, v katerem so opice izbirale med znaki R + (RHC+ proti RLC+) v preskusu s HC, med R-znaki (RHC- vs. RLC-) v preskusu s HC, med R + (RHC+ proti RLC+) napisi v preskusu LC, med R− (RHC- vs. RLC-) napisi v preskusu LC in med nakazili stroškov (dopolnilna slika št. 1). V preskusih z izbiro med nagradnimi režimi je bila struktura naloge enaka naključni nalogi pred predstavitvijo nagrad. Nato so bili namesto predstavitve nagrad za nagrado v izbirnih preskušanjih predstavljeni dve nagradni nagradni listi in po predstavitvi iztočnice ni bilo nobene nagrade, tudi če so opice izbirale med R + napisi.

Da bi preizkusili odziv dopaminskih nevronov na nagrado dostave, so opice opravile negotovo nalogo s FLC (sl. 5a). Ta naloga je bila podobna naključni nalogi HLC, razen pri nagradni opremi. Pri tej nalogi smo uporabili dve nagradni nalogi (namesto štirih nagradnih nagrad, ki se uporabljajo v nalogi sakade HLC), enega za preskušanje HC in drugega za preskušanje LC. Nagrada je bila izročena v polovici poskusov po predstavitvi nagrad. Eno eksperimentalno zasedanje je obsegalo 80 preskusov s sakade, 20 nepredvidljivih nagrad za preizkušanje in 20 nepredvidljivih preskusov zračnega zaleta. Preskusi sakade so vključevali 40 preskusov s HC in 40 LC preskušanja, oba sta vključevala 20 nagradnih in 20 nobenih nagradnih poskusov. V nepredvidljivih preizkušnjah so ji brez kakršne koli iztočnice izročili nagrado ali zračni napuh.

V raziskovalni nalogi HLC sta dve nagradi (RHC+, RHC- ali RLC+, RLC-) so bile predstavljene istočasno, opice pa so morale preiti na enega izmed nagrad za nagrado (sl. 7a). Če so izbrali iztočnico R +, so jim zagotovili vodno nagrado. Štiri nagradne naloge (RHC +, RHC-, RLC +, RLC-) so bile ustvarjene za vsako raziskovanje in opice so se morale naučiti povezave med napisi in nagrajevati poskusno preizkušanje. Ena eksperimentalna seja je bila sestavljena iz 100 preskusov s HC in 100 LC preskusov. Ugotovili smo, da so bile pri raziskovalni nalogi, če nastavimo trajanje fiksacije 2000 ms v stanju HC, tako da se ujema s trajanjem stanja HC v drugih nalogah, opice opravijo nalogo z zelo nizko stopnjo uspeha, morda zaradi zahtevnost naloge in / ali posledično nizka stopnja nagrajevanja. Zato smo za zmanjšanje težav naloge in povečanje stopnje uspešnosti uporabili trajanje fiksacije 1500 ms kot strošek za nalogo raziskovanja HLC.

Naloge so nadzirali s tržno dostopnim programskim paketom (TEMPO, Reflective Computing, St. Louis, MO, ZDA). Za predstavitev vizualnih dražljajev smo uporabili program po meri s pomočjo aplikacijskega programskega vmesnika (OpenGL). Vizualne dražljaje za ceno in nagrade za nagrado so ustvarili avtorji.

Snemanje in zajem podatkov

Lokacijo resnice nigra smo ocenili z MR slikami. V volframovo vstavljeno je epoksi prevlečeno volframovo elektrodo (premer kraka, 0.25 mm, 0.5–1.5 MΩ, merjeno pri 1000 Hz, FHC) z uporabo mikromanipulatorja (MO-972, Narishige, Tokio, Japonska), nameščenega na snemalno komoro z nerjaveča vodilna cev. Napetostni signali so bili ojačani (× 10,000 0.5) in filtrirani (2–500 kHz). Akcijski potenciali iz enega samega nevrona so bili izolirani z algoritmom za ujemanje predloge (OmniPlex, Plexon, Dallas, TX, ZDA). Gibanje oči je spremljal sistem infrardečih kamer s frekvenco vzorčenja 1 Hz (iView X Hi-Speed ​​Primate, SMI, Teltow, Nemčija). Časovni akcijski potenciali in vedenjski dogodki so bili zabeleženi s časovno ločljivostjo XNUMX kHz.

Analiza podatkov

Za analizo vedenja opic so RT določili kot časovni interval med pojavom dražljaja in časom, ko so opice začele sakado. Zagon sakade je bil določen z izračunom časa, ko položaj pogleda presega 5 standardnih odstopanj od povprečnega položaja pogleda pred predstavitvijo iztočnice.

V nalogi raziskovanja HLC smo optično vedenje opic količinsko opredelili s prilagajanjem kumulativne eksponentne funkcije. Funkcija (P) opisuje delež pravilne izbire na naslednji način:

P=12+(12-12exp(-at))b,
(1)

Kje t pomeni preizkus, a in b označujeta naklon in planoto krivulje. Ta funkcija je bila neodvisno v skladu s podatki za dva stroškovna pogoja. Preiskali smo parametre funkcije, da smo povečali verjetnost opazovanja podatkov iz ene seje in povprečnih podatkov. Za oceno intervalov zaupanja pri prilagoditvi povprečenim podatkom je bila uporabljena metoda zagonske pasove. Za določitev vedenjskih podatkov je bil uporabljen tudi standardni model RL. Vrednosti dražljajev Vj(t) za izbrano izbiro j (j = 1 za stanje HC; j = 2 za stanje LC) so bili posodobljeni, kot sledi:

Vj(t+1)=Vj(t)+αj(R(t)-Vj(t)),
(2)

Kje αj navedite stopnje učenja, ki so bile omejene na vrednosti med 0 in 1. R(t) označuje znesek nagrade (1: nagrajen, 0: ni nagrade) v preizkusnem obdobju t.

Verjetnost Pj(t) izbire spodbude j od obeh dražljajev na preizkušnji t je dano s pravilom softmax

Pj(t)=exp(Vj(t)βj)/2i=1exp(Vi(t)βi),
(3)

Kje βj označuje obseg raziskovanja.

Zabeležili smo nevronsko aktivnost med sakade HLC in negotovo nalogo HLC, ne pa tudi naloge raziskovanja HLC. Naloga raziskovanja HLC je bila izvedena kot zgolj vedenjska študija. Dopaminski nevroni so bili identificirani, če so imeli vsako od naslednjih lastnosti: nizka hitrost sprožitve tonika (<6 Hz), dolgo trajanje valovite oblike (> 300 μs) in fazni odziv na nepredvidljivo nagrado (dodatna slika 2a). Analizirali smo preskuse, v katerih bi opice lahko preizkus zaključile brez napak (fiksacija zaviranja, brez sakade ali umetnega prekinitve). Povprečna hitrost odganjanja nevronov je bila izračunana s posodami za 1 ms in zglajena z Gaussovim jedrom (σ = 30 ms, širina = 4σ) za izdelavo funkcij gostote konic. Odzivi dopaminskih nevronov na vsak delovni dogodek so bili izračunani kot normalizirana hitrost streljanja glede na spontano aktivnost (srednja hitrost streljanja v času 500 ms pred začetkom preiskave). Stopnje streljanja so bile izračunane v časovnih oknih, določenih za posamezen dogodek in predmet. Ta časovna okna so bila določena na podlagi povprečja prebivalstva. Začetne in končne točke časovnih oken smo določili na podlagi porasta in padca odziva v povprečju populacije z uporabo predhodnih študij dopamina na opicah (dopolnilna slika št. 3). Časovno okno za začetno iztočnico je bilo opredeljeno kot 200–400 ms po nastanku izhodne iztočnice za nevrone, posnete z opicami P in S. Časovno okno za kondicijsko iztočnico je bilo opredeljeno kot 150–300 ms po nastopu iztočnice za opico P in S. 200–400 ms za opico S. Časovno okno za znak za nagrado je bilo opredeljeno kot 140–350 ms po nastopu nagradne vrste za opico P in 220–420 ms za opico S. Časovno okno za oddajo nagrade je bilo opredeljeno kot 225– 475 ms po napadu piska za opico P in 200–450 ms za opico S. Časovno okno za nepredvidljivo oddajo nagrade je bilo opredeljeno kot 100–300 ms po oddaji nagrade za opico P in 150–300 ms za opico S. časovno okno za nepredvidljivo zračno puhanje je bilo opredeljeno kot 30–230 ms po dobavi zračnega zapora za opico P in 50–200 ms za opico S.

Vse zabeležene dopaminske nevrone smo razvrstili v dve različni kategoriji, motivacijsko vrednost in vidnost. Če je bil odziv nevrona na dražljaje zraka manjši od spontane aktivnosti, je bil nevron razvrščen kot motivacijski vrednostni tip (sl. 3d, npr). Če pa je bil odziv nevrona na dražljaje na zraku večji od spontane aktivnosti, je bil nevron uvrščen med vrste slišnosti (sl. 3 g, h).

Za kvantificiranje diferencialne nevronske aktivnosti med pogoji opravila je bila izvedena analiza ROC. Izračunali smo auROC za vsak nevron. AuROC, manjši ali večji od 0.5, kaže na manjši ali večji odziv v preskušanju s HC. Ker je bilo število nevronov v nekaterih naborih podatkov o nevronih majhno, smo z Wilcoxonovim testom s podpisanim rangom zmanjšali učinek izstopajočih meril za kvantificiranje pristranske porazdelitve auROC.

Programska oprema MATLAB (MathWorks, Natick, MA, ZDA) je bila uporabljena za izvajanje vseh analiz podatkov.

Histološki pregled

Po snemalnem poskusu sta bili obe opici evtanazirani in izvedena je histološka analiza, da se preveri snemalni položaj (dopolnitev Fig. 2b). Opice so bile evtanazirane z dajanjem smrtonosnega odmerka pentobarbital natrija (70 mg kg)-1) in perfuziran s 4% formaldehidom v fosfatnem puferju. Serijski koronalni odseki (debelina 10 µm) so bili razrezani in imunološko obarvani s protitelesom proti tirozin hidroksilazo (TH) (vsakih 25 odsekov; protitelesa proti TH, 1: 500; Merck, Darmstadt, Nemčija) ali Nissl (vsakih 25 odsekov) .

Povzetek poročanja

Dodatne informacije o oblikovanju raziskav so na voljo v Povzetek poročanja o naravoslovnih raziskavah povezan s tem člankom.

Razpoložljivost podatkov

Podatki, uporabljeni pri analizi te študije, so na podlagi ustrezne zahteve na voljo pri ustreznem avtorju. Povzetek poročanja za ta članek je na voljo kot datoteka z dodatnimi informacijami. Izvorni podatki pod Fig. 1, 3-8 in dopolnilne fige. 1, 4-12 so na voljo kot datoteka z izvornimi podatki.

Razpoložljivost kode

Matlabove kode, uporabljene pri analizi te študije, so na voljo pri ustreznem avtorju na razumno zahtevo.

Reference

  1. 1.

    Clement, TS, Feltus, JR, Kaiser, DH & Zentall, TR "Delovna etika" pri golobih: vrednost nagrade je neposredno povezana s trudom ali časom, potrebnim za pridobitev nagrade. Psihona. Bik. Rev. 7100-106 (2000).

  2. 2.

    Klein, ED, Bhatt, RS in Zentall, TR Kontrast in utemeljitev truda. Psihona. Bik. Rev. 12335-339 (2005).

  3. 3.

    Zentall, TR & Singer, RA Kontrastni kontrast: golobi imajo raje pogojene ojačevalce, ki sledijo razmeroma bolj kot manj averzivnemu dogodku. J. Exp. Anal. Behav. 88131-149 (2007).

  4. 4.

    Aronson, E. & Mills, J. Učinek resnosti iniciacije na naklonjenost skupini. J. Abnorm. Soc. Psihola. 59177-181 (1959).

  5. 5.

    Festinger, L. Teorija kognitivne disonance. (Stanford University Press, Kalifornija, 1957).

  6. 6.

    Alessandri, J., Darcheville, JC, Delevoye-Turrell, Y. in Zentall, TR Prednost za nagrade, ki sledijo večjim naporom in večji zamudi. Nauči se Behav. 36352-358 (2008).

  7. 7.

    Schultz, W., Carelli, RM & Wightman, RM Fazni signali dopamina: od subjektivne vrednosti nagrade do formalne ekonomske koristi. Curr Mnenje. Behav. Sci. 5147-154 (2015).

  8. 8.

    Schultz, W., Dayan, P. in Montague, PR Nevronski substrat napovedovanja in nagrade. Znanost 2751593-1599 (1997).

  9. 9.

    Bromberg-Martin, ES, Matsumoto, M. in Hikosaka, O. Dopamin v motivacijskem nadzoru: nagrajevanje, odpor in opozarjanje. Nevron 68815-834 (2010).

  10. 10.

    Bayer, HM in Glimcher, PW Midbrain dopaminski nevroni kodirajo kvantitativni signal napake napovedovanja nagrade. Nevron 47129-141 (2005).

  11. 11.

    Nakahara, H., Itoh, H., Kawagoe, R., Takikawa, Y. & Hikosaka, O. Dopaminski nevroni lahko predstavljajo napako napovedi, ki je odvisna od konteksta. Nevron 41269-280 (2004).

  12. 12.

    Tobler, PN, Fiorillo, CD in Schultz, W. Adaptivno kodiranje vrednosti nagrade z dopaminskimi nevroni. Znanost 3071642-1645 (2005).

  13. 13.

    Nomoto, K., Schultz, W., Watanabe, T. in Sakagami, M. Začasno razširjeni odzivi dopamina na zaznavno zahtevne dražljaje za napoved. J. Neurosci. 3010692-10702 (2010).

  14. 14.

    Watabe-Uchida, M., Zhu, L., Ogawa, SK, Vamanrao, A. in Uchida, N. Kartiranje celotnih možganov neposrednih vnosov v dopaminske nevrone srednjega možganov. Nevron 74858-873 (2012).

  15. 15.

    Tanaka, SC et al. Napovedovanje takojšnjih in prihodnjih nagrad različno novači kortiko-bazalne zanke ganglijev. Nat. Neurosci. 7887-893 (2004).

  16. 16.

    Haber, SN, Kim, KS, Mailly, P. in Calzavara, R. Kortikalni vložki, povezani z nagrajevanjem, opredeljujejo veliko striatno regijo pri primatih, ki se povezujejo z asociativnimi kortikalnimi povezavami in zagotavljajo substrat za učenje na podlagi spodbud. J. Neurosci. 268368-8376 (2006).

  17. 17.

    Doya, K. Modulatorji odločanja. Nat. Neurosci. 11410-416 (2008).

  18. 18.

    Roesch, MR, Calu, DJ & Schoenbaum, G. Dopaminski nevroni kodirajo boljšo možnost pri podganah, ki se odločajo med različno zakasnjenimi ali velikimi nagradami. Nat. Neurosci. 101615-1624 (2007).

  19. 19.

    Lak, A., Stauffer, WR & Schultz, W. Odzivi na napake napovedi dopamina vključujejo subjektivno vrednost iz različnih dimenzij nagrajevanja. Proc. Natl Acad. Sci. ZDA 1112343-2348 (2014).

  20. 20.

    Stauffer, WR, Lak, A. in Schultz, W. Odzivi na napake pri napovedovanju nagrade za dopamin odražajo mejno korist. Curr. Biol. 242491-2500 (2014).

  21. 21.

    Noritake, A., Ninomiya, T. in Isoda, M. Spremljanje in vrednotenje socialnih nagrad v možganih makakov. Nat. Neurosci. 211452-1462 (2018).

  22. 22.

    Pasquereau, B. in Turner, RS Omejeno kodiranje napora dopaminskih nevronov v nalogi kompromisa stroškov in koristi. J. Neurosci. 338288-8300 (2013).

  23. 23.

    Varazzani, C., San-Galli, A., Gilardeau, S. in Bouret, S. Noradrenalinski in dopaminski nevroni v kompromisu med nagrado in naporom: neposredna elektrofiziološka primerjava pri obnašajočih se opicah. J. Neurosci. 207866-7877 (2015).

  24. 24.

    Watanabe, N., Sakagami, M. in Haruno, M. Signal napake napovedovanja nagrade, okrepljen z interakcijo striatum-amigdala, pojasnjuje pospešitev učenja verjetnostne nagrade z čustvi. J. Neurosci. 334487-4493 (2013).

  25. 25.

    Di Ciano, P., Cardinal, RN, Cowell, RA, Little, SJ & Everitt, B. Diferencialna vpletenost NMDA, AMPA / kainatov in dopaminskih receptorjev v jedru nucleus accumbens pri pridobivanju in izvajanju vedenja Pavlovskega pristopa. J. Neurosci. 219471-9477 (2001).

  26. 26.

    Flagel, SB in sod. Selektivna vloga dopamina pri učenju spodbujevalcev. Narava 46953-57 (2011).

  27. 27.

    Blough, DS Učinki polnjenja, razločljivosti in okrepitve na komponente reakcijskega časa golobine iskanja. J. Exp. Psihol. Anim. Behav. Proces. 2650-63 (2000).

  28. 28.

    Matsumoto, M. in Hikosaka, O. Dve vrsti dopaminskega nevrona izrazito posredujeta pozitivne in negativne motivacijske signale. Narava 459837-841 (2009).

  29. 29.

    Matsumoto, M. in Takada, M. Izrazita predstavitev kognitivnih in motivacijskih signalov v dopaminskih nevronih srednjega možgana. Nevron 791011-1024 (2013).

  30. 30.

    Watanabe, M. in sod. Vedenjske reakcije, ki odražajo različna pričakovanja o nagradih pri opicah. Exp. Brain Res. 140511-518 (2001).

  31. 31.

    Takikawa, Y., Kawagoe, R. in Hikosaka, O. Možna vloga dopaminskih nevronov srednjega možgana pri kratkoročni in dolgoročni prilagoditvi sakad na kartiranje položaja-nagrade. J. Neurophysiol. 922520-2529 (2004).

  32. 32.

    Kobayashi, S. in Schultz, W. Vpliv zamud pri nagrajevanju na odzive dopaminskih nevronov. J. Neurosci. 287837-7846 (2008).

  33. 33.

    Enomoto, K. et al. Dopaminski nevroni se naučijo kodirati dolgoročno vrednost več prihodnjih nagrad. Proc. Natl Acad. Sci. ZDA 10815462-15467 (2011).

  34. 34.

    Lak, A., Nomoto, K., Keramati, M., Sakagami, M. & Kepecs, A. Midbrain Dopaminski nevroni signalizirajo vero v natančnost izbire med zaznavno odločitvijo. Curr. Biol. 27821-832 (2017).

  35. 35.

    Williams, BA & McDevitt, MA Inhibicija in superkondicioniranje. Psihola. Sci. 13454-459 (2002).

  36. 36.

    Behrens, TE, Woolrich, MW, Walton, ME & Rushworth, MF Učenje vrednosti informacij v negotovem svetu. Nat. Neurosci. 101214-1221 (2007).

  37. 37.

    Seymour, B. et al. Nasprotni apetitno-averzivni nevronski procesi temeljijo na prediktivnem učenju lajšanja bolečine. Nat. Neurosci. 81234-1240 (2005).

  38. 38.

    Kim, H., Shimojo, S. in O'Doherty, JP Ali je izogibanje averzivnemu rezultatu koristno? Nevronski substrati izogibanja učenju v človeških možganih. PLoS Biol. 4, e233 (2006).

  39. 39.

    Syed, EC et al. Začetek akcije oblikuje mezolimbično dopaminsko kodiranje prihodnjih nagrad. Nat. Neurosci. 1934-36 (2016).

Prenesite reference

Priznanja

To delo je podprlo MEXT / JSPS Dotacije za pomoč za znanstvene raziskave (Kakenhi) Številke donacij JP16H06571 in JP18H03662 za MS. To raziskavo je delno podprl Strateški raziskovalni program za možganske vede, ki ga je podprla Japonska agencija za medicinske raziskave in razvoj (AMED ) in Japonsko-ameriškega programa za sodelovanje na področju možganov. To raziskavo je podprl Nacionalni projekt za biološke vire na Nacionalnem inštitutu za fiziološke znanosti (NBRP pri NIPS) Japonske agencije za medicinske raziskave in razvoj, AMED. Zahvaljujemo se Bernardu W. Balleinu in Andreju R. Delamaterju za pomoč pri pisanju prispevka.

Podatki o avtorju

ST, JPO in MS so zasnovali poskuse. ST je izvedel poskuse in analiziral podatke. JPO in MS sta izpopolnila poskuse in analize podatkov. ST, JPO in MS so rokopis napisali.

Korespondenca z Masamiči Sakagami.