La kosto por akiri rekompencojn plibonigas la rekompencan prognozan eraran signalon de dubonaj dopaminaj neŭronoj (2019)

abstrakta

Midbrain-dopaminaj neŭronoj estas konataj por kodi rekompencajn prognozajn erarojn (RPE) uzatajn por ĝisdatigi valorajn antaŭdirojn. Ĉi tie, ni ekzamenas, ĉu RPE-signaloj koditaj de cerbaj dopaminaj neŭronoj estas modulitaj de la kosto pagita por akiri rekompencojn, registrante de dopaminaj neŭronoj en vekaj kondutaj simioj dum plenumado de peniga sakra tasko. Doponaj neŭronaj respondoj al antaŭdiroj de rekompenco kaj al liverado de rekompencoj estis pliigitaj post la agado de multekosta ago kompare al malpli multekosta ago, sugestante ke RPEs estas plibonigitaj post la agado de multekosta ago. Je la kondutisma nivelo, asocioj pri stimulo-rekompenco estas lernataj pli rapide post plenumado de multekosta ago kompare kun malpli kosta ago. Tiel, informoj pri agokosto estas prilaboritaj en la dopamina rekompenca sistemo en maniero amplifanta la sekvan dopaminan RPE-signalon, kiu siavice antaŭenigas pli rapidan lernadon en situacioj de alta kosto.

Enkonduko

Homoj kaj bestoj preferas rekompencon ricevitan post multe da penado akiri ĝin kompare kun la sama rekompenco post malpli granda penado1,2,3. Ĉi tiuj efikoj estis prezentitaj, kiel ekzemple penado4,5 kaj la kontrasta efiko6, en kiu pli granda valoro estas atribuita al rezulto akirita post pagita penado. Tamen, restas neklare ĉu kaj kiel la prilaborado de rekompenca informo en la cerbo estas modulita per la penado elspezita por akiri rekompencon.

Ni koncentriĝis specife al la midamin cerba dopamina sistemo, konsiderante la rolon de ĉi tiu sistemo por antaŭenigi kondutan adapton al rekompencoj7,8,9. Oni scias ke dopaminaj neŭronoj reprezentas signalojn de rekompenco-antaŭdiro (RPE), kiuj povas faciligi lernadon de rekompencaj antaŭdiroj de la bazaj ganglioj10,11,12,13,14,15,16,17. La forto de RPE dependas de la kvanto, kvalito, kaj subjektiva valoro aŭ utileco de la rekompenco7,18,19,20,21. Plie, dopaminergia aktiveco estas modulita per kostoj kaj / aŭ penado22,23. Sur ĉi tiu bazo, ni postulis, ke la dopaminergika RPE-signalo estus rekte modulita per la kosto pagita por akiri rekompencon. Plue, ĉar la RPE-signalo kaŭze rilatas al mediacia lernado de stimulo-rekompencaj asocioj24,25,26, ni hipotezis, ke la kosto pagita por akiri la rekompencon rekte pliigus la lernadrapidecon de asocioj de stimulo-rekompenco.

Por testi niajn hipotezojn, ni mezuris ambaŭ konduton kaj dopaminergian aktivecon en du japanaj simioj dum ili plenumis sakc-bazitan penad-taskon. Simioj reagas pli rapide al rekompenca antaŭsigno, kiu estas prezentita post altkosta (HC) ago kompare kun tiu post malalt-kosta (LC) ago. La aktiveco de dopaminergiaj neŭronoj al la rekompencaj antaŭsignoj estas pliigitaj per la pagita kosto. Krome, lernado de rapideco al la stimulo-rekompenca asocio ankaŭ plibonigas la pagitan koston. Tial ni sugestas, ke la kosto pagita por akiri rekompencon pliigas la RPE-signalon en dopaminaj neŭronoj kaj tiel plibonigas asociojn de stimulo-rekompenco.

rezultoj

Tasko de Alta Malalta Kosto (HLC)

Por ekzameni la efikon de pagita kosto sur konduto kaj sur dopamina neŭrona aktiveco, la simioj plenumis sakran taskon kun du kostkondiĉoj (Fig. 1a, vidu Metodojn). En HC-provoj, la simioj rapide faris sakadon al la celo kaj tenis sian rigardon sur ĝi sen palpebrumado por pli longa periodo (Fig. 1b; verdaj linioj). En kontrasto, ĉe LC-provoj la simioj ĉirkaŭrigardis libere unue antaŭ fiksado por pli mallonga periodo (Fig. 1b, purpuraj linioj). Ĉar konservi longan fiksadon malfacilas al simioj, ili faris pli da eraroj dum prokrastoj pri HC-provoj (Fig. 1c). Por kontroli konsekvencan diferencon en rekompenco-probablo inter HC-provoj kaj LC-provoj, ni enmetis devigitajn abortojn en porcion de LC-provoj por egaligi sukcesajn indicojn kaj rekompenci probablojn inter provaj tipoj 1d).

Figo. 1
figuro1

HLC-sakra tasko. a La tasko de HLC-sakado. Kostaj signaloj (C-signalvorto) signalis la kvanton de penado necesa por atingi eblan rekompencon. Longa fiksado necesis dum la malfrua periodo en kostaj provoj. La rekompenca indiko (R-indico) indikas ĉu la simioj povus akiri rekompencon aŭ ne. b La tempokurso de la rigardangulo dum la malfrua periodo. La supraj kaj subaj paneloj montras respektive la horizontalajn kaj vertikalajn angulojn. Verdaj kaj purpuraj linioj indikas la rigardan angulon en altkostaj provoj (50-provoj en ĉiu panelo) kaj en malalt-kostaj provoj (50-provoj en ĉiu panelo), respektive. c La nombro de eraroj dum la malfrua periodo en la altkostaj kaj malaltkostaj provoj (**P< 0.01; duvostaj pariĝis t testo; t67 = 8.8, P = 4.8 × 10-15, n = 68 por Simio P; t83 = 26.6, P ≈ 0, n = 84 por Simio S). Nigraj cirkloj kaj erarstangoj indikas meznombron kaj SEM. d Sukcesaj tarifoj en la altkostaj kaj malaltkostaj provoj (dulongaj paroj t testo; t67 = 0.51, P = 0.61, n = 68 por Simio P; t83 = 0.79, P = 0.43, n = 84 por Simio S). e RTs al la kostaj indikojP <0.01; duvostaj pariĝis t testo; t67 = 20.4, P ≈ 0, n = 68 por Simio P; t69 = 2.0, P = 1.2 × 10-3, n = 70 por Simio S). f RTs al la rekompencaj rimedoj (**P <0.01; duvostaj pariĝis t testo; Simio P (n = 68): HC + kontraŭ LC +, t67 = 3.5, P = 9.2 × 10-4; HC− vs. LC−, t67 = 24.5, P ≈ 0; HC + kontraŭ HC−, t67 = 21.6, P ≈ 0; LC + kontraŭ LC−, t67 = 28.5, P ≈ 0; Simio S (n = 70): HC + kontraŭ LC +, t69 = 5.6, P = 4.4 × 10-7; HC− vs. LC−, t69 = 4.8, P = 8.4 × 10-5; HC + vs. HC−, t69 = 18.0, P ≈ 0; LC + kontraŭ LC−, t69 = 5.9, P = 1.1 × 10-7)

Pagita kosto pliigas la valoron de rekompencaj moneroj

Por akiri implican evidentecon por diferenco en la subjektiva taksado de simioj, ni testis la reagajn tempojn de la simioj (RTs). Precipe ni antaŭvidis, ke se la simioj atribuas pli altan subjektivan valoron al unu opcio ol alia, ili devas montri pli rapidajn RT-ojn por la pli aprezita opcio27. Kiam RT-oj estis komparataj inter la kostaj indikoj, ambaŭ simioj montris pli rapidajn RTojn al la LC kompare al la HC-signo (Fig. 1e), montrante implican preferon por la LC-kondiĉo. Kiam la RT-oj estis komparataj inter rekompencaj kursoj, ambaŭ simioj montris pli rapidajn RT-ojn por rekompenci (R +) kvietojn ol neniujn rekompencojn (R−). 1f), indikante ke ili preferis R +-spilojn al R-cues. Krome ambaŭ simioj montris pli rapidajn RT-ojn al la RHC+ cue kompare kun la RLC+ cue kaj al la RHC- cu kompare kun la RLC- cue (Fig. 1f), indikante ke ili aprezis pli la rekompenc-antaŭdirojn en la HC kompare kun la LC-kondiĉo.

Krome, ni inkluzivis elektajn provojn en la tasko HLC por testi la antaŭajn preferojn de simioj inter signoj (Suplementa Fig. 1a). La simioj prefere elektis la LC-takson, kiam ili elektis inter kosto-spuroj (Suplementa Fig. 1b). Simio S prefere elektis la RHC+ cue kiam plenumante la elektan taskon inter RHC+ kaj RLC+ cue, sed neniu prefero inter RHC- kaj RLC- signoj (Suplementa Fig. 1c, d). En kontrasto, simio P montris neniun superan preferon inter RHC+ kaj RLC+ cues, sed tamen preferis la RHC- Cue kiam elektas inter RHC- kaj RLC- signoj (Suplementa Fig. 1c, d).

Elektrofisiologiaj rezultoj en la tasko HLC-sakaro

Ni registris unuopan agadon de neŭronoj lokitaj en la substantia nigra pars kompakta (SNc) kaj ventrala tegmenta areo (VTA) dum la HLC-sakra tasko. Ni identigis 70 dopaminajn neŭronojn tra la du simioj (Suplementa Fig. 2a; Neŭronoj de 18 kaj 52 de Simio P kaj S respektive). Histologia ekzameno konfirmis la neŭronojn situantaj en aŭ ĉirkaŭ la SNc / VTA (Suplementa Fig. 2b).

En Fig. 2, ni montras la agadon de reprezenta dopamina neŭro. Ĉi tiu neŭrono montris modestan aktivadon al la LC-cue, kaj fazan aktivadon aŭ forigon al la rekompenco (RHC+ kaj RLC+) aŭ neniujn rekompencojn (RHC- kaj RLC-) respektive (Fig. 2, Suplementa Fig. 3). La neŭrono ankaŭ montris fazan aktivadon al la neantaŭvidebla rekompenco kaj ankaŭ fazan subpremon en respondo al avida stimulo, neantaŭvidebla aera pugo (Fig. 2, dekstra panelo). Krome, la neŭronino montris modestan subpremadon al la komenco, sed ne donis respondon por rekompenci liveradon. La tuta populacio de dopaminaj neŭronoj, kiujn ni registris, ĉiuj montris similajn respondojn al la komenco kaj rekompenco-liverado (Suplementa Fig. 4a, b). En la HLC-sakra tasko, pagenda kosto estis pagita antaŭ ol akiri la rekompencon. Ĉar la antaŭdirita kosto reduktis dopaminan neŭronan agadon22,23La respondoj de dopamina neŭronoj estus subpremitaj en la momento de prezento16.

Figo. 2
figuro2

Aktiveco de reprezenta dopamina neŭro en la tasko HLC-sakaro. Spike-densigaj funkcioj (kunvolvitaj kun gaŭsa funkcio) kaj rastrumaj intrigoj estas vicigitaj kun la ekkomenco de la ekkuro, la kosta kurbo (C cue), la fiksa celo, la rekompenca kvoto (R cue), kaj la sonoro. Ĉiu koloro reprezentas kondiĉon (flava: HC +, verda: HC−, rozkolora: LC +, cian: LC−), respektive. La tempoj de la apero de la sakado estas indikitaj per grizaj krucoj. La respondoj de la dopamina neŭronoj al la neantaŭvidebla rekompenco aŭ aero-pufo ankaŭ estas reprezentitaj en la dekstra panelo (ruĝa: neantaŭvidebla rekompenco, blua: neantaŭvidebla aero-pugo)

Neŭronaj dopaminoj kodas informojn pri rekompenco kaj kosto

La neŭronoj respondis faze al la LC-signo, sed malpli forte al la HC-signo (Fig. 3a, b). Elvokitaj respondoj al la kostaj kondiĉoj montris pli malgrandan respondon al la HC-kvoto ol LC-cue (la du-vosta subskribita rango de Wilcoxon, P <3.2 × 10-4, n = 70). Ni kvantigis la efikon de la prognozita kosto sur neuronaj respondoj per analizo de ricevilo funkcianta karakterizaĵon (ROC). La distribuo de la areo sub la ROC-kurbo (auROC) estis signife <0.5 (Fig. XNUMX). 3c; du-vosta subskribita rango de Wilcoxon; P = 5.4 × 10-4, n = 70), indikante ke respondoj de HC-signalvortoj estis pli malgrandaj ol al la LC-signalvorto. Antaŭdirita kosto antaŭe estis trovita redukti dopaminan neŭronan agadon, konforme al niaj rezultoj22,23. Krome, la populacio de dopaminaj neŭronoj montris signifan aktivadon al la LC-signo samtempe montrante neniun signifan subpremadon al HC-aludoj (Suplementa Fig. 4c, d). Ĉi tiuj rezultoj sugestas, ke dopaminaj neŭronoj kodigas kaj integras informojn pri rekompenco kaj kosto en la momento de prezento de kosto.

Figo. 3
figuro3

Neŭronaj dopaminaj respondoj al kostaj indikoj. a Reprezenta dopamina neŭrona respondo al la kostaj signaloj. La funkcioj de spikdenseco estis kalkulitaj laŭ la normaligita agado de dopamina neŭrono registrita de la simio P. La koloraj linioj indikas la funkciojn de spikdenseco kaj koloraj punktoj indikas la spiktempon. Verdaj kaj purpuraj koloroj indikas aktivecon en la kostaj kaj malmultekostaj provoj, respektive. La vertikala linio indikas la tempon de la prezento pri kosto. La grizkolora areo indikas la periodon por kalkuli la pafrapidecon kiel la respondo al la kondiĉaj signaloj. b Populara agada agado de la dopaminaj neŭronoj registritaj de simio P al la kondiĉoj. La solidaj linioj kun la linioj reprezentas mezumon kaj SEM respektive. c La distribuo de la areoj sub la ROCs por kvantigi la efikon de la antaŭvidita kosto sur la neŭronoma respondo al la kosto. Plenigitaj kvadratoj kaj malfermaj rondoj indikas datumojn de simio P kaj S respektive. La sagokapo indikas la mezon de la aŭROC (0.47). d, g Reprezentaj respondoj de la motiva valora tipo dopamina neŭro (d) aŭ saŭna tipo dopamina neŭro (g) al la neantaŭvidebla rekompenco aŭ aero. Ruĝaj kaj bluaj kurboj respektive indikas la respondon al neantaŭvidebla rekompenco kaj neantaŭvidebla aero-pugo. La vertikala linio indikas la tempigon de la neantaŭvidebla rekompenco aŭ liverado de aero. Paliĝintaj ruĝaj kaj bluaj kvadratoj indikas la periodon por kalkuli la pafon de la pafo kiel la respondo al la neantaŭvidebla rekompenco aŭ aero. e, h Populara averaĝa agado de la motiva valora tipo dopaminaj neŭronoj (e) aŭ neŭtona dopamina neŭronoj (h) al la neantaŭvidebla rekompenco aŭ aero. f, i La distribuo de la aŭROC-oj kalkulitaj el la motiva valoro-dopaminaj neŭronoj (f) aŭ neŭtona dopamina neŭronoj (i). La sagfolioj indikas la mezojn de la aŭROCoj (f 0.48; i 0.46)

Du distingaj subtipoj de dopaminaj neŭronoj antaŭe estis priskribitaj: motiva valoro kaj saŭdaj neŭronoj28,29. Ni trovis evidentecon en nia dopamina neŭrona populacio de respondaj ŝablonoj konformaj al ambaŭ subtipoj. Valoraj neŭronoj montris fazan subpremadon al la avversaj aer-pufaj stimuloj (Fig. 3d, e). Aliflanke, saŭdaj neŭronoj montris fazan aktivadon al la avversaj stimuloj (Fig. 3g, h). La longa fiksado en la HC-proceso ankaŭ estas malagrabla kaj avara; tial eblas ke la du dopaminaj neŭronotipoj montrus malsamajn respondajn padronojn al la kostaj kondiĉoj. Se dopaminaj neŭronoj reprezentas perversajn stimulojn kaj kostas simile, tiam valoraj neŭronoj devas montri malpliiĝan agadon al la HC-signo pro ĝia aversiveco. Aliflanke, saŭdaj neŭronoj devas pliiĝi en aktiveco al la HC-signo ĉar ili ankaŭ pliiĝas al malagrablaj stimuloj. Tamen, elvokitaj respondoj de ambaŭ specoj de neŭronoj estis pli malgrandaj ol la HC-signo kompare kun la LC-signo (du-vosta subskribita rango de Wilcoxon); P = 0.021, n = 41 kaj P = 0.0044, n = 29 por la valoro kaj la elstaraj specoj respektive), kaj la analizo ROC montris pli malgrandajn respondojn al la HC kompare kun la LC-indiko en ambaŭ subtipoj (Fig. 3f, i; du-vosta subskribita rango de Wilcoxon; P = 0.030, n = 41 kaj P = 0.0058, n = 29 por la valoro kaj la elstaraj specoj respektive). Tiel, antaŭvidita reduktita agado en ambaŭ subtipoj de dopaminaj neŭronoj. Ĉi tiuj rezultoj indikas, ke kostaj informoj estas prilaboritaj de dopaminaj neŭronoj laŭ kvalite malsama maniero al aversivaj stimuloj.

En la tasko de HLC-sakado, ni enigis malvolan aborton en parto de LC-provoj por egaligi la sukcesajn indicojn kaj la rekompencan probablon inter provaj tipoj. Ĉi tiu manipulado pliigis la necertecon akiri rekompencon aŭ la riskon de neniu rekompenco en la LC-kondiĉo. Sekve, la pli alta agado de dopaminaj neŭronoj kaj la pliigita taksado de la simioj por la LC super la HC-signalvorto povus esti pro la diferenco en la risko aŭ necerteco inter la kostaj kondiĉoj. Tamen ni trovis neniun rilaton inter la nombro de devigitaj abortoj kaj la diferenco en RT (Suplementa Fig. 5a, b), kaj ni trovis pozitivan korelacion inter la nombro de devigitaj abortoj kaj la auROC (Suplementa Fig. 5c). Ni ankaŭ komparis dopaminajn respondojn al la kostaj indikoj post abortoj kontraŭ post ĝustaj provoj, sed ne trovis diferencon en ambaŭ kostaj kondiĉoj (Suplementa Fig. 5d). Ĉi tiuj rezultoj indikas, ke la nombro de devigitaj abortoj en la LC-kondiĉo ne klarigas nek la kreskon de taksado nek la plibonigitan dopaminergian aktivadon al la LC-signo.

Pliigitaj dopaminaj respondoj por rekompenci kvitancon per pagita kosto

La registritaj dopaminaj neŭronoj estis trovitaj montrante fazan aktivadon kaj subpremon por rekompenci kaj neniujn rekompencajn antaŭvidojn, respektive (Fig. 2). Tuj poste, ni taksis, ĉu ĉi tiuj respondoj estis modulitaj laŭ la kosto antaŭe faritaj. Ekzemplo de reprezenta neŭrono kaj loĝant-averaĝaj neŭronoj elmontrantaj pli grandan aktivadon al la RHC+ cue ol la RLC+ signalvorto estas montrita en Figuro 4a kaj b, respektive. (du-vosta subskribita rango de Wilcoxon; P = 7.4 × 10-5, n = 70). La distribuo de aŭROC-oj estis> 0.5, indikante ke la respondo al la RHC+ cue estis pli granda ol al RLC+ cue (Fig. 4c; du-vosta subskribita rango de Wilcoxon; P = 1.4 × 10-4, n = 70). Ĉi tiuj rezultoj indikas, ke la respondo al la rekompenca antaŭdiro en la kondiĉo HC estas signife pli granda ol en la kondiĉo LC. Sekve, niaj trovoj sugestas, ke la pozitiva-RPE-signalo reprezentita de dopaminaj neŭronoj pliigas la koston antaŭe faritan.

Figo. 4
figuro4

Neŭronaj dopaminaj respondoj por rekompenci kvietojn. a Ekzemple neŭrona respondo al la R +. La funkcioj de spica denseco estis kalkulitaj el la agado de dopamina neŭro registrita de simio P. La koloraj linioj kaj punktoj indikas spican densecon kaj pintan tempigon respektive. Flavaj kaj rozkoloraj koloroj indikas aktivecon en la provoj de alta kaj malalta kosto respektive. La vertikala linio indikas la tempigon de la prezento de R +. La grizruĝa areo indikas la periodon por kalkuli la pafon-indicon kiel la respondo al la rekompencoj. b Populara averaĝa agado de la dopaminaj neŭronoj registritaj de simio P ĝis la R + -vortoj. La solidaj linioj kaj la streketaj linioj reprezentas respektive meznombron kaj SEM. c La distribuo de la aŭROCoj por kvantigi la efikon de la pagita kosto sur la neŭronoma respondo al la R +. Plenigitaj kvadratoj kaj malfermaj rondoj indikas datumojn de simio P kaj S respektive. La sagokapo indikas la mezon de la aŭROCoj (0.53). d Reprezenta respondo al la R-veroj. Verdaj kaj ciaj koloroj indikas provojn kaj altkostajn respektive. La vertikala linio indikas la tempigon de la prezento de R-cue. e Populara agado de la dopamineaj neŭronoj registritaj de simio P al R-iloj. f La distribuo de la aŭROC-oj por kvantigi la efikon de la pagita kosto sur la neuronal respondo al la R-kvietoj. La sagokapo indikas la mezon de la aŭROC (0.50)

La dopaminaj neŭronoj ankaŭ montris fazan subpremadon al la R-cues (Fig. 4d, e). Tamen, la respondoj de la dopamina neŭronoj al la R-signoj ne montris gravan diferencon kiel funkcio de kosto kaŭzita (subskribita rango de du-vosta Wilcoxon); P = 0.25, n = 70), kaj la ROC-analizo ne malkaŝis evidentecon pri antaŭjuĝo en la respondo-distribuo (Fig. 4f; La subskribita rango de Wilcoxon, P = 0.35; n = 70). Tiel, la pagita kosto ne estis reflektita en la negativa-RPE-signalo provokita de la ne-antaŭdiraj signaloj. Ĉi tio povas esti kaŭzita de etaĝa efiko: la spontanea agado de la dopamina neŭrono estas malalta (ĉirkaŭ 5 Hz); kaj sekve eble ne ekzistas sufiĉa dinamika gamo por adekvate kodigi tian diferencon de kosto elspezita por la negativa RPE-respondo (Fig. 4d, e).

Ni ankaŭ ekzamenis la efikon de la pagita kosto sur la rekompencaj indikoj por la valoroj kaj malrapidaj dopaminaj neŭronoj, sed ambaŭ specoj de dopaminaj neŭronoj montris similan respondan mastron (Suplementa Fig. 6a – h). Sekve, la pagita kosto manifestas similan efikon sur la respondo al rekompencaj malhelpoj en dopaminaj neŭronoj kiel la valoro kaj la bonintenca.

La efektivaj daŭraj fiksoj de la simioj ne estis konstantaj, sed variis laŭ provo-juĝa bazo (Fig. 1b). Sekve, eblis, ke dopaminaj respondoj al la rekompencaj tavoloj estas modulitaj de la efektivaj fiksaj daŭroj laŭprocezamente. Tamen ni ne povis trovi ajnan signifan korelacion inter ili por ĉiu kosto kaj rekompenca kondiĉo (Suplementa Fig. 7a – d). Plue, RT-oj al la rekompenca kvoto ankaŭ estis modulitaj per la kosto kaj rekompenco-kondiĉoj. 1f). Unu ebleco estas, ke la respondoj de la dopaminaj neŭronoj povus esti klarigitaj de la RT-oj al la rekompencaj krizoj. Tamen, ni ne povis trovi ajnan signifan korelacion inter RTs kaj la normaligitaj dopaminaj respondoj al la rekompencaj indicoj (Suplementa Fig. 7e – h). Ĉi tiuj rezultoj sugestas, ke respondoj al dopamino estas sendependaj de RTs kaj fiksaj daŭroj en ĉiu provo, tamen modulitaj per la kvanto de postulita kosto kaj atendata rekompenco, kiuj estas fiksitaj por ĉiu speco de provoj.

Plue, eblas ankaŭ, ke la devigitaj abortoj en la LC-kondiĉo generis ambaŭ la preferojn de simioj kaj plibonigita aktivigo de la dopaminaj neŭronoj al la rekompenco en la HC-kondiĉo. Se jes, la nombro de devigitaj abortoj devas rilati al ambaŭ prefero kaj al la grado de plibonigita aktivigo. Tamen, la nombro de la devigitaj abortoj havis neniujn efikojn aŭ sur la prefero de la simioj aŭ la aktivigo de la dopaminaj neŭronoj al la rekompencaj indikoj (Suplementa Fig. 8). Sekve, pli rapidaj RT-oj kaj pli altaj DA-respondoj al la RHC+ cue ol la RLC+ cue ne estas pro la enmetitaj devigitaj abortoj en la LC-kondiĉo.

Nekonata kosto pliigas dopaminajn respondojn por rekompenci liveradon

La respondo de dopaminaj neŭronoj al la R + kvietoj devas esti originita de la respondo al la rekompenco mem, ĉar dopaminaj neŭronoj ŝanĝas sian respondon al rekompencaj antaŭsignoj rilate al la stimulo-rekompenca asocio8,30. Tial ni atendis, ke dopaminaj neŭronoj montros pagitan dependan respondan plibonigon por rekompenci liveradon. Por mezuri dopaminan neŭronan agadon al la rekompenco, la simioj plenumis la necertan taskon de HLC per du novaj rekompencoj. 5a). Ĉar la rekompencoj estis liveritaj en nur duono de la prezentoj de la rekompenco, la rekompencoj nek fidinde nek malsame antaŭdiris rekompencon. Ĉi tio estis farita por maksimumigi dopaminan neŭronan respondecon al ricevo de (nepredikita) rekompenco, por pliigi nian sentivecon por detekti moduladon en la respondigebleco de la neŭronoj kiel funkcio de la elspezo elspezita.

Figo. 5
figuro5

HLC necerta tasko. a La HLC necerta tasko. En ĉi tiu tasko, estis uzataj necertaj rekompencaj rekompencoj, en kiuj estis donitaj rekompencoj 50% de la tempo, sendepende de kiu estis prezentita kvino. b RT-oj al la kostoj en la provoj de alta kaj malalta kosto. Nur simio P montris pli rapidan RT al la LC-signo ol la HC-signo (**P <0.01; duvostaj pariĝis t testo; t4 = 9.0, P = 8.5 × 10-4, n = 5 por simio P; t18 = 1.4, P = 0.19, n = 19 por simio S). Nigraj cirkloj kaj erarstangoj indikas meznombron kaj SEM. c RT-oj al la rekompencaj kursoj en la provoj de alta kaj malalta kosto. Ne estis diferenco en la RT-oj al la rekompencaj krizoj inter la altkosta kaj malaltkosta kondiĉo (du-vosta paro t testo; t4 = 0.97, P = 0.39, n = 5 por simio P; t18 = 0.99, P = 0.39, n = 19 por simio S)

Kiam RT-oj estis komparataj inter la kostaj indikoj, simio P montris pli rapidan RT al la LC-signo ol la HC-signo (Fig. 5b). Ne estis diferenco en RT-oj al la rekompenc-indicoj inter HC kaj LC-kondiĉo en ambaŭ simioj (Fig. 5c).

En la malcerta tasko de HLC, dopaminaj neŭronoj montris modestan aktivadon al la LC-signo sed ne respondis al la rekompencaj signaloj ĉar ili ne estis rekompencaj antaŭdiroj (Fig. 6a). Trans la loĝantaro, elvokitaj respondoj estis pli malgrandaj al la HC ol LC cue (Fig. 6b; du-vosta subskribita rango de Wilcoxon; P = 2.7 × 10-3, n = 19), kaj ROC-analizoj montris pli malgrandajn respondojn al la HC-signalvorto (Fig. 6c; du-vosta subskribita rango de Wilcoxon; P = 5.5 × 10-3, n = 19). La neurona respondo por rekompenci liveradon en la stato de HC estis pli granda ol la LC (Fig. 6d; du-vosta subskribita rango de Wilcoxon; P = 0.036, n = 19). La dissendo de aŭROC-oj estis> 0.5 indikante pli grandan rekompencan respondon en la HC rilate al LC-provoj (Fig. XNUMX). 6e; du-vosta subskribita rango de Wilcoxon; P = 0.049, n = 19). Ĉi tiuj rezultoj indikas, ke la rekompenca liverado-respondo pliboniĝas en la provo de HC kaj ke pagita kosto pliigas la pozitivan-RPE-signalon ĉe rekompenca liverado.

Figo. 6
figuro6

Neŭrona respondo al dopamina al la liveraĵo de rekompencoj. a Reprezenta dopamina neŭrona aktiveco en la HLC necerta tasko. Ĉiu koloro reprezentas la kondiĉojn (flava: HC +, verda: HC−, rozkolora: LC +, ciano: LC−). La tempoj de la apero de la sakado estas indikitaj per grizaj krucoj. La respondoj de ĉi tiu dopamina neŭron al la neantaŭvidebla rekompenco kaj aero-pufo estas ankaŭ bildigitaj en la dekstra panelo (ruĝa: neantaŭvidebla rekompenco, blua: neantaŭvidebla aero-pugo). b Populara averaĝa agado de la dopaminaj neŭronoj registritaj de simio S ĝis la statoj. Verdaj kaj purpuraj koloroj indikas agadon respektive en la kostaj kaj malmultekostaj provoj. La solidaj linioj kaj la streketaj linioj reprezentas meznombro kaj SEM, respektive. Grizkolora areo indikas la tempan fenestron por kalkuli la pafrapidecon kiel la respondon al la kondiĉaj signaloj. c La dissendo de la aŭROCoj por kvantigi la efikon de la antaŭvidita kosto sur la neuronal respondo al la kosto-indikoj. Plenigitaj kvadratoj indikas la datumojn de la simio P (n = 3) kaj malfermaj cirkloj indikas la datumojn de la simio S (n = 16). La sagpinto indikas la medianon de la aŭROC (0.44). d Populaci-averaĝa agado de la dopaminaj neŭronoj registritaj de la simio S al la rekompenca liverado. Flavaj kaj rozkoloraj koloroj indikas aktivecon en la provoj de alta kaj malalta kosto respektive. Grizbruna areo indikas la tempon-fenestron por kalkuli la pafon-indicon kiel la respondo al la rekompenca liverado. e La distribuo de la aŭROCoj por kvantigi la efikon de la pagita kosto sur la neuronal respondo al la liveraĵo de rekompencoj. La sagokapo indikas la mezon de la aŭROC (0.55)

Krome ni komparis dopaminajn respondojn post manko de rekompenco. La aŭROCoj ne montris priparolatan distribuon, indikante ke pagita kosto havis neniun efikon al negativaj RPEs ĉe la rezulto (Suplementa Fig. 9a). La dopaminaj neŭronoj montris neniun diferencon inter respondoj al la RHC kaj RLC signoj (Suplementa Fig. 9b).

Nekonata kosto plibonigas lernadrapidecon

Konsiderante, ke RPE-oj por rekompenci liveradon pliigas la pagitan koston, sub la hipotezo, ke RPE-oj rekte okupiĝas pri perado de stimulo-rekompenco-lernado, ni atendis, ke plibonigitaj RPE-oj reflektiĝos en lernado-konduto per plibonigita lerna rapideco.24. Por testi efikon de pagita kosto sur lernado, la simioj plenumis la esploradan taskon de HLC (Fig. 7a; vidu Metodojn). En ĉi tiu tasko, du rekompencaj signoj (R + kaj R−) estis prezentitaj samtempe kaj la simioj devis elekti unu. Ni egaligis sukcesprocentojn kaj rekompencas probablecon inter provtipoj (duvostaj paroj t testo; t48 = 0.15, P = 0.89, n = 49 por simio P; t85 = 1.2, P = 0.25, n = 86 por simio S). Kiam RT-oj estis komparitaj por la kostaj signaloj, ambaŭ simioj montris pli rapidajn RT-ojn al la LC-signalvorto ol la HC-signalvorto. 7b; duvosta paro t testo; t48 = 12.9, P ≈ 0, n = 49 por simio P; t85 = 3.4, P = 9.4 × 10-4, n = 86 por simio S). Komparante RT-ojn kun la rekompencaj signaloj, simio S montris pli rapidajn RT-ojn en la HC ol LC-kondiĉo (Fig. XNUMX). 7c; duvosta paro t testo; t48 = 1.3, P = 0.19, n = 49 por simio P; t85 = 2.8, P = 6.8 × 10-3, n = 86 por simio S). Komparante RT-ojn dum la unua kaj lasta duono de la lerna sesio aparte, RT-oj al la LC-signalvorto estis pli rapidaj ol al la HC-signalvorto dum la unua (Suplementa Fig. 10a) kaj lasta duono de la kunsido (Suplementa Fig. 10c). Male, RT-oj de simio S al la rekompenco en la HC-kondiĉo estis pli rapidaj ol en la LC-kondiĉo dum nur ĉi-lasta duono de la sesio (Suplementa Fig. 10d) sed ne la unua duono (Suplementa Fig. 10b).

Figo. 7
figuro7

HLC-esplorada tasko. a La tasko de esploro de HLC. En ĉi tiu tasko, simioj devis elekti inter R + kaj R-spuroj, kiuj estis generitaj hazarde en ĉiu lernada sesio. Se ili elektis la markolon R +, ili povus ricevi rekompencon kaj se ili elektus R-cue, ili ne akirus rekompencon. b RT-oj al la kostoj en la provoj de alta kaj malalta kosto. La simioj montris pli rapidajn RT-ojn al la malmultekosta kosto (**P< 0.01; duvostaj pariĝis t provo). Nigraj rondoj kaj eraraj stangoj indikas mezumon kaj SEM. c RT-oj al la rekompencaj kursoj en la provoj de alta kaj malalta kosto. Simio S montris pli rapidajn RT-ojn al la rekompencoj en la altkosta kondiĉo

En la esplora tasko de HLC, rekompencaj signoj estis hazarde generitaj en ĉiu lernada kunsido. Tial la simioj devis lerni la rilaton inter rekompencoj kaj rekompencoj en ĉiu kunsido. Ĉar provoj progresis ene de kunsido, la simioj elektis R +-kverelojn pli ofte en ĉiu kostkondiĉo (Fig. 8a). Por kvantigi lernadrapidecon, ni konvenas akumulan eksponencan funkcion al la datumoj, korpigante du senpagajn parametrojn, a kaj b, indikante respektive la krutaĵon de la kurbo kaj de la altebenaĵo (Suplementa Fig. 11a, b). La loga rilatumo inter steepness-parametroj (log aHC/aLC) estis signife pli granda ol nulo indikante pli grandan kruta parametro en HC ol LC-provoj (Fig. 8b; duvosta t testo; t48 = 2.1, P = 0.042, meznombro = 0.58, n = 49 por simio P; t85 = 2.5, P = 0.013, meznombro = 0.19, n = 86 por simio S). La log-proporcio inter altebenaĵaj parametroj (log bHC/bLC), ne diferencis de nulo, indikante neniun diferencon inter kostaj kondiĉoj (Fig. 8c; duvosta t testo; t48 = 0.76, P = 0.45, meznombro = −0.0024, n = 49 por simio P; t85 = 0.56, P = 0.58, meznombro = 0.010, n = 86 por simio S). Ĉi tiuj rezultoj indikas, ke lerna rapideco estas pli rapida en la provoj de HC. Poste ni modeligis lernajn kurbojn per modelo de plifortigo-lernado (RL) (vidu Metodojn). Ĉi tiu modelo inkluzivas lernajn rapidajn parametrojn (αHC kaj αLC) kaj esploradaj indicoj (βHC kaj βLC) por ambaŭ kostkondiĉoj (Suplementa Fig. 11c, d). Konvenante al konduto, ni trovis, ke la rilatumo inter lernaj parametroj (log αHC/αLC) estis pli granda ol nulo indikante signife pli grandan lernokvantan parametron en HC ol LC-provoj (Fig. 8d; duvosta t testo; t48 = 2.3, P = 0.026, meznombro = 0.50, n = 49 por simio P; t85 = 2.2, P = 0.034, meznombro = 0.25, n = 86 por simio S) dum la parametro β montris nenian diferencon (Fig. 8e; duvosta t testo; t48 = 0.77, P = 0.44, meznombro = 0.0097, n = 49 por simio P; t85 = 0.64, P = 0.52, meznombro = 0.038, n = 86 por simio S). Ĉi tie ni taksis la parametrojn de lernrapideco por ĉiu kostokondiĉo (αHC kaj αLC) aparte por klarigi pli rapidajn lernadrapidecojn en la HC-kondiĉo. Tamen, se lernokvantoj estas identaj inter la kostaj kondiĉoj, la rilatumo inter la taksitaj parametroj pri lernadoαHC/αLC) povas esti pensita kiel amplifvaloro por RPEoj en HC-kondiĉo. Tial ĉi tiuj rezultoj sugestas, ke amplekso de RPE-oj povas klarigi pli rapidajn lernadrapidecojn en la HC-kondiĉo.

Figo. 8
figuro8

Test-rapideca lernado a Meza lernprocezo de simioj P kaj S. La proporcio de elektoj de R + estas konceptita kiel funkcio de la provo. La verdaj kaj purpuraj punktoj indikas datumojn de provoj de alta kaj malalta kosto respektive. La punktitaj linioj reprezentas mildigitan lernadprocezon. La akumulaj eksponencaj funkcioj estis agorditaj al la datumpunktoj kaj reprezentitaj kiel la solidaj linioj. b La loga rilatumo inter la konvenaj parametroj a en la altaj kaj malaltkostaj kondiĉoj kiam la datumoj agordis kun akumula eksponenta funkcio (*P <0.05; duvosta subskribita rango de Wilcoxon). Nigraj cirkloj kaj eraraj stangoj indikas averaĝon kaj SEM. c La loga rilatumo inter la konvenaj parametroj b en la altaj kaj malaltkostaj kondiĉoj kiam la datumoj agordis kun akumula eksponenta funkcio. d La protokolo de raporto inter la parametro pri lernado α en la altaj kaj malaltkostaj kondiĉoj kiam la datumoj taŭgis kun plifortiga-lernada modelo. e La loga rilatumo inter la taŭga parametro β en la altaj kaj malaltkostaj kondiĉoj kiam la datumoj taŭgis kun plifortiga-lernada modelo

Ni ankaŭ provis klarigi la lernadprocezon per alternativaj modeloj de RL, kiuj konsideras eblecon, ke la simioj sciu la kontraŭrelacion inter stimuloj kaj rekompenco en ĉiu provo. En tiuj modeloj la valoro de la elektita elekto estas ĝisdatigita kune kun la elektita (Suplementa Fig. 12). Eĉ kiam vi aplikas tiajn alternativajn modelojn al la datumoj, la parametro pri lernokvanto estis signife pli granda en la HC kompare al la LC-kondiĉo (Suplementa Fig. 12b, f) dum la parametro β montris nenian diferencon (Suplementa Fig. 12d, h). Tiel, nia trovo pri amplifo de la RPE-signalo en la HC-kondiĉo estas fortika al formo de RL-modelo taŭga al la datumoj.

diskuto

Ni esploris la efikon de pagita kosto sur la valoro de rekompencaj antaŭsignoj kaj sur la fazaj respondoj de dubonaj dopaminaj neŭronoj. Simioj montris pliigitan taksadon de rekompencaj antaŭsignoj post la agado de ago, kiu kaŭzis pli grandan koston. Dopamineaj neŭronoj montris pliigitajn respondojn al la rekompenco-antaŭdiro de kaj rekompenco-liverado, post pli alta kosto. Plue, la simioj montris pli rapidajn lernadrapidecojn kiam pli alta kosto estis bezonata por akiri rekompencon.

Pluraj studoj montris, ke pagita kosto plibonigas preferojn por rekompenca antaŭdiro1,2,3. En la nuna studo, la simioj montris pli rapidajn RT-ojn al la rekompencaj antaŭvidoj en la HC-kondiĉo kompare kun tiuj en la LC-kondiĉo, konforme al la ebleco, ke la rekompenca valoro estas pliigita per la pagita kosto.27. Alternativa ebleco estas, ke la pli longa fiksa tempo asociita kun pliigita atento al la saksata celo en la HC-kondiĉo, tial, reduktante RT-ojn post pli longa fiksaĵo en la HC-proceso. Tamen, ni ne trovis ian diferencon inter RTs al la R-spuroj en la HC- kaj LC-provoj en la HLC-necerta tasko. Plue, en la unua duono de la esplora kunsido de HLC. RT-oj al la R-signaloj ne signife diferencis inter la HC- kaj LC-provoj. Ĉi tiuj trovoj tiel indikas, ke pli longa fiksaĵo ne estas verŝajna klarigo por la pli mallongaj RT-oj observataj al la rekompencaj antaŭsignoj. Aldone al la efiko de pagita kosto sur rekompencaj RT-oj, la kosto ankaŭ influis RT-ojn al la nereprezentantaj antaŭsignoj, malgraŭ la fakto, ke neniu rekompenco estis liverita post la kvardekaj prezentoj. Antaŭa studo raportis similan fenomenon, en tio, ke simio-subjektoj montris pli mallongajn RT-ojn en nerekomenditaj provoj kiam pli preferitaj rekompencoj estis uzataj en la alternaj provoj ene de ĉiu bloko30. Unu ebla interpreto de la efiko en tiu studo estas, ke entute pli alta instigo por respondi en la bloko kun pli preferataj rekompencoj trafis RT-ojn ankaŭ al neniu rekompenco en la bloko. Simile, en la aktuala studo, la atendo de pli valora rekompenco en la HC-provoj eble modligis RTojn al neniu rekompenco en la HC-provoj en nia tasko. Plue, la efiko de la pagita kosto sur RTs al la rekompencaj kurzoj estis pli malgranda ol tiu al la neniuj rekompencaj kurzoj. Ĉi tio probable estas artefakto pro tio, ke ĉar la simioj faris saksadon pli rapide al la RLC+ cue en la unua loko, estas reduktita amplekso por detekti mallongigon de RT-oj al RHC+ cue. Sekve, la diferenco en RTs inter la R +-spuroj estus kiel konsekvenco malgranda.

La simioj ankaŭ plenumis elektajn provojn inter la RHC kaj RLC Respondecoj en la HLC-tasko. Tamen simio S montris preferon por la RHC+ ve al la RLC+ Cue, simio P ne montris tian preferon. Ĉi tiu diskreteco povus esti klarigita per kunteksta diferenco inter la HLC-sakado kaj elektaj provoj. En la elektaj provoj, du rekompenc-antaŭvidaj signoj estis prezentitaj anstataŭ unu rekompenca antaŭdiro de la kurbo. Plue, la simioj akiris neniun rekompencon post sia elekto, eĉ se ili elektis la rekompencan antaŭdiron, do la elekta testo estis estingita. La estinta proceduro estis efektivigita por certigi, ke la elekto de simio estis gvidata de tio, kio estis lernita pri la klopodaj provoj, male al esti konfuzita kun nova lernado pri la elektaj provoj. Ĉi tiu procedo tamen povas havi la kromefikon, ke la simio povus rapide lerni rekoni la estingan proceduron en la elekta kunteksto kaj ke ne ekzistas kialo elekti la pli preferitajn stimulojn. Tamen, unu el la simioj fakte preferis la rekompencon en la HC-kondiĉo.

En la momento de prezentado de kaĉo, kiu antaŭdiris postan postulon pagi koston, la agado de dopaminaj neŭronoj reduktiĝis, konforme al antaŭaj studoj22,23. En nia studo, ni ne observis ĝeneralan malpliiĝon de dopamina neŭro respondanta al ambaŭ HC kaj LC-aludoj relative al bazlinio. Ĉi tio sugestas, ke negativ-RPE-signalo ne okazas ĉe tiu tempopunkto malgraŭ la sekva kosto. La foresto de negativa RPE supozeble reflektas integriĝon de antaŭdiro de estonta rekompenco atendita poste en la proceso. La dopaminaj neŭronoj montris signifan aktivadon en la LC-provo kaj la aktiveco estis pli alta kompare al la HC-proceso. Ĉi tio sugestas, ke kostaj informoj estas korpigitaj al la RPE-signalo portata de dopaminaj neŭronoj. Tiel, dopaminaj neŭronoj kodas ambaŭ rekompencan kaj kostan informon kaj la RPE-respondo reflektas la sumon de kosto kaj rekompenco.

Ni pruvis, ke la RPE-signalo reprezentita per dopaminaj neŭronoj estas plibonigita per la pagita kosto ĉe la punkto de rekompenco-prezentado (en la tasko de HLC-sakado) kaj rekompenco-liverado (en la HLC necerta tasko). La objektiva kvanto de rekompenco liverita en la provoj pri HC kaj LC estis egala; tial modifo de la RPE-signaloj devas esti kaŭzita de sensenca procezo. Ĉi tiu ebleco estas subtenata de pluraj studoj indikantaj kuntekstan efikon sur dopaminaj RPE-signaloj konformaj al la prilaborado de la subjektiva valoro kaj / aŭ utileco en dopaminaj neŭronoj.11,19,20,21,31,32,33,34. Se la RPE-signalo estas pli granda, tio produktus pli rapidan ĝisdatigon de la kvaksa valoro, kiu konsekvence influus la lernan rapidecon de stimulo-rekompencaj asocioj. Antaŭaj studoj montris modifon de lernrapideco laŭ sensencaj faktoroj24,35. Lige al tio, la simioj elmontris pli rapidajn lernadrapidecojn en la HC relative al la LC-kondiĉo. Ni trovis, ke plibonigita lernadrapideco per la pagita kosto povas esti klarigita per RL-modelo kun amplifita RPE. Estis malfacile apartigi la efikojn de la amplifita RPE kaj pliigita lernokvanto en niaj eksperimentoj; tamen, ni trovis amplifitan dopaminergian RPE-signalon en la HC-kondiĉo. Plue, antaŭa fMRI-studo montris, ke la parametro de lernokosto estas reprezentita en la antaŭa cingula kortekso kaj ke la agado de la VTA ne rilatas al la parametro de lernokosto en volatilaj medioj.36. Tial ni argumentas, ke la RPE-signalo kodita per dopaminaj neŭronoj estas amplifita de la pagita kosto, kaj ke la pliigita RPE-signalo plibonigas la lern-rapidecon.

Kiam la signalo RPE estis generita en la momento de la prezentado de rekompenco kaj de la rekompenco, la simioj jam pagis la koston. Sekve, unu ebla mekanismo por la plibonigita RPE-signalo estas, ke rekompenco akirita post HC eble pli rekompencos. Pliigita atendo de pli valora rekompenco post la HC eble plibonigos la instigon fini la provon, mallongigante la RT al la rekompencoj en la HC-provoj.

Alia ebla interpreto de niaj rezultoj estas, ke reliefo spertita de la fino de la multekosta ago povas servi kiel rekompenco por la simioj. Funkciaj magnetaj resonaj bildigaj studoj (fMRI) montris, ke doloro-reliefo povas esti rekompenco por homaj partoprenantoj37,38; pro tio la kosto povus ludi similan rolon kiel avida stimulo al doloro. Se la krizhelpo kontraŭ kosto rekompencas kaj se ĉi tio reflektas dopaminergian agadon, ni atendus, ke la dopaminaj neŭronoj respondus al la fino de la longa fiksaĵo, kio estas la ekesto de rekompenco. Tamen, ni ne observis ian diferencon en dopaminergia agado ĉe la tempigo de prezentaj rekompencoj nek ajnan diferencon en RT-oj al la R-signaloj inter la HC kaj LC-provoj en la HLC-necerta tasko. Tial ni sugestas, ke reliefo de kosto ne donas adekvatan klarigon por la efiko, kiun ni observis en la dopaminaj neŭronoj.

Plue, la dopaminaj neŭronoj montris kvalite malsamajn respondojn al la aviva stimulo kompare al la kosto antaŭvidanta koston. Unu ebla klarigo por tio estas, ke la peniga kosto estis malpli elstara ol la aer-pufo aŭ rekompenco, ĉar la peniga kosto estis portempe plilongigita tra kelkaj sekundoj dum la simioj plenumis la fiksadon kaj ne punktis. Tial, dopaminaj neŭronoj eble ne estis aktivigitaj al la malpli altaj kostoj. Alia ebleco estas, ke famaj dopaminaj neŭronoj respondas al eventoj post kiuj iuj movadoj estis induktitaj. Kiam la rekompenco aŭ la aerfluo estis liveritaj al la simioj, ili faras iujn movadojn kiel la lekado aŭ la okulo palpebrumas. Tamen en la tasko HLC, la simioj devis observi la fiksan celon sen ia ajn movo kiel kosto. Efektive, lastatempa studo montris, ke dopamina liberigo en la kerno akumuliĝas post rekompenco-antaŭdiro de taŭga atenuado krom se movo estas ĝuste iniciatita39. Ĉar la kosto en niaj eksperimentoj ne implikis movadon, tio eble povus rezultigi nekonsekvencan respondon de neŭtiaj dopaminaj neŭronoj. De ĉiuj manieroj, ni povas konkludi, ke kostaj informoj estas prilaboritaj malsame de avinaj informoj.

Konklude, ni sugestas, ke pagita kosto pliigu la valoron de rekompencaj indikoj kaj ke ĉi tio siavice pliigu la RPE-signalon koditan en la cerbaj dopaminaj neŭronoj. Ĉi tiu efiko kondukis al kondutisma prognozo, ke la indico de lernado de bestoj plibonigus rekompencajn antaŭsignojn post la sperto de HC. Ĉi tio estas efektive kion ni observis. Tiel niaj observaĵoj pri la agado de dopaminaj neŭronoj kondukis nin hipotezi la ekziston de kondutisma efiko, same kiel putan komputan mekanismon sub tiu efiko, kiun ni poste konfirmis. Niaj trovoj tial reprezentas ekzemplon pri kiel triangulado povas okazi inter mezuradoj de neŭralaj datumoj, komputila teorio kaj konduto: disvolvi pli profundan komprenon pri neuronala prilaborado en la cerbo povas produkti komprenojn pri konduto kaj ĝia suba komputila bazo.

metodoj

bestoj

Ni uzis du virajn japanajn simiojn (Macaca fuscata; korpa pezo, 6.5 kg = Simio P; korpa pezo, 9.0 kg = Simio S). Ni enplantis kapan afiŝon sur la supro de la kranio de simio, por ke ĝi povu fiksiĝi al seĝo pli poste. Registradĉambro ankaŭ estis enplantita por ebligi la muntadon de elektromanĝa mikromanipulilo. La registra ĉambro estis klinita 45 ° laterale en la korona ebeno kaj poziciigita ĉe la stereotaksaj koordinatoj: 15 mm antaŭaj al la ekstera kanalo. Post resaniĝa periodo, la simioj estis trejnitaj por plenumi la saksan taskon. Post fini la trejnadon, ni boris truon tra la kranio en la registra ĉambro por enmetado de elektrodoj. Ĉiuj protokoloj pri bestaj prizorgoj estis aprobitaj de la Komitato pri Eksperimentado pri Bestoj de Universitato Tamagawa kaj konformis al la Nacia Institutoj pri Sano-Gvidilo por Prizorgo kaj Uzo de Laboratoriaj Bestoj.

Konduta tasko

Simioj estis trejnitaj por plenumi la HLC-sakran taskon (Fig. 1a), HLC necerta tasko (Fig. 5a), kaj esplorado pri HLC (Fig. 7a). Ĉiuj taskoj estis plenumitaj en senluma ĉambro. La simioj sidis sur seĝo antaŭ 22-in. Ekrano LCD (S2232W, Eizo) kun iliaj enplantitaj ĉefaj fostoj fiksitaj al la seĝo. La distanco inter iliaj okuloj kaj la ekrano estis 70 cm. Kiam komenca signalvorto (blanka cirklo, 0.3 ° diametro) estis prezentita en la centro de la ekrano, la simio devis konservi sian rigardon sur la signalvorto. La komenca signalvorto malaperis post 750 m kaj tiam kostis signalvorton (stelo kaj ventomuelejo por la provoj HC kaj LC respektive). Simioj devis saksi ĝis la kosto-signalvorto dum la 750 m da signalvorto. Se ili ne sakis, la proceso estis ĉesigita kaj la sama proceso komenciĝis denove. Dum provoj de HC, la fiksa celo (0.3 ° × 0.3 ° blanka kvadrato) estis prezentita tuj post la malapero de la kosto-signalvorto por 2000 ms (HLC-sakado kaj necertaj taskoj de HLC) aŭ 1500 ms (HLC-esplora tasko) kaj la simioj estis postulataj sakadi al ĝi kaj rigardi ĝin. Se la simioj movis sian rigardon preter fiksa fenestro de 4 ° × 4 °, la tasko estis nuligita. La fiksa fenestro estis aktivigita 400 ms post la fiksa punkta prezento, ĉar la simioj bezonis tempon por prepari sin al la sakado kaj alĝustigi sian fiksadon. Tial, la simioj devis fiksi dum almenaŭ 1600 ms (HLC-sakado kaj HLC-necertaj taskoj) aŭ 1100 ms (HLC-esplorada tasko) en la HC-provoj. En la LC-provoj, malplena ekrano montriĝis por 1500 ms (HLC-sakado kaj HLC-necertaj taskoj) aŭ 1000 ms (HLC-esplorada tasko), kaj tiam la fiksa celo aperis dum 500 ms. Ĉar la fiksa fenestro estis aktivigita 400 ms post fiksa punkta prezento, la simioj devis fiksi sur la celo dum almenaŭ 100 ms en la LC-provoj. La simioj montris pli da eraroj en la provo de HC; sekve, deviga abortigo estis hazarde enmetita 100 ms antaŭ la rekompenca signalvorto (400 ms post la fiksa cela prezento, kiu estas la tempo de fiksa fenestra apero) en la LC-provo por egaligi la sukcesan indicon. Post fiksado al la celo, unu aŭ du rekompencaj signaloj estis prezentitaj kaj la simioj devis saksi al la signalvorto. Se ili sukcese faris sakadon al la rekompenca signalvorto, bip-sono aperis 750 m post la rekompenca signalvorto. Kiam la simioj faris sakadon al la signalvorto R +, oni liveris 0.3 ml da akvo samtempe kun la bipo. Neniu rekompenco estis donita kiam ili faris sakadon al la R-cue.

En la HLC-sakra tasko, kvar koloraj cirkloj estis uzataj kiel rekompencaj signalojHC+: flava; RHC-: verda; RLC+: rozkolora; RLC-: blua; Fig. 1a). Unu eksperimenta sesio konsistis el 80 sakaj provoj, 20 neantaŭvideblaj rekompencaj provoj, 20 neantaŭvideblaj aero-pufaj provoj kaj 5 elektaj provoj. La sakadaj provoj, inkluzivis 40-provojn de HC kaj 40-provojn de LC, kiuj ambaŭ inkluzivis 20-rekompencajn provojn kaj 20 neniujn rekompencajn provojn. En la neantaŭvideblaj rekompencoj aŭ aero-pufaj provoj, 0.3 ml da akvo-rekompenco aŭ 0.2 MPa de aero-pufo (150 ms por simio P; 200 ms por simio S) estis liveritaj al la vizaĝo de la simioj sen esti signalitaj. La elektaj provoj inkluzivis provon, en kiu simioj elektis inter R + -indikoj (RHC+ vs RLC+) en la procezo de HC, inter R-signoj (RHC- vs. RLC-) en la HC-proceso, inter R + (RHC+ vs RLC+) Spuras en LC-provo, inter R− (R)HC- vs. RLC-) Kursoj en LC-provo, kaj inter la kosto-kurzoj (Suplementa Fig. 1). En provoj kun elekto inter rekompencoj, la taska strukturo estis identa al la sakra tasko antaŭ rekompenco-prezentado. Tuj, anstataŭ prezenti rekompencon, du rekompencoj estis prezentitaj en la elektaj provoj kaj neniu rekompenco estis liverita post rekompenco-prezentado eĉ se la simioj elektis inter R +.

Por testi la respondon de dopaminaj neŭronoj por rekompenci liveradon, simioj plenumis la HLC necertan taskon (Fig. 5a). Ĉi tiu tasko estis simila al la HLC-sakra tasko krom la rekompencoj. En ĉi tiu tasko, ni uzis du rekompencojn (anstataŭ la kvar rekompencaj tasoj uzataj en la HLC-sakra tasko), unu por la HC-proceso kaj la alia por la LC-proceso. La rekompenco estis transdonita en la duono de la provoj post rekompenco. Unu eksperimenta sesio konsistis el 80-saksaj provoj, 20 neantaŭvideblaj rekompencaj provoj kaj 20 neantaŭvideblaj aeraj pufaj provoj. La sakadaj provoj inkluzivas 40 HC-provojn kaj 40 LC-provojn, ambaŭ inkluzivis 20-rekompencajn provojn kaj 20 neniujn rekompencajn provojn. En la neantaŭvideblaj provoj, rekompenco aŭ aer-pufo estis liveritaj sen ia ajn indico.

En la esplorado pri HLC-tasko, du rekompencobjektoj (RHC+, RHC- aŭ RLC+, RLC-) estis prezentitaj samtempe kaj la simioj estis postulataj por sakri al unu el la rekompencoj (Fig. 7a). Se ili elektis la markilon R +, ili ricevis provizitan akvon. Kvar rekompencaj monbiletoj (RHC +, RHC-, RLC +, RLC-) estis generitaj por ĉiu esplora kunsido kaj la simioj estis postulataj por lerni la asocion inter la kvereloj kaj rekompenci prov-al-provon. Unu eksperimenta sesio konsistis el 100 HC-provoj kaj 100 LC-provoj. Ni trovis, ke por la esplora tasko, se ni agordas la daŭran fiksadon al 2000 ms en la HC-kondiĉo tiel ke ĝi kongruas kun la daŭro de HC-kondiĉo en la aliaj taskoj, la simioj plenumis la taskon kun tre malalta sukces-indico eble pro la malfacileco de la tasko kaj / aŭ la sekva malalta rekompenco. Tial, por redukti la malfacilaĵojn de la tasko kaj pliigi la sukcesan indicon, ni uzis 1500 ms-fiksan daŭron kiel koston por la esplorado pri HLC.

La taskoj estis kontrolitaj per komerca disponebla programaro (TEMPO, Reflective Computing, Sankta Luiso, MO, Usono). Kutimigita farita programo uzanta aplikiĝan programinterfacon (OpenGL) estis uzata por prezentado de vida stimulo. La vidaj stimuloj por la kosto kaj la rekompencaj monoj estis kreitaj de la aŭtoroj.

Registrado kaj akiro de datumoj

La loko de la substantia nigra estis taksita per MR-bildoj. Epoxy-tegita tungstena elektrodo (ŝafa diametro, 0.25 mm, 0.5-1.5 MΩ mezurita ĉe 1000 Hz, FHC) estis enmetita en la substantivan nigra per mikromanipulilo (MO-972, Narishige, Tokio, Japanio) muntita sur la registra ĉambro kun neoksidebla gvida tubo. Tensiaj signaloj estis amplifitaj (× 10,000) kaj filtritaj (0.5 – 2 kHz). Agaj potencialoj de ununura neŭrono estis izolitaj per ŝablono-kongruanta algoritmo (OmniPlex, Plexon, Dallas, TX, Usono). Okulmovado estis kontrolita per infraruĝa fotosistemo je samplita proporcio de 500 Hz (iView X Hi-Speed ​​Primate, SMI, Teltow, Germanio). La tempolimo de agaj potencialoj kaj kondutaj eventoj estis registrita kun tempa rezolucio de 1 kHz.

Datumoj analitiko

Por analizi la konduton de la simioj, RT-oj estis determinitaj kiel la intervalo de tempo inter la komenco de stimulo kaj la tempo kiam simioj iniciatis la sakadon. La komenco de la saksado estis determinita kalkulante la tempigon kiam la gazeta pozicio superis 5-normajn deviojn de la meznivela pozicio antaŭ ol prezentado.

En la esplora tasko de HLC, la elekto-konduto de la simioj estis kvantigita konvenante akumulan eksponencan funkcion. La funkcio (P) priskribas la proporcion de ĝusta elekto jene:

P=12+(12-12eksp(-at))b,
(1)

kie t signifas juĝo, a kaj b indiku respektive la deklivon kaj la altebenaĵon de la kurbo. Ĉi tiu funkcio kongruis sendepende al la datumoj por la du kostaj kondiĉoj. La parametroj de la funkcio estis serĉitaj por maksimumigi la probablon de observado de la datumoj de unu sola kunsido kaj la mezumaj datumoj. Metodo de ekkuro estis aplikita por taksi la konfidajn intervalojn konvenante al la mezumaj datumoj. Norma RL-modelo ankaŭ estis uzata por kvantigi kondutajn datumojn. La valoroj de stimulo Vj(t) por la elektita elekto j (j = 1 por HC-kondiĉo; j = 2 por LC-kondiĉo) estis ĝisdatigitaj jene:

Vj(t+1)=Vj(t)+αj(R(t)-Vj(t)),
(2)

kie αj indiku la lernokostojn, kiuj estis limigitaj al valoroj inter 0 kaj 1. R(t) indikas la rekompencan sumon (1: rekompencita, 0: neniu rekompenco) ĉe proceso t.

La probablo Pj(t) elekti stimulon j el la du stimuloj ĉe provo t estas donita per la softmax-regulo

Pj(t)=exp(Vj(t)βj)/2i=1exp(Vi(t)βi),
(3)

kie βj indikas la amplekson de la esplorado.

Ni registris neuronalan agadon dum la HLC-sakado kaj HLC-necerta tasko sed ne la HLC-esplorada tasko. La esplorada tasko de HLC estis efektivigita kiel pure kondutisma studo. Dopaminaj neŭronoj estis identigitaj se ili elmontris ĉiun el la sekvaj ecoj: malalta tonika pafrapideco (<6 Hz), longa tempodaŭro de la spika ondformo (> 300 μs), kaj faza respondo al la neantaŭvidebla rekompenco (Aldona Fig. 2a). Ni analizis provojn, en kiuj la simioj povis plenumi la provon sen iuj eraroj (bremsita riparado, neniu sakado aŭ artefarita aborto). La meznombro de pafado de neŭronoj estis kalkulita per bantukoj de 1 ms kaj mildigita per gaŭsa kerno (σ = 30 ms, larĝo = 4σ) produkti spikajn densecajn funkciojn. La respondoj de la dopaminaj neŭronoj al ĉiu taska okazaĵo estis kalkulitaj kiel la normigita pafo-procento rilate al la spontanea aktiveco (meznombro de pafo dum la 500-ms antaŭ ol komenci aperon). La tarifoj de pafo estis kalkulitaj en tempaj fenestroj determinitaj por ĉiu taska evento kaj temo. Ĉi tiuj tempaj fenestroj estis determinitaj de la meznivela agado de la loĝantaro. Ni difinis la komencon kaj la finpunktojn de tempaj fenestroj determinitaj surbaze de la pliiĝo kaj falita tempo de la mezumo de la respondo de la loĝantaro uzante antaŭajn studojn de simia dopamino kiel referencojn (Suplementa Fig. 3). La fenestra horo por la komenco-rekono estis difinita kiel 200-400 ms post la komenco de la komenco de la neŭtono registrita el la simioj P kaj S. La horo-fenestro por la kondiĉo-signo estis difinita kiel 150-300 ms post la kondiĉo cue por la simio P kaj 200-400 ms por simio S. La fenestro por la rekompenco estis difinita kiel 140 – 350 ms post la ekprospero de rekompenco por simio P kaj 220 – 420 ms por simio S. La hora fenestro por la rekompenco de la rekompenco estis difinita kiel 225– 475 ms post la ekapero de simio P kaj 200-450 ms por simio S. La fenestro por la impredecible livera rekompenco estis difinita kiel 100-300 ms post la rekompenca liverado por simio P kaj 150-300 ms por simio S. La La fenestro por la neantaŭvidebla aero-puŝo estis difinita kiel 30-230 ms post la transdono de aer-pufo por simio P kaj 50-200 ms por simio S.

Ni klasifikis ĉiujn registritajn dopaminajn neŭronojn en du apartajn kategoriojn, motivan valoron kaj elstarajn specojn. Se la respondo de neŭrono al la aer-pufaj stimuloj estis pli malgranda ol la spontanea agado, la neŭrono estis klasifikita kiel motiviga valora tipo (Fig. 3d, e). Kontraŭe, se la respondo de neŭrono al la aeraj pufaj stimuloj estis pli granda ol la spontanea aktiveco, la neŭrono estis klasita kiel de la saĝa tipo (Fig. 3g, h).

Por kvantigi diferencan neuronal agadon inter taskaj kondiĉoj, analizo ROC estis farita. Ni kalkulis la aŭROC por ĉiu neŭrono. La aŭROC pli malgranda aŭ pli granda ol 0.5 indikas malpli grandan aŭ pli grandan respondon en la HC-testo respektive. Ĉar la nombroj de neŭronoj en iuj neŭronaj datumaroj estis malgrandaj, ni uzis la subskribitan rangoteston de Wilcoxon por redukti la efikon de la eksterordinaraj valoroj por kvantigi la partian distribuadon de la aŭROCoj.

Komerce havebla programaro, MATLAB (MathWorks, Natick, MA, Usono), estis uzata por plenumi ĉiun datuman analizon.

Histologia ekzameno

Post la registra eksperimento, ambaŭ simioj eŭtanizitaj kaj histologia analizo estis farita por kontroli la registradan pozicion (Suplementa Fig. 2b). Simioj estis eŭtanigitaj per administrado de mortiga dozo de pentobarbita natrio (70 mg kg-1) kaj perfuzita kun 4% formaldehido en fosfataj bufroj. Seriaj koronaj sekcioj (dikeco, 10 μm) estis tranĉitaj kaj imunostanditaj per kontraŭtirosin hidroksilasa (TH) antikorpo (ĉiu 25-sekcioj; kontraŭ-TH-antikorpo, 1: 500; Merck, Darmstadt, Germanio) aŭ Nissl-makulado (ĉiu 25-sekcioj) .

Raporta resumo

Pliaj informoj pri esplora desegno haveblas en la Resumo pri Natura Esploro ligita al ĉi tiu artikolo.

Disponeblo de datumoj

La datumoj uzataj en la analizo de ĉi tiu studo estas haveblaj de la responda aŭtoro laŭ racia peto. Raporta resumo por ĉi tiu artikolo haveblas kiel suplementa Informo-dosiero. La fontaj datumoj sub Figoj. 1, 3-8 kaj Suplementaj Figoj. 1, 4-12 estas donitaj kiel Fonto-datumdosiero.

Kodo havebleco

Matlab-kodoj uzataj en la analizo de ĉi tiu studo estas haveblaj de la responda aŭtoro laŭ racia peto.

Referencoj

  1. 1.

    Clement, TS, Feltus, JR, Kaiser, DH & Zentall, TR "Laboretoso" ĉe kolomboj: rekompenca valoro rekte rilatas al la penado aŭ tempo necesa por akiri la rekompencon. Psikono. Virbovo. Rev. 7, 100-106 (2000).

  2. 2.

    Klein, ED, Bhatt, RS & Zentall, TR Contrast kaj la pravigo de penado. Psikono. Virbovo. Rev. 12, 335-339 (2005).

  3. 3.

    Zentall, TR & Singer, RA Ene-prova kontrasto: kolomboj preferas kondiĉigitajn plifortigilojn, kiuj sekvas relative pli ol malpli aversian eventon. J. Exp. Anal. Konduto 88, 131-149 (2007).

  4. 4.

    Aronson, E. & Mills, J. La efiko de severeco de iniciato sur ŝato por grupo. J. Abnorm. Soc. Psikolo. 59, 177-181 (1959).

  5. 5.

    Festinger, L. Teorio de Kognitiva Disonanco. (Stanford University Press, Kalifornio, 1957).

  6. 6.

    Alessandri, J., Darcheville, JC, Delevoye-Turrell, Y. & Zentall, TR Prefero por rekompencoj, kiuj sekvas pli grandan penadon kaj pli grandan malfruon. Lernu Behav. 36, 352-358 (2008).

  7. 7.

    Schultz, W., Carelli, RM & Wightman, RM Fazaj dopaminaj signaloj: de subjektiva rekompenca valoro al formala ekonomia utileco. Curr. Opinio. Konduto Sci. 5, 147-154 (2015).

  8. 8.

    Schultz, W., Dayan, P. & Montague, PR Neŭrala substrato de antaŭdiro kaj rekompenco. scienco 275, 1593-1599 (1997).

  9. 9.

    Bromberg-Martin, ES, Macumoto, M. & Hikosaka, O. Dopamino en instiga kontrolo: rekompencanta, aversiva kaj atentiga. Neŭrono 68, 815-834 (2010).

  10. 10.

    Bayer, HM & Glimcher, PW Midbrain-dopaminaj neŭronoj kodas kvantan rekompencan antaŭdiron de erara signalo. Neŭrono 47, 129-141 (2005).

  11. 11.

    Nakahara, H., Itoh, H., Kawagoe, R., Takikawa, Y. & Hikosaka, O. Dopamine-neŭronoj povas reprezenti kuntekston-dependan prognozan eraron. Neŭrono 41, 269-280 (2004).

  12. 12.

    Tobler, PN, Fiorillo, CD & Schultz, W. Adapta kodigo de rekompenca valoro de dopaminaj neŭronoj. scienco 307, 1642-1645 (2005).

  13. 13.

    Nomoto, K., Schultz, W., Watanabe, T. & Sakagami, M. Tempe etendis dopaminajn respondojn al percepte postulantaj rekompencajn antaŭdirajn stimulojn. J. Neurosci. 30, 10692-10702 (2010).

  14. 14.

    Watabe-Uchida, M., Zhu, L., Ogawa, SK, Vamanrao, A. & Uchida, N. Tute-cerba mapado de rektaj enigoj al mezcerbaj dopaminaj neŭronoj. Neŭrono 74, 858-873 (2012).

  15. 15.

    Tanaka, SC et al. Antaŭdiro de tuja kaj estonta rekompenco malsame rekrutas kortik-basajn buklojn. Nat. Neurosci. 7, 887-893 (2004).

  16. 16.

    Haber, SN, Kim, KS, Mailly, P. & Calzavara, R. Rekompencaj kortikalaj enigoj difinas grandan striatan regionon en primatoj, kiuj interrilatas kun asociaj kortikalaj ligoj, provizante substraton por instiga lernado. J. Neurosci. 26, 8368-8376 (2006).

  17. 17.

    Doya, K. Modulantoj de decidado. Nat. Neurosci. 11, 410-416 (2008).

  18. 18.

    Roesch, MR, Calu, DJ & Schoenbaum, G. Dopamine-neŭronoj kodas la pli bonan eblon en ratoj decidantaj inter malsame prokrastitaj aŭ grandaj kompensoj. Nat. Neurosci. 10, 1615-1624 (2007).

  19. 19.

    Lak, A., Stauffer, WR & Schultz, W. Dopamine-prognozaj eraraj respondoj integras subjektivan valoron de malsamaj rekompencaj dimensioj. Proc. Natl Acad. Sci. Usono 111, 2343-2348 (2014).

  20. 20.

    Stauffer, WR, Lak, A. & Schultz, W. Dopamine rekompencas antaŭdirajn erarajn respondojn reflektas marĝenan utilecon. Curr. Biol. 24, 2491-2500 (2014).

  21. 21.

    Noritake, A., Ninomiya, T. & Isoda, M. Socia rekompenco-kontrolado kaj taksado en la makaka cerbo. Nat. Neurosci. 21, 1452-1462 (2018).

  22. 22.

    Pasquereau, B. & Turner, RS Limigita kodigo de penado de dopaminaj neŭronoj en kompensa kompensa tasko. J. Neurosci. 33, 8288-8300 (2013).

  23. 23.

    Varazzani, C., San-Galli, A., Gilardeau, S. & Bouret, S. Noradrenaline kaj dopamine-neŭronoj en la kompenso / penado: rekta elektrofiziologia komparo en kondutaj simioj. J. Neurosci. 20, 7866-7877 (2015).

  24. 24.

    Watanabe, N., Sakagami, M. & Haruno, M. Rekompenca prognozo-erara signalo plibonigita de interagado striatum-amigdala klarigas la akcelon de probabla rekompenca lernado per emocio. J. Neurosci. 33, 4487-4493 (2013).

  25. 25.

    Di Ciano, P., Cardinal, RN, Cowell, RA, Little, SJ & Everitt, B. Diferenca partopreno de NMDA, AMPA / kainato, kaj dopaminaj riceviloj en la kerno accumbens en la akiro kaj agado de pavloviana alproksimiĝo. J. Neurosci. 21, 9471-9477 (2001).

  26. 26.

    Flagel, SB et al. Elektebla rolo por dopamino en lernado de stimulo-rekompenco. naturo 469, 53-57 (2011).

  27. 27.

    Blough, DS Efektoj de primado, diskriminacio kaj plifortigo sur reagotempaj komponentoj de kolombo vida serĉo. J. Exp. Psikolo. Anim. Konduto Procezo. 26, 50-63 (2000).

  28. 28.

    Macumoto, M. & Hikosaka, O. Du specoj de dopamina neŭrono klare transdonas pozitivajn kaj negativajn motivajn signalojn. naturo 459, 837-841 (2009).

  29. 29.

    Matsumoto, M. & Takada, M. Distingaj reprezentoj de kognaj kaj motivaj signaloj en mezcerbaj dopaminaj neŭronoj. Neŭrono 79, 1011-1024 (2013).

  30. 30.

    Watanabe, M. et al. Kondutaj reagoj reflektantaj diferencajn rekompencajn atendojn en simioj. Eksp. Cerbo Res. 140, 511-518 (2001).

  31. 31.

    Takikawa, Y., Kawagoe, R. & Hikosaka, O. Ebla rolo de mezcerbaj dopaminaj neŭronoj en mallonga kaj longdaŭra adapto de sakadoj al pozicio-rekompenco-mapado. J. Neurophysiol. 92, 2520-2529 (2004).

  32. 32.

    Kobayashi, S. & Schultz, W. Influo de rekompenco prokrastas respondojn de dopaminaj neŭronoj. J. Neurosci. 28, 7837-7846 (2008).

  33. 33.

    Enomoto, K. et al. Dopamaj neŭronoj lernas kodi la longperspektivan valoron de multnombraj estontaj rekompencoj. Proc. Natl Acad. Sci. Usono 108, 15462-15467 (2011).

  34. 34.

    Lak, A., Nomoto, K., Keramati, M., Sakagami, M. & Kepecs, A. Mezcerbaj dopaminaj neŭronoj signalas kredon je elekta precizeco dum percepta decido. Curr. Biol. 27, 821-832 (2017).

  35. 35.

    Williams, BA & McDevitt, MA Inhibicio kaj superkondiĉado. Psikolo. Sci. 13, 454-459 (2002).

  36. 36.

    Behrens, TE, Woolrich, MW, Walton, ME & Rushworth, MF Lernante la valoron de informoj en necerta mondo. Nat. Neurosci. 10, 1214-1221 (2007).

  37. 37.

    Seymour, B. et al. Kontraŭapetemaj-avversaj neŭralaj procezoj bazas antaŭdecidan lernadon de doloro-reliefo. Nat. Neurosci. 8, 1234-1240 (2005).

  38. 38.

    Kim, H., Shimojo, S. & O'Doherty, JP Ĉu eviti aversan rezulton estas rekompencanta? Neŭraj substratoj de evitlernado en la homa cerbo. PLOJ Biol. 4, e233 (2006).

  39. 39.

    Syed, EC et al. Ago-iniciato formas mezolimban dopaminan kodigon de estontaj rekompencoj. Nat. Neurosci. 19, 34-36 (2016).

Elŝuti referencojn

Dankoj

Ĉi tiu laboro estis subtenita de MEXT / JSPS Grants-in-Helpo por Scienca Esploro (Kakenhi) Grant-nombroj JP16H06571 kaj JP18H03662 al MS Ĉi tiu esplorado estis parte subtenata de la Strategia Esplora Programo por Cerbaj Sciencoj subtenata de la Japana Agentejo por Medicina Esploro kaj Disvolviĝo (AMED) ) kaj la Japana-Usona Cerbo-Kunlaboro-Programo. Ĉi tiu esplorado estis subtenita de la Nacia Bio-Rimeda Projekto ĉe Nacia Instituto de Fiziologia Scienco (NBRP ĉe NIPS) de Japana Agentejo por Medicina Esploro kaj Disvolviĝo, AMED. Ni dankas Bernard W. Balleine kaj Andrew R. Delamater pro ilia helpo pri verkado de la papero.

Informoj pri aŭtoro

ST, JPO kaj MS desegnis la eksperimentojn. ST plenumis la eksperimentojn, kaj analizis la datumojn. JPO kaj MS rafinis la eksperimentojn kaj la analizajn datumojn. ST, JPO kaj MS verkis la manuskripton.

Korespondado al Masamichi Sakagami.