Náklady na získání odměn zvyšují signál chyby predikce odměny neuronů dopaminu midbrain (2019)

Abstraktní

Je známo, že neurony midaminu dopaminu kódují chyby predikce odměn (RPE) používané k aktualizaci předpovědí hodnot. Zde zkoumáme, zda jsou signály RPE kódované dopaminovými neurony midbrainu modulovány cenou zaplacenou za získání odměn, a to zaznamenáváním dopaminových neuronů v bdělém chování opic během plnění náročného úkolu sakády. Reakce neuronů dopaminu na narážky předpovídající odměnu a poskytování odměn byly zvýšeny po provedení nákladné akce ve srovnání s méně nákladnou akcí, což naznačuje, že RPE jsou zvýšeny po provedení nákladné akce. Na úrovni chování se asociace stimulů a odměn získávají rychleji po provedení nákladné akce ve srovnání s méně nákladnou akcí. Informace o nákladech na akci se tedy zpracovávají v systému odměňování dopaminu způsobem, který zesiluje následující signál dopaminu RPE, což zase podporuje rychlejší učení za vysokých nákladů.

Úvod

Lidé a zvířata dávají přednost odměně obdržené po vynaložení velké snahy získat ji ve srovnání se stejnou odměnou po menší míře úsilí1,2,3. Za tímto účelem byla předložena řada vysvětlení, například zdůvodnění úsilí4,5 a kontrastní efekt6, ve kterém je vyšší hodnota připsána výsledku získanému po placeném úsilí. Zůstává však nejasné, zda a jak je zpracování informací o odměně v mozku modulováno úsilím vynaloženým na získání odměny.

Zaměřili jsme se konkrétně na dopaminový systém midbrain, vzhledem k úloze tohoto systému v podpoře přizpůsobení chování odměnám7,8,9. Je známo, že dopaminové neurony představují signály chyby predikce odměny (RPE), které mohou usnadnit učení predikcí odměny bazálními gangliemi.10,11,12,13,14,15,16,17. Síla RPE závisí na množství, kvalitě a subjektivní hodnotě nebo užitečnosti odměny7,18,19,20,21. Dopaminergní aktivita je navíc modulována náklady a / nebo úsilím22,23. Na tomto základě jsme usoudili, že dopaminergní RPE signál by byl přímo modulován náklady zaplacenými za získání odměny. Dále, protože signál RPE je kauzálně zapojen do zprostředkování učení asociací stimulů a odměn24,25,26, předpokládali jsme, že náklady zaplacené za získání odměny by přímo zvýšily rychlost učení asociací stimulů a odměn.

Abychom otestovali naše hypotézy, změřili jsme chování i dopaminergní aktivitu u dvou japonských opic, zatímco vykonávali námahu založenou na sakrálním úsilí. Opice reagují rychleji na odměnu předpovídající odměnu, která je prezentována po akci s vysokou cenou (HC) ve srovnání s akcí po akci s nízkou cenou (LC). Aktivita dopaminergních neuronů na odměny předpovídající odměnu se zvyšuje o zaplacené náklady. Rychlost učení asociace stimulů a odměn je navíc zvýšena o zaplacené náklady. Navrhujeme proto, aby náklady zaplacené za získání odměn zvyšovaly RPE signál v dopaminových neuronech, a tím zvyšovaly asociace stimul-odměna.

výsledky

High-Low cost (HLC) saccade task

Aby se prozkoumal vliv placených nákladů na chování a na aktivitu neuronů dopaminu, opice provedly sakonovou úlohu se dvěma podmínkami nákladů (Obr. 1a, viz Metody). Při pokusech s HC opice rychle provedly sacádu k cíli a držely na ni svůj pohled, aniž by delší dobu blikaly (Obr. 1b; zelené čáry). Naproti tomu při pokusech s LC se opice nejprve nejprve rozhlédly, než se fixovaly na kratší dobu (Obr. 1b, fialové čáry). Protože udržování dlouhé fixace je pro opice obtížné, udělali více chyb během zpoždění pokusů s HC (Obr. 1c). Pro kontrolu následného rozdílu v pravděpodobnosti odměn mezi testy HC a testy LC jsme do části pokusů LC vložili nucené potraty, aby se vyrovnala míra úspěšnosti a pravděpodobnosti odměny mezi typy zkoušek (Obr. 1d).

Obr. 1
figure1

HLC saccade úkol. a Úkol kaskády HLC. Nákladová tága (tágo C) signalizovala množství úsilí, které bylo nutné k dosažení potenciální odměny. Během období zpoždění ve studiích s vysokými náklady byla vyžadována dlouhá fixace. Tágo odměny (R tágo) označuje, zda opice mohly získat odměnu nebo ne. b Časový průběh úhlu pohledu během doby zpoždění. Horní a spodní panely ukazují vodorovné a svislé úhly pohledu. Zelené a fialové čáry označují úhel pohledu ve vysoce nákladných pokusech (testy 50 v každém panelu) a v nízkonákladových pokusech (testy 50 v každém panelu). c Počet chyb během zpoždění v nákladních a nákladových pokusech (**P< 0.01; dvoustranný pár t test; t67 = 8.8, P = 4.8 × 10-15, n = 68 pro Monkey P; t83 = 26.6, P ≈ 0, n = 84 pro Monkey S). Černé kruhy a chybové pruhy označují průměr a SEM. d Míry úspěchu ve zkušebních postupech s nízkými náklady a při nízkých nákladech (dvojstranná dvojice) t test; t67 = 0.51, P = 0.61, n = 68 pro Monkey P; t83 = 0.79, P = 0.43, n = 84 pro Monkey S). e RTs k nákladům (**)P <0.01; dvoustranný pár t test; t67 = 20.4, P ≈ 0, n = 68 pro Monkey P; t69 = 2.0, P = 1.2 × 10-3, n = 70 pro Monkey S). f RT k odměnám (**)P <0.01; dvoustranný pár t test; Opice P (n = 68): HC + vs. LC +, t67 = 3.5, P = 9.2 × 10-4; HC− vs. LC−, t67 = 24.5, P ≈ 0; HC + vs. HC−, t67 = 21.6, P ≈ 0; LC + vs. LC−, t67 = 28.5, P ≈ 0; Monkey S (n = 70): HC + vs. LC +, t69 = 5.6, P = 4.4 × 10-7; HC− vs. LC−, t69 = 4.8, P = 8.4 × 10-5; HC + vs. HC-, t69 = 18.0, P ≈ 0; LC + vs. LC−, t69 = 5.9, P = 1.1 × 10-7)

Placené náklady zvyšují hodnotu podnětů předpovídajících odměny

Abychom získali implicitní důkaz o rozdílu v subjektivním oceňování podnětů opice, testovali jsme reakční doby opic (RT). Zejména jsme předpokládali, že pokud opice přiřadí vyšší subjektivní hodnotě jedné možnosti než jiné, měly by vykazovat rychlejší RT pro variantu s vyšší hodnotou27. Když byly RT porovnávány mezi cue nákladů, obě opice vykazovaly rychlejší RT k LC ve srovnání s Cue HC (obr. 1e), což ukazuje na implicitní preferenci podmínky LC. Když byly RT porovnávány mezi odměnami, obě opice vykazovaly rychlejší RT pro odměňování (R +) tága než žádné odměny (R-). 1f), což naznačuje, že preferovali R + cue před R-cue. Kromě toho obě opice vykazovaly rychlejší RT než RHC+ narážka ve srovnání s RLC+ narážka a na RHC- narážka ve srovnání s RLC- tága (obr. 1f), což naznačuje, že více ocenili podněty předpovídající odměnu v HC ve srovnání s podmínkou LC.

Kromě toho jsme zahrnuli výběrové pokusy do úlohy HLC saccade pro testování zjevných preferencí opic mezi narážkami (doplňkový obr. 1a). Opice si přednostně zvolily LC tágo, když si vybírají mezi cue nákladů (doplňkový obr. 1b). Monkey S si přednostně vybral RHC+ narážka při provádění výběrové úlohy mezi RHC+ a RLC+ narážka, ale žádná preference mezi RHC- a RLC- narážky (doplňkový obrázek č. 1c, d). Naproti tomu opice P nevykazovala zjevné preference mezi RHC+ a RLC+ narážky, ale přesto preferoval RHC- narážka při výběru mezi RHC- a RLC- narážky (doplňkový obrázek č. 1c, d).

Elektrofyziologické výsledky v úkolu HLC saccade

Během úlohy HLC saccade jsme zaznamenali aktivitu jedné jednotky z neuronů umístěných v substantia nigra pars compacta (SNc) a ventrální tegmentální oblasti (VTA). Identifikovali jsme dopaminové neurony 70 napříč dvěma opicemi (doplňkový obr. 2a; Neurony 18 a 52 z opice P a S). Histologické vyšetření potvrdilo, že neurony byly lokalizovány v nebo kolem SNc / VTA (doplňkový obrázek č. 2b).

Na obr. 2, ukazujeme aktivitu reprezentativního dopaminového neuronu. Tento neuron vykazoval skromnou aktivaci LC LC a fázovou aktivaci nebo potlačení za odměnu (RHC+ a RLC+) nebo žádné odměny (RHC- a RLC-) (obr. 2, Doplňkový Obr. 3). Neuron také ukázal fázovou aktivaci na nepředvídatelnou odměnu a také fázové potlačení v reakci na averzní stimul, nepředvídatelné vzduchové nafouknutí (Obr. 2, pravý panel). Kromě toho neuron vykazoval mírné potlačení startovacího tága, ale neodpověděl na doručení odměny. Celá populace dopaminových neuronů, které jsme zaznamenali, vykazovala podobné reakce na počáteční narážku a odměnu (doplňkový obr. 4a, b). V úkolu HLC saccade byly náklady na úsilí vynaloženy před získáním odměny. Protože předpokládaná cena snížila aktivitu dopaminových neuronů22,23, odpovědi dopaminových neuronů by byly potlačeny v době zahájení startovací prezentace16.

Obr. 2
figure2

Aktivita reprezentativního dopaminového neuronu v úkolu HLC saccade. Funkce hustoty špiček (konvoluční s Gaussovou funkcí) a rastrové grafy jsou zarovnány s počátkem načasování startovacího tága, cue nákladů (Cue), cíle fixace, odměny cue (R cue) a pípnutí. Každá barva představuje podmínku (žlutá: HC +, zelená: HC−, růžová: LC +, azurová: LC-). Načasování nástupu sakády je označeno šedými kříži. Reakce dopaminových neuronů na nepředvídatelnou odměnu nebo nafouknutí jsou také zastoupeny v pravém panelu (červená: nepředvídatelná odměna, modrá: nepředvídatelné nafukování)

Dopaminové neurony kódují informace o odměně i ceně

Neurony odpovídaly fázově na LC narážku, ale méně robustně na HC narážku (Obr. 3a, b). Evokované reakce na podněty k nákladovým podmínkám vykazovaly menší odezvu na HC podněty než LC podněty (dvoustranný Wilcoxonův podepsaný test, P <3.2 × 10-4, n = 70). Kvantifikovali jsme vliv predikovaných nákladů na neuronové reakce pomocí analýzy provozní charakteristiky přijímače (ROC). Distribuce oblasti pod ROC křivkou (auROC) byla významně <0.5 (obr. 3c; dvoustranný Wilcoxonův podepsaný test; P = 5.4 × 10-4, n = 70), což naznačuje, že reakce na tágo HC byly menší než na LC tágo. Již dříve bylo zjištěno, že předpokládané náklady snižují aktivitu dopaminových neuronů, což je v souladu s našimi výsledky22,23. Kromě toho populace dopaminových neuronů vykazovala významnou aktivaci na LC narážce, zatímco nevykazovala významnou supresi na HC narážky (doplňkový obr. 4c, d). Tyto výsledky naznačují, že dopaminové neurony kódují a integrují informace o odměně i ceně v době prezentace cue.

Obr. 3
figure3

Dopaminové neuronové odpovědi na cue nákladů. a Reprezentativní reakce dopaminových neuronů na náklady. Funkce hustoty hrotů byly vypočítány z normalizované aktivity dopaminového neuronu zaznamenaného z opice P. Barevné čáry označují funkce hustoty hrotů a barevné tečky označují časování hrotů. Zelená a fialová barva označují aktivitu v testech s vysokými a nízkými náklady. Svislá čára označuje načasování prezentace nákladového tága. Šedě zbarvená oblast označuje období pro výpočet rychlosti střelby jako reakce na narážky stavu. b Populačně průměrná aktivita dopaminových neuronů zaznamenaná od opice P do podnětů stavu. Plné čáry přerušované čáry představují střední hodnotu a SEM. c Rozdělení oblastí pod ROC pro kvantifikaci účinku předpokládaných nákladů na neuronální odpověď na cue nákladů. Vyplněné čtverce a otevřené kruhy označují data z opice P, respektive S. Šipka označuje střední hodnotu auROC (0.47). d, g Reprezentativní odezvy motivačního typu dopaminového neuronu (d) nebo neuron dopaminu typu salience (g) k nepředvídatelné odměně nebo nafouknutí. Červené a modré křivky označují reakci na nepředvídatelnou odměnu a nepředvídatelné nafouknutí. Svislá čára označuje načasování nepředvídatelné odměny nebo doručení vzduchem. Bledě červené a modré čtverečky označují období pro výpočet rychlosti střelby jako reakci na nepředvídatelnou odměnu nebo nafouknutí. e, h Průměrná aktivita populací dopaminových neuronů s průměrem populacee) nebo neuronů dopaminu typu salience (h) k nepředvídatelné odměně nebo nafouknutí. f, i Rozdělení auROC vypočteno z neuronových neuraminů typu motivační hodnoty (f) nebo neuronů dopaminu typu salience (i). Šipky označují střední hodnoty auROC (f 0.48; i 0.46)

Dosud byly popsány dva odlišné podtypy dopaminových neuronů: motivační neurony a motivační hodnoty28,29. V naší populaci dopaminových neuronů jsme našli důkazy reakčních vzorců shodných s oběma podtypy. Neurony hodnotového typu vykazovaly fázové potlačení averzivních podnětů typu vzduch-nafouknutí (Obr. 3d, e). Naopak neurony salience vykazovaly fázovou aktivaci na averzivní podněty (Obr. 3g, h). Dlouhá fixace v HC testu je také nepříjemná a averzivní; proto je možné, že dva subtypy neuraminových neuronů by vykazovaly odlišné vzorce odezvy na narážky nákladů. Pokud dopaminové neurony představují averzivní podněty a stojí podobným způsobem, pak by neurony s hodnotou měly vykazovat sníženou aktivitu vůči HC narážce kvůli své averzivitě. Na druhé straně by neurony salience měly zvýšit aktivitu vůči HC narážce, protože se také zvýší na nepříjemné podněty. Evokované reakce obou typů neuronů však byly menší než HC narážka ve srovnání s LC narážkou (test s Wilcoxonem s dvěma ocasy; P = 0.021, n = 41 a P = 0.0044, n = 29 pro hodnotu a typy salience) a analýza ROC ukázala menší odpovědi na HC ve srovnání s LC narážkou v obou podtypech (obr. 3f, i; dvoustranný Wilcoxonův podepsaný test; P = 0.030, n = 41 a P = 0.0058, n = 29 pro hodnotu a typy salience). Předpokládaná aktivita tedy snížila náklady u obou podtypů dopaminových neuronů. Tyto výsledky naznačují, že informace o nákladech jsou dopaminovými neurony zpracovávány kvalitativně odlišným způsobem od averzivních podnětů.

V úkolu HLC saccade jsme vložili nucené přerušení do části LC pokusů, abychom vyrovnali úspěšnost a pravděpodobnost odměny mezi typy pokusů. Tato manipulace zvýšila nejistotu získání odměny nebo riziko, že za podmínek LC nebude žádná odměna. Vyšší aktivita dopaminových neuronů a zvýšené ocenění opic pro LC v důsledku podnětu HC proto může být způsobeno rozdílem v riziku nebo nejistotě mezi nákladovými podmínkami. Nezjistili jsme však žádný vztah mezi počtem nucených potratů a rozdílem v RT (doplňkový obr. 5a, b) a zjistili jsme pozitivní korelaci mezi počtem nucených potratů a auROC (doplňkový obr. 5c). Rovněž jsme porovnávali odpovědi dopaminu na cue nákladů po potratech vs. po správných pokusech, ale nenašli jsme žádný rozdíl v obou nákladových podmínkách (doplňkový obr. 5d). Tyto výsledky ukazují, že počet nucených potratů v LC stavu nevysvětluje ani zvýšení hodnoty, ani zvýšenou dopaminergní aktivaci do LC podnětu.

Zvýšená odpověď dopaminu na odměnu narážky za zaplacené náklady

Bylo zjištěno, že zaznamenané dopaminové neurony vykazují fázovou aktivaci a supresi za odměnu a bez předpovědí odměny předpovídajících odměnu (Obr. 2). Dále jsme posoudili, zda tyto reakce byly modulovány dříve vynaloženými náklady. Příklad reprezentativního neuronu a populací průměrovaných neuronů vykazujících větší aktivaci vůči RHC+ narážka než RLC+ tágo je znázorněno na obrázku 4a a b. (dvoustranný Wilcoxonův podepsaný test; P = 7.4 × 10-5, n = 70). Distribuce auROC byla> 0.5, což naznačuje, že reakce na R.HC+ narážka byla větší než na RLC+ tága (obr. 4c; dvoustranný Wilcoxonův podepsaný test; P = 1.4 × 10-4, n = 70). Tyto výsledky naznačují, že reakce na signál předpovídající odměnu v podmínkách HC je významně větší než v podmínkách LC. Naše zjištění proto naznačují, že pozitivní signál RPE představovaný dopaminovými neurony je zvýšen o dříve vzniklou cenu.

Obr. 4
figure4

Dopaminové neuronové reakce na odměnu. a Příklad neuronové odpovědi na R + narážky. Funkce hustoty hrotu byly vypočteny z aktivity dopaminového neuronu zaznamenané u opice P. Barevné čáry a tečky označují hustotu hrotu a načasování hrotu. Žlutá a růžová barva označují aktivitu ve vysoce nákladných a nízkých nákladech. Svislá čára označuje načasování prezentace R + cue. Šedě zbarvená oblast označuje dobu, po kterou se vypočítá rychlost střelby jako reakce na odměny. b Populační průměrná aktivita dopaminových neuronů zaznamenaná z opice P na podněty R +. Plné čáry a přerušované čáry představují průměr a SEM. c Distribuce auROC pro kvantifikaci účinku placených nákladů na neuronální odpověď na R + narážky. Vyplněné čtverce a otevřené kruhy označují data z opice P, respektive S. Šipka označuje střední hodnotu auROC (0.53). d Reprezentativní odpověď na Rue. Zelená a azurová barva znamenají nákladnou a levnou zkoušku. Svislá čára označuje načasování prezentace Rue. e Průměrná populační aktivita dopaminových neuronů zaznamenaná z opice P na Rue. f Distribuce auROC pro kvantifikaci účinku placených nákladů na neuronální odpověď na R-narážky. Šipka označuje střední hodnotu auROC (0.50)

Dopaminové neurony také vykazovaly fázové potlačení R-cue (Obr. 4d, e). Reakce dopaminových neuronů na R-cue však neprokázaly významný rozdíl v závislosti na vynaložených nákladech (dvoustranný Wilcoxonův podepsaný test; P = 0.25, n = 70) a analýza ROC neodhalila žádné důkazy zkreslení v distribuci odpovědí (obr. 4f; Wilcoxonův test se znaménkovým hodnocením, P = 0.35; n = 70). Zaplacené náklady se tedy neprojevily v negativním signálu RPE vyvolaném podněty, které neodpovídají na odměnu. To může být způsobeno efektem podlahy: spontánní aktivita dopaminového neuronu je nízká (kolem 5 Hz); a následně nemusí existovat dostatečný dynamický rozsah pro adekvátní kódování jakéhokoli takového rozdílu v nákladech vynaložených na negativní RPE odezvu (obr. 4d, e).

Rovněž jsme zkoumali účinek zaplacených nákladů na odměny za dopaminové neurony hodnotového a salience typu samostatně, ale oba typy dopaminových neuronů vykazovaly podobný vzorec odezvy (doplňkový obr. 6a – h). Placené náklady tedy vykazují podobný účinek na odezvu na odměnu v dopaminových neuronech hodnotového i výběžkového typu.

Skutečné doby fixace opic nebyly konstantní, ale lišily se podle jednotlivých pokusů (Obr. 1b). Proto bylo možné, že reakce dopaminu na odměny jsou modulovány skutečnými dobami fixace na základě pokusu po zkoušce. Nebyli jsme však schopni najít žádnou významnou korelaci mezi nimi pro každou cenu a podmínku odměny (doplňkový obr. 7inzerát). Kromě toho byly RT do odměnového modulu také modulovány podmínkami nákladů a odměn (Obr. 1f). Jednou z možností je, že odpovědi dopaminových neuronů by mohly být vysvětleny RT na odměny na základě pokusu po zkoušce. Nedokázali jsme však žádnou významnou korelaci mezi RT a normalizovanými dopaminovými odpověďmi na odměny (doplňkový obr. 7e – h). Tyto výsledky naznačují, že odpovědi dopaminu jsou nezávislé na RT i na délce fixace v každé studii, přesto jsou modulovány částkou požadovaných nákladů a očekávané odměny, které jsou fixovány pro každý typ pokusů.

Dále je také možné, že nucené potraty v LC stavu generovaly jak preference opic, tak zvýšenou aktivaci dopaminových neuronů na odměnu v HC stavu. Pokud ano, počet nucených potratů by měl souviset s preferencí i stupněm aktivace. Počet nucených potratů však neměl žádný vliv na preferenci opic ani na aktivaci dopaminových neuronů na odměny (doplňkový obr. 8). Proto rychlejší RT a vyšší DA reakce na RHC+ narážka než RLC+ cue nejsou kvůli vloženým vynuceným potratům v LC stavu.

Zvýšené náklady zvyšují dopaminovou reakci na odměnu za doručení

Odpověď dopaminových neuronů na R + narážky by měla pocházet z reakce na samotnou odměnu, protože dopaminové neurony mění svou odpověď na odměny předpovídající odměnu ve vztahu ke asociaci stimulu a odměny.8,30. Proto jsme očekávali, že dopaminové neurony budou vykazovat placené závislé zvýšení odezvy na odměnu za doručení. Pro měření aktivity dopaminových neuronů na dodávce odměny provedly opice neurčitý úkol HLC se dvěma novými odměnami odměny (Obr. 5a). Vzhledem k tomu, že odměny byly poskytovány pouze v polovině prezentací odměn, byly odměny spolehlivě ani odlišně předpovídány. To bylo provedeno pro maximalizaci citlivosti dopaminových neuronů k získání (nepředvídané) odměny, aby se zvýšila naše citlivost k detekci modulace v citlivosti neuronů v závislosti na vynaložených nákladech.

Obr. 5
figure5

HLC nejistý úkol. a HLC neurčitý úkol. V tomto úkolu byly použity nejasné odměny, ve kterých byly odměny 50% času bez ohledu na to, které podněty byly předloženy. b RTs k nákladům v high-cost a low-cost zkoušky. Pouze opice P vykázala rychlejší RT do tága LC než tága HC (**P <0.01; dvoustranný pár t test; t4 = 9.0, P = 8.5 × 10-4, n = 5 pro opici P; t18 = 1.4, P = 0.19, n = 19 pro opici S). Černé kruhy a chybové pruhy označují průměr a SEM. c RTs k odměnám v high-cost a low-cost zkoušky. Nebyl žádný rozdíl v RTs na odměnových podnětech mezi vysokými náklady a nízkými náklady (dvojice s dvojitým ocasem) t test; t4 = 0.97, P = 0.39, n = 5 pro opici P; t18 = 0.99, P = 0.39, n = 19 pro opici S)

Když byly RT porovnávány mezi cue nákladů, opice P vykazovala rychlejší RT k LC cue než HC tága (Obr. 5b). U obou opic nebyl žádný rozdíl v RT k odměnám mezi podmínkami HC a LC (Obr. 5c).

Při neurčité úloze HLC ukázaly dopaminové neurony skromnou aktivaci na LC narážce, ale neodpovídaly na odměny, protože nebyly prediktivní pro odměňování (Obr. 6a). V celé populaci byly vyvolané reakce na HC menší než LC narážka (Obr. 6b; dvoustranný Wilcoxonův podepsaný test; P = 2.7 × 10-3, n = 19) a analýzy ROC ukázaly menší odezvy na HC tágo (obr. 6c; dvoustranný Wilcoxonův podepsaný test; P = 5.5 × 10-3, n = 19). Neuronální reakce na dodání odměny v HC stavu byla větší než LC (obr. 6d; dvoustranný Wilcoxonův podepsaný test; P = 0.036, n = 19). Distribuce auROC byla> 0.5, což naznačuje větší odpověď na odměnu v HC ve srovnání s LC testy (obr. 6e; dvoustranný Wilcoxonův podepsaný test; P = 0.049, n = 19). Tyto výsledky naznačují, že odpověď na odměnu je ve studii HC vylepšena a že placené náklady zvyšují pozitivní signál RPE při dodání odměny.

Obr. 6
figure6

Dopaminová neuronová odpověď na doručení odměny. a Reprezentativní aktivita dopaminového neuronu v nejistém úkolu HLC. Každá barva představuje podmínky (žlutá: HC +, zelená: HC−, růžová: LC +, azurová: LC-). Načasování nástupu sakády je označeno šedými kříži. Reakce tohoto dopaminového neuronu na nepředvídatelnou odměnu a nafouknutí jsou také znázorněny na pravém panelu (červená: nepředvídatelná odměna, modrá: nepředvídatelné nafukování). b Populační průměrná aktivita dopaminových neuronů zaznamenaná od opice S k podmínkám. Zelená a fialová barva označují aktivitu v testech s vysokými a nízkými náklady. Plné čáry a přerušované čáry představují průměr a SEM. Šedě zbarvená oblast označuje časové okno pro výpočet rychlosti střelby jako reakce na narážky stavu. c Distribuce auROC pro kvantifikaci účinku předpokládaných nákladů na neuronální odpověď na cue nákladů. Vyplněné čtverečky označují data z opice P (n = 3) a prázdné kruhy označují data z opice S (n = 16). Šipka označuje medián auROC (0.44). d Průměrná populační aktivita dopaminových neuronů zaznamenaná z opice S do dodání odměny. Žlutá a růžová barva označují aktivitu ve vysoce nákladných a nízkých nákladech. Šedě zbarvená oblast označuje časové okno pro výpočet rychlosti střelby jako reakce na doručení odměny. e Distribuce auROC pro kvantifikaci účinku placených nákladů na neuronální odpověď na doručení odměny. Šipka označuje střední hodnotu auROC (0.55)

Kromě toho jsme porovnávali odpovědi dopaminu po nepřítomnosti odměny. AuROC nevykazovaly neobjektivní rozdělení, což naznačuje, že zaplacené náklady neměly v době výsledku žádný vliv na negativní RPE (doplňkový obr. 9a). Dopaminové neurony nevykazovaly žádný rozdíl mezi odpověďmi na RHC a RLC narážky (doplňkový obr. 9b).

Zvýšené náklady zvyšují rychlost učení

Vzhledem k tomu, že RPE k odměňování jsou zvýšeny o zaplacené náklady, za předpokladu, že RPE jsou přímo zapojeny do zprostředkování učení stimul-odměna, jsme očekávali, že se vylepšené RPE projeví v chování učení prostřednictvím zvýšené rychlosti učení24. Aby se testoval vliv placených nákladů na učení, opice provedly úlohu průzkumu HLC (Obr. 7a; viz Metody). V tomto úkolu byly současně prezentovány dvě odměny (R + a R-) a opice si musely vybrat jeden. Vyrovnali jsme úspěšnost a pravděpodobnost odměny mezi jednotlivými typy pokusů (dvojstranný pár) t test; t48 = 0.15, P = 0.89, n = 49 pro opici P; t85 = 1.2, P = 0.25, n = 86 pro opici S). Když byly RT porovnávány s nákladovými narážkami, obě opice vykázaly rychlejší RT na LC narážku než HC narážky (obr. 7b; oboustranně spárovaná t test; t48 = 12.9, P ≈ 0, n = 49 pro opici P; t85 = 3.4, P = 9.4 × 10-4, n = 86 pro opici S). Při porovnávání RT s hodnotami odměny vykazovala opice S rychlejší RT v podmínkách HC než LC (obr. 7c; oboustranně spárovaná t test; t48 = 1.3, P = 0.19, n = 49 pro opici P; t85 = 2.8, P = 6.8 × 10-3, n = 86 pro opici S). Při porovnávání RT během první a druhé poloviny výukové relace samostatně byly RT na LC tágo rychlejší než na HC tágo během první (doplňkový obr. 10a) a druhá polovina sezení (Doplňkový obr. 10 c). Naopak RTs opice S do cue odměny ve stavu HC byly rychlejší než ve stavu LC pouze během druhé poloviny relace (doplňkový obr. 10d), ale ne v první polovině (doplňkový obr. 10b).

Obr. 7
figure7

Průzkum HLC. a Úloha průzkumu HLC. V tomto úkolu si musely opice vybrat mezi R + a R-narážkami, které byly náhodně generovány v každé studijní relaci. Pokud by si vybrali tágo R +, mohli by získat odměnu a pokud by si vybrali Rue, že by nedostali odměnu. b RTs k nákladům v high-cost a low-cost zkoušky. Opice vykazovaly rychlejší RT k levnému cue (**P< 0.01; dvoustranný pár t test). Černé kruhy a chybové pruhy označují průměr a SEM. c RTs k odměnám v high-cost a low-cost zkoušky. Monkey S ukazoval rychlejší RT k odměnám v high-cost stavu

V úloze průzkumu HLC byly náhodně vygenerovány odměny v každé relaci učení. Proto se opice musely v každé relaci naučit vztah mezi odměnami a odměnami. Jak pokusy pokračovaly během relace, opice si vybíraly R + cue častěji v každém nákladovém stavu (Obr. 8a). Abychom kvantifikovali rychlost učení, připojili jsme k datům kumulativní exponenciální funkci, která zahrnuje dva volné parametry, a a b, označující strmost křivky a plošiny, v uvedeném pořadí (doplňkový obr. 11a, b). Poměr log mezi parametry strmosti (log aHC/aLC) byla významně větší než nula, což naznačuje větší parametr strmosti v HC než u LC pokusů (Obr. 8b; oboustranný t test; t48 = 2.1, P = 0.042, průměr = 0.58, n = 49 pro opici P; t85 = 2.5, P = 0.013, průměr = 0.19, n = 86 pro opici S). Poměr logaritmu mezi parametry plató (log bHC/bLC), se nelišil od nuly, což naznačuje, že není rozdíl mezi nákladovými podmínkami (Obr. 8c; oboustranný t test; t48 = 0.76, P = 0.45, průměr = −0.0024, n = 49 pro opici P; t85 = 0.56, P = 0.58, průměr = 0.010, n = 86 pro opici S). Tyto výsledky naznačují, že ve studiích HC je rychlost učení rychlejší. Dále jsme modelovali křivky učení pomocí modelu výztuže-učení (RL) (viz Metody). Tento model zahrnuje parametry rychlosti učení (αHC a αLC) a míry průzkumu (βHC a βLC) pro obě nákladové podmínky (doplňkový obr. 11c, d). Při přizpůsobení chování jsme zjistili, že poměr log mezi parametry rychlosti učení (log αHC/αLC) byla větší než nula, což ukazuje na výrazně vyšší parametr rychlosti učení v HC než u LC pokusů (Obr. 8d; oboustranný t test; t48 = 2.3, P = 0.026, průměr = 0.50, n = 49 pro opici P; t85 = 2.2, P = 0.034, průměr = 0.25, n = 86 pro opici S), zatímco parametr β nevykazoval žádný rozdíl (Obr. 8e; oboustranný t test; t48 = 0.77, P = 0.44, průměr = 0.0097, n = 49 pro opici P; t85 = 0.64, P = 0.52, průměr = 0.038, n = 86 pro opici S). Zde jsme odhadli parametry rychlosti učení pro každou podmínku nákladů (αHC a αLC) samostatně vysvětlit rychlejší rychlosti učení ve stavu HC. Pokud jsou však míry učení mezi nákladovými podmínkami shodné, poměr mezi odhadovanými parametry rychlosti učení (αHC/αLC) lze považovat za hodnotu amplifikace pro RPE ve stavu HC. Tyto výsledky proto naznačují, že amplifikace RPE může vysvětlit rychlejší rychlosti učení v HC stavu.

Obr. 8
figure8

Test rychlosti učení. a Průměrný proces učení u opic P a S. Poměr možností R + je vynesen do grafu jako funkce pokusu. Zelené a fialové body označují údaje z nákladních a nákladových pokusů. Tečkované čáry představují plynulý proces učení. Kumulativní exponenciální funkce byly připojeny k datovým bodům a reprezentovány jako plné čáry. b Poměr log mezi parametry montáže a v podmínkách vysokých a nízkých nákladů, kdy byla data v souladu s kumulativní exponenciální funkcí (*P <0.05; dvouocasý Wilcoxonův podepsaný test). Černé kruhy a chybové pruhy označují průměr a SEM. c Poměr log mezi parametry montáže b v podmínkách vysokých a nízkých nákladů, kdy byla data v souladu s kumulativní exponenciální funkcí. d Poměr protokolu mezi parametrem rychlosti učení α v podmínkách vysokých a nízkých nákladů, kdy byla data v souladu s modelem posílení učení. e Poměr log mezi parametrem kování β v podmínkách vysokých a nízkých nákladů, kdy byla data v souladu s modelem posílení učení

Také jsme se pokusili vysvětlit proces učení pomocí alternativních RL modelů, které berou v úvahu možnost, že opice znají antikorelaci mezi podněty a odměnou v každém pokusu. U těchto modelů je hodnota nevyvolené možnosti aktualizována společně s vybranou možností (doplňkový obr. 12). I při použití takových alternativních modelů na data byl parametr rychlosti učení v HC podstatně větší ve srovnání s podmínkou LC (doplňkový obr. 12b, f) zatímco parametr β nevykazoval žádný rozdíl (doplňkový obr. 12d, h). Naše zjištění týkající se zesílení signálu RPE ve stavu HC je tedy robustní vůči formě modelu RL přizpůsobeného datům.

Diskuse

Zkoumali jsme vliv placených nákladů na hodnotu podnětů předpovídajících odměny a na fázové reakce neuronů dopaminu midbrain. Opice vykázaly zvýšené ocenění pro odměny předpovídající odměnu po provedení akce, která vyvolala vyšší náklady. Dopaminové neurony vykázaly zvýšenou odpověď jak na odměnu předpovídající odměnu, tak na odměnu, po vynaložení vyšších nákladů. Opice také vykazovaly rychlejší rychlosti učení, když byly pro získání odměny vyžadovány vyšší náklady.

Několik studií ukázalo, že placené náklady zvyšují preference pro cue předpovídající odměnu1,2,3. V této studii opice vykazovaly rychlejší RT do podnětů předpovídajících odměnu ve stavu HC ve srovnání s podtypy ve stavu LC, což je v souladu s možností, že hodnota podnětu odměny je zvýšena o zaplacené náklady27. Alternativní možnost je, že delší fixační čas spojený se zvýšenou pozorností na saccade cíl v HC stavu, tedy snížení RT po delší fixaci v HC pokusu. V pokusech s HC a LC jsme však v HLC nejistém úkolu nenašli žádný rozdíl mezi RT a Rc. Dále v první polovině průzkumné relace HLC. Mezi RT a LC testy nebyly RT významně odlišné. Tato zjištění tedy naznačují, že delší fixace není pravděpodobným vysvětlením kratších RT pozorovaných na podnětech předpovídajících odměnu. Kromě dopadu placených nákladů na odměny cue RTs, náklady také ovlivnily RTs na nonreward předpovídající narážky, a to navzdory skutečnosti, že po prezentaci tága nebyla poskytnuta žádná odměna. Předchozí studie uváděla podobný jev, protože opičí jedinci vykazovali kratší RT v nerevidovaných studiích, když v alternativních studiích v rámci každého bloku byly použity výhodnější odměny.30. Jednou z možných interpretací účinku v této studii je to, že celková vyšší motivace reagovat v bloku s výhodnější odměnou ovlivnila RT také na cue v rámci bloku bez odměny. Podobně, v této studii, očekávání cennější odměny v testech HC by mohlo modulovat RT na cue bez odměny v testech HC v našem úkolu. Kromě toho byl účinek placených nákladů na RT na odměny narážky menší než dopad na nuly předpovídající odměny. Toto je pravděpodobně artefakt skutečnosti, že proto, že opice udělaly rychleji saccade na RLC+ cue v první řadě, existuje omezený prostor pro detekci zkrácení RT na RHC+ narážka. Proto by byl rozdíl v RT mezi podněty R + v důsledku toho malý.

Opice také provedly výběrové zkoušky mezi RHC a RLC narážky v úloze HLC. Avšak zatímco opice S vykazovala preferenci pro RHC+ narážka na RLC+ narážka, opice P nevykazovala žádnou takovou preferenci. Tento nesoulad lze vysvětlit kontextovým rozdílem mezi HLC saccade a výběrovými zkouškami. Ve výběrových pokusech byly namísto jednoho podnětu předpovídajícího odměnu představeny dvě narážky předpovídající odměnu. Opice navíc po svém výběru nezískaly žádnou odměnu, i když si vybraly cue předpovídající odměnu, takže výběrový test byl proveden v zániku. Postup vyhubení byl implementován, aby bylo zajištěno, že volba opice byla řízena tím, co se dozvědělo o pokusech o namáhání, na rozdíl od toho, aby byla zmatena novým učením o výběru pokusů. Tento postup však může mít vedlejší účinek, že by se opice mohla rychle naučit rozpoznávat zánikovou proceduru v kontextu výběru a že není důvod vybírat preferenční podněty. Jedna z opic však ve skutečnosti ukázala preferenci pro cue odměny ve stavu HC.

V době předložení narážky, která předpovídala další požadavek na úhradu nákladů, byla aktivita dopaminových neuronů snížena, v souladu s předchozími studiemi22,23. V naší studii jsme nezaznamenali celkový pokles dopaminového neuronu reagujícího na HC i LC narážky ve srovnání s výchozím stavem. To naznačuje, že negativní signál RPE nenastane v tomto časovém bodě navzdory následujícím nákladům. Absence negativního RPE pravděpodobně odráží integraci predikce budoucí odměny očekávané později v procesu. Dopaminové neurony vykázaly významnou aktivaci v LC pokusu a aktivita byla vyšší ve srovnání s HC pokusem. To naznačuje, že informace o nákladech jsou začleněny do signálu RPE neseného dopaminovými neurony. Dopaminové neurony tak kódují informace o odměně i ceně a odpověď RPE odráží součet nákladů a odměny.

Ukázali jsme, že signál RPE reprezentovaný dopaminovými neurony je zvýšen o zaplacené náklady v prezentaci cue v odměně (v úkolu HLC saccade) a doručení odměny (v nejistém úkolu HLC). Objektivní částka odměny poskytnutá v testech HC a LC byla stejná; modifikace signálů RPE by proto měla být způsobena nesmyslným procesem. Tato možnost je podporována několika studiemi naznačujícími kontextový účinek na signály dopaminu RPE v souladu se zpracováním subjektivní hodnoty a / nebo užitečnosti v dopaminových neuronech11,19,20,21,31,32,33,34. Pokud je signál RPE větší, mělo by to vést k rychlejší aktualizaci hodnoty cue, což by následně mělo dopad na rychlost učení asociací stimulů a odměn. Předchozí studie prokázaly změnu rychlosti učení pomocí nesmyslných faktorů24,35. V souladu s tím vykazovaly opice vyšší rychlosti učení v HC ve srovnání s podmínkou LC. Zjistili jsme, že zvýšenou rychlost učení za placené náklady lze vysvětlit modelem RL se zesíleným RPE. V našich experimentech bylo obtížné oddělit účinky zesíleného RPE a zvýšenou rychlost učení; našli jsme však amplifikovaný dopaminergní signál RPE ve stavu HC. Kromě toho předchozí studie fMRI ukázala, že parametr rychlosti učení je zastoupen v kortexu předního cingula a že aktivita VTA nesouvisí s parametrem rychlosti učení v těkavých prostředích.36. Proto argumentujeme, že signál RPE kódovaný dopaminovými neurony je zesílen placenými náklady a že zvýšený signál RPE zvyšuje rychlost učení.

Když byl signál RPE generován v době prezentace odměny a doručení odměny, opice již zaplatily náklady. Jedním z možných mechanismů pro vylepšený signál RPE je tedy to, že odměna získaná po HC může být výhodnější. Zvýšené očekávání hodnotnější odměny po HC může zvýšit motivaci k ukončení zkoušky, a tím zkrátit RT na odměny v HC testech.

Další možnou interpretací našich výsledků je to, že úleva, kterou zažívá ukončení nákladného jednání, může pro opice fungovat jako odměna. Studie funkčního zobrazování magnetickou rezonancí (fMRI) ukázaly, že úleva od bolesti může být pro lidské účastníky odměnou37,38; proto by náklady mohly hrát podobnou roli jako averzní podnět k bolesti. Pokud je úleva od nákladů prospěšná a pokud se to projeví v dopaminergní aktivitě, očekáváme, že neurony dopaminu budou reagovat na konci dlouhé fixace, což je načasování prezentace odměn. Avšak pozorovali jsme žádný rozdíl v dopaminergní aktivitě při načasování prezentace odměn, ani žádný rozdíl v RT vůči Rs mezi testy HC a LC v HLC nejistém úkolu. Navrhujeme proto, že úleva od nákladů neposkytuje dostatečné vysvětlení účinku, který jsme pozorovali v dopaminových neuronech.

Kromě toho dopaminové neurony vykazovaly kvalitativně odlišné odpovědi na averzní stimul ve srovnání s narážkou na predikci nákladů. Jedním možným vysvětlením pro toto je, že náklady na úsilí byly méně význačné než vzduchový obláček nebo odměna, protože náklady na úsilí byly dočasně prodlouženy o několik sekund, protože opice provedly fixaci a ne propíchly. Proto se dopaminové neurony nemusely aktivovat do méně význačných nákladů. Jinou možností je, že neurony typu dopaminu typu salience reagují na události, po kterých byly indukovány některé pohyby. Když byla opice vydána odměna nebo vzduchový obláček, způsobí některé pohyby, jako je olizování nebo oko mrknutí. Avšak v úkolu HLC saccade musely opice držet svůj pohled na fixační cíl, aniž by se pohybovaly jako náklady. Nedávná studie ve skutečnosti ukázala, že uvolňování dopaminu v jádru accumbens po cue předpovídající odměnu je oslabeno, pokud není pohyb správně zahájen.39. Protože náklady v našich experimentech nezahrnují iniciaci pohybu, mohlo by to potenciálně vést k nekonzistentní reakci dopaminových neuronů salience typu. V každém případě můžeme dojít k závěru, že informace o nákladech jsou zpracovávány odlišně od averzivních informací.

Závěrem navrhujeme, že placené náklady zvyšují hodnotu podnětů předpovídajících odměnu a že to zase zvyšuje RPE signál kódovaný v dopaminových neuronech midbrain. Tento účinek vedl k predikci chování, že rychlost učení zvířat by byla zvýšena pro odměny předpovídající odměnu po zkušenosti s HC. To je opravdu to, co jsme pozorovali. Naše pozorování aktivity dopaminových neuronů nás tedy vedlo k hypotéze o existenci behaviorálního efektu, jakož i předpokládaného výpočetního mechanismu, který je základem tohoto účinku, což jsme následně potvrdili. Naše zjištění proto představují příklad toho, jak může dojít k triangulaci mezi měřeními neuronových dat, výpočetní teorií a chováním: rozvoj hlubšího porozumění neuronálnímu zpracování v mozku může přinést poznatky o chování a jeho základu pro výpočet.

Metody

Zvířata

Použili jsme dvě mužské japonské opice (Macaca fuscata; tělesná hmotnost, 6.5 kg = opice P; tělesná hmotnost, 9.0 kg = opice S). Implantovali jsme hlavový sloupek na horní část lebky opice, aby bylo možné jej později připevnit na židli. Byla také implantována záznamová komora, aby bylo možné namontovat elektrodový mikromanipulátor. Záznamová komora byla nakloněna 45 ° laterálně v koronální rovině a umístěna na stereotaxické souřadnice: 15 mm před vnějším kanálem. Po období zotavení byly opice vyškoleny k plnění úkolu sakády. Po dokončení tréninku jsme vyvrtali díru přes lebku uvnitř záznamové komory pro vložení elektrody. Všechny protokoly o péči o zvířata byly schváleny Výborem pro experimenty se zvířaty na Tamagawské univerzitě a byly v souladu s Průvodcem Národními instituty zdraví pro péči a použití laboratorních zvířat.

Behaviorální úkol

Opice byly vyškoleny k plnění úkolu HLC saccade (Obr. 1a), Nejistý úkol HLC (obr. 5a) a průzkum HLC (obr. 7a). Všechny úkoly byly prováděny v temné místnosti. Opice seděly na židli před 22palcovou. LCD monitor (S2232W, Eizo) s implantovanými hlavovými sloupky připevněnými k židli. Vzdálenost mezi jejich očima a displejem byla 70 cm. Když bylo ve středu displeje uvedeno startovací tágo (bílý kruh, průměr 0.3 °), bylo od opice požadováno, aby udržovala svůj pohled na tágo. Počáteční tágo zmizelo po 750 ms a poté bylo představeno nákladové tágo (hvězda a větrný mlýn pro zkoušky HC a LC). Během prezentace tága 750 ms se muselo opicím připoutat k nákladovému tágu. Pokud nepřijeli na pomoc, soud byl přerušen a stejný soud začal znovu. Během zkoušek HC byl fixační cíl (0.3 ° × 0.3 ° bílý čtverec) představen těsně po zmizení narážky na náklady na 2000 1500 ms (HLC saccade a HLC nejisté úkoly) nebo 4 4 ms (HLC průzkumný úkol) a byly požadovány opice aby se tomu věnovali a neustále na to hleděli. Pokud opice posunuly pohled za fixační okno 400 ° × 1600 °, úkol byl přerušen. Okno fixace bylo aktivováno 1100 ms po prezentaci bodu fixace, protože opice potřebovaly čas na přípravu na sakádu a na úpravu jejich fixace. Proto se opice musely ve zkouškách HC fixovat alespoň na 1500 ms (HLC saccade a HLC nejisté úkoly) nebo 1000 ms (HLC exploration task). Ve zkouškách LC byla prázdná obrazovka zobrazena po dobu 500 400 ms (HLC saccade a HLC nejisté úkoly) nebo 100 100 ms (HLC průzkumná úloha) a poté se cíl fixace objevil po dobu 400 ms. Vzhledem k tomu, že fixační okno bylo aktivováno 750 ms po prezentaci fixačního bodu, bylo v testech LC požadováno, aby se opice fixovaly na cíl po dobu nejméně 0.3 ms. Opice vykazovaly více chyb ve studii HC; proto bylo do LC testu náhodně vloženo vynucené přerušení XNUMX ms před prezentací cílového tága odměny (XNUMX ms po prezentaci cíle fixace, což je načasování nástupu okna fixace), aby se vyrovnala úspěšnost. Po fixaci na cíl byly představeny jedna nebo dvě tága odměn a opice byly požádány, aby se k tágu připojily. Pokud úspěšně provedli sakádu do tága odměny, byl vydán zvukový signál XNUMX ms po prezentaci karty odměny. Když opice udělaly saké na tágo R +, bylo současně s pípnutím dodáno XNUMX ml vody. Když udělali saké na Rue, nebyla jim udělena žádná odměna.

V úkolu sakcade HLC byly jako odměny použity čtyři barevné kruhy (RHC+: žlutá; RHC-: zelená; RLC+: růžová; RLC-: modrá; Obr. 1a). Jedno experimentální sezení sestávalo z 80 saccade pokusů, 20 nepředvídatelných testů odměn, 20 nepředvídatelných testů air-puff a 5 testů na výběr. Sackádové zkoušky zahrnovaly 40 zkoušek HC a 40 zkoušek LC, obě zahrnovaly 20 zkoušek odměn a 20 zkoušek bez odměny. V testech nepředvídatelné odměny nebo nafouknutí bylo do tváře opice dodáno 0.3 ml vodní odměny nebo 0.2 MPa nafouknutí (150 ms u opice P; 200 ms u opice S). Výběrové zkoušky zahrnovaly hodnocení, ve kterém si opice vybíraly mezi tágy R + (R.HC+ vs. RLC+) v pokusu HC, mezi R-tága (RHC- vs. RLC-) v pokusu HC mezi R + (RHC+ vs. RLC+) narážky v LC pokusu, mezi R- (RHC- vs. RLC-) cue v LC pokusu a mezi cue nákladů (doplňkový obr. 1). V pokusech s výběrem mezi odměnami byla struktura úkolu identická s úlohou sakády před prezentací odměny. Poté byly namísto představení odměnových táborů ve výběrových zkouškách představeny dvě odměny a po odměně nebyla poskytnuta žádná odměna, i když si opice vybraly mezi tágami R +.

Pro testování reakce dopaminových neuronů na odměnu za doručení provedli opice neurčitý úkol HLC (Obr. 5a). Tento úkol byl podobný úkolu HLC saccade s výjimkou odměn. V této úloze jsme použili dvě odměny odměny (namísto čtyř odměn odměn používaných v úloze HLC saccade), jednu pro zkoušku HC a druhou pro zkoušku LC. Odměna byla doručena v polovině zkoušek po prezentaci odměny. Jedna experimentální relace se skládala z pokusů XCUMX saccade, 80 nepředvídatelných pokusů o odměnu a 20 nepředvídatelných pokusů o nafoukání. Studie saccade zahrnovaly zkoušky 20 HC a 40 LC, z nichž obě zahrnovaly zkoušky odměn 40 a 20 bez odměn. V nepředvídatelných soudních řízeních byla odměna nebo nafouknutí vydáno bez narážky.

V průzkumném úkolu HLC jsou dvě odměny za odměnu (RHC+, RHC- nebo RLC+, RLC-) byly prezentovány současně a opice byly požádány, aby se posadily do jedné z odměn (Obr. 7a). Pokud si vybrali tágo R +, byla jim poskytnuta odměna za vodu. Čtyři odměny za odměnu (RHC +, R.HC-, RLC +, R.LC-) byly generovány pro každou průzkumnou relaci a od opic bylo požadováno, aby se naučily asociaci mezi narážkami a odměnou zkušební zkouškou. Jedna experimentální relace spočívala v pokusech 100 HC a 100 LC. Zjistili jsme, že pokud pro úlohu průzkumu nastavíme dobu fixace na 2000 ms ve stavu HC tak, aby odpovídala trvání podmínky HC v ostatních úkolech, opice provedly úkol s velmi nízkou úspěšností pravděpodobně kvůli obtížnost úkolu a následná nízká míra odměny. Proto, abychom snížili obtížnost úkolu a zvýšili úspěšnost, použili jsme jako náklady na průzkumnou úlohu HLC délku fixace 1500 ms.

Úkoly byly řízeny pomocí komerčně dostupného softwarového balíčku (TEMPO, Reflective Computing, St. Louis, MO, USA). Pro vizuální prezentaci podnětů byl použit program na míru založený na aplikačním programovacím rozhraní (OpenGL). Vizuální podněty pro náklady a odměny byly vytvořeny autory.

Záznam a sběr dat

Umístění substantia nigra bylo odhadnuto pomocí MR obrázků. Epoxidem potažená wolframová elektroda (průměr stopky, 0.25 mm, 0.5 – 1.5 MΩ měřený při 1000 Hz, FHC) byla vložena do substantia nigra pomocí mikromanipulátoru (MO-972, Narishige, Tokio, Japonsko) namontovaného na záznamovou komoru s nerezová vodicí trubice. Napěťové signály byly zesíleny (× 10,000) a filtrovány (0.5 – 2 kHz). Akční potenciály z jednoho neuronu byly izolovány pomocí algoritmu odpovídajícímu templátu (OmniPlex, Plexon, Dallas, TX, USA). Pohyb očí byl monitorován pomocí infračerveného kamerového systému při vzorkovací frekvenci 500 Hz (iView X Hi-Speed ​​Primate, SMI, Teltow, Německo). Načasování akčních potenciálů a behaviorálních událostí bylo zaznamenáno s časovým rozlišením 1 kHz.

Analýza dat

Aby se analyzovalo chování opic, byly RT určeny jako časový interval mezi nástupem stimulu a časem, kdy opice zahájily saccade. Inicializace saccade byla stanovena výpočtem načasování, když pozice pohledu překročila standardní odchylky 5 od střední polohy pohledu před prezentací cue.

V úloze průzkumu HLC bylo chování opic kvantifikováno pomocí kumulativní exponenciální funkce. Funkce (P) popisuje poměr správné volby takto:

P=12+(12-12exp(-at))b,
(1)

kde t znamená soud, a a b uveďte sklon a plató křivky. Tato funkce byla pro údaje o nákladech nezávislá na datech. Prohledaly se parametry funkce, aby se maximalizovala pravděpodobnost pozorování dat z jedné relace a průměrovaných dat. Bola použita metoda bootstrap pro odhad intervalů spolehlivosti při přizpůsobování průměrovaným datům. Ke kvantifikaci behaviorálních dat byl také použit standardní RL model. Hodnoty podnětů Vj(t) pro vybranou volbu j (j = 1 pro podmínku HC; j = 2 pro podmínky LC) byly aktualizovány následovně:

Vj(t+1)=Vj(t)+αj(R(t)-Vj(t)),
(2)

kde αj označují míry učení, které byly omezeny na hodnoty mezi 0 a 1. R(t) označuje částku odměny (1: odměněna, 0: žádná odměna) při zkoušce t.

Pravděpodobnost Pj(t) výběru stimulu j ze dvou podnětů při zkoušce t je dáno pravidlem softmax

Pj(t)=exp(Vj(t)βj)/2i=1exp(Vi(t)βi),
(3)

kde βj označuje rozsah průzkumu.

Zaznamenali jsme neuronální aktivitu během HLC sakády a HLC nejistého úkolu, ale ne při úkolu průzkumu HLC. Úkol průzkumu HLC byl implementován jako čistě behaviorální studie. Dopaminové neurony byly identifikovány, pokud vykazovaly každou z následujících vlastností: nízká tonická rychlost střelby (<6 Hz), dlouhá doba trvání špičkové vlny (> 300 μs) a fázická reakce na nepředvídatelnou odměnu (doplňkový obr. 2a). Analyzovali jsme pokusy, ve kterých opice mohly pokus dokončit bez chyb (fixace brzdění, žádné saccade nebo umělé přerušení). Střední rychlost vypalování neuronů byla vypočtena s 1 ms přihrádkami a vyhlazena gaussovským jádrem (σ = 30 ms, šířka = 4σ) k vytvoření funkcí hustoty špiček. Reakce dopaminových neuronů na každou úlohu byly vypočteny jako normalizovaná rychlost vypalování relativně k spontánní aktivitě (průměrná rychlost vypalování během 500 ms před začátkem startovacího tága). Rychlost střelby byla vypočtena v časových oknech určených pro každou úlohu a subjekt. Tato časová okna byla určena z průměrné aktivity populace. Definovali jsme počáteční a koncový bod časových oken určených na základě doby vzestupu a pádu průměrné odezvy populace pomocí předchozích dopaminových studií dopaminu jako referencí (doplňkový obr. 3). Časové okno pro počáteční start bylo definováno jako 200 – 400 ms po začátku startovacího startu pro neurony zaznamenané z opic P a S. Časové okno pro startovací podmínku bylo definováno jako 150 – 300 ms po nástupu startovací podmínky pro opice P a 200 – 400 ms pro opici S. Časové okno pro cue odměny bylo definováno jako 140 – 350 ms po nástupu odměny cue pro opice P a 220 – 420 ms pro opice S. Časové okno pro odměnu bylo definováno jako 225– 475 ms po začátku pípnutí pro opice P a 200 – 450 ms pro opice S. Časové okno pro nepředvídatelné doručení odměny bylo definováno jako 100 – 300 ms po doručení odměny pro opice P a 150 – 300 ms pro opice S. časové okno pro nepředvídatelné nafouknutí bylo definováno jako 30 – 230 ms po dodání nafouknutí pro opice P a 50 – 200 ms pro opice S.

Všechny zaznamenané dopaminové neurony jsme klasifikovali do dvou odlišných kategorií, typů motivace a význačnosti. Pokud byla reakce neuronu na podněty nafouknutí vzduchu menší než spontánní aktivita, byl neuron klasifikován jako typ motivační hodnoty (obr. 3d, e). Naproti tomu, pokud byla odpověď neuronu na podněty vzduchového nafukování větší než spontánní aktivita, byl neuron klasifikován jako typ salience (obr. 3g, h).

Pro kvantifikaci diferenciální neuronální aktivity mezi podmínkami úkolu byla provedena ROC analýza. Vypočítali jsme auROC pro každý neuron. Hodnota auROC menší nebo větší než 0.5 označuje menší nebo větší odpověď ve studii HC. Protože počty neuronů v některých souborech neuronových dat byly malé, použili jsme Wilcoxonův test se znaménkem, abychom snížili účinek odlehlých hodnot pro kvantifikaci předpjatého rozdělení auROC.

K provedení veškeré analýzy dat byl použit komerčně dostupný software MATLAB (MathWorks, Natick, MA, USA).

Histologické vyšetření

Po experimentu záznamu byly obě opice eutanizovány a byla provedena histologická analýza, aby se ověřila poloha záznamu (doplňkový obr. 2b). Opice byly usmrceny podáním smrtící dávky pentobarbitalu sodného (70 mg kg-1) a perfuze 4% formaldehydem ve fosfátovém pufru. Sériové koronální řezy (tloušťka, 10 μm) byly nařezány a imunofarbeny anti-tyrosinhydroxylázovou (TH) protilátkou (každá 25 sekce; anti-TH protilátka, 1: 500; Merck, Darmstadt, Německo) nebo Nissl (každé 25 řezy) .

Souhrn hlášení

Další informace o výzkumu jsou k dispozici v internetovém obchodě Shrnutí zpráv o výzkumu přírody související s tímto článkem.

Dostupnost dat

Data použitá při analýze této studie jsou k dispozici od příslušného autora na základě přiměřené žádosti. Souhrn hlášení pro tento článek je k dispozici jako soubor doplňkových informací. Zdrojová data, která jsou základem obr. 1, 3-8 a doplňkové obr. 1, 4-12 jsou poskytovány jako soubor zdrojových dat.

Dostupnost kódu

Kódy Matlab používané při analýze této studie jsou k dispozici od příslušného autora na základě přiměřené žádosti.

Reference

  1. 1.

    Clement, TS, Feltus, JR, Kaiser, DH & Zentall, TR „Pracovní etika“ u holubů: hodnota odměny přímo souvisí s úsilím nebo časem potřebným k získání odměny. Psychon. Býk. Rev. 7, 100-106 (2000).

  2. 2.

    Klein, ED, Bhatt, RS & Zentall, TR Contrast a zdůvodnění úsilí. Psychon. Býk. Rev. 12, 335-339 (2005).

  3. 3.

    Zentall, TR & Singer, RA Kontrast v rámci pokusu: holubi dávají přednost kondicionérům, které sledují spíše spíše než méně averzivní událost. J. Exp. Anální. Behav. 88, 131-149 (2007).

  4. 4.

    Aronson, E. & Mills, J. Vliv závažnosti zahájení na sympatie ke skupině. J. Abnorm. Soc. Psychol. 59, 177-181 (1959).

  5. 5.

    Festinger, L. Teorie kognitivní dissonance. (Stanford University Press, Kalifornie, 1957).

  6. 6.

    Alessandri, J., Darcheville, JC, Delevoye-Turrell, Y. & Zentall, TR Preference odměn, které následují po větším úsilí a větším zpoždění. Learn Behav. 36, 352-358 (2008).

  7. 7.

    Schultz, W., Carelli, RM & Wightman, RM Fázické dopaminové signály: od subjektivní hodnoty odměny po formální ekonomickou užitečnost. Měna. Opin. Behav. Sci. 5, 147-154 (2015).

  8. 8.

    Schultz, W., Dayan, P. & Montague, PR Neurální substrát predikce a odměny. Věda 275, 1593-1599 (1997).

  9. 9.

    Bromberg-Martin, ES, Matsumoto, M. & Hikosaka, O. Dopamin v řízení motivace: odměňování, averze a varování. Neuron 68, 815-834 (2010).

  10. 10.

    Bayer, HM & Glimcher, PW Dopaminové neurony středního mozku kódují chybový signál predikce kvantitativní odměny. Neuron 47, 129-141 (2005).

  11. 11.

    Nakahara, H., Itoh, H., Kawagoe, R., Takikawa, Y. & Hikosaka, O. Dopaminové neurony mohou představovat kontextově závislou chybu predikce. Neuron 41, 269-280 (2004).

  12. 12.

    Tobler, PN, Fiorillo, CD & Schultz, W. Adaptivní kódování hodnoty odměny dopaminovými neurony. Věda 307, 1642-1645 (2005).

  13. 13.

    Nomoto, K., Schultz, W., Watanabe, T. & Sakagami, M. Dočasně rozšířili dopaminové reakce na percepčně náročné stimuly predikující odměnu. J. Neurosci. 30, 10692-10702 (2010).

  14. 14.

    Watabe-Uchida, M., Zhu, L., Ogawa, SK, Vamanrao, A. & Uchida, N. Mapování celého mozku přímých vstupů do dopaminových neuronů středního mozku. Neuron 74, 858-873 (2012).

  15. 15.

    Tanaka, SC a kol. Predikce okamžitých a budoucích odměn různě získává kortiko-bazální smyčky ganglií. Nat. Neurosci. 7, 887-893 (2004).

  16. 16.

    Haber, SN, Kim, KS, Mailly, P. & Calzavara, R. Kortikální vstupy související s odměnami definují velkou striatální oblast u primátů, které se stýkají s asociativními kortikálními spojeními a poskytují podklad pro motivační učení. J. Neurosci. 26, 8368-8376 (2006).

  17. 17.

    Doya, K. Modulátoři rozhodování. Nat. Neurosci. 11, 410-416 (2008).

  18. 18.

    Roesch, MR, Calu, DJ & Schoenbaum, G. Dopaminové neurony kódují lepší možnost u potkanů, kteří se rozhodují mezi různými zpožděnými nebo velikostními odměnami. Nat. Neurosci. 10, 1615-1624 (2007).

  19. 19.

    Lak, A., Stauffer, WR & Schultz, W. Dopaminové chybové odpovědi na dopamin integrují subjektivní hodnotu z různých dimenzí odměny. Proc. Natl Acad. Sci. USA 111, 2343-2348 (2014).

  20. 20.

    Stauffer, WR, Lak, A. & Schultz, W. Chybné odpovědi na predikci dopaminové odměny odrážejí mezní užitečnost. Curr. Biol. 24, 2491-2500 (2014).

  21. 21.

    Noritake, A., Ninomiya, T. & Isoda, M. Monitorování a ocenění sociální odměny v mozku makaků. Nat. Neurosci. 21, 1452-1462 (2018).

  22. 22.

    Pasquereau, B. & Turner, RS Omezené kódování úsilí dopaminovými neurony v rámci kompromisu nákladů a přínosů. J. Neurosci. 33, 8288-8300 (2013).

  23. 23.

    Varazzani, C., San-Galli, A., Gilardeau, S. & Bouret, S. Noradrenalin a dopaminové neurony v kompromisu odměna / úsilí: přímé elektrofyziologické srovnání u chovaných opic. J. Neurosci. 20, 7866-7877 (2015).

  24. 24.

    Watanabe, N., Sakagami, M. & Haruno, M. Chybový signál predikce odměny vylepšený interakcí striatum-amygdala vysvětluje zrychlení pravděpodobnostního učení odměny emocemi. J. Neurosci. 33, 4487-4493 (2013).

  25. 25.

    Di Ciano, P., Cardinal, RN, Cowell, RA, Little, SJ & Everitt, B. Diferenciální zapojení NMDA, AMPA / kainátových a dopaminových receptorů v jádru accumbens jádra při získávání a výkonu chování pavlovského přístupu. J. Neurosci. 21, 9471-9477 (2001).

  26. 26.

    Flagel, SB a kol. Selektivní role dopaminu v učení stimulu a odměny. Příroda 469, 53-57 (2011).

  27. 27.

    Blough, DS Účinky aktivace, rozlišitelnosti a posílení na složky reakčního času vizuálního vyhledávání holubů. J. Exp. Psychol. Anim. Behav. Proces. 26, 50-63 (2000).

  28. 28.

    Matsumoto, M. & Hikosaka, O. Dva typy dopaminového neuronu zřetelně přenášejí pozitivní a negativní motivační signály. Příroda 459, 837-841 (2009).

  29. 29.

    Matsumoto, M. & Takada, M. Výrazná reprezentace kognitivních a motivačních signálů v dopaminových neuronech středního mozku. Neuron 79, 1011-1024 (2013).

  30. 30.

    Watanabe, M. a kol. Behaviorální reakce odrážející rozdílná očekávání odměn u opic. Exp. Brain Res. 140, 511-518 (2001).

  31. 31.

    Takikawa, Y., Kawagoe, R. & Hikosaka, O. Možná role dopaminových neuronů středního mozku v krátkodobé a dlouhodobé adaptaci sakád na mapování polohy a odměny. J. Neurophysiol. 92, 2520-2529 (2004).

  32. 32.

    Kobayashi, S. & Schultz, W. Vliv zpoždění odměn na odpovědi dopaminových neuronů. J. Neurosci. 28, 7837-7846 (2008).

  33. 33.

    Enomoto, K. a kol. Dopaminové neurony se učí kódovat dlouhodobou hodnotu více budoucích odměn. Proc. Natl Acad. Sci. USA 108, 15462-15467 (2011).

  34. 34.

    Lak, A., Nomoto, K., Keramati, M., Sakagami, M. & Kepecs, A. Midbrain Dopaminové neurony signalizují víru v přesnost volby během percepčního rozhodnutí. Curr. Biol. 27, 821-832 (2017).

  35. 35.

    Williams, BA & McDevitt, MA Inhibice a superconditioning. Psychol. Sci. 13, 454-459 (2002).

  36. 36.

    Behrens, TE, Woolrich, MW, Walton, ME & Rushworth, MF Učení hodnoty informací v nejistém světě. Nat. Neurosci. 10, 1214-1221 (2007).

  37. 37.

    Seymour, B. a kol. Neuronální procesy s apetitivní averzí vůči apetitům jsou základem prediktivního učení úlevy od bolesti. Nat. Neurosci. 8, 1234-1240 (2005).

  38. 38.

    Kim, H., Shimojo, S. & O'Doherty, JP Je vyhýbání se averzivnímu výsledku obohacující? Neurální substráty vyhýbání se učení v lidském mozku. PLoS Biol. 4, e233 (2006).

  39. 39.

    Syed, EC a kol. Iniciační akce formuje mezolimbické dopaminové kódování budoucích odměn. Nat. Neurosci. 19, 34-36 (2016).

Stáhnout odkazy

Poděkování

Tato práce byla podporována MEXT / JSPS Granty v rámci podpory vědeckého výzkumu (Kakenhi) Grantová čísla JP16H06571 a JP18H03662 pro MS Tento výzkum byl částečně podporován Strategickým výzkumným programem pro mozkové vědy podporovaným Japonskou agenturou pro lékařský výzkum a vývoj (AMED) ) a japonsko-americký program spolupráce v oblasti výzkumu mozku. Tento výzkum byl podporován Národním projektem biologických zdrojů na Národním ústavu fyziologické vědy (NBRP na NIPS) z Japonské agentury pro lékařský výzkum a vývoj, AMED. Děkujeme Bernardovi W. Balleineovi a Andrewovi R. Delamaterovi za jejich pomoc při psaní příspěvku.

Informace o autorovi

Experimenty navrhly ST, JPO a MS. ST provedl experimenty a analyzoval data. JPO a MS zdokonalily experimenty a analýzy dat. Ru, rukopis psali ST, JPO a MS.

Korespondence na Masamichi Sakagami.