Náklady na získanie odmeny zvyšujú signál chyby predpovedania odmeny dopamínových neurónov midbrain (2019).

abstraktné

Je známe, že neuróny stredného mozgu dopamínu kódujú chyby predikcie odmeny (RPE) používané na aktualizáciu predpovedí hodnoty. Tu skúmame, či sú signály RPE kódované dopamínovými neurónmi v strede mozgu modulované nákladmi zaplatenými na získanie odmien, a to zaznamenávaním dopamínových neurónov v bdelom správaní opíc počas výkonu náročnej úlohy sakcade. Reakcie neurónových dopamínových neurónov na narážky predpovedajúce odmenu a poskytovanie výnosov sa zvýšili po vykonaní nákladnej akcie v porovnaní s lacnejšou činnosťou, čo naznačuje, že RPE sú po vykonaní nákladnej akcie zvýšené. Na úrovni správania sa asociácie stimulov a odmien získavajú rýchlejšie po vykonaní nákladnej akcie v porovnaní s menej nákladnou činnosťou. Informácie o nákladoch na akciu sa teda spracúvajú v systéme odmeňovania dopamínu spôsobom, ktorý zosilňuje nasledujúci signál dopamínu RPE, čo zase podporuje rýchlejšie učenie v situáciách vysokých nákladov.

úvod

Ľudia a zvieratá dávajú prednosť odmene získanej po vynaložení veľkého úsilia na jej získanie v porovnaní s rovnakou odmenou po menšom množstve úsilia1,2,3, Na tento účel bolo predložených niekoľko vysvetlení, napríklad zdôvodnenie úsilia4,5 a kontrastný efekt6, v ktorej väčšia hodnota sa pripisuje výsledku dosiahnutému po zaplatenom úsilí. Zostáva však nejasné, či a ako je spracovanie informácií o odmeňovaní v mozgu modulované úsilím o získanie odmeny.

Zamerali sme sa konkrétne na dopamínový systém midbrain, vzhľadom na úlohu tohto systému pri podpore prispôsobovania správania sa za odplatu7,8,9, Je známe, že dopamínové neuróny predstavujú signály chyby predikcie odmeny (RPE), ktoré môžu uľahčiť učenie predpovedí odmeny bazálnymi gangliami.10,11,12,13,14,15,16,17, Sila RPE závisí od množstva, kvality a subjektívnej hodnoty alebo užitočnosti odmeny7,18,19,20,21, Dopaminergná aktivita je navyše modulovaná nákladmi a / alebo úsilím22,23, Na tomto základe sme predpokladali, že dopaminergný RPE signál by bol priamo modulovaný nákladmi zaplatenými za získanie odmeny. Ďalej, pretože signál RPE je kauzálne zapojený do sprostredkovania učenia sa združení stimulov a odmien24,25,26, predpokladali sme, že náklady zaplatené za získanie odmeny by priamo zvýšili rýchlosť učenia sa združení stimul-odmena.

Na otestovanie našich hypotéz sme zmerali správanie a dopaminergnú aktivitu u dvoch japonských opíc, zatiaľ čo vykonávali úlohu úsilia založenú na sakcade. Opice reagujú rýchlejšie na podnet na predpovedanie odmeny, ktorý je uvedený po nákladnej akcii (HC) v porovnaní s akciou po nízkej nákladovej akcii (LC). Aktivita dopaminergných neurónov na podnety predpovedajúce odmenu sa zvyšuje o platené náklady. Rýchlosť učenia sa k združeniu stimulov a odmien navyše zvyšuje aj platené náklady. Navrhujeme preto, aby náklady zaplatené za získanie odmien zvyšovali signál RPE v dopamínových neurónoch, a tým zvyšujú asociácie stimulov a odmien.

výsledky

High-Low cost (HLC) saccade úloha

Aby sa preskúmal vplyv zaplatených nákladov na správanie a na aktivitu neurónov dopamínu, opice vykonali sakrálnu úlohu s dvoma nákladovými podmienkami (obr. 1apozri Metódy). V pokusoch s HC opice rýchlo urobili sakrálne ciele a držali na nich svoj pohľad bez toho, aby dlhšie blikali (obr. 1b; zelené čiary). Naopak, pri pokusoch s LC sa opice najprv voľne rozhliadali a potom sa fixovali na kratšiu dobu (obr. 1b, fialové čiary). Pretože udržanie dlhej fixácie je pre opice ťažké, urobili viac chýb počas oneskorení pri pokusoch s HC (Obr. 1c). Na kontrolu následného rozdielu v pravdepodobnosti odmeňovania medzi pokusmi s HC a pokusmi s LC sme do časti pokusov s LC vložili nútené potraty, aby sa vyrovnali miery úspešnosti a pravdepodobnosť odmeňovania medzi jednotlivými typmi pokusov (obr. 1d).

Obr. 1
figure1

HLC saccade úloha. a Úloha HLC saccade. Nákladové tága (tágo) signalizovalo množstvo úsilia, ktoré je potrebné na dosiahnutie potenciálnej odmeny. Počas obdobia oneskorenia vo vysoko nákladných testoch bola potrebná dlhá fixácia. Tágo na odmenu (R tágo) označuje, či opice mohli získať odmenu alebo nie. b Časový priebeh uhla pohľadu počas oneskorenia. Horný a dolný panel ukazujú horizontálne a vertikálne uhly pohľadu. Zelené a fialové čiary označujú uhol pohľadu v nákladných pokusoch (50 pokusov v každom paneli) a v nízkych nákladoch (50 pokusov v každom paneli). c Počet chýb počas obdobia oneskorenia pri pokusoch s vysokými a nízkymi nákladmi (**P< 0.01; dvojchvostý párový t test; t67 = 8.8, P = 4.8 × 10-15, n = 68 pre opicu P; t83 = 26.6, P ≈ 0, n = 84 pre Monkey S). Čierne kruhy a chybové pruhy označujú priemer a SEM. d Miera úspechu vo vysoko nákladných a lacných pokusoch (dvojstranná dvojica) t test; t67 = 0.51, P = 0.61, n = 68 pre opicu P; t83 = 0.79, P = 0.43, n = 84 pre Monkey S). e RT k nákladom (**)P <0.01; dvojchvostý párový t test; t67 = 20.4, P ≈ 0, n = 68 pre opicu P; t69 = 2.0, P = 1.2 × 10-3, n = 70 pre Monkey S). f RT k prémiovým podnetom (**P <0.01; dvojchvostý párový t test; Opica P (n = 68): HC + vs. LC +, t67 = 3.5, P = 9.2 × 10-4; HC– vs. LC–, t67 = 24.5, P ≈ 0; HC + vs. HC−, t67 = 21.6, P ≈ 0; LC + vs. LC−, t67 = 28.5, P ≈ 0; Monkey S (n = 70): HC + vs. LC +, t69 = 5.6, P = 4.4 × 10-7; HC– vs. LC–, t69 = 4.8, P = 8.4 × 10-5; HC + vs. HC-, t69 = 18.0, P ≈ 0; LC + vs. LC−, t69 = 5.9, P = 1.1 × 10-7)

Platené náklady zvyšujú hodnotu podnetov na predpovedanie odmeny

Aby sme získali implicitné dôkazy o rozdiele v subjektívnom oceňovaní podnetov opíc, testovali sme reakčné doby opíc (RT). Predovšetkým sme predpokladali, že ak opice priraďujú jednej opcii vyššiu subjektívnu hodnotu, ako iná, mali by vykazovať rýchlejšie RT pre variantu s vyššou hodnotou.27, Keď sa RT porovnali medzi nákladovými tágami, obe opice vykazovali rýchlejšie RT k LC v porovnaní s tágom HC (obr. 1e), čo ukazuje na implicitné preferencie podmienky LC. Keď sa RT porovnávali medzi prémiovými narážkami, obe opice vykázali rýchlejšie RT na odmeňovanie (R +) podnetov ako bez prémiových (R-) podnetov (Obr. 1f), čo naznačuje, že dávali prednosť tágom R +. Okrem toho obe opice vykazovali rýchlejšie RT ako RHC+ tága v porovnaní s RLC+ tága a na RHC- tága v porovnaní s RLC- tága (obr. 1f), čo naznačuje, že ocenili viac podnetov predpovedajúcich odmenu v HC v porovnaní s podmienkou LC.

Okrem toho sme zahrnuli výberové skúšky do úlohy HLC saccade na testovanie zjavných preferencií opíc medzi narážkami (doplnkový obrázok č. 1a). Opice si pri výbere medzi nákladovými tágami vybrali preferenciu LC (doplnkový obr. 1b). Monkey S si prednostne vybral RHC+ tága pri vykonávaní výberovej úlohy medzi RHC+ a RLC+ tága, ale žiadna preferencia medzi RHC- a RLC- narážky (doplnkový obrázok č. 1c, d). Naopak, opica P nevykazovala zjavnú preferenciu medzi R.HC+ a RLC+ narážky, ale napriek tomu uprednostňovali RHC- tága pri výbere medzi RHC- a RLC- narážky (doplnkový obrázok č. 1c, d).

Elektrofyziologické výsledky v úlohe sakcade HLC

Počas úlohy HLC saccade sme zaznamenali aktivitu jednej jednotky z neurónov nachádzajúcich sa v substantia nigra pars compacta (SNc) a ventrálnej oblasti tegmentálu (VTA). Identifikovali sme 70 dopamínových neurónov cez dve opice (doplnkový obr. 2a; 18 a 52 neurónov z opíc P a S). Histologické vyšetrenie potvrdilo, že neuróny boli lokalizované v alebo okolo SNc / VTA (doplnkový obr. 2b).

Na obr. 2, ukazujeme aktivitu reprezentatívneho dopamínového neurónu. Tento neurón vykazoval miernu aktiváciu podľa LC narážky a fázovú aktiváciu alebo potlačenie za odmenu (RHC+ a RLC+) alebo žiadne odmeňovanie (RHC- a RLC-) (obr. 2Doplnkový obrázok č. 3). Neurón tiež preukázal fázovú aktiváciu na nepredvídateľnú odmenu, ako aj fázovú supresiu v reakcii na averzívny stimul, nepredvídateľné nafúknutie vzduchom (obr. 2, pravý panel). Okrem toho neurón vykazoval miernu supresiu do počiatočného podnetu, ale neodpovedal na dodanie odmeny. Celá populácia dopamínových neurónov, ktoré sme zaznamenali, vykazovala podobné reakcie na počiatočné podanie a odmeňovanie (doplnkový obrázok č. La, b). V úlohe sakády HLC boli náklady na námahu zaplatené pred získaním odmeny. Pretože predpokladané náklady znížili aktivitu dopamínových neurónov22,23, odozvy neurónov dopamínu by boli potlačené v čase prezentácie štartovacieho signálu16.

Obr. 2
figure2

Aktivita reprezentatívneho dopamínového neurónu v sakrálnej úlohe HLC. Funkcie hustoty hrotov (konvolvované s gaussovskou funkciou) a rastrové grafy sú zarovnané s počiatočným načasovaním počiatočného tága, cue nákladov (Cue), cieľa fixácie, cue odmeny (R tága) a pípnutia. Každá farba predstavuje stav (žltá: HC +, zelená: HC−, ružová: LC +, azúrová: LC-). Načasovanie nástupu sakcade je označené šedými krížikmi. Reakcie dopamínových neurónov na nepredvídateľnú odmenu alebo nafúknutie sú tiež znázornené v pravom paneli (červená: nepredvídateľná odmena, modrá: nepredvídateľné nafúknutie)

Dopamínové neuróny kódujú informácie o odmeňovaní a nákladoch

Neuróny odpovedali fázovo na LC narážku, ale menej robustne na HC narážku (obr. La, b). Vyvolané reakcie na narážky na podmienky nákladov vykazovali na HC narážku menšiu reakciu ako na LC narážku (test s dvoma sledovanými Wilcoxonovými hodnotami, P <3.2 × 10-4, n = 70). Kvantifikovali sme vplyv predpovedaných nákladov na neuronálne reakcie pomocou analýzy prevádzkových charakteristík prijímača (ROC). Distribúcia oblasti pod ROC krivkou (auROC) bola významne <0.5 (obr. 3c; test s dvoma sledovanými Wilcoxonmi; P = 5.4 × 10-4, n = 70), čo naznačuje, že reakcie na podnet HC boli menšie ako na LC podnet. Predtým sa zistilo, že predpokladané náklady znižujú aktivitu dopamínových neurónov, čo je v súlade s našimi výsledkami22,23, Okrem toho populácia dopamínových neurónov vykazovala významnú aktiváciu na LC narážku, zatiaľ čo nevykazovala žiadnu významnú supresiu na HC narážky (doplnkový obrázok č. 4c, d). Tieto výsledky naznačujú, že dopamínové neuróny kódujú a integrujú informácie o odmeňovaní a nákladoch v čase prezentácie nákladov.

Obr. 3
figure3

Dopamínové neurónové odpovede na podnety. a Reprezentatívna reakcia dopamínových neurónov na náklady. Funkcie hrotovej hustoty sa vypočítali z normalizovanej aktivity dopamínového neurónu zaznamenanej u opice P. Farebné čiary označujú funkcie hustoty hrotov a farebné bodky označujú časovanie hrotov. Zelená a fialová farba označujú aktivitu v testoch s vysokými a nízkymi cenami. Zvislá čiara označuje načasovanie prezentácie nákladového tága. Sivo zafarbená oblasť označuje periódu na výpočet rýchlosti streľby ako odozvy na podmienky. b Priemerná populačná aktivita dopamínových neurónov zaznamenaná od opíc P po narážky na stav. Plné čiary prerušované čiary predstavujú stredné hodnoty a SEM. c Rozloženie plôch pod ROC na kvantifikáciu účinku predpokladaných nákladov na neuronálnu odpoveď na cue nákladov. Vyplnené štvorce a otvorené krúžky označujú údaje z opíc P a S, v danom poradí. Šípka označuje strednú hodnotu auROC (0.47). d, g Reprezentatívne odpovede typu neurónov dopamínu s motivačnou hodnotou (d) alebo neurón dopamínového typu salience (g) na nepredvídateľnú odmenu alebo nafúknutie. Červené a modré krivky označujú reakciu na nepredvídateľnú odmenu a nepredvídateľné nafukovanie. Zvislá čiara označuje načasovanie nepredvídateľnej odmeny alebo dodania vzduchu. Bledo červené a modré štvorčeky označujú obdobie na výpočet rýchlosti prepúšťania ako odpoveď na nepredvídateľnú odmenu alebo nafúknutie. e, h Priemerná populačná aktivita dopamínových neurónov typu motivačnej hodnoty (e) alebo dopamínové neuróny typu salience (h) na nepredvídateľnú odmenu alebo nafúknutie. f, i Distribúcia auROC vypočítaná z neurónových neurónov typu motivačnej hodnoty (f) alebo dopamínové neuróny typu salience (i). Šípky označujú mediány auROC (f 0.48; i 0.46)

Doteraz boli opísané dva odlišné podtypy dopamínových neurónov: motivačné neuróny a motivačné hodnoty28,29, V našej populácii dopamínových neurónov sme našli dôkazy reakčných schém konzistentných s oboma podtypmi. Neuróny hodnotového typu vykazovali fázovú supresiu k averzívnym stimulom nafúknutia vzduchom (obr. 3d, napr). Naopak, neuróny salience vykazovali fázovú aktiváciu averzívnych stimulov (obr. 3 g, h). Dlhá fixácia v skúške HC je tiež nepríjemná a averzívna; preto je možné, že dva subtypy neurónových dopamínov by vykazovali rôzne vzorce odozvy na narážky nákladov. Ak dopamínové neuróny predstavujú averzívne podnety a náklady podobným spôsobom, potom by neuróny s hodnotami mali vykazovať zníženú aktivitu voči HC narážke kvôli svojej averzii. Na druhej strane, neuróny výbežkov by mali zvýšiť aktivitu voči HC narážke, pretože tiež stúpajú k nepríjemným stimulom. Vyvolané reakcie obidvoch typov neurónov však boli menšie voči HC narážke v porovnaní s LC narážkou (test s dvoma sledovanými Wilcoxonovými hodnotami; P = 0.021, n = 41 a P = 0.0044, n = 29 pre hodnotu a typy výbežku) a analýza ROC ukázala menšie odpovede na HC v porovnaní s LC narážkou u oboch podtypov (obr. 3f, t; test s dvoma sledovanými Wilcoxonmi; P = 0.030, n = 41 a P = 0.0058, n = 29 pre hodnotu a typy nápadnosti). Predpokladaná aktivita teda znížila náklady v obidvoch podtypoch dopamínových neurónov. Tieto výsledky naznačujú, že dopamínové neuróny spracovávajú informácie o nákladoch kvalitatívne odlišným spôsobom od averzívnych stimulov.

V úlohe HLC saccade sme vložili vynútené prerušenie tehotenstva do časti LC testov, aby sme vyrovnali úspešnosť a pravdepodobnosť odmeny medzi typmi testov. Táto manipulácia zvýšila neistotu získania odmeny alebo riziko nulovej odmeny v podmienkach LC. Preto vyššia aktivita dopamínových neurónov a zvýšené ocenenie LC pre opice pri podaní HC môže byť spôsobené rozdielom v riziku alebo neistote medzi nákladovými podmienkami. Nezistili sme však žiadny vzťah medzi počtom vynútených potratov a rozdielom v RT (doplnkový obr. La, b) a zistili sme pozitívnu koreláciu medzi počtom nútených potratov a auROC (doplnkový obr. 5c). Porovnali sme tiež dopamínové reakcie na cue nákladov po potratoch verzus po správnych pokusoch, ale nezistili sme žiadny rozdiel v obidvoch nákladových podmienkach (doplnkový obr. 5d). Tieto výsledky naznačujú, že počet vynútených potratov v LC stave nevysvetľuje ani zvýšenie hodnoty, ani zvýšenú dopaminergnú aktiváciu do LC podnetu.

Zvýšená odozva na dopamín na odmenenie tága za zaplatené náklady

Zistilo sa, že zaznamenané dopamínové neuróny vykazujú fázovú aktiváciu a supresiu za účelom odmeňovania a bez predpovedí odmeňovania (obr. 2). Ďalej sme posúdili, či boli tieto odpovede upravené podľa predtým vynaložených nákladov. Príklad reprezentatívneho neurónu a populácie spriemerovaných neurónov vykazujúcich väčšiu aktiváciu voči RHC+ tágo ako RLC+ tágo sú zobrazené na obrázku 4a a b. (dvojstranný Wilcoxonov test so znamienkom; P = 7.4 × 10-5, n = 70). Distribúcia auROC bola> 0.5, čo naznačuje, že odpoveď na R.HC+ tága bola väčšia ako pri RLC+ tága (obr. 4c; test s dvoma sledovanými Wilcoxonmi; P = 1.4 × 10-4, n = 70). Tieto výsledky naznačujú, že odpoveď na signál predpovedajúci odmenu v podmienkach HC je významne väčšia ako v podmienkach LC. Naše objavy preto naznačujú, že pozitívny signál RPE predstavovaný dopamínovými neurónmi sa zvyšuje o predtým vzniknuté náklady.

Obr. 4
figure4

Dopamínové neurónové odpovede na odmeňovacie narážky. a Príklad neurónovej odpovede na R + narážky. Funkcie hustoty hrotov boli vypočítané z aktivity dopamínového neurónu zaznamenaného u opíc P. Farebné čiary a bodky označujú hustotu hrotov a načasovanie hrotov. Žlté a ružové farby označujú aktivitu pri nákladných a nízko nákladových pokusoch. Zvislá čiara označuje načasovanie prezentácie tága R +. Šedá oblasť označuje dobu na výpočet rýchlosti prepúšťania ako reakciu na odmeňovacie prvky. b Populačne spriemerovaná aktivita dopamínových neurónov zaznamenaná z opice P na signály R +. Plné čiary a prerušované čiary predstavujú priemer a SEM. c Distribúcia auROC na kvantifikáciu účinku zaplatených nákladov na neuronálnu odpoveď na R + narážky. Vyplnené štvorce a otvorené krúžky označujú údaje z opíc P a S, v danom poradí. Šípka označuje strednú hodnotu auROC (0.53). d Reprezentatívna reakcia na hodnoty. Zelená a azúrová farba znamenajú nákladnú a lacnú skúšku. Zvislá čiara označuje načasovanie prezentácie Rue. e Populačne spriemerovaná aktivita dopamínových neurónov zaznamenaná od opíc P po Rue. f Distribúcia auROC na kvantifikáciu účinku zaplatených nákladov na neuronálnu odpoveď na R-narážky. Šípka označuje strednú hodnotu auROC (0.50)

Dopamínové neuróny tiež vykazovali fázovú supresiu na Rue (obr. 4d, napr). Odpovede dopamínových neurónov na Rue však nepreukázali významný rozdiel v závislosti od vzniknutých nákladov (test s dvoma sledovanými Wilcoxonovými hodnotami; P = 0.25, n = 70) a analýza ROC neodhalila žiadny dôkaz o skreslení v distribúcii odpovede (obr. 4f; Wilcoxonov test so znamienkom, P = 0.35; n = 70). Zaplatené náklady sa teda neodrazili v negatívnom signáli RPE vyvolanom podnetmi, ktoré neodpovedajú na odmenu. Môže to byť spôsobené podlahovým efektom: spontánna aktivita dopamínového neurónu je nízka (okolo 5 Hz); a následne nemusí existovať dostatočný dynamický rozsah na adekvátne kódovanie každého takého rozdielu v nákladoch vynaložených na negatívnu RPE reakciu (obr. 4d, napr).

Skúmali sme tiež vplyv zaplatených nákladov na podnety na odmenenie pre dopamínové neuróny hodnotového a salienčného typu, ale oba typy dopamínových neurónov vykazovali podobný vzorec odpovede (doplnkový obr. 6a-h). Z toho dôvodu platené náklady prejavujú podobný účinok na reakciu na odmeňovacie narážky v dopamínových neurónoch hodnotového aj výbežkového typu.

Skutočné doby fixácie opíc neboli konštantné, ale menili sa podľa jednotlivých pokusov (obr. 1b). Preto bolo možné, že dopamínové reakcie na odmeňovacie impulzy sú modulované skutočnými trvaním fixácie na základe pokusu. Nenašli sme však žiadnu významnú koreláciu medzi nimi pre každú cenu a podmienku odmeňovania (doplnkový obr. 7a-d). Okrem toho boli RT do tága odmeňovania upravené aj podľa podmienok nákladov a odmeňovania (obr. 1f). Jednou z možností je, že odpovede dopamínových neurónov by mohli byť RT vysvetlené na odmeňovacie podnety na základe pokusu od pokusu. Nepodarilo sa nám však nájsť žiadnu významnú koreláciu medzi RT a normalizovanými odpoveďami na dopamín na signály odmeňovania (doplnkový obrázok č. 7e-h). Tieto výsledky naznačujú, že dopamínové reakcie sú nezávislé na RT aj na trvaní fixácie v každej štúdii, ale sú modulované výškou požadovaných nákladov a očakávanej odmeny, ktoré sú stanovené pre každý typ skúšok.

Ďalej je tiež možné, že nútené potraty v LC stave vyvolali tak preferencie opíc, ako aj zvýšenú aktiváciu dopamínových neurónov na prémiové narážky v HC stave. Ak je to tak, počet nútených potratov by mal súvisieť s preferenciou a stupňom zvýšenej aktivácie. Počet nútených potratov však nemal žiadny vplyv na preferencie opíc ani na aktiváciu dopamínových neurónov na odmeňovacie prvky (doplnkový obrázok č. 8). Preto rýchlejšie RT a vyššie DA reakcie na RHC+ tágo ako RLC+ tágo nie je kvôli vloženým núteným prerušeniam v stave LC.

Zvýšené náklady zvyšujú odozvu dopamínu na doručenie odmeny

Reakcia dopamínových neurónov na narážky R + by mala vychádzať zo samotnej odpovede na odmenu, pretože dopamínové neuróny menia svoju reakciu na narážanie predpovedajúce odmenu v porovnaní so združením stimulu a odmeny.8,30, Z tohto dôvodu sme očakávali, že dopamínové neuróny budú vykazovať platené zvýšenie nákladovej odozvy na odplatu za dodanie. Na meranie aktivity dopamínových neurónov k dodaniu odmeny vykonali opice neurčitú úlohu HLC s dvoma novými odmenami narážok (Obr. 5a). Pretože odmeny boli doručené iba v polovici prezentácií odmeňovacích táborov, odmeňovacie tágy spoľahlivo ani rozdielne predpovedali poskytovanie odmien. To sa uskutočnilo s cieľom maximalizovať citlivosť dopamínových neurónov na získanie (nepredvídanej) odmeny, aby sa zvýšila naša citlivosť na detekciu modulácie v odozve neurónov ako funkcia vynaložených nákladov.

Obr. 5
figure5

HLC neistá úloha. a Neistá úloha HLC. V tejto úlohe boli použité neisté odmeňovacie tágy, v ktorých boli odmenené 50% času bez ohľadu na to, ktoré podnety boli predložené. b RT k nákladovým podnetom v nákladných a lacných pokusoch. Iba opica P vykázala rýchlejšiu RT do tága LC ako tága HC (**P <0.01; dvojchvostý párový t test; t4 = 9.0, P = 8.5 × 10-4, n = 5 pre opicu P; t18 = 1.4, P = 0.19, n = 19 pre opicu S). Čierne kruhy a chybové pruhy označujú priemer a SEM. c RT k prémiovým podnetom v nákladných a lacných pokusoch. Medzi RT a prémiovými narážkami nebol žiadny rozdiel medzi vysokými a nízkymi nákladmi (dvojstranné párovanie) t test; t4 = 0.97, P = 0.39, n = 5 pre opicu P; t18 = 0.99, P = 0.39, n = 19 pre opicu S)

Keď sa RT porovnali medzi nákladovými tágami, opica P vykázala rýchlejšiu RT do LC tága ako tága HC (obr. 5b). U oboch opíc nebol rozdiel medzi RT a prémiovými narážkami medzi stavom HC a LC (obr. 5c).

Pri neurčitej úlohe HLC dopamínové neuróny vykazovali miernu aktiváciu na LC narážke, ale neodpovedali na odmeňovacie narážky, pretože neboli prediktívne pre odmenu (obr. 6a). V populácii boli vyvolané reakcie na HC menšie ako LC tága (obr. 6b; test s dvoma sledovanými Wilcoxonmi; P = 2.7 × 10-3, n = 19) a ROC analýzy ukázali menšie reakcie na HC tágo (obr. 6c; test s dvoma sledovanými Wilcoxonmi; P = 5.5 × 10-3, n = 19). Neuronálna odpoveď na dodanie odmeny v podmienkach HC bola väčšia ako LC (obr. 6d; test s dvoma sledovanými Wilcoxonmi; P = 0.036, n = 19). Distribúcia auROC bola> 0.5, čo naznačuje väčšiu odpoveď na dodanie odmeny v HC v porovnaní s LC skúškami (obr. 6e; test s dvoma sledovanými Wilcoxonmi; P = 0.049, n = 19). Tieto výsledky naznačujú, že reakcia na dodanie odmeny je v skúške HC vylepšená a že zaplatené náklady zvyšujú pozitívny signál RPE pri dodaní odmeny.

Obr. 6
figure6

Dopamínová neurónová odpoveď na doručenie odmeny. a Reprezentatívna aktivita dopamínových neurónov v neurčitej úlohe HLC. Každá farba predstavuje podmienky (žltá: HC +, zelená: HC−, ružová: LC +, azúrová: LC-). Načasovanie nástupu sakcade je označené šedými krížikmi. Reakcie tohto dopamínového neurónu na nepredvídateľnú odmenu a nafúknutie sú tiež znázornené na pravom paneli (červená: nepredvídateľná odmena, modrá: nepredvídateľné nafúknutie). b Populačne spriemerovaná aktivita dopamínových neurónov zaznamenaná z opice S na príznaky stavu. Zelená a fialová farba označujú aktivitu v testoch s vysokými a nízkymi cenami. Plné čiary a prerušované čiary predstavujú priemer a SEM. Sivo zafarbená oblasť označuje časové okno na výpočet rýchlosti streľby ako odozvy na podmienky. c Distribúcia auROC na kvantifikáciu účinku predpokladaných nákladov na neuronálnu odpoveď na podnety. Vyplnené štvorčeky označujú údaje z opice P (n = 3) a prázdne kruhy označujú údaje z opice S (n = 16). Šípka označuje strednú hodnotu auROC (0.44). d Priemerná populačná aktivita dopamínových neurónov zaznamenaná od opice S po dodanie odmeny. Žlté a ružové farby označujú aktivitu pri nákladných a nízko nákladových pokusoch. Šedá oblasť označuje časové okno na výpočet rýchlosti prepúšťania ako reakcie na doručenie odmeny. e Distribúcia auROC na kvantifikáciu účinku zaplatených nákladov na neuronálnu odpoveď na doručenie odmeny. Šípka označuje strednú hodnotu auROC (0.55)

Ďalej sme porovnávali dopamínové reakcie po absencii odmeny. AuROC nevykazovali neobjektívne rozdelenie, čo naznačuje, že platené náklady nemali v čase výsledku žiadny vplyv na negatívne RPE (doplnkový obrázok č. 9a). Dopamínové neuróny nevykazovali žiadny rozdiel medzi odpoveďami na RHC a RLC narážky (doplnkový obrázok č. 9b).

Zvýšené náklady zvyšujú rýchlosť učenia

Vzhľadom na to, že RPE na doručenie odmien sú zvýšené o zaplatené náklady, za predpokladu, že RPE sú priamo zapojené do sprostredkovania učenia sa stimulu a odmeny, sme očakávali, že sa vylepšené RPE odrazia v správaní pri učení prostredníctvom zvýšenej rýchlosti učenia24, Aby sa testoval vplyv zaplatených nákladov na vzdelávanie, opice vykonali úlohu prieskumu HLC (Obr. 7a; pozri Metódy). Pri tejto úlohe boli súčasne prezentované dve odmeňovacie tágy (R + a R-) a opice si museli vybrať jeden. Vyrovnali sme mieru úspešnosti a pravdepodobnosť odmeňovania medzi jednotlivými typmi pokusov (dvojstranný pár) t test; t48 = 0.15, P = 0.89, n = 49 pre opicu P; t85 = 1.2, P = 0.25, n = 86 pre opicu S). Keď sa RT porovnávali s nákladovými značkami, obe opice vykazovali rýchlejšie RT s LC tágom ako HC tágo (obr. 7b; dvojstranný pár t test; t48 = 12.9, P ≈ 0, n = 49 pre opicu P; t85 = 3.4, P = 9.4 × 10-4, n = 86 pre opicu S). Pri porovnaní RT so signálmi odmeny vykazovala opica S rýchlejšie RT v podmienkach HC ako LC (obr. 7c; dvojstranný pár t test; t48 = 1.3, P = 0.19, n = 49 pre opicu P; t85 = 2.8, P = 6.8 × 10-3, n = 86 pre opicu S). Pri samostatnom porovnávaní RT počas prvej a druhej polovice výučbovej relácie boli RT pri LC narážke rýchlejšie ako pri HC pri prvej (doplnkový obr. 10) a druhá polovica relácie (doplnkový obrázok č. 10c). Naopak, RT opíc S do tábora odmeny v stave HC boli rýchlejšie ako v stave LC iba v druhej polovici relácie (doplnkový obrázok č. 10d), ale nie v prvej polovici (doplnkový obrázok č. 10b).

Obr. 7
figure7

HLC prieskumná úloha. a Úloha prieskumu HLC. V tejto úlohe si opice museli vybrať medzi R + a R-narážkami, ktoré boli náhodne vygenerované v každej vzdelávacej relácii. Keby si vybrali tágo R +, mohli by získať odmenu a ak by si vybrali tágo, nedostali by odmenu. b RT k nákladovým podnetom v nákladných a lacných pokusoch. Opice vykázali rýchlejšie RT do lacného tága (**P< 0.01; dvojchvostý párový t test). Čierne krúžky a chybové stĺpce označujú priemer a SEM. c RT k prémiovým podnetom v nákladných a lacných pokusoch. Monkey S vykazoval rýchlejší RT k prémiovým podnetom v podmienkach vysokej ceny

V úlohe prieskumu HLC boli náhodne vygenerované signály odmien v každej relácii učenia. Preto sa opice museli v každej relácii naučiť vzťah medzi odmenami a odmenami. V priebehu pokusov v rámci relácie si opice vybrali častejšie R + cue v každom nákladovom stave (obr. 8a). Kvantifikáciu rýchlosti učenia prispôsobujeme dátam kumulatívnu exponenciálnu funkciu zahŕňajúcu dva bezplatné parametre, a a b, označujúca strmosť krivky a plató (doplnkový obrázok č. La, b). Pomer protokolov medzi parametrami strmosti (log aHC/aLC) bola významne väčšia ako nula, čo naznačuje väčší parameter strmosti v HC ako LC pokusy (obr. 8b; dvojstranný t test; t48 = 2.1, P = 0.042, priemer = 0.58, n = 49 pre opicu P; t85 = 2.5, P = 0.013, priemer = 0.19, n = 86 pre opicu S). Pomer logaritmy medzi parametrami plató (log bHC/bLC), sa nelíšil od nuly, čo naznačuje, že neexistuje rozdiel medzi nákladovými podmienkami (obr. 8c; dvojstranný t test; t48 = 0.76, P = 0.45, priemer = −0.0024, n = 49 pre opicu P; t85 = 0.56, P = 0.58, priemer = 0.010, n = 86 pre opicu S). Tieto výsledky naznačujú, že rýchlosť učenia je v testoch HC rýchlejšia. Ďalej sme modelovali krivky učenia pomocou modelu zosilnenia a učenia (RL) (pozri Metódy). Tento model obsahuje parametre rýchlosti učenia (αHC a αLC) a miery prieskumu (βHC a βLC) pre obidve podmienky nákladov (doplnkový obrázok č. 11c, d). Pri prispôsobovaní sa správaniu sme zistili, že pomer protokolov medzi parametrami rýchlosti učenia (log αHC/αLC) bola väčšia ako nula, čo naznačuje významne vyšší parameter rýchlosti učenia v HC ako LC pokusy (obr. 8d; dvojstranný t test; t48 = 2.3, P = 0.026, priemer = 0.50, n = 49 pre opicu P; t85 = 2.2, P = 0.034, priemer = 0.25, n = 86 pre opicu S), zatiaľ čo parameter β nevykazoval žiadny rozdiel (obr. 8e; dvojstranný t test; t48 = 0.77, P = 0.44, priemer = 0.0097, n = 49 pre opicu P; t85 = 0.64, P = 0.52, priemer = 0.038, n = 86 pre opicu S). Tu sme odhadli parametre rýchlosti učenia pre každú nákladovú podmienku (αHC a αLC), aby ste vysvetlili rýchlejšie rýchlosti učenia v podmienkach HC. Ak sú však miery vzdelávania rovnaké medzi nákladovými podmienkami, pomer medzi odhadovanými parametrami rýchlosti vzdelávania (αHC/αLC) je možné považovať za amplifikačnú hodnotu pre RPE v stave HC. Tieto výsledky preto naznačujú, že amplifikácia RPE môže vysvetliť rýchlejšie rýchlosti učenia v stave HC.

Obr. 8
figure8

Test rýchlosti učenia. a Priemerný proces učenia opíc P a S. Podiel výberov R + je vynesený do grafu ako funkcia pokusu. Zelené a fialové body označujú údaje z nákladného a lacného pokusu. Bodkované čiary predstavujú plynulý proces učenia. Kumulatívne exponenciálne funkcie boli pripevnené k dátovým bodom a predstavované ako plné čiary. b Pomer protokolov medzi montážnymi parametrami a v podmienkach vysokých a nízkych nákladov, keď boli údaje kompatibilné s kumulatívnou exponenciálnou funkciou (*P <0.05; dvojstranný Wilcoxonov test so znamienkom). Čierne kruhy a chybové pruhy označujú priemer a SEM. c Pomer protokolov medzi montážnymi parametrami b v podmienkach vysokých a nízkych nákladov, keď boli údaje kompatibilné s kumulatívnou exponenciálnou funkciou. d Pomer protokolov medzi parametrom rýchlosti učenia α v podmienkach vysokých a nízkych nákladov, keď boli údaje kompatibilné s modelom posilňovacieho vzdelávania. e Pomer protokolov medzi montážnym parametrom β v podmienkach vysokých a nízkych nákladov, keď boli údaje kompatibilné s modelom posilňovacieho vzdelávania

Pokúsili sme sa tiež vysvetliť proces učenia pomocou alternatívnych modelov RL, ktoré berú do úvahy možnosť, že opice poznajú antikoreláciu medzi stimulmi a odmenou v každej skúške. V týchto modeloch sa hodnota nevyvolenej možnosti aktualizuje spolu s vybranou možnosťou (doplnkový obrázok č. 12). Dokonca aj pri použití takýchto alternatívnych modelov na údaje bol parameter rýchlosti učenia v HC podstatne vyšší v porovnaní s podmienkou LC (doplnkový obr. 12b, f) zatiaľ čo parameter β nevykazoval žiadny rozdiel (doplnkový obr. 12d, h). Naše zistenie o amplifikácii RPE signálu v stave HC je teda robustné voči forme RL modelu, ktorý je vhodný pre dáta.

Diskusia

Skúmali sme vplyv zaplatených nákladov na hodnotu podnetov predpovedajúcich odmenu a na fázové reakcie neurónov dopamínu midbrain. Opice vykázali zvýšené ocenenie podnetov predpovedajúcich odmenu po vykonaní akcie, ktorá spôsobila vyššie náklady. Dopamínové neuróny vykazovali zvýšené reakcie na narážanie predpovedajúce odmenu a dodávanie odmeny potom, čo sa vyskytli vyššie náklady. Opice vykazovali vyššiu rýchlosť výučby, keď na získanie odmeny boli potrebné vyššie náklady.

Niekoľko štúdií preukázalo, že platené náklady zvyšujú preferencie pre cue predpovedajúce odmenu1,2,3, V tejto štúdii opice preukázali rýchlejšie RT podľa podnetov predpovedajúcich odmenu v stave HC v porovnaní s podnetmi v stave LC, čo je v súlade s možnosťou, že hodnota podnetu sa zvyšuje o platené náklady.27, Alternatívnou možnosťou je, že dlhší čas fixácie súvisí so zvýšenou pozornosťou na cieľ sakády v stave HC, a teda zníženie RT po dlhšej fixácii v skúške HC. V pokusoch s HC a LC sme však v HLC neistej úlohe nenašli žiadny rozdiel medzi RTs a Rs. Ďalej v prvej polovici prieskumnej relácie HLC. Medzi testami HC a LC sa RT významne nelíšili. Tieto zistenia teda naznačujú, že dlhšia fixácia nie je pravdepodobné vysvetlenie pre kratšie RT pozorované podľa tipov predpovedajúcich odmenu. Okrem vplyvu zaplatených nákladov na RTs tága na odplatu, náklady ovplyvnili aj RT na tágo, ktoré sa nedalo predpovedať, napriek skutočnosti, že po prezentácii tága nebola poskytnutá žiadna odmena. Predchádzajúca štúdia zaznamenala podobný jav, v ktorom subjekty opíc vykazovali kratšie RT v neodporúčaných pokusoch, keď sa v alternatívnych pokusoch v rámci každého bloku použili výhodnejšie výhody.30, Jednou z možných interpretácií účinku v tejto štúdii je to, že celková vyššia motivácia reagovať v bloku s výhodnejšou odmenou ovplyvnila RT aj na tágo bez odmeny v rámci bloku. Podobne, v tejto štúdii, očakávanie cennejšej odmeny v testoch HC by mohlo modulovať RT na tágo bez odmeny v testoch HC v našej úlohe. Okrem toho bol vplyv zaplatených nákladov na RT na podnety na odmeňovanie menší ako účinok na podnety predpovedajúce odmenu. Toto je pravdepodobne artefakt skutočnosti, že kvôli tomu, že opice urobili sokol rýchlejšie ako RLC+ narážka v prvom rade, existuje obmedzený priestor na zistenie skrátenia RT na RHC+ tágo. Preto by bol rozdiel v RT medzi narážkami R + v dôsledku toho malý.

Opice tiež uskutočňovali výberové skúšky medzi RHC a RLC narážky v úlohe HLC. Zatiaľ čo opica S však uprednostňovala RHC+ narážka na RLC+ tágo, opica P nevykazovala žiadnu takú preferenciu. Tento nesúlad možno vysvetliť kontextovým rozdielom medzi sakádou HLC a výberovými pokusmi. Vo výberových pokusoch boli namiesto jedného predikcie, ktoré predpovedá odmenu, predstavené dve tágy predpovedajúce odmenu. Opice po svojom výbere nezískali žiadnu odmenu, aj keď si vybrali narážku na predpovedanie odmeny, takže výberový test sa uskutočnil vyhynutím. Postup vyhynutia bol implementovaný s cieľom zabezpečiť, aby bol výber opice riadený tým, čo sa naučilo pri pokusoch o úsilie, na rozdiel od toho, aby bol zmätený novým učením sa pri výberových pokusoch. Tento postup však môže mať vedľajší účinok, že sa opica môže rýchlo naučiť rozoznať zánikový postup vo výberovom kontexte a že nie je dôvod na výber preferovanejších stimulov. Jedna z opíc však v skutočnosti ukázala preferenciu pre tágo odmien v stave HC.

V čase predloženia narážky, ktorá predpovedala následnú požiadavku zaplatiť náklady, bola aktivita dopamínových neurónov znížená v súlade s predchádzajúcimi štúdiami.22,23, V našej štúdii sme nepozorovali celkové zníženie dopamínového neurónu reagujúceho na HC aj LC narážky v porovnaní s východiskovou hodnotou. To naznačuje, že negatívny signál RPE sa v tomto časovom bode nevyskytuje napriek nasledujúcim nákladom. Neprítomnosť negatívneho RPE pravdepodobne odráža integráciu predpovede budúcej odmeny očakávanej neskôr v súdnom konaní. Dopamínové neuróny vykazovali významnú aktiváciu v LC štúdii a aktivita bola vyššia v porovnaní s HC pokusom. To naznačuje, že informácie o nákladoch sú začlenené do signálu RPE prenášaného dopamínovými neurónmi. Dopamínové neuróny tak kódujú informácie o odmene aj o nákladoch a odpoveď RPE odráža súčet nákladov a odmeny.

Ukázali sme, že signál RPE reprezentovaný dopamínovými neurónmi sa zvyšuje o zaplatené náklady v prezentácii tága odmeňovania (v úlohe HLC saccade) a dodania odmien (v prípade neistej úlohy HLC). Objektívna výška odmeny poskytnutá v testoch HC a LC bola rovnaká; preto by mala byť zmena signálov RPE spôsobená nezmyslovým procesom. Táto možnosť je podporená niekoľkými štúdiami naznačujúcimi kontextový účinok na signály dopamínu RPE konzistentné so spracovaním subjektívnej hodnoty a / alebo užitočnosti v dopamínových neurónoch.11,19,20,21,31,32,33,34, Ak je signál RPE väčší, malo by to viesť k rýchlejšej aktualizácii hodnoty podnetu, čo by následne ovplyvnilo rýchlosť učenia sa združení stimulov a odmien. Predchádzajúce štúdie preukázali zmenu rýchlosti učenia sa nezmyslovými faktormi24,35, V súlade s tým opice vykazovali rýchlejšie HC v porovnaní s LC stavom. Zistili sme, že zvýšenú rýchlosť učenia sa za zaplatené náklady možno vysvetliť modelom RL so zosilneným RPE. V našich experimentoch bolo ťažké oddeliť účinky zosilneného RPE a zvýšenú mieru učenia; avšak našli sme zosilnený dopaminergný RPE signál v stave HC. Okrem toho predchádzajúca štúdia fMRI ukázala, že parameter rýchlosti učenia je zastúpený v kortexe predného cingulátu a že aktivita VTA nesúvisí s parametrom rýchlosti učenia v prchavých prostrediach.36, Preto tvrdíme, že signál RPE kódovaný dopamínovými neurónmi je zosilnený platenými nákladmi a že zvýšený signál RPE zvyšuje rýchlosť učenia.

Keď bol signál RPE vygenerovaný v čase prezentácie odmien a doručovania odmien, opice už zaplatili náklady. Preto jedným možným mechanizmom pre vylepšený signál RPE je to, že odmena získaná po HC môže byť prospešnejšia. Zvýšené očakávanie hodnotnejšej odmeny po HC môže zvýšiť motiváciu na ukončenie skúšky, a tým skrátiť RT na tágo odmien v HC štúdiách.

Ďalšou možnou interpretáciou našich výsledkov je to, že úľava po ukončení nákladného konania môže byť pre opice odmenou. Štúdie funkčného zobrazovania pomocou magnetickej rezonancie (fMRI) ukázali, že úľava od bolesti môže byť pre ľudských účastníkov odmenou37,38; preto by náklady mohli hrať podobnú úlohu ako averzívny stimul k bolesti. Ak sa úľava od nákladov oplatí a ak sa to odrazí v dopaminergnej aktivite, očakávali by sme, že dopamínové neuróny reagujú na konci dlhej fixácie, čo je načasovanie prezentácie tága odmeňovania. Nepozorovali sme však žiadny rozdiel v dopaminergnej aktivite pri načasovaní prezentácií podnetov na odmenenie, ani žiadny rozdiel v RT k Rs medzi testami HC a LC v úlohe neistej HLC. Navrhujeme preto, aby úľava od nákladov neposkytovala dostatočné vysvetlenie účinku, ktorý sme pozorovali v dopamínových neurónoch.

Okrem toho dopamínové neuróny vykazovali kvalitatívne odlišné odpovede na averzívny stimul v porovnaní s narážkou na predpovedanie nákladov. Jedným z možných vysvetlení je to, že náklady na námahu boli menej výrazné ako vzduchový úder alebo odmena, pretože náklady na námahu boli dočasne predĺžené o niekoľko sekúnd, keď opice vykonali fixáciu a neprepichovali. Preto sa dopamínové neuróny nemusia aktivovať do menej významných podnetov. Ďalšou možnosťou je, že neuróny s výrazným typom dopamínu reagujú na udalosti, po ktorých boli vyvolané určité pohyby. Keď bola opičkám doručená odmena alebo vzduchový obeh, začnú blikať niektoré pohyby, napríklad olizovanie alebo oko. Pri úlohe sakkády HLC sa však opice museli pozerať na cieľ fixácie bez toho, aby sa pohybovali ako náklady. Nedávna štúdia skutočne ukázala, že uvoľňovanie dopamínu v jadre accumbens po narážaní na predpovedanie odmeny je oslabené, pokiaľ nie je správne zahájený pohyb.39, Pretože cena v našich experimentoch nezahŕňala iniciovanie pohybu, mohlo by to potenciálne vyústiť do nekonzistentnej reakcie dopamínových neurónov salience typu. V oboch prípadoch môžeme dospieť k záveru, že informácie o nákladoch sa spracúvajú odlišne od averzívnych informácií.

Na záver navrhujeme, že platené náklady zvyšujú hodnotu podnetov predpovedajúcich odmenu a že to zase zvyšuje signál RPE kódovaný v dopamínových neurónoch midbrain. Tento účinok viedol k predikcii správania, že miera výučby zvierat by sa zvýšila na základe predpovedí odmeňovania po skúsenosti s HC. Toto sme skutočne pozorovali. Naše pozorovania aktivity dopamínových neurónov nás tak viedli k hypotéze existencie behaviorálneho účinku, ako aj predpokladaného výpočtového mechanizmu, ktorý je základom tohto účinku, čo sme následne potvrdili. Naše zistenia preto predstavujú príklad toho, ako môže dôjsť k triangulácii medzi meraniami neurónových údajov, výpočtovou teóriou a správaním: rozvoj hlbšieho porozumenia neuronálneho spracovania v mozgu môže poskytnúť poznatky o správaní a jeho základnom výpočtovom základe.

Metódy

zver

Použili sme dve samce japonských opíc (Macaca fuscata; telesná hmotnosť, 6.5 kg = opica P; telesná hmotnosť, 9.0 kg = opica S). Implantovali sme hlavový stĺpik na hornú časť lebky opice, aby sa neskôr mohol pripevniť na stoličku. Bola tiež implantovaná záznamová komora, ktorá umožňovala montáž elektródového mikromanipulátora. Záznamová komora sa naklonila o 45 ° laterálne v koronálnej rovine a umiestnila sa na stereotaxické súradnice: 15 mm pred vonkajším kanálom. Po období zotavenia sa opice vyškolili na vykonávanie sakrálnej úlohy. Po ukončení tréningu sme cez lebku vo vnútri záznamovej komory vyvŕtali otvor na vloženie elektródy. Všetky protokoly o starostlivosti o zvieratá boli schválené Výborom pre experimenty so zvieratami na Tamagawskej univerzite a boli v súlade s príručkou Národných ústavov zdravia pre starostlivosť a používanie laboratórnych zvierat.

Behaviorálna úloha

Opice boli vyškolené na vykonávanie úlohy sakcade HLC (Obr. 1a), Neistá úloha HLC (obr. 5a) a HLC prieskumná úloha (obr. 7a). Všetky úlohy sa plnili v tmavej miestnosti. Opice sedeli na stoličke pred 22-palcovou. LCD monitor (S2232W, Eizo) s implantovanými hlavovými stĺpikmi pripevnenými k stoličke. Vzdialenosť medzi ich očami a displejom bola 70 cm. Keď sa v strede displeja zobrazilo počiatočné tágo (biely kruh, priemer 0.3 °), opica mala udržiavať svoj pohľad na tágo. Počiatočné tágo zmizlo po 750 ms a potom sa predstavilo nákladné tágo (hviezda a veterný mlyn pre skúšky HC a LC). Od opíc sa vyžadovalo, aby sa ponorili do nákladového tága počas prezentácie tága 750 ms. Ak neprišli na pomoc, súdny proces bol prerušený a rovnaký súdny proces sa začal znova. Počas skúšok HC bol cieľ fixácie (0.3 ° × 0.3 ° biely štvorec) predstavený hneď po zmiznutí ukazovateľa nákladov na 2000 1500 ms (úlohy HLC sakády a HLC neisté) alebo 4 4 ms (úloha skúmania HLC) a opice boli povinné aby sa tomu venovali a neustále na to hľadeli. Ak opice presunuli svoj zrak za fixačné okno 400 ° × 1600 °, úloha bola prerušená. Okno fixácie sa aktivovalo 1100 ms po predstavení bodu fixácie, pretože opice potrebovali čas na prípravu na sakádu a na úpravu svojej fixácie. Preto sa opice museli v pokusoch s HC fixovať najmenej na 1500 ms (úlohy HLC s kaskádou a HLC neisté) alebo na 1000 ms (úloha skúmania HLC). V LC testoch sa prázdna obrazovka zobrazovala po dobu 500 400 ms (úlohy HLC sakády a HLC neisté) alebo 100 100 ms (úloha skúmania HLC), a potom sa cieľ fixácie objavil na dobu 400 ms. Pretože sa fixačné okno aktivovalo 750 ms po prezentácii fixačného bodu, bolo v testoch LC od opíc požadované, aby sa fixovali na cieľ najmenej 0.3 ms. Opice vykazovali viac chýb v skúške HC; preto bolo do LC testu náhodne vložené vynútené prerušenie XNUMX ms pred prezentáciou znaku odmeny (XNUMX ms po prezentácii cieľového fixácie, čo je načasovanie nástupu fixačného okna), aby sa vyrovnala úspešnosť. Po zameraní na cieľ boli predložené jedno alebo dve tága s odmenou a od opíc sa vyžadovalo, aby sa k tágu prisali. Ak úspešne vykonali sakádu do tága na odmenu, zaznel zvukový signál XNUMX ms po predstavení tága na odmenu. Keď opice vytvorili saké na tágo R +, bolo súčasne s pípnutím dodané XNUMX ml vody. Keď vykonali svätú cestu na R-cue, nedostali žiadnu odmenu.

V úlohe sakády HLC sa ako odmeňovacie prvky použili štyri farebné kruhy (RHC+: žltá; RHC-: zelená; RLC+: ružová; RLC-: modrá; Obr. 1a). Jedno experimentálne sedenie pozostávalo z 80 saccade pokusov, 20 nepredvídateľných pokusov o odmenu, 20 nepredvídateľných pokusov o nafúknutie a 5 výberových pokusov. Posvätné skúšky zahŕňali 40 skúšok HC a 40 skúšok LC, obe zahŕňali 20 skúšok s odmenou a 20 bez skúšok s odmenou. V testoch s nepredvídateľnou odmenou alebo nafúknutým vzduchom bolo opice dodané 0.3 ml vodnej odmeny alebo 0.2 MPa nafúknutého vzduchu (150 ms pre opicu P; 200 ms pre opicu S) bez toho, aby boli vtlačené. Súčasťou pokusov s výberom bol pokus, v rámci ktorého si opice vyberali medzi táckami R + (R.HC+ vs. R.LC+) v skúške HC medzi R-tágami (RHC- vs. RLC-) v skúške HC medzi R + (RHC+ vs. R.LC+) narážky v LC skúške, medzi R- (RHC- vs. RLC-) podnety pri pokusoch LC a medzi podráždami nákladov (doplnkový obrázok č. 1). V pokusoch s výberom medzi prémiovými narážkami bola štruktúra úlohy identická so sakrálnou úlohou pred prezentáciou prémiových tág. Ďalej, namiesto prezentácie odmeňovacieho tága, boli vo výberových pokusoch prezentované dve odmeňovacie tágy a po predložení odmeňovacieho tábora nebola poskytnutá žiadna odmena, aj keď si opice vybrali medzi tágami R +.

Aby sa testovala reakcia dopamínových neurónov na odmenu za dodanie, opice vykonali neurčitú úlohu HLC (obr. 5a). Táto úloha bola podobná úlohe HLC saccade s výnimkou odmien. V tejto úlohe sme použili dve odmeňovacie tágy (namiesto štyroch odmeňovacích tágov použitých v úlohe HLC saccade), jednu pre skúšku HC a druhú pre skúšku LC. Odmena bola doručená v polovici skúšok po predložení odmien. Jedno experimentálne sedenie pozostávalo z 80 sakrálnych pokusov, 20 nepredvídateľných pokusov o odmenu a 20 nepredvídateľných pokusov o nafúknutie. Štúdie v sakáde obsahovali 40 pokusov s HC a 40 pokusov s LC, pričom obe obsahovali 20 pokusov o odmenu a 20 pokusov o odmenu. V nepredvídateľných súdnych konaniach bola poskytnutá odmena alebo nafúknutie bez akéhokoľvek narážky.

V úlohe prieskumu HLC sú dve odmeňovacie prvky (RHC+, R.HC- alebo RLC+, R.LC-) boli prezentované súčasne a opice boli požiadané, aby sa posadili na jednu z podnetov na odmenenie (obr. 7a). Ak si vybrali tágo R +, bola im poskytnutá vodná odmena. Štyri podnety na odmeňovanie (RHC +, R.HC-, RLC +, R.LC-) boli generované pre každú prieskumnú reláciu a od opíc sa vyžadovalo, aby sa naučili súvislosť medzi narážkami a odmeňovaním po jednotlivých pokusoch. Jedna experimentálna relácia pozostávala zo 100 pokusov s HC a 100 pokusov s LC. Zistili sme, že v prípade úlohy prieskumu, ak nastavíme trvanie fixácie na 2000 1500 ms v stave HC tak, že sa zhoduje s trvaním stavu HC v ostatných úlohách, opice vykonali úlohu s veľmi nízkou úspešnosťou pravdepodobne z dôvodu náročnosť úlohy a následná nízka miera odmeňovania. Preto, aby sme znížili ťažkosti úlohy a zvýšili úspešnosť, použili sme ako náklady na prieskumnú úlohu HLC trvanie fixácie XNUMX ms.

Úlohy sa kontrolovali pomocou komerčne dostupného softvérového balíka (TEMPO, Reflective Computing, St. Louis, MO, USA). Na vizuálnu prezentáciu stimulov sa použil program na mieru založený na aplikačnom programovacom rozhraní (OpenGL). Autori vytvorili vizuálne podnety týkajúce sa nákladov a odmien.

Zaznamenávanie a získavanie údajov

Poloha substantia nigra bola odhadnutá pomocou MR snímok. Volfrámová elektróda potiahnutá epoxidom (priemer drieku 0.25 mm, 0.5 - 1.5 MΩ meraný pri 1000 972 Hz, FHC) sa vložil do substantia nigra pomocou mikromanipulátora (MO-10,000, Narishige, Tokio, Japonsko) namontovaného na záznamovú komoru s nerezová vodiaca trubica. Napäťové signály boli zosilnené (× 0.5 2) a filtrované (500 - 1 kHz). Akčné potenciály z jedného neurónu boli izolované pomocou algoritmu na porovnávanie templátov (OmniPlex, Plexon, Dallas, TX, USA). Pohyb očí bol monitorovaný pomocou infračerveného kamerového systému pri vzorkovacej frekvencii XNUMX Hz (iView X Hi-Speed ​​Primate, SMI, Teltow, Nemecko). Časovanie akčných potenciálov a behaviorálnych udalostí sa zaznamenávalo s časovým rozlíšením XNUMX kHz.

Analýza dát

Aby sa analyzovalo správanie opíc, RT sa určili ako časový interval medzi začiatkom stimulu a časom, keď opice spustili sakádu. Iniciácia saccade sa stanovila vypočítaním načasovania, keď poloha pohľadu prekročila 5 štandardných odchýlok od strednej polohy pohľadov pred prezentáciou tága.

V úlohe prieskumu HLC sa správanie opíc kvantifikovalo pomocou kumulatívnej exponenciálnej funkcie. Funkcia (P) popisuje pomer správneho výberu takto:

P=12+(12-12exp(-at))b,
(1)

kde t znamená súd, a a b označujú sklon a plató krivky. Táto funkcia bola prispôsobená údajom pre tieto dve nákladové podmienky. Hľadali sa parametre funkcie, aby sa maximalizovala pravdepodobnosť pozorovania údajov z jednej relácie a spriemerovaných údajov. Bola použitá metóda bootstrap na odhad intervalu spoľahlivosti pri prispôsobovaní sa spriemerovaným údajom. Na kvantifikáciu behaviorálnych údajov sa použil aj štandardný RL model. Hodnoty stimulov Vj(t) pre vybratú možnosť j (j = 1 pre stav HC; j = 2 pre podmienky LC) boli aktualizované takto:

Vj(t+1)=Vj(t)+αj(R(t)-Vj(t)),
(2)

kde αj označujú mieru učenia, ktorá bola obmedzená na hodnoty medzi 0 a 1. R(t) označuje výšku odmeny (1: odmenený, 0: žiadna odmena) pri skúške t.

Pravdepodobnosť Pj(t) výberu stimulu j z dvoch stimulov pri skúške t je daná pravidlom softmax

Pj(t)=exp(Vj(t)βj)/Σ2i=1exp(Vi(t)βi),
(3)

kde βj označuje rozsah prieskumu.

Zaznamenali sme neuronálnu aktivitu počas úlohy HLC a úlohy s neurčitosťou HLC, ale nie úlohu skúmania HLC. Úloha prieskumu HLC bola implementovaná ako čisto behaviorálna štúdia. Dopamínové neuróny boli identifikované, ak vykazovali každú z nasledujúcich vlastností: nízku tonickú rýchlosť streľby (<6 Hz), dlhé trvanie špičkovej vlny (> 300 μs) a fázickú reakciu na nepredvídateľnú odmenu (doplnkový obr. 2a). Analyzovali sme pokusy, v ktorých opice dokázali pokus dokončiť bez akýchkoľvek chýb (brzdenie, bez sakkózy alebo umelého prerušenia). Priemerná rýchlosť vypaľovania neurónov bola vypočítaná s 1 ms zásobníkmi a vyhladená gaussovským jadrom (σ = 30 ms, šírka = 4σ) na vytvorenie funkcií hustoty hrotov. Reakcie dopamínových neurónov na každú úlohu boli vypočítané ako normalizovaná rýchlosť vypaľovania vzhľadom na spontánnu aktivitu (priemerná rýchlosť vypaľovania počas 500 ms pred začiatkom štartovacieho impulzu). Rýchlosti prepúšťania boli vypočítané v časových oknách určených pre každú úlohu a subjekt. Tieto časové okná boli určené z priemernej aktivity obyvateľstva. Definovali sme počiatočný a konečný bod časových okien určených na základe času nárastu a poklesu priemernej odpovede na populáciu s použitím predchádzajúcich štúdií s dopamínovými opicami ako referencie (doplnkový obr. 3). Časové okno pre počiatočné narážanie bolo definované ako 200–400 ms po začiatku nábehu štartu pre neuróny zaznamenané z opíc P a S. Časové okno pre narážanie stavu bolo definované ako 150–300 ms po začiatku nábehu stavu pre opice P a 200–400 ms pre opicu S. Časové okno pre odmenenie bolo definované ako 140–350 ms po nástupe odmeňovania pre opicu P a 220–420 ms pre opicu S. Časové okno pre dodávku odmien bolo definované ako 225– 475 ms po začiatku pípnutia pre opicu P a 200–450 ms pre opicu S. Časové okno pre nepredvídateľné doručenie odmeny bolo definované ako 100–300 ms po dodávke odmeny pre opicu P a 150–300 ms pre opicu S. časové okno pre nepredvídateľné nafúknutie bolo definované ako 30–230 ms po dodávke nafúknutia pre opicu P a 50–200 ms pre opicu S.

Všetky zaznamenané dopamínové neuróny sme klasifikovali do dvoch odlišných kategórií, typy motivácie a význačnosti. Ak bola odpoveď neurónu na podnety nafúknutia vzduchu menšia ako spontánna aktivita, bol neurón klasifikovaný ako typ motivačnej hodnoty (obr. 3d, napr). Na rozdiel od toho, ak reakcia neurónu na podnety vzduchového nafúknutia bola väčšia ako spontánna aktivita, neurón bol klasifikovaný ako typ salience (obr. 3 g, h).

Na kvantifikáciu diferenciálnej neuronálnej aktivity medzi podmienkami úlohy sa uskutočnila ROC analýza. Vypočítali sme auROC pre každý neurón. Hodnota auROC menšia alebo väčšia ako 0.5 naznačuje menšiu alebo väčšiu odpoveď v skúške HC. Pretože počty neurónov v niektorých súboroch neuronových údajov boli malé, použili sme Wilcoxonov test so znamienkom na zníženie účinku odľahlých hodnôt na kvantifikáciu zaujatej distribúcie auROC.

Na analýzu všetkých údajov sa použil komerčne dostupný softvér MATLAB (MathWorks, Natick, MA, USA).

Histologické vyšetrenie

Po experimente so záznamom boli obe opice usmrtené a bola vykonaná histologická analýza na overenie polohy záznamu (doplnkový obr. 2b). Opice sa usmrtili podaním letálnej dávky pentobarbitálu sodného (70 mg kg)-1) a premývané 4% formaldehydom vo fosfátovom pufri. Sériové koronálne rezy (hrúbka, 10 μm) boli odrezané a imunofarbené protilátkou anti-tyrozínhydroxylázy (TH) (každých 25 rezov; anti-TH protilátka, 1: 500; Merck, Darmstadt, Nemecko) alebo Nissl (každých 25 rezov) ,

Súhrn výkazov

Ďalšie informácie o výskumnom pláne sú k dispozícii na internete Zhrnutie správ o výskume v prírode súvisí s týmto článkom.

Dostupnosť údajov

Údaje použité pri analýze tejto štúdie sú dostupné od zodpovedajúceho autora na základe odôvodnenej žiadosti. Zhrnutie prehľadov pre tento článok je k dispozícii ako súbor doplňujúcich informácií. Zdrojové údaje, na ktorých sú založené obr. 1, 3-8 a doplnkové obr. 1, 4-12 sú poskytované ako zdrojové dátové súbory.

Dostupnosť kódu

Kódy Matlab použité pri analýze tejto štúdie sú dostupné od zodpovedajúceho autora na základe odôvodnenej žiadosti.

Referencie

  1. 1.

    Clement, TS, Feltus, JR, Kaiser, DH & Zentall, TR „Pracovná morálka“ u holubov: hodnota odmeny priamo súvisí s úsilím alebo časom potrebným na získanie odmeny. Psychon. Bull. Rev. 7, 100-106 (2000).

  2. 2.

    Klein, ED, Bhatt, RS & Zentall, TR Contrast a odôvodnenie úsilia. Psychon. Bull. Rev. 12, 335-339 (2005).

  3. 3.

    Zentall, TR & Singer, RA Kontraindikované v rámci pokusu: holuby uprednostňujú kondicionované výstuže, ktoré sledujú relatívne viac ako menej averznú udalosť. J. Exp. Anal. Behave. 88, 131-149 (2007).

  4. 4.

    Aronson, E. & Mills, J. Vplyv závažnosti začatia na sympatie k skupine. J. Abnorm. Soc. Psychol. 59, 177-181 (1959).

  5. 5.

    Festinger, L. Teória kognitívnej dissonancie, (Stanford University Press, Kalifornia, 1957).

  6. 6.

    Alessandri, J., Darcheville, JC, Delevoye-Turrell, Y. & Zentall, TR Preferencia odmien, ktoré nasledujú po väčšom úsilí a väčšom oneskorení. Naučte sa Behav. 36, 352-358 (2008).

  7. 7.

    Schultz, W., Carelli, RM & Wightman, RM Fázické dopamínové signály: od subjektívnej hodnoty odmeny po formálnu ekonomickú užitočnosť. Akt. Opin. Behave. Sci. 5, 147-154 (2015).

  8. 8.

    Schultz, W., Dayan, P. & Montague, PR Neurálny substrát predikcie a odmeny. veda 275, 1593-1599 (1997).

  9. 9.

    Bromberg-Martin, ES, Matsumoto, M. & Hikosaka, O. Dopamín v motivačnej kontrole: odmeňovanie, averzia a varovanie. Neurón 68, 815-834 (2010).

  10. 10.

    Bayer, HM & Glimcher, PW dopamínové neuróny stredného mozgu kódujú chybový signál predikcie kvantitatívnej odmeny. Neurón 47, 129-141 (2005).

  11. 11.

    Nakahara, H., Itoh, H., Kawagoe, R., Takikawa, Y. & Hikosaka, O. Dopamínové neuróny môžu predstavovať kontextovo závislú chybu predikcie. Neurón 41, 269-280 (2004).

  12. 12.

    Tobler, PN, Fiorillo, CD & Schultz, W. Adaptívne kódovanie hodnoty odmeny dopamínovými neurónmi. veda 307, 1642-1645 (2005).

  13. 13.

    Nomoto, K., Schultz, W., Watanabe, T. & Sakagami, M. Dočasne rozšírili dopamínové reakcie na percepčne náročné stimuly predvídajúce odmenu. J. Neurosci. 30, 10692-10702 (2010).

  14. 14.

    Watabe-Uchida, M., Zhu, L., Ogawa, SK, Vamanrao, A. & Uchida, N. Mapovanie celého mozgu priamymi vstupmi do dopamínových neurónov stredného mozgu. Neurón 74, 858-873 (2012).

  15. 15.

    Tanaka, SC a kol. Predikcia okamžitých a budúcich odmien rôzne prijíma kortiko-bazálne slučky ganglií. Nat. Neurosci. 7, 887-893 (2004).

  16. 16.

    Haber, SN, Kim, KS, Mailly, P. & Calzavara, R. Kortikálne vstupy súvisiace s odmenami definujú veľkú striatálnu oblasť u primátov, ktoré sú v rozhraní s asociatívnymi kortikálnymi spojeniami a poskytujú podklad pre učenie založené na stimuloch. J. Neurosci. 26, 8368-8376 (2006).

  17. 17.

    Doya, K. Modulátory rozhodovania. Nat. Neurosci. 11, 410-416 (2008).

  18. 18.

    Roesch, MR, Calu, DJ & Schoenbaum, G. Dopamínové neuróny kódujú lepšiu voľbu u potkanov pri rozhodovaní medzi rozdielne odloženými alebo veľkými odmenami. Nat. Neurosci. 10, 1615-1624 (2007).

  19. 19.

    Lak, A., Stauffer, WR & Schultz, W. Chybné odpovede na predpoveď dopamínu integrujú subjektívnu hodnotu z rôznych dimenzií odmeny. Proc. Natl Acad. Sci. USA 111, 2343-2348 (2014).

  20. 20.

    Stauffer, WR, Lak, A. & Schultz, W. Chybné odpovede na predpoveď odmeny dopamínu odrážajú marginálnu užitočnosť. Akt. Biol. 24, 2491-2500 (2014).

  21. 21.

    Noritake, A., Ninomiya, T. & Isoda, M. Monitorovanie a oceňovanie sociálnej odmeny v mozgu makakov. Nat. Neurosci. 21, 1452-1462 (2018).

  22. 22.

    Pasquereau, B. & Turner, RS Obmedzené kódovanie úsilia dopamínovými neurónmi v úlohe kompromisu nákladov a prínosov. J. Neurosci. 33, 8288-8300 (2013).

  23. 23.

    Varazzani, C., San-Galli, A., Gilardeau, S. & Bouret, S. Noradrenalín a dopamínové neuróny pri kompromise odmena / úsilie: priame elektrofyziologické porovnanie správajúcich sa opíc. J. Neurosci. 20, 7866-7877 (2015).

  24. 24.

    Watanabe, N., Sakagami, M. & Haruno, M. Chybový signál predikcie odmeny vylepšený interakciou striatum-amygdala vysvetľuje zrýchlenie pravdepodobnostného učenia sa odmien emóciami. J. Neurosci. 33, 4487-4493 (2013).

  25. 25.

    Di Ciano, P., Cardinal, RN, Cowell, RA, Little, SJ & Everitt, B. Diferenciálne zapojenie NMDA, AMPA / kainátových a dopamínových receptorov do jadra accumbens jadra pri získavaní a výkone správania pavlovovského prístupu. J. Neurosci. 21, 9471-9477 (2001).

  26. 26.

    Flagel, SB a kol. Selektívna úloha dopamínu pri učení sa stimulu a odmeňovania. príroda 469, 53-57 (2011).

  27. 27.

    Blough, DS Účinky aktivácie, rozlíšiteľnosti a zosilnenia na komponenty reakčného času vizuálneho vyhľadávania holuba. J. Exp. Psychol. Anim. Behave. Proces. 26, 50-63 (2000).

  28. 28.

    Matsumoto, M. & Hikosaka, O. Dva typy dopamínového neurónu zreteľne prenášajú pozitívne a negatívne motivačné signály. príroda 459, 837-841 (2009).

  29. 29.

    Matsumoto, M. & Takada, M. Výrazné reprezentácie kognitívnych a motivačných signálov v dopamínových neurónoch stredného mozgu. Neurón 79, 1011-1024 (2013).

  30. 30.

    Watanabe, M. a kol. Behaviorálne reakcie odrážajúce rozdielne očakávania v oblasti odmeňovania opíc. Exp. Brain Res. 140, 511-518 (2001).

  31. 31.

    Takikawa, Y., Kawagoe, R. & Hikosaka, O. Možná úloha dopamínových neurónov stredného mozgu v krátkodobej a dlhodobej adaptácii sakád na mapovanie polohy a odmeny. J. Neurophysiol. 92, 2520-2529 (2004).

  32. 32.

    Kobayashi, S. & Schultz, W. Vplyv oneskorenia odmien na reakcie dopamínových neurónov. J. Neurosci. 28, 7837-7846 (2008).

  33. 33.

    Enomoto, K. a kol. Dopamínové neuróny sa učia kódovať dlhodobú hodnotu viacerých budúcich výhod. Proc. Natl Acad. Sci. USA 108, 15462-15467 (2011).

  34. 34.

    Lak, A., Nomoto, K., Keramati, M., Sakagami, M. & Kepecs, A. Neuróny dopamínu v strednom mozgu signalizujú vieru v presnosť výberu počas percepčného rozhodnutia. Akt. Biol. 27, 821-832 (2017).

  35. 35.

    Williams, BA & McDevitt, MA Inhibícia a supravodenie. Psychol. Sci. 13, 454-459 (2002).

  36. 36.

    Behrens, TE, Woolrich, MW, Walton, ME & Rushworth, MF Učenie sa hodnoty informácií v neistom svete. Nat. Neurosci. 10, 1214-1221 (2007).

  37. 37.

    Seymour, B. a kol. Neuronálne procesy s apetitívnou averziou k apetíciu sú základom prediktívneho učenia úľavy od bolesti. Nat. Neurosci. 8, 1234-1240 (2005).

  38. 38.

    Kim, H., Shimojo, S. & O'Doherty, JP Je vyhýbanie sa averzívnemu výsledku prínosné? Nervové substráty vyhýbania sa učeniu v ľudskom mozgu. PLoS Biol. 4, e233 (2006).

  39. 39.

    Syed, EC a kol. Začatie akcie formuje mezolimbické dopamínové kódovanie budúcich odmien. Nat. Neurosci. 19, 34-36 (2016).

Stiahnuť odkazy

Poďakovanie

Túto prácu podporili granty v rámci pomoci pre vedecký výskum MEXT / JSPS (Kakenhi). Grantové čísla JP16H06571 a JP18H03662 pre MS Tento výskum bol čiastočne podporený Programom strategického výskumu pre mozgové vedy, ktorý podporila Japonská agentúra pre lekársky výskum a vývoj (AMED) ) a japonsko-americký program spolupráce v oblasti výskumu mozgu. Tento výskum bol podporený národným projektom biologických zdrojov na Národnom ústave fyziológie (NBRP v NIPS) z Japonskej agentúry pre lekársky výskum a vývoj, AMED. Ďakujeme Bernardovi W. Balleinovi a Andrewovi R. Delamaterovi za pomoc pri písaní novín.

Informácie o autorovi

Experimenty navrhli ST, JPO a MS. ST vykonal experimenty a analyzoval údaje. JPO a MS vylepšili experimenty a analýzy údajov. Ru, rukopis napísali ST, JPO a MS.

Korešpondencia Masamiči Sakagami.