Kostnaden för att erhålla belöningar förbättrar felsignalen för belöningsförutsägelse för dopamin-nervceller i mellanhålet (2019)

Abstrakt

Mid-hjärnan dopamin neuroner är kända för att koda belöningsförutsägelsefel (RPE) som används för att uppdatera värderingsförutsägelser. Här undersöker vi huruvida RPE-signaler som kodas av dopamin-nervceller i mitten av hjärnan moduleras av kostnaden som betalas för att erhålla belöningar, genom att spela in från dopamin-neuroner i vakna uppförande apor under utförandet av en ansträngande saccaduppgift. Dopamins neuronsvar på ledtrådar som förutspådde belöning och till utdelning av belöningar ökades efter utförandet av en kostsam åtgärd jämfört med en mindre kostsam åtgärd, vilket tyder på att RPE: er förbättras efter genomförandet av en kostsam åtgärd. På beteendnivå lärs stimulans-belöningsföreningar snabbare efter att ha genomfört en kostsam handling jämfört med en mindre kostsam handling. Således behandlas information om åtgärdskostnader i dopamin-belöningssystemet på ett sätt som förstärker följande dopamin-RPE-signal, vilket i sin tur främjar snabbare inlärning under situationer med hög kostnad.

Beskrivning

Människor och djur föredrar en belöning som erhållits efter att ha gjort en stor ansträngning för att få den jämfört med samma belöning efter en mindre ansträngning1,2,3. Ett antal förklaringar har ställts för denna effekt, såsom ansträngningsförsvar4,5 och kontrasteffekten6, där större värde tillskrivs ett resultat som erhållits efter betalad ansträngning. Det är emellertid fortfarande oklart om och hur behandlingen av belöningsinformation i hjärnan moduleras av ansträngningen som har använts för att få en belöning.

Vi fokuserade specifikt på dopaminsystemet i mitten av hjärnan med tanke på systemets roll för att främja beteendeanpassning till belöningar7,8,9. Dopaminneuroner är kända för att representera belönningsförutsägelsefel (RPE) -signaler som kan underlätta inlärning av belöningsförutsägelser av basala ganglier10,11,12,13,14,15,16,17. RPE: s styrka beror på belöningens kvantitet, kvalitet och subjektiva värde eller användbarhet7,18,19,20,21. Dessutom moduleras dopaminerg aktivitet av kostnader och / eller ansträngning22,23. På grundval av detta postulerade vi att den dopaminerga RPE-signalen skulle moduleras direkt av de kostnader som betalats för att få en belöning. Dessutom, eftersom RPE-signalen är kausalt involverad i att förmedla inlärning av stimulans-belöningsföreningar24,25,26, vi ansåg att de kostnader som betalats för att erhålla belöningen direkt skulle öka inlärningshastigheten för stimulans-belöningsföreningar.

För att testa våra hypoteser, mätte vi både beteende och dopaminerg aktivitet i två japanska apor medan de utförde en saccadbaserad ansträngningsuppgift. Apor reagerar snabbare på en belöningsförutsägbar ledtråd som presenteras efter en högkostnads-åtgärd (HC) jämfört med den efter en lågkostnads-åtgärd (LC). Aktiviteten hos dopaminerga nervceller till belöningsförutsägbara ledtrådar ökas med den betalda kostnaden. Dessutom förbättras inlärningshastigheten till stimulans-belöningsföreningen av de betalda kostnaderna. Därför föreslår vi att kostnaden som betalas för att erhålla belöningar ökar RPE-signalen i dopamin-neuroner och därmed förbättrar stimulans-belöningsföreningar.

Resultat

Hack-lågkostnad (HLC) saccaduppgift

För att undersöka effekten av betald kostnad på beteende och på dopaminneuronaktivitet utförde aporna en saccaduppgift med två kostnadsförhållanden (Fig. 1a, se Metoder). I HC-försök gjorde aporna snabbt en saccade mot målet och höll blicken på den utan att blinka under en längre tid (Fig. 1b; gröna linjer). Däremot såg aporna på LC-försök först fritt innan de fixerades under en kortare period (Fig. 1b, lila linjer). Eftersom det är svårt för apor att upprätthålla en lång fixering gjorde de fler fel under förseningar på HC-försök (Fig. 1c). För att kontrollera för en följdskillnad i belöningssannolikhet mellan HC-försök och LC-försök, införde vi tvingade aborter i en del av LC-försök för att jämföra framgångsgraden och belöna sannolikheter mellan försökstyper (fig. 1d).

Fig 1
figure1

HLC-saccaduppgift. a HLC-sackaduppgiften. Kostnadstecken (C cue) signalerade mängden ansträngning som krävs för att uppnå en potentiell belöning. En lång fixering krävdes under fördröjningsperioden i högkostnadsförsök. Belöningskön (R-kö) anger om aporna kunde få en belöning eller inte. b Tidsförloppet för blickvinkeln under fördröjningsperioden. De övre och nedre panelerna visar horisontella respektive vertikala blickvinklar. Gröna och lila linjer indikerar blickvinkeln i högkostnadsprövningar (50-försök i varje panel) respektive i lågkostnadsprövningar (50-försök i varje panel). c Antalet fel under förseningsperioden i högkostnads- och lågkostnadsprövningarna (**P< 0.01; två-tailed parat t testa; t67 = 8.8, P = 4.8 × 10-15, n = 68 för Monkey P; t83 = 26.6, P ≈ 0, n = 84 för Monkey S). Svarta cirklar och felstaplar anger medelvärde och SEM. d Framgångsgraden i högkostnads- och lågkostnadsförsöken (tvåpartsparade t testa; t67 = 0.51, P = 0.61, n = 68 för Monkey P; t83 = 0.79, P = 0.43, n = 84 för Monkey S). e RT: s till kostnads-signalerna (**P <0.01; två-tailed parat t testa; t67 = 20.4, P ≈ 0, n = 68 för Monkey P; t69 = 2.0, P = 1.2 × 10-3, n = 70 för Monkey S). f RT till belöningssignalerna (**P <0.01; två-tailed parat t testa; Apa P (n = 68): HC + vs. LC +, t67 = 3.5, P = 9.2 × 10-4; HC− vs. LC−, t67 = 24.5, P ≈ 0; HC + vs. HC−, t67 = 21.6, P ≈ 0; LC + vs. LC−, t67 = 28.5, P ≈ 0; Monkey S (n = 70): HC + vs. LC +, t69 = 5.6, P = 4.4 × 10-7; HC− vs. LC−, t69 = 4.8, P = 8.4 × 10-5; HC + vs. HC−, t69 = 18.0, P ≈ 0; LC + vs. LC−, t69 = 5.9, P = 1.1 × 10-7)

Betalda kostnader ökar värdet på belöningsförutsägbara ledtrådar

För att få implicit bevis för en skillnad i apans subjektiva värdering av ledtrådar testade vi aporna reaktionstider (RT). I synnerhet förutsåg vi att om aporna tilldelar ett högre subjektivt värde till ett alternativ än ett annat, borde de visa snabbare RT för det mer värderade alternativet27. När RT: er jämfördes mellan kostnadsspåren, visade båda aporna snabbare RT: er till LC jämfört med HC-signalen (Fig. 1e), vilket visar en implicit preferens för LC-tillståndet. När RT: er jämfördes mellan belöningssignaler visade båda aporna snabbare RT: s för att belöna (R +) ledtrådar än ingen belöning (R−) signaler (Fig. 1f), vilket indikerar att de föredrog R + signaler framför R-signaler. Dessutom visade båda aporna snabbare RT till RHC+ signal jämfört med RLC+ kö och till RHC- kö jämfört med RLC- kö (fig. 1f), vilket indikerar att de värderade mer de belöningsförutsägbara ledtrådarna i HC jämfört med LC-tillståndet.

Dessutom inkluderade vi valförsök i HLC-saccaduppgiften för att testa apas öppna preferenser mellan signaler (Kompletterande Fig. 1a). Aporna valde företrädesvis LC-signalen när de valde mellan kostnadsstreck (tilläggsfigur. 1b). Monkey S valde företrädesvis RHC+ cue när du utför valuppgiften mellan RHC+ och RLC+ cue, men ingen preferens mellan RHC- och RLC- ledtrådar (Kompletterande bild. 1c, d). Däremot visade apan P ingen öppen preferens mellan RHC+ och RLC+ signaler, men föredrog ändå RHC- cue när du väljer mellan RHC- och RLC- ledtrådar (Kompletterande bild. 1c, d).

Elektrofysiologiska resultat i HLC-saccaduppgiften

Vi registrerade aktivitet på en enhet från neuroner belägna inom substantia nigra pars compacta (SNc) och ventral tegmental area (VTA) under HLC-saccaduppgiften. Vi identifierade 70 dopaminneuroner över de två aporna (Kompletterande Fig. 2a; 18 och 52 neuroner från Monkey P respektive S). Histologisk undersökning bekräftade att nervcellerna var belägna i eller runt SNc / VTA (Kompletterande Fig. 2b).

I fig. 2visar vi aktiviteten hos en representativ dopaminneuron. Denna neuron visade blygsam aktivering av LC-signalen och fasisk aktivering eller undertryckning till belöningen (RHC+ och RLC+) eller inga belöningssignaler (RHC- och RLC-) respektive (fig. 2, Kompletterande Fig. 3). Neuronen visade också fasisk aktivering till den oförutsägbara belöningen såväl som fasisk undertryckning som svar på en aversiv stimulans, en oförutsägbar luftpuff (Fig. 2, höger panel). Dessutom visade neuronet blygsam undertryckning till startkön men svarade inte på belöningstillförsel. Hela populationen av dopaminneuroner som vi registrerade visade alla svar på startkön och belöningstillförsel (Kompletterande Fig. 4a, b). I HLC-saccaduppgiften betalades en ansträngningskostnad innan belöningen erhölls. Eftersom den förutsagda kostnaden minskade dopaminneuronaktiviteten22,23, dopaminneuronsvar skulle undertrycks vid tidpunkten för presentation av startcue16.

Fig 2
figure2

Aktivitet av en representativ dopaminneuron i HLC-saccaduppgiften. Spikdensitetsfunktioner (sammankopplade med en Gauss-funktion) och rasterdiagram är inriktade med starttidpunkten för startkön, kostnadskontrollen (C cue), fixeringsmålet, belöningssignalen (R cue) och pipet. Varje färg representerar ett villkor (gul: HC +, grön: HC−, rosa: LC +, cyan: LC−). Tidpunkten för början av saccad indikeras med grå kors. Svaren från dopaminneuronerna på den oförutsägbara belöningen eller luftpuffen representeras också i den högra panelen (röd: oförutsägbar belöning, blå: oförutsägbar luftpuff)

Dopaminneuroner kodar information om både belöning och kostnad

Neuronerna svarade fasiskt på LC-signalen, men mindre robust på HC-signalen (Fig. 3a, b). Framkallade svar på signalerna om kostnadsförhållanden uppvisade ett mindre svar på HC-signalen än LC-signalen (två-svansade Wilcoxons signerade rangtest, P <3.2 × 10-4, n = 70). Vi kvantifierade effekten av den beräknade kostnaden på neuronala svar med hjälp av en ROC-analys (receiver operating character). Fördelningen av området under ROC-kurvan (auROC) var signifikant <0.5 (Fig. 3c; två-svansade Wilcoxons signerade rangtest; P = 5.4 × 10-4, n = 70), vilket indikerar att HC-cue-svar var mindre än på LC-cue. Förutspådda kostnader har tidigare visat sig minska dopaminneuronaktiviteten, vilket överensstämmer med våra resultat22,23. Dessutom uppvisade populationen av dopaminneuroner signifikant aktivering av LC-signalen medan den inte visade någon signifikant undertryckning av HC-signaler (Kompletterande Fig. 4c, d). Dessa resultat antyder att dopaminneuroner kodar och integrerar information om både belöning och kostnad vid tidpunkten för kostnadspresentation.

Fig 3
figure3

Dopaminneuronsvar på kostnads-signaler. a Ett representativt dopaminneuronsvar på kostnadsledningarna. Spikdensitetsfunktionerna beräknades från den normaliserade aktiviteten hos en dopaminneuron registrerad från apan P. De färgade linjerna indikerar spikdensitetsfunktionerna och färgade prickar indikerar spiktidningen. Gröna och lila färger indikerar aktivitet i hög- respektive lågprövningsförsöken. Den vertikala linjen indikerar tidpunkten för kostnadspåpresentationen. Det gråfärgade området indikerar perioden för att beräkna avfyrningshastigheten som svaret på villkoren. b Befolkningsmedelvärdesaktivitet hos dopaminneuronerna registrerade från apan P till tillståndsvisningarna. De heldragna linjerna som de streckade linjerna representerar medelvärdet respektive SEM. c Fördelningen av områdena under ROC: erna för att kvantifiera effekten av de förutsagda kostnaderna på det neuronala svaret på kostnadskontrollen. Fyllda rutor och öppna cirklar indikerar data från apan respektive S. Pilhuvudet indikerar auROCs median (0.47). d, g Representativa svar av dopaminneuron av den motiverande värdetypen (d) eller dopaminneuron av försiktighetstyp (g) till den oförutsägbara belöningen eller luftpuffen. Röda och blå kurvor indikerar svaret på oförutsägbar belöning respektive oförutsägbar luftpuff. Den vertikala linjen indikerar tidpunkten för den oförutsägbara belöningen eller leveransen av luftpuff. Blekta röda och blå fyrkanter anger perioden för att beräkna avfyrningshastigheten som svar på den oförutsägbara belöningen eller lufpusten. e, h Befolkningsmedelvärde för dopaminneuroner av motiverande värdetyp (e) eller dopaminneuroner av försiktighetstyp (h) till den oförutsägbara belöningen eller luftpuffen. f, i Fördelningen av auROC: erna beräknade från dopaminneuroner av motiverande värdetyp (f) eller dopaminneuroner av försiktighetstyp (i). Pilhuvudena indikerar auROC: s medianer (f 0.48; i 0.46)

Två distinkta subtyper av dopaminneuroner har tidigare beskrivits: motivationsvärde och salience neuroner28,29. Vi hittade bevis i vår dopaminneuropopulation av svarmönster som överensstämmer med båda subtyperna. Neuroner av värdetyp visade fasiskt undertryckande av aversiv luft-puffstimuli (Fig. 3d, e). Omvänt visade framställningsneuroner en fasisk aktivering av den aversiva stimuli (Fig. 3g, h). Den långa fixeringen i HC-rättegången är också obehaglig och motvillig; därför är det möjligt att de två dopamins neuronundertyperna skulle visa olika svarmönster på kostnadskonditionstecken. Om dopaminneuroner representerar aversiv stimuli och kostar på liknande sätt, bör värdesneuroner visa minskad aktivitet för HC-cue på grund av dess aversivitet. Å andra sidan, salient neuroner bör öka i aktivitet till HC-cue eftersom de också ökar till obehagliga stimuli. Emellertid framkallade svar från båda typerna av nervceller var mindre än HC-signalen jämfört med LC-signalen (två-tailed Wilcoxons signerade rangtest; P = 0.021, n = 41 och P = 0.0044, n = 29 för värdet respektive salientyperna), och ROC-analysen visade mindre svar på HC jämfört med LC-signalen i båda undertyperna (Fig. 3f, i; två-svansade Wilcoxons signerade rangtest; P = 0.030, n = 41 och P = 0.0058, n = 29 för värdet respektive uppmärksamhetstyperna). Således reducerade förutsagd kostnad aktivitet i båda subtyperna av dopaminneuroner. Dessa resultat indikerar att kostnadsinformation behandlas av dopaminneuroner på ett kvalitativt annat sätt än aversiva stimuli.

I HLC-sackaduppgiften infogade vi en tvångsavbrott i en del av LC-försök för att utjämna framgångsgraden och belöningssannolikheten mellan försökstyper. Denna manipulation ökade osäkerheten att få belöning eller risken för ingen belöning i LC-tillståndet. Därför kan den högre aktiviteten hos dopaminneuroner och apornas ökade värdering för LC över HC-kön bero på skillnaden i risk eller osäkerhet mellan kostnadsförhållandena. Vi hittade emellertid inget samband mellan antalet tvångsavbrott och skillnaden i RT (kompletterande fig. 5a, b), och vi hittade en positiv korrelation mellan antalet tvångsaborter och auROC (Kompletterande Fig. 5c). Vi jämförde också dopaminsvar till kostnadsspåren efter aborter kontra efter korrekta studier, men fann ingen skillnad i båda kostnadsförhållandena (Kompletterande Fig. 5d). Dessa resultat indikerar att antalet tvångsaborter i LC-tillståndet inte förklarar varken ökningen i värderingen eller den förbättrade dopaminerga aktiveringen till LC-signalen.

Ökade dopaminsvar för belöningskostnad med betalda kostnader

De registrerade dopaminneuronerna visade sig visa fasisk aktivering och undertryckning för att belöna respektive inga belöningsförutsägbara signaler (Fig. 2). Därefter bedömde vi om dessa svar modulerades av de tidigare uppkomna kostnaderna. Ett exempel på en representativ neuron och populationsgenomsnittade neuroner som uppvisar större aktivering för RHC+ cue än RLC+ cue visas i figur 4a respektive b. (tvåsidigt Wilcoxons undertecknade rangtest; P = 7.4 × 10-5, n = 70). Fördelningen av auROC var> 0.5, vilket indikerar att svaret på RHC+ cue var större än RLC+ cue (fig. 4c; två-svansade Wilcoxons signerade rangtest; P = 1.4 × 10-4, n = 70). Dessa resultat indikerar att svaret på den belöningsförutsägande köen i HC-tillståndet är signifikant större än i LC-tillståndet. Därför tyder våra resultat på att den positiva RPE-signalen som representeras av dopaminneuroner ökar med de kostnader som tidigare uppstått.

Fig 4
figure4

Dopamins neuronsvar på belöningssignaler. a Ett exempel på neuronsvar på R + signalerna. Spikdensitetsfunktionerna beräknades utifrån aktiviteten hos dopaminneuron registrerat från apan. De färgade linjerna och prickarna indikerar respektive spikdensitet och spikstiming. Gula och rosa färger indikerar aktivitet i högkostnads- och lågkostnadsstudierna. Den vertikala linjen indikerar tidpunkten för R + cue-presentationen. Det gråfärgade området indikerar perioden för att beräkna avfyrningshastigheten som svar på belöningssignalerna. b Befolkningsgenomsnittlig aktivitet av dopaminneuronerna registrerade från apa P till R + -koderna. De heldragna linjerna och de streckade linjerna representerar medelvärde respektive SEM. c Distributionen av auROC: erna för att kvantifiera effekten av den betalda kostnaden på det neuronala svaret på R + -tecken. Fyllda rutor och öppna cirklar indikerar data från apan respektive S. Pilspetsen indikerar medianen för auROC: er (0.53). d Ett representativt svar på R-ledningarna. Gröna och cyanfärger indikerar högkostnads- och lågkostnadsprövningar. Den vertikala linjen indikerar tidpunkten för Rcue-presentationen. e Befolkningsmedelvärden av dopaminneuronerna registrerade från apan P till R-signalerna. f Fördelningen av auROC: erna för att kvantifiera effekten av den betalda kostnaden på det neuronala svaret på R-cues. Pilhuvudet indikerar auROCs median (0.50)

Dopaminneuronerna visade också fasiskt undertryckande av R-cues (fig. 4d, e). Dopaminsneurons svar på R-cuesna visade emellertid inte någon signifikant skillnad som en funktion av de uppkomna kostnaderna (två-tailed Wilcoxons signerade rangtest; P = 0.25, n = 70), och ROC-analysen avslöjade inga bevis för en bias i svarsfördelningen (Fig. 4f; Wilcoxons test av signerad rang, P = 0.35; n = 70). Således återspeglades inte den betalade kostnaden i den negativa RPE-signalen som framkallats av de icke-förutspådda signalerna. Detta kan orsakas av en golveffekt: dopaminneuronens spontana aktivitet är låg (cirka 5 Hz); och följaktligen kan det hända att det inte finns ett tillräckligt dynamiskt område för att på ett adekvat sätt koda för en sådan skillnad i kostnad för det negativa RPE-svaret (Fig. 4d, e).

Vi undersökte också effekten av den betalda kostnaden på belöningskonferensen för dopamin-nervceller av värde och försiktighet, men båda typerna av dopamin-neuroner visade liknande svarmönster (kompletterande fig. 6a-h). Därför manifesterar den betalda kostnaden en liknande effekt på svaret på belöningssignaler i både dopaminneuroner med värde och försiktighet.

Apornas faktiska fixeringsvaraktighet var inte konstant utan varierade från försök till försök (fig. 1b). Därför var det möjligt att dopaminsvar på belöningssignalerna moduleras av de faktiska fixeringsvaraktigheterna per försök. Vi kunde dock inte hitta någon signifikant korrelation mellan dem för varje kostnad och belöningsvillkor (tilläggsfigur. 7a-d). Dessutom modulerades RT: er till belöningssignalen av kostnads- och belöningsvillkoren (fig. 1f). En möjlighet är att svaren från dopaminsneuronerna kunde förklaras av RT: erna till belöningssignalerna per försök. Vi kunde dock inte hitta något signifikant samband mellan RT: er och de normaliserade dopaminsvaren på belöningssignalerna (Kompletterande Fig. 7va). Dessa resultat antyder att dopaminsvar är oberoende av både RT: er och fixeringsvaraktigheter vid varje försök, men ändå modulerade av mängden erforderlig kostnad och förväntad belöning som är fixerade för varje typ av försök.

Vidare är det också möjligt att de tvingade aborterna i LC-tillståndet genererade både apornas preferenser och den förbättrade aktiveringen av dopaminsneuronerna till belöningssignalen i HC-tillståndet. I så fall bör antalet tvångsaborter relateras till både preferens och graden av förbättrad aktivering. Emellertid hade antalet tvångsaborter inga effekter på varken apas preferens eller aktiveringen av dopaminsneuronerna till belöningssignalerna (Kompletterande Fig. 8). Därför snabbare RT och högre DA-svar på RHC+ cue än RLC+ cue beror inte på de införda tvingade aborterna i LC-tillståndet.

Uppkomna kostnader ökar dopaminsvaret för belöningstillförsel

Svaret från dopaminneuroner på R + -koderna bör komma från svaret på själva belöningen, eftersom dopaminneuroner förändrar deras svar på belöningsförutsägbara led i förhållande till stimulans-belöningsföreningen8,30. Därför förväntade vi oss att dopaminneuroner skulle visa en betald kostnadsberoende svarförbättring för att belöna leverans. För att mäta dopaminneuronaktivitet till belöningstillförseln utförde aporna HLC-osäker uppgift med två nya belöningssignaler (Fig. 5a). Eftersom belöningarna levererades endast i hälften av belöningskonpresentationerna, förutspådde inte belöningskontrollerna på ett tillförlitligt sätt eller på olika sätt belöningstilldelning. Detta gjordes för att maximera dopamins neuronresponsivitet mot mottagandet av en (oförutsedd) belöning, för att öka vår känslighet för att upptäcka en modulering i neurons reaktionsförmåga som en funktion av kostnaden som spenderas.

Fig 5
figure5

HLC osäker uppgift. a HLC osäker uppgift. I denna uppgift användes osäkra belöningssignaler, i vilka belöningar levererades 50% av tiden oavsett vilken cue som presenterades. b RT: er till kostnadsspekterna i högkostnads- och lågkostnadsprövningarna. Endast apan P visade en snabbare RT till LC-signalen än HC-signalen (**P <0.01; två-tailed parat t testa; t4 = 9.0, P = 8.5 × 10-4, n = 5 för apa P; t18 = 1.4, P = 0.19, n = 19 för apa S). Svarta cirklar och felstaplar anger medelvärde och SEM. c RT till belöningssignaler i högkostnads- och lågkostnadsprövningarna. Det fanns ingen skillnad i RT: erna till belöningssignalerna mellan högkostnads- och lågkostnadsförhållandena (tvåparade parade t testa; t4 = 0.97, P = 0.39, n = 5 för apa P; t18 = 0.99, P = 0.39, n = 19 för apa S)

När RT: er jämfördes mellan kostnadstecken, visade apan P en snabbare RT till LC-signalen än HC-signalen (Fig. 5b). Det fanns ingen skillnad i RT: er till belöningstecken mellan HC- och LC-tillståndet i någon av aporna (fig. 5c).

I HLC: s osäkra uppgift visade dopaminneuroner blygsam aktivering av LC-signalen men svarade inte på belöningssignalerna eftersom de inte var belönande prediktiva (Fig. 6a). Över hela befolkningen var framkallade svar mindre på HC än LC-signalen (Fig. 6b; två-svansade Wilcoxons signerade rangtest; P = 2.7 × 10-3, n = 19) och ROC-analyser visade mindre svar på HC-signalen (Fig. 6c; två-svansade Wilcoxons signerade rangtest; P = 5.5 × 10-3, n = 19). Det neuronala svaret på belöningsleverans i HC-tillståndet var större än LC (Fig. 6d; två-svansade Wilcoxons signerade rangtest; P = 0.036, n = 19). Fördelningen av auROCs var> 0.5, vilket indikerar ett större belöningssvar i HC i förhållande till LC-studier (Fig. 6e; två-svansade Wilcoxons signerade rangtest; P = 0.049, n = 19). Dessa resultat indikerar att belöningsleveransresponsen förbättras i HC-försöket och att betald kostnad ökar den positiva RPE-signalen vid belöningsleverans.

Fig 6
figure6

Dopamins neuronsvar på belöningstillförseln. a Representativ dopaminneuronaktivitet i HLC osäker uppgift. Varje färg representerar villkoren (gul: HC +, grön: HC−, rosa: LC +, cyan: LC−). Tidpunkten för början av saccad indikeras med grå kors. Svaren från denna dopaminneuron på den oförutsägbara belöningen och luftpuffen visas också i den högra panelen (röd: oförutsägbar belöning, blå: oförutsägbar luftpuff). b Befolkningsgenomsnittlig aktivitet av dopaminneuronerna registrerade från apa S till tillståndssignalerna. Gröna och lila färger indikerar aktivitet i hög- respektive lågprövningsförsöken. De heldragna linjerna och de streckade linjerna representerar medelvärde respektive SEM. Gråfärgat område indikerar tidsfönstret för att beräkna avfyrningshastigheten som svaret på villkoren. c Fördelningen av auROC: erna för att kvantifiera effekten av den förutsagda kostnaden på det neuronala svaret på kostnadsspåren. Fyllda rutor anger data från apan P (n = 3) och öppna cirklar indikerar data från apan S (n = 16). Pilspetsen anger medianen för auROC (0.44). d Befolkningsmedelvärde aktivitet av dopaminneuronerna registrerade från apan S till belöningstillförseln. Gula och rosa färger indikerar aktivitet i högkostnads- och lågkostnadsstudierna. Grå färgat område indikerar tidsfönstret för att beräkna avfyrningshastigheten som svar på belöningsleveransen. e Fördelningen av auROC: erna för att kvantifiera effekten av den betalda kostnaden på det neuronala svaret på belöningsleveransen. Pilhuvudet indikerar auROCs median (0.55)

Dessutom jämförde vi dopaminsvar efter frånvaron av belöning. AuROC: erna visade inte en partisk fördelning, vilket indikerade att betalda kostnader inte hade någon effekt på negativa RPE vid utfallet (tilläggsfigur. 9a). Dopaminneuronerna visade ingen skillnad mellan svar på RHC och RLC ledtrådar (kompletterande fig. 9b).

Uppkomna kostnader förbättrar inlärningshastigheten

Med tanke på att RPEs för att belöna leverans ökar med den betalda kostnaden, under hypotesen att RPEs är direkt involverade i förmedling av stimulansbelöning, förväntade vi oss att förbättrade RPEs skulle återspeglas i inlärningsbeteende via en förbättrad inlärningshastighet24. För att testa för en effekt av betald kostnad på inlärningen utförde aporna HLC-undersökningsuppgiften (fig. 7a; se Metoder). I denna uppgift presenterades två belöningssignaler (R + och R−) samtidigt och aporna var tvungna att välja en. Vi utjämnade framgångsgraden och belönar sannolikheten mellan försökstyper (tvåpartsparade t testa; t48 = 0.15, P = 0.89, n = 49 för apa P; t85 = 1.2, P = 0.25, n = 86 för apa S). När RT jämfördes för kostnadstecken visade båda aporna snabbare RT till LC-köen än HC-signalen (Fig. 7b; två-svansade parade t testa; t48 = 12.9, P ≈ 0, n = 49 för apa P; t85 = 3.4, P = 9.4 × 10-4, n = 86 för apa S). När man jämför RT: er med belöningssignalerna visade apa S snabbare RT i HC än LC-tillståndet (Fig. 7c; två-svansade parade t testa; t48 = 1.3, P = 0.19, n = 49 för apa P; t85 = 2.8, P = 6.8 × 10-3, n = 86 för apa S). När man jämför RT under första och andra halvan av inlärningssessionen separat var RT till LC-kön snabbare än till HC-kön under den första (kompletterande fig. 10) och senare hälften av sessionen (kompletterande fig. 10c). Tvärtom, RTs av apa S till belöningssignalen i HC-tillståndet var snabbare än i LC-tillståndet under endast den senare halvan av sessionen (kompletterande fig. 10d) men inte den första halvan (kompletterande fig. 10b).

Fig 7
figure7

HLC-utforskningsuppgift. a HLC-utforskningsuppgiften. I denna uppgift fick aporna välja mellan R + och R-signaler, som slumpmässigt genererades i varje inlärningssession. Om de valde R + -koden kunde de få en belöning och om de valde R-cue skulle de inte få belöning. b RT: er till kostnadsspekterna i högkostnads- och lågkostnadsprövningarna. Aporna visade snabbare RT-skivor till lågkostnadskön (**P< 0.01; två-tailed parat t testa). Svarta cirklar och felfält anger medelvärde och SEM. c RT till belöningssignaler i högkostnads- och lågkostnadsprövningarna. Monkey S visade snabbare RT: er till belöningslådorna i högkostnadsskick

I HLC-undersökningsuppgiften genererades belöningssignaler slumpmässigt i varje inlärningssession. Därför fick aporna att lära sig förhållandet mellan belöningssignaler och belöningar i varje session. När försöken fortsatte inom en session valde aporna R + -koder oftare i varje kostnadsskick (Fig. 8a). För att kvantifiera inlärningshastigheten anpassar vi en kumulativ exponentiell funktion till data, med två fria parametrar, a och b, vilket indikerar kurvens och platåns branthet (tilläggsfig. 11a, b). Loggförhållandet mellan parametrarna för branthet (log aHC/aLC) var signifikant större än noll, vilket indikerar en större branthetsparameter i HC än LC-försök (Fig. 8b; två-tailed t testa; t48 = 2.1, P = 0.042, medelvärde = 0.58, n = 49 för apa P; t85 = 2.5, P = 0.013, medelvärde = 0.19, n = 86 för apa S). Loggförhållandet mellan platåparametrar (log bHC/bLC) skilde sig inte från noll vilket indikerar ingen skillnad mellan kostnadsförhållandena (fig. 8c; två-tailed t testa; t48 = 0.76, P = 0.45, medelvärde = −0.0024, n = 49 för apa P; t85 = 0.56, P = 0.58, medelvärde = 0.010, n = 86 för apa S). Dessa resultat indikerar att inlärningshastigheten är snabbare i HC-studierna. Därefter modellerade vi inlärningskurvor med hjälp av en förstärkningsinlärningsmodell (RL) (se Metoder). Denna modell inkluderar inlärningshastighetsparametrar (αHC och αLC) och prospekteringsgrader (βHC och βLC) för båda kostnadsförhållandena (Kompletterande Fig. 11c, d). Vid anpassning till beteende fann vi att loggförhållandet mellan inlärningshastighetsparametrar (log αHC/αLC) var större än noll vilket indikerar en signifikant större inlärningshastighetsparameter i HC än LC-studier (Fig. 8d; två-tailed t testa; t48 = 2.3, P = 0.026, medelvärde = 0.50, n = 49 för apa P; t85 = 2.2, P = 0.034, medelvärde = 0.25, n = 86 för apa S) medan parametern β visade ingen skillnad (fig. 8e; två-tailed t testa; t48 = 0.77, P = 0.44, medelvärde = 0.0097, n = 49 för apa P; t85 = 0.64, P = 0.52, medelvärde = 0.038, n = 86 för apa S). Här uppskattade vi inlärningshastighetsparametrarna för varje kostnadsvillkor (αHC och αLC) separat för att förklara snabbare inlärningshastigheter i HC-tillståndet. Men om inlärningshastigheterna är identiska mellan kostnadsförhållandena, är förhållandet mellan de uppskattade inlärningsfrekvensparametrarna (αHC/αLC) kan betraktas som ett förstärkningsvärde för RPE i HC-tillstånd. Därför antyder dessa resultat att en förstärkning av RPE kan förklara snabbare inlärningshastigheter i HC-tillståndet.

Fig 8
figure8

Lärningshastighetstest. a Genomsnittlig inlärningsprocess av apor P och S. Andelen R + -val planeras som en funktion av försöket. De gröna och lila punkterna indikerar data från högkostnads- och lågkostnadsprövning. De prickade linjerna representerar utjämnad inlärningsprocess. De kumulativa exponentiella funktionerna anpassades till datapunkterna och representerades som de fasta linjerna. b Loggförhållandet mellan anpassningsparametrarna a under de höga och billiga förhållandena när data passade med en kumulativ exponentiell funktion (*P <0.05; tvåsidiga Wilcoxons undertecknade rangtest). Svarta cirklar och felstaplar anger medelvärde och SEM. c Loggförhållandet mellan anpassningsparametrarna b under hög- och lågkostnadsförhållanden när data passade med en kumulativ exponentiell funktion. d Loggförhållandet mellan inlärningshastighetsparametern α under hög- och lågkostnadsförhållanden när uppgifterna passade in i en förstärkningslärningsmodell. e Loggförhållandet mellan monteringsparametern β under hög- och lågkostnadsförhållanden när uppgifterna passade in i en förstärkningslärningsmodell

Vi försökte också förklara inlärningsprocessen med alternativa RL-modeller som tar hänsyn till en möjlighet att aporna känner till antikorrelationen mellan stimuli och belöning i varje försök. I dessa modeller uppdateras värdet på det alternativ som inte har valts vid sidan av det valda (tilläggsfigur. 12). Även vid tillämpning av sådana alternativa modeller på data var inlärningshastighetsparametern betydligt större i HC jämfört med LC-tillståndet (Kompletterande Fig. 12b, f) medan parametern β visade ingen skillnad (Kompletterande Fig. 12d, h). Således är vårt resultat om en förstärkning av RPE-signalen i HC-tillståndet robust till formen av RL-modell som passar data.

Diskussion

Vi undersökte effekten av betald kostnad på värdet av belöningsförutsägbara ledtrådar och på de fasiska responserna från dopaminneuroner i mitten av hjärnan. Apor visade ökad värdering för belöningsförutsägbara ledtrådar efter genomförandet av en åtgärd som medförde en större kostnad. Dopaminneuroner visade ökade svar på både belöningsförutsägande ledning och belöningstillförsel efter att en högre kostnad hade uppstått. Dessutom visade aporna snabbare inlärningshastigheter när en högre kostnad krävdes för att få belöning.

Flera studier har visat att en betald kostnad förbättrar preferenser för en belöningsförutsägande ledning1,2,3. I den aktuella studien visade aporna snabbare RT till de belöningsförutsägbara signalerna i HC-tillståndet jämfört med de i LC-tillståndet, i överensstämmelse med möjligheten att belönings-cue-värdet förbättras av den betalda kostnaden27. En alternativ möjlighet är att den längre fixeringstiden förknippad med förbättrad uppmärksamhet på saccadmålet i HC-tillståndet, och därmed minskar RT: erna efter en längre fixering i HC-försöket. Vi hittade dock ingen skillnad mellan RT: er till R-ledningarna i HC- och LC-studierna i HLC-osäker uppgift. Dessutom under första halvåret av HLC-utforskningssessionen. RT till R-signalerna skilde sig inte signifikant mellan HC- och LC-studierna. Dessa fynd indikerar således att en längre fixering inte är en trolig förklaring till de kortare RT: er som observerats för belöningsförutsägbara ledtrådar. Utöver effekten av betald kostnad på RT-belöningar för belöningskostnader, påverkade kostnaden också RT: er till de icke-förutsägbara signalerna, trots att ingen belöning har levererats efter presentationerna. En tidigare studie rapporterade om ett liknande fenomen, i det att apapersoner visade kortare RT: er i icke belönade försök när mer föredragna belöningar användes i de alternativa försöken inom varje block30. En möjlig tolkning av effekten i den studien är att en övergripande högre motivation att svara i blocket med mer föredragen belöning påverkade RT: er också till ingen belöningssignal i blocket. På samma sätt kan förväntningarna på en mer värdefull belöning i HC-försöken i den här studien ha modulerat RT: erna till ingen belöningssignal i HC-försöken i vår uppgift. Dessutom var effekten av de betalda kostnaderna på RT: er på belöningskuporna mindre än för de inga belöningsförutsägbara signalerna. Detta är troligtvis en artefakt av det faktum att aporna gjorde en saccade snabbare till RLC+ cue i första hand, det finns minskat utrymme för att upptäcka en förkortning av RT till RHC+ kö. Därför skulle skillnaden i RT: er mellan R + -ledningarna vara liten som en konsekvens.

Aporna utförde också valförsök mellan RHC och RLC ledtrådar i HLC-uppgiften. Men medan apa S visade en preferens för RHC+ signal till RLC+ cue, apa P visade ingen sådan preferens. Denna skillnad kunde förklaras av en kontextuell skillnad mellan HLC-saccaden och valförsöken. I valförsöken presenterades två belöningsförutsägbara ledtrådar istället för en belöningsförutsägande ledtråd. Dessutom fick aporna ingen belöning efter valet, även om de valde belöningsförutsägande led, så valet testet gjordes i utrotning. Utrotningsförfarandet implementerades för att säkerställa att apans val drevs av det som hade lärt sig i ansträngningsförsöken, i motsats till att förväxlas med nytt lärande i valförsöken. Emellertid kan denna procedur ha den bieffekten att apan snabbt kan lära sig att känna igen utrotningsförfarandet i valmässigt sammanhang och att det inte finns någon anledning att välja de mer föredragna stimuli. Ändå visade en av aporna faktiskt en preferens för belöningssignalen i HC-tillståndet.

Vid tidpunkten för presentation av en ledning som förutspådde ett efterföljande krav på att betala en kostnad, minskades aktiviteten för dopaminneuroner, i överensstämmelse med tidigare studier22,23. I vår studie observerade vi inte en total minskning av dopaminneuron som svarade på både HC- och LC-signaler relativt baslinjen. Detta antyder att en negativ-RPE-signal inte inträffar vid den tidpunkten trots följande kostnad. Frånvaron av negativ RPE återspeglar förmodligen integrationen av en förutsägelse om framtida belöning som förväntas senare i rättegången. Dopaminneuronerna visade signifikant aktivering i LC-försöket och aktiviteten var högre jämfört med HC-försöket. Detta antyder att kostnadsinformation införlivas i RPE-signalen som bärs av dopaminneuroner. Således kodar dopaminneuroner både belöning och kostnadsinformation och RPE-svaret återspeglar summan av kostnad och belöning.

Vi demonstrerade att RPE-signalen som representeras av dopaminneuroner förbättras av den betalade kostnaden vid punkten för belöningskonpresentation (i HLC-saccaduppgiften) och belöningsleverans (i HLC osäker uppgift). Det objektiva beloppet som levererades i HC- och LC-försöken var lika; därför bör modifiering av RPE-signalerna orsakas av en okänslig process. Denna möjlighet stöds av flera studier som indikerar en kontextuell effekt på dopamin-RPE-signaler som överensstämmer med behandlingen av det subjektiva värdet och / eller användbarheten i dopaminneuroner.11,19,20,21,31,32,33,34. Om RPE-signalen är större bör detta ge en snabbare uppdatering av cue-värdet, vilket följaktligen skulle påverka inlärningshastigheten för stimulans-belöningsassociationer. Tidigare studier har visat en modifiering av inlärningshastigheten med okänsliga faktorer24,35. I linje med detta uppvisade aporna snabbare inlärningshastigheter i HC relativt till LC-tillståndet. Vi fann att förbättrad inlärningshastighet med den betalda kostnaden kan förklaras med en RL-modell med en förstärkt RPE. Det var svårt att skilja effekterna av den förstärkta RPE och ökad inlärningshastighet i våra experiment; emellertid hittade vi en förstärkt dopaminerg RPE-signal i HC-tillståndet. Vidare har en tidigare fMRI-studie visat att inlärningshastighetsparametern är representerad i det främre cingulerade cortex och att VTA-aktivitet inte är relaterad till inlärningshastighetsparametern i flyktiga miljöer36. Därför hävdar vi att RPE-signalen som kodas av dopaminneuroner förstärks av den betalda kostnaden, och att den ökade RPE-signalen förbättrar inlärningshastigheten.

När RPE-signalen genererades vid tidpunkten för presentationen av belöningskupan och belöningsleveransen hade aporna redan betalat kostnaden. Därför är en möjlig mekanism för den förbättrade RPE-signalen att en belöning erhållen efter en HC kan vara mer givande. En ökad förväntan på en mer värdefull belöning efter HC skulle kunna öka motivationen för att avsluta rättegången och därmed förkorta RT till belöningsstickorna i HC-försöken.

En annan möjlig tolkning av våra resultat är att befrielse från uppsägningen av den dyra åtgärden kan fungera som en belöning för aporna. Studier av funktionell magnetisk resonansavbildning (fMRI) har visat att smärtlindring kan vara en belöning för mänskliga deltagare37,38; därför kan kostnader spela en liknande roll som en aversiv stimulans till smärta. Om befrielsen från kostnaden är givande och om detta återspeglas i dopaminergisk aktivitet, kan vi förvänta oss att dopaminneuronerna skulle svara i slutet av den långa fixeringen, vilket är tidpunkten för presentation av belöningssignal. Vi observerade emellertid ingen skillnad i dopaminergisk aktivitet vid tidpunkten för belöningssignalpresentationer eller någon skillnad i RT: er till R-signalerna mellan HC- och LC-studierna i HLC: s osäkra uppgift. Därför föreslår vi att befrielse från kostnader inte ger en tillräcklig förklaring för effekten vi observerade i dopaminneuronerna.

Dessutom visade dopaminneuronerna kvalitativt olika svar på den aversiva stimulansen jämfört med kostnaden som förutspådde signalen. En möjlig förklaring till detta är att ansträngningskostnaden var mindre framträdande än luften eller belöningen, eftersom ansträngningskostnaden tillfälligt förlängdes under flera sekunder när aporna utförde fixeringen och inte punkterade. Därför kan dopaminneuroner kanske inte aktiveras till de mindre framträdande kostnads-signalerna. En annan möjlighet är att dopaminneuronerna i salientyp svarar på händelser efter vilka vissa rörelser inducerades. När belöningen eller luftpusten levererades till aporna, gör de några rörelser som slickar eller ögat blinkar. Men i HLC-saccaduppgiften var aporna tvungna att hålla blicken mot fixeringsmålet utan någon rörelse som kostnad. En ny studie visade faktiskt att dopaminfrisättning i nucleus accumbens efter en belöningsförutsägbar ledning dämpas om inte rörelse påbörjas korrekt39. Eftersom kostnaden i våra experiment inte involverade rörelseinitiering, kan detta eventuellt resultera i ett inkonsekvent svar av dopaminneuroner av salientyp. I vilket fall som helst kan vi dra slutsatsen att kostnadsinformation behandlas annorlunda än aversiv information.

Sammanfattningsvis föreslår vi att betald kostnad ökar värdet på belöningsförutsägbara ledtrådar och att detta i sin tur ökar RPE-signalen som är kodad i dopamins neuroner i mitten av hjärnan. Denna effekt ledde till en beteendemässig förutsägelse att ett djurs inlärningshastighet skulle förbättras för belöningsförutsägbara ledtrådar efter upplevelsen av en HC. Det är verkligen vad vi observerade. Därför ledde våra observationer på dopaminsneurons aktivitet till oss att antaga att det finns en beteendevirkning, liksom en förmodad beräkningsmekanism som ligger bakom denna effekt, som vi därefter bekräftade. Våra fynd representerar därför ett exempel på hur triangulering kan hända mellan mätningar av neuraldata, beräkningsteori och beteende: att utveckla en djupare förståelse för neuronal bearbetning i hjärnan kan ge insikter om beteende och dess underliggande beräkningsunderlag.

Metoder

djur

Vi använde två japanska manliga apor (Macaca fuscata; kroppsvikt, 6.5 kg = Ap P; kroppsvikt, 9.0 kg = Monkey S). Vi implanterade en huvudstolpe på toppen av apans skalle så att den kunde fästas vid en stol senare. En inspelningskammare implanterades också för att möjliggöra montering av en elektrodmikromanipulator. Inspelningskammaren lutades 45 ° i sidled i koronalplanet och placerades vid de stereotaxiska koordinaterna: 15 mm framåt mot den yttre kanalen. Efter en återhämtningsperiod tränades aporna ut för att utföra saccaduppgiften. Efter avslutad träning borrade vi ett hål genom skallen inuti inspelningskammaren för elektrodinsättning. Alla djurvårdsprotokoll godkändes av djurförsökskommittén vid Tamagawa universitet och överensstämde med National Institutes of Health Guide for Care and Use of Laboratory Animals.

Beteendeuppgift

Apor tränades för att utföra HLC-saccaduppgiften (Fig. 1a), HLC osäker uppgift (Fig. 5a) och HLC-undersökningsuppgift (fig. 7a). Alla uppgifter utfördes i ett mörkt rum. Aporna satt i en stol framför en 22-tum. LCD-skärm (S2232W, Eizo) med sina implanterade huvudstolpar fästa vid stolen. Avståndet mellan ögonen och skärmen var 70 cm. När en startkön (vit cirkel, 0.3 ° diameter) presenterades i mitten av displayen, var apan skyldig att bibehålla sin blick mot köen. Startkön försvann efter 750 ms och sedan presenterades en kostnadskö (stjärna och väderkvarn för HC- respektive LC-försöken). Apor var tvungna att sackadera till kostnadsköen under 750 ms av köpresentationen. Om de inte sackade till köen avbröts rättegången och samma rättegång startade igen. Under HC-studier presenterades fixeringsmålet (0.3 ° × 0.3 ° vit kvadrat) strax efter att kostnadsköen försvunnit under 2000 ms (HLC-sackad och HLC-osäkra uppgifter) eller 1500 ms (HLC-utforskningsuppgift) och aporna krävdes att sackadera till det och hålla blicken på det. Om aporna flyttade blicken bortom ett fixeringsfönster på 4 ° × 4 ° avbröts uppgiften. Fixeringsfönstret aktiverades 400 ms efter fixeringspunktpresentationen eftersom aporna behövde tid för att förbereda sig för sackaden och för justering av deras fixering. Därför var aporna tvungna att fixera i minst 1600 ms (HLC-sackad och HLC-osäkra uppgifter) eller 1100 ms (HLC-undersökningsuppgifter) i HC-försöken. I LC-prövningarna visades en tom skärm i 1500 ms (HLC-sackad och HLC-osäkra uppgifter) eller 1000 ms (HLC-undersökningsuppgift), och sedan uppstod fixeringsmålet i 500 ms. Eftersom fixeringsfönstret aktiverades 400 ms efter fixeringspunktpresentation, var aporna tvungna att fixera på målet i minst 100 ms i LC-försöken. Aporna uppvisade fler fel i HC-försöket; därför infördes ett tvångsavbrott slumpmässigt 100 ms före belöningsköpresentationen (400 ms efter fixeringsmålpresentationen som är tidpunkten för fixeringsfönstrets början) i LC-försöket för att utjämna framgångsgraden. Efter fixering på målet presenterades en eller två belöningssignaler och aporna var tvungna att sackadera till köen. Om de framgångsrikt gjort en sackad till belöningskön, levererades ett pipljud 750 ms efter belöningsköpresentationen. När aporna gjorde en sackad till R + -kön levererades 0.3 ml vatten samtidigt som pipet. Ingen belöning levererades när de gjorde en sackad till rue.

I HLC-saccaduppgiften användes fyra färgade cirklar som belöningssignaler (RHC+: gul; RHC-: grön; RLC+: rosa; RLC-: blå Fikon. 1a). En experimentell session bestod av 80 sackadförsök, 20 oförutsägbara belöningsförsök, 20 oförutsägbara luftpuffförsök och 5 valförsök. Sackadprövningarna inkluderade 40 HC-studier och 40 LC-studier, båda inkluderade 20 belöningsförsök och 20 inga belöningsförsök. I de oförutsägbara belönings- eller luftpuffförsöken levererades 0.3 ml vattenbelöning eller 0.2 MPa luftpust (150 ms för apa P; 200 ms för apa S) till apans ansikte utan att bli cued. Valförsöken inkluderade en prövning där apor gjorde ett val mellan R + signaler (RHC+ mot RLC+) i HC-rättegången, mellan R-cues (RHC- vs. RLC-) i HC-försöket, mellan R + (RHC+ mot RLC+) signaler i LC-rättegången, mellan R− (RHC- vs. RLC-) ledtrådar i LC-prövning och mellan kostnadsspåren (tilläggsfigur. 1). I försök med valet mellan belöningssignaler var uppgiftsstrukturen identisk med saccaduppgiften före presentation av belöningssignaler. Därefter, istället för att presentera en belöningskupong, presenterades två belöningssignaler i valförsöken och ingen belöning levererades efter belöningssignalpresentation även om aporna gjorde valet mellan R + ledtrådar.

För att testa responsen från dopaminneuroner på belöning av leverans utförde apor HLC-osäker uppgift (Fig. 5a). Denna uppgift liknade HLC-saccaduppgiften med undantag för belöningssignalerna. I den här uppgiften använde vi två belöningssignaler (istället för de fyra belöningsledningarna som användes i HLC-saccaduppgiften), en för HC-rättegången och den andra för LC-rättegången. Belöningen levererades i hälften av försöken efter presentation av belöningskoden. En experimentell session bestod av 80 saccadförsök, 20 oförutsägbara belöningsförsök och 20 oförutsägbara luft-puff-försök. Saccad-försöken inkluderade 40 HC-försök och 40 LC-försök, som båda inkluderade 20-belöningsförsök och 20-inga belöningsförsök. I de oförutsägbara prövningarna levererades en belöning eller luftpuff utan någon aning.

I HLC-undersökningsuppgiften har två belöningssignaler (RHC+, RHC- eller RLC+, RLC-) presenterades samtidigt och aporna var tvungna att saccade till en av belöningssignalerna (Fig. 7a). Om de valde R + -koden fick de en vattenbelöning. Fyra belöningssignaler (RHC +, RHC-, RLC +, RLC-) genererades för varje undersökningssession och aporna var tvungna att lära sig sambandet mellan ledtrådarna och belöna försöksvis. En experimentell session bestod av 100 HC-försök och 100 LC-försök. Vi fann att för undersökningsuppgiften, om vi sätter fixeringsvaraktigheten till att vara 2000 ms i HC-tillståndet så att det matchade varaktigheten på HC-tillståndet i de andra uppgifterna, utförde aporna uppgiften med en mycket låg framgångsgrad kanske på grund av svårigheten med uppgiften och / eller den därmed låga belöningsgraden. För att minska svårigheterna med uppgiften och öka framgångsfrekvensen använde vi därför en fixeringsperiod på 1500 ms som kostnad för HLC-utforskningsuppgiften.

Uppgifterna kontrollerades med ett kommersiellt tillgängligt mjukvarupaket (TEMPO, Reflective Computing, St. Louis, MO, USA). Ett specialtillverkat program med ett applikationsprogrammeringsgränssnitt (OpenGL) användes för visuell stimulanspresentation. De visuella stimulanserna för kostnaden och belöningssignalerna skapades av författarna.

Inspelning och datainsamling

Platsen för substantia nigra uppskattades med hjälp av MR-bilder. En epoxybelagd volframelektrod (skaftdiameter, 0.25 mm, 0.5 – 1.5 MΩ uppmätt vid 1000 Hz, FHC) infördes i substantia nigra med användning av en mikromanipulator (MO-972, Narishige, Tokyo, Japan) monterad på inspelningskammaren med ett rostfritt styrrör. Spänningssignaler förstärktes (× 10,000) och filtrerades (0.5 – 2 kHz). Handlingspotentialer från en enda neuron isolerades med en mall-matchande algoritm (OmniPlex, Plexon, Dallas, TX, USA). Ögonrörelsen övervakades av ett infrarött kamerasystem med en samplingshastighet av 500 Hz (iView X Hi-Speed ​​Primate, SMI, Teltow, Tyskland). Tidpunkten för handlingspotentialer och beteendemässiga händelser registrerades med en tidsupplösning av 1 kHz.

Dataanalys

För att analysera apornas beteende bestämdes RT: er som tidsintervallet mellan stimulans början och tiden då aporna initierade saccaden. Sackadinitieringen bestämdes genom att beräkna tidpunkten när blickläget överskred 5-standardavvikelser från medelblickläget före cue-presentation.

I HLC-undersökningsuppgiften kvantifierades aporna valbeteende genom att passa en kumulativ exponentiell funktion. Funktionen (P) beskriver andelen korrekt val på följande sätt:

P=12+(12-12exp(-at))b,
(1)

var t betyder rättegång, a och b ange kurvens sluttning och platå. Denna funktion passade oberoende av uppgifterna för de två kostnadsvillkoren. Parametrarna för funktionen sökte för att maximera sannolikheten för att observera data från en enda session och de genomsnittliga data. En bootstrap-metod användes för att uppskatta konfidensintervallen vid montering av de genomsnittliga data. En standard RL-modell användes också för att kvantifiera beteendedata. Stimulansvärdena Vj(t) för det valda valet j (j = 1 för HC-tillstånd; j = 2 för LC-tillstånd) uppdaterades enligt följande:

Vj(t+1)=Vj(t)+αj(R(t)-Vj(t)),
(2)

var αj ange inlärningshastigheterna, som var begränsade till värden mellan 0 och 1. R(t) anger belöningsbeloppet (1: belönat, 0: ingen belöning) vid försök t.

Sannolikheten Pj(t) att välja stimulans j av de två stimuli vid prövningen t ges av softmax-regeln

Pj(t)=exp(Vj(t)βj)/Σ2i=1exp(Vi(t)βi),
(3)

var βj indikerar omfattningen av utforskningen.

Vi registrerade neuronal aktivitet under HLC-sackaden och HLC-osäker uppgift men inte HLC-utforskningsuppgiften. HLC-utforskningsuppgiften genomfördes som en rent beteendestudie. Dopaminneuroner identifierades om de uppvisade var och en av följande egenskaper: en låg tonisk avfyrningshastighet (<6 Hz), en lång varaktighet av spikvågformen (> 300 μs) och ett fasrespons på den oförutsägbara belöningen (kompletterande fig. 2a). Vi analyserade försök där aporna kunde slutföra försöket utan några fel (bromsfixering, ingen saccade eller artificiell abort). Den genomsnittliga neuronavfyrningshastigheten beräknades med 1 ms-fack och jämnades ut med en Gaussisk kärna (σ = 30 ms, bredd = 4σ) för att producera spikdensitetsfunktioner. Svaren från dopaminneuronerna på varje uppdragshändelse beräknades som den normaliserade avfyrningshastigheten i förhållande till den spontana aktiviteten (genomsnittlig avfyrningshastighet under 500 ms före start av startstart). Avfyrningshastigheterna beräknades inom tidsfönstren bestämda för varje uppgiftshändelse och ämne. Dessa tidsfönster bestämdes utifrån den befolkningsgenomsnittliga aktiviteten. Vi definierade start- och slutpunkterna för tidsfönstren bestämda utifrån stigningen och nedgångstiden för det populationsgenomsnittliga svaret med tidigare apa-dopaminstudier som referenser (Kompletterande Fig. 3). Tidsfönstret för start-cue definierades som 200 – 400 ms efter start-start-start för neuroner inspelade från apor P och S. Tidsfönstret för tillstands-cue definierades som 150 – 300 ms efter tillståndets start för apa P och 200 – 400 ms för apa S. Tidsfönstret för belöningssignalen definierades som 140 – 350 ms efter belöningskonstart för apa P och 220 – 420 ms för apa S. Tidsfönstret för belöningsleveransen definierades som 225– 475 ms efter ljudsignalen för apa P och 200 – 450 ms för apa S. Tidsfönstret för den oförutsägbara belöningsleveransen definierades som 100 – 300 ms efter belöningsleveransen för apa P och 150 – 300 ms för apa S. tidsfönstret för det oförutsägbara luftpuffet definierades som 30 – 230 ms efter luftrullleveransen för apa P och 50 – 200 ms för apa S.

Vi klassificerade alla inspelade dopaminneuroner i två olika kategorier, motiveringsvärde och viktighetstyper. Om ett neurons svar på luftpuststimulierna var mindre än den spontana aktiviteten, klassificerades neuronet som av den motiverande värdetypen (Fig. 3d, e). Däremot, om reaktionen från en neuron på luft-puff-stimuli var större än den spontana aktiviteten, klassificerades neuronet som att vara av salienttypen (Fig. 3g, h).

För att kvantifiera differentiell neuronal aktivitet mellan uppgiftsförhållanden utfördes en ROC-analys. Vi beräknade auROC för varje neuron. AuROC mindre eller större än 0.5 indikerar ett mindre eller större svar i HC-studien. Eftersom antalet neuroner i vissa neuronal datamängder var små, använde vi Wilcoxons undertecknade rangtest för att minska effekten av outliers för att kvantifiera den partiska fördelningen av auROCs.

Kommersiellt tillgänglig mjukvara, MATLAB (MathWorks, Natick, MA, USA), användes för att utföra all dataanalys.

Histologisk undersökning

Efter inspelningsexperimentet avlivades båda aporna och histologisk analys utfördes för att verifiera inspelningspositionen (Kompletterande Fig. 2b). Apor avlivades genom administrering av en dödlig dos av pentobarbitalnatrium (70 mg kg-1) och perfunderade med 4% formaldehyd i fosfatbuffert. Seriella koronalsektioner (tjocklek, 10 μm) skars och immunostained med anti-tyrosin hydroxylas (TH) antikropp (varje 25 sektion; anti-TH antikropp, 1: 500; Merck, Darmstadt, Tyskland) eller Nissl färgning (varje 25 sektion) .

Rapporteringsöversikt

Ytterligare information om forskningsdesign finns i Sammanfattningsrapport för naturforskning länkad till den här artikeln.

Data tillgänglighet

Uppgifterna som används i analysen av denna studie är tillgängliga från motsvarande författare på rimlig begäran. En rapporteringsöversikt för den här artikeln är tillgänglig som en kompletterande informationsfil. Källdata som ligger bakom fig. 1, 3-8 och kompletterande figurer. 1, 4-12 tillhandahålls som en kildedatafil.

Kod tillgänglighet

Matlabkoder som används i analysen av denna studie är tillgängliga från motsvarande författare på rimlig begäran.

Referensprojekt

  1. 1.

    Clement, TS, Feltus, JR, Kaiser, DH & Zentall, TR ”Arbetsetik” hos duvor: belöningsvärde är direkt relaterat till den ansträngning eller tid som krävs för att få belöningen. Psychon. Tjur. Varv. 7, 100-106 (2000).

  2. 2.

    Klein, ED, Bhatt, RS & Zentall, TR Kontrast och motiveringen av ansträngning. Psychon. Tjur. Varv. 12, 335-339 (2005).

  3. 3.

    Zentall, TR & Singer, RA Kontrast inom rättegången: duvor föredrar konditionerade förstärkare som följer en relativt mer snarare än en mindre aversiv händelse. J. Exp. Anal. Behav. 88, 131-149 (2007).

  4. 4.

    Aronson, E. & Mills, J. Effekten av allvarlighetsinitiering på att tycka om en grupp. J. Abnorm. Soc. Psychol. 59, 177-181 (1959).

  5. 5.

    Festinger, L. En teori om kognitiv dissonans. (Stanford University Press, Kalifornien, 1957).

  6. 6.

    Alessandri, J., Darcheville, JC, Delevoye-Turrell, Y. & Zentall, TR Preferens för belöningar som följer större ansträngning och större försening. Lär dig Behav. 36, 352-358 (2008).

  7. 7.

    Schultz, W., Carelli, RM & Wightman, RM Phasic dopaminsignaler: från subjektivt belöningsvärde till formell ekonomisk nytta. Curr. Opin. Behav. Sci. 5, 147-154 (2015).

  8. 8.

    Schultz, W., Dayan, P. & Montague, PR Ett neuralt substrat av förutsägelse och belöning. Vetenskap 275, 1593-1599 (1997).

  9. 9.

    Bromberg-Martin, ES, Matsumoto, M. & Hikosaka, O. Dopamin i motiverande kontroll: givande, aversiv och varnande. Neuron 68, 815-834 (2010).

  10. 10.

    Bayer, HM & Glimcher, PW dopamin neuroner i Midbrain kodar för en kvantitativ felsignal för belöningsförutsägelse. Neuron 47, 129-141 (2005).

  11. 11.

    Nakahara, H., Itoh, H., Kawagoe, R., Takikawa, Y. & Hikosaka, O. Dopaminneuroner kan representera kontextberoende förutsägelsefel. Neuron 41, 269-280 (2004).

  12. 12.

    Tobler, PN, Fiorillo, CD & Schultz, W. Adaptiv kodning av belöningsvärde av dopaminneuroner. Vetenskap 307, 1642-1645 (2005).

  13. 13.

    Nomoto, K., Schultz, W., Watanabe, T. & Sakagami, M. Temporellt utvidgade dopaminsvar till perceptuellt krävande belöningsförutsägande stimuli. J. Neurosci. 30, 10692-10702 (2010).

  14. 14.

    Watabe-Uchida, M., Zhu, L., Ogawa, SK, Vamanrao, A. & Uchida, N. Helkärnskartläggning av direktingångar till dopaminneuroner i hjärnan. Neuron 74, 858-873 (2012).

  15. 15.

    Tanaka, SC et al. Förutsägelse av omedelbara och framtida belöningar rekryterar differentiellt cortico-basal ganglia-slingor. Nat. Neurosci. 7, 887-893 (2004).

  16. 16.

    Haber, SN, Kim, KS, Mailly, P. & Calzavara, R. Belöningsrelaterade kortikala ingångar definierar en stor striatal region i primater som gränsar till associerande kortikala anslutningar, vilket ger ett substrat för incitamentsbaserat lärande. J. Neurosci. 26, 8368-8376 (2006).

  17. 17.

    Doya, K. Modulatorer av beslutsfattande. Nat. Neurosci. 11, 410-416 (2008).

  18. 18.

    Roesch, MR, Calu, DJ & Schoenbaum, G. Dopamin-nervceller kodar det bättre alternativet hos råttor som bestämmer mellan olika försenade eller stora belöningar. Nat. Neurosci. 10, 1615-1624 (2007).

  19. 19.

    Lak, A., Stauffer, WR & Schultz, W. Dopamin-förutsägelsefelsvar integrerar subjektivt värde från olika belöningsdimensioner. Proc. Natl Acad. Sci. usa 111, 2343-2348 (2014).

  20. 20.

    Stauffer, WR, Lak, A. & Schultz, W. Dopaminbelöningsförutsägelsefelsvar återspeglar marginell nytta. Curr. Biol. 24, 2491-2500 (2014).

  21. 21.

    Noritake, A., Ninomiya, T. & Isoda, M. Social belöningsövervakning och värdering i makakhjärnan. Nat. Neurosci. 21, 1452-1462 (2018).

  22. 22.

    Pasquereau, B. & Turner, RS Begränsad kodning av ansträngning av dopaminneuroner i en kostnads-nytta-kompromissuppgift. J. Neurosci. 33, 8288-8300 (2013).

  23. 23.

    Varazzani, C., San-Galli, A., Gilardeau, S. & Bouret, S. Noradrenalin och dopaminneuroner i belöning / ansträngning: en direkt elektrofysiologisk jämförelse hos uppförande apor. J. Neurosci. 20, 7866-7877 (2015).

  24. 24.

    Watanabe, N., Sakagami, M. & Haruno, M. Belöningsprognosfelsignal förstärkt av striatum-amygdala-interaktion förklarar accelerationen av probabilistisk belöningsinlärning av känslor. J. Neurosci. 33, 4487-4493 (2013).

  25. 25.

    Di Ciano, P., Cardinal, RN, Cowell, RA, Little, SJ & Everitt, B. Differentiell involvering av NMDA-, AMPA / kainate- och dopaminreceptorer i kärnan accumbens kärna vid förvärv och prestanda av Pavlovian-tillvägagångssätt. J. Neurosci. 21, 9471-9477 (2001).

  26. 26.

    Flagel, SB et al. En selektiv roll för dopamin i stimulansbelöning. Natur 469, 53-57 (2011).

  27. 27.

    Blough, DS Effekter av grundning, diskriminerbarhet och förstärkning på reaktionstidskomponenter i duusvisuell sökning. J. Exp. Psychol. Anim. Behav. Bearbeta. 26, 50-63 (2000).

  28. 28.

    Matsumoto, M. & Hikosaka, O. Två typer av dopaminneuron förmedlar tydligt positiva och negativa motiveringssignaler. Natur 459, 837-841 (2009).

  29. 29.

    Matsumoto, M. & Takada, M. Distinkta framställningar av kognitiva och motiverande signaler i dopaminneuroner i hjärnan. Neuron 79, 1011-1024 (2013).

  30. 30.

    Watanabe, M. et al. Beteende-reaktioner som återspeglar förväntningar på olika belöningar hos apor. Exp. Brain Res. 140, 511-518 (2001).

  31. 31.

    Takikawa, Y., Kawagoe, R. & Hikosaka, O. En möjlig roll av hjärnan dopamin neuroner i kort och långvarig anpassning av sackader till position-belöning kartläggning. J. Neurophysiol. 92, 2520-2529 (2004).

  32. 32.

    Kobayashi, S. & Schultz, W. Påverkan av belöningsfördröjningar på dopaminneurons svar. J. Neurosci. 28, 7837-7846 (2008).

  33. 33.

    Enomoto, K. et al. Dopaminneuroner lär sig att koda det långsiktiga värdet för flera framtida belöningar. Proc. Natl Acad. Sci. usa 108, 15462-15467 (2011).

  34. 34.

    Lak, A., Nomoto, K., Keramati, M., Sakagami, M. & Kepecs, A. Midbrain Dopamin-neuroner signalerar tron ​​på valnoggrannhet under ett perceptuellt beslut. Curr. Biol. 27, 821-832 (2017).

  35. 35.

    Williams, BA & McDevitt, MA Inhibition och superconditioning. Psychol. Sci. 13, 454-459 (2002).

  36. 36.

    Behrens, TE, Woolrich, MW, Walton, ME & Rushworth, MF Att lära sig värdet av information i en osäker värld. Nat. Neurosci. 10, 1214-1221 (2007).

  37. 37.

    Seymour, B. et al. Motståndare aptit-aversiva nervprocesser ligger till grund för prediktivt inlärning av smärtlindring. Nat. Neurosci. 8, 1234-1240 (2005).

  38. 38.

    Kim, H., Shimojo, S. & O'Doherty, JP Undviker ett motbjudande resultat givande? Neurala substrat för undvikande lärande i den mänskliga hjärnan. PLoS Biol. 4, e233 (2006).

  39. 39.

    Syed, EC et al. Åtgärdsinitiativ bildar mesolimbisk dopamin som kodar för framtida belöningar. Nat. Neurosci. 19, 34-36 (2016).

Hämta referenser

Tack

Detta arbete stöds av MEXT / JSPS Stipendier för vetenskaplig forskning (Kakenhi) Beviljningsnummer JP16H06571 och JP18H03662 till MS. Denna forskning stöds delvis av det strategiska forskningsprogrammet för hjärnvetenskap som stöds av det japanska byrån för medicinsk forskning och utveckling (AMED) ) och Japan-USA: s hjärnforskningssamarbetsprogram. Denna forskning stöds av National Bio-Resource Project vid National Institute of Physiology Science (NBRP at NIPS) från Japan Agency for Medical Research and Development, AMED. Vi tackar Bernard W. Balleine och Andrew R. Delamater för deras hjälp med att skriva papperet.

upphovsmän

ST, JPO och MS designade experimenten. ST utförde experimenten och analyserade data. JPO och MS förfinade experimenten och dataanalyserna. ST, JPO och MS skrev manuskriptet.

Korrespondens till Masamichi Sakagami.