Publicerad online 2018 May 14. doi: 10.1038 / s41593-018-0152-y
Abstrakt
Dopamin är en kritisk modulator för både inlärning och motivation. Detta utgör ett problem: hur kan målceller veta om ökad dopamin är en signal att lära sig eller flytta? Det antas ofta att motivation innebär långsamma ("tonic") dopaminförändringar, medan snabba ("fasiska") dopaminfluktuationer förmedlar belöningsförutsägelsefel för inlärning. Ändå har nyligen genomförda studier visat att dopamin förmedlar motivationsvärde och främjar rörelse, även på tidsskalor under sekund. Här beskriver jag en alternativ redogörelse för hur dopamin reglerar pågående beteende. Dopaminfrisättning relaterad till motivation skapas snabbt och lokalt av receptorer på dopaminterminaler, oberoende av dopamincellsbränning. Målneuroner växlar plötsligt mellan inlärnings- och prestationslägen, med striatal kolinergiska internuroner som ger en kandidatomkopplingsmekanism. Dopamins beteendemässiga effekter varierar beroende på subregion, men i varje fall ger dopamin en dynamisk uppskattning av om det är värt att spendera en begränsad intern resurs, som energi, uppmärksamhet eller tid.
Är dopamin en signal för lärande, för motivation eller båda?
Vår förståelse för dopamin har förändrats tidigare och förändras ännu en gång. En kritisk skillnad är mellan dopamineffekter på ström beteende (prestanda) och dopamineffekter på framtida beteende (lärande). Båda är verkliga och viktiga, men vid olika tidpunkter har en varit för och den andra inte.
När (i 70) det blev möjligt att utföra selektiva, fullständiga skador på dopaminvägar, var den uppenbara beteendekonsekvensen en allvarlig minskning av rörelsen1. Detta passar de akinetiska effekterna av dopaminförlust hos människor, producerade av avancerad Parkinsons sjukdom, giftiga läkemedel eller encefalit2. Men varken råtta eller mänskliga fall visar en grundläggande oförmåga att röra sig. Dopamin-lesionerade råttor simmar i kallt vatten3och akinetiska patienter kan komma upp och springa om ett brandlarm låter (“paradoxal” kinesia). Det finns inte heller ett grundläggande underskott i att uppskatta belöningar: dopamin-lesionerade råttor kommer att konsumera mat som placeras i munnen och visar tecken på att njuta av det4. Snarare kommer de inte att välja att anstränga sig för att aktivt få belöningar. Dessa och många andra resultat etablerade en grundläggande koppling mellan dopamin och motivation5. Till och med den rörelse som avtar i mindre allvarliga fall av Parkinsons sjukdom kan betraktas som ett motivationsunderskott, vilket återspeglar implicita beslut att det inte är värt att spendera den energi som krävs för snabbare rörelser6.
Sedan (i '80s') kom banbrytande inspelningar av dopaminneuroner i beteende apor (i mellanhårsområden som projicerar till förhjärnan: ventral tegmental area, VTA / substantia nigra pars compacta, SNc). Bland observerade avfyrningsmönster var korta skador av aktivitet för stimuli som utlöste omedelbara rörelser. Denna "fasiska" dopaminbränning tolkades ursprungligen som stöd för "beteendeaktivering"7 och "motiverande upphetsning"8 - med andra ord som uppfriskande djurets nuvarande beteende.
En radikal förändring inträffade i 90, med omtolkningen av fasiska dopamin-skurar som kodning belöna förutsägelsefel (RPEs9). Detta baserades på en nyckelobservation: dopaminceller svarar på oväntade stimuli förknippade med framtida belöning, men slutar ofta att svara om dessa stimuli förväntas10. RPE-idén har sitt ursprung i tidigare inlärningsteorier, och särskilt i det då utvecklande datavetenskapliga området för förstärkningslärande11. Poängen med en RPE-signal är att uppdatera värden(uppskattningar av framtida belöningar). Dessa värden används senare för att göra val som maximerar belöningen. Eftersom avfyrning av dopaminceller liknade RPE och RPE används för att lära sig, blev det naturligt att betona dopaminens roll i inlärningen. Senare optogenetiska manipulationer bekräftade den dopaminerge identiteten hos RPE-kodande celler12,13 och visade att de faktiskt modulerar inlärning14,15.
Tanken på att dopamin ger en inlärningssignal passar vackert med litteraturen som dopamin modulerar synaptisk plasticitet i striatum, dopamins primära förhjärnmål. Den tredubbla sammanfallen av glutamatstimulering av en striatal dendritrygg, postsynaptisk depolarisering och frisättning av dopamin får till exempel ryggraden att växa16. Dopaminerg modulering av långvariga inlärningsmekanismer hjälper till att förklara de ihållande beteendevirkningarna av beroendeframkallande läkemedel, som delar egenskapen att förbättra frisättningen av striatal dopamin17. Till och med den djupa akinesien med dopaminförlust kan delvis redovisas av sådana inlärningsmekanismer18. Brist på dopamin kan behandlas som en ständigt negativ RPE, som gradvis uppdaterar värden på åtgärder mot noll. Liknande progressiva, utrotningsliknande effekter på beteende kan produceras av dopaminantagonister19,20.
Ändå har tanken att dopamin är kritiskt inblandad i pågående motivation aldrig försvunnit - tvärtom är det allmänt ansett för givet av beteendevetenskapsmän. Detta är lämpligt med tanke på de starka bevisen för att dopaminfunktioner i motivation / rörelse / uppfriskning är dissocierbara från lärande15,20-23. Mindre allmänt uppskattat är utmaningen med att förena denna motivationsroll med teorin om att DA ger en RPE-lärningssignal.
Motivation “ser fram emot”: den använder förutsägelser om framtida belöningar (värden) för att på lämpligt sätt aktivera aktuellt beteende. Däremot, lärande "tittar bakåt" på tillstånd och handlingar i det senaste förflutet och uppdaterar deras värden. Dessa är komplementära faser i en cykel: de uppdaterade värdena kan användas i efterföljande beslut om dessa stater återupptas, sedan uppdateras igen, och så vidare. Men vilken fas i cykeln är dopamin involverad i - att använda värden för att fatta beslut (prestanda) eller uppdatera värden (lärande)?
Under vissa omständigheter är det enkelt att föreställa sig att dopamin spelar båda roller samtidigt.24Oväntade belöningsförutsägbara ledtrådar är de arketypiska händelserna för att framkalla dopamincells avfyrning och frigöring, och sådana ledtrådar typiskt både stärker beteende och framkallar inlärning (Fig 1). I denna speciella situation ökar både belöningsförutsägelse och belöningsförutsägningsfel samtidigt - men så är inte alltid fallet. Som bara ett exempel är människor och andra djur ofta motiverade att arbeta för belöningar även när lite eller inget överraskande inträffar. De kan arbeta hårdare och hårdare när de kommer närmare och närmare belöningen (värdet ökar när belöningen närmar sig). Poängen är att lärande och motivation är begreppsmässigt, beräkningsmässigt och beteendemässigt distinkta - och ändå verkar dopamin göra båda.
Nedan utvärderar jag kritiskt aktuella idéer om hur dopamin kan uppnå både inlärnings- och motivationsfunktioner. Jag föreslår en uppdaterad modell, baserad på tre viktiga fakta: 1) frisläppande av dopamin från terminaler uppstår inte bara av dopamincellbränning, utan kan också kontrolleras lokalt; 2) dopamin påverkar både synaptisk plasticitet och målbarhets excitabilitet, med tydliga konsekvenser för inlärning respektive prestanda; 3) dopamineffekter på plasticiteten kan slås på eller av av närliggande kretselement. Tillsammans kan dessa funktioner tillåta hjärnkretsar att växla mellan två distinkta dopaminmeddelanden, för lärande respektive motivation.
Finns det separata "fasiska" och "toniska" dopaminsignaler med olika betydelser?
Det hävdas ofta att inlärnings- och motivationsrollerna för dopamin uppträder på olika tidsskalor25. Dopaminceller avfyrar kontinuerligt ("toniskt") med några få spikar per sekund, med enstaka korta ("fasiska") brister eller pauser. Utbrott, särskilt om konstgjorda synkroniseras över dopaminceller, driver motsvarande snabba ökningar av dopamin i förhjärnan26 som är mycket övergående (varaktighet under sekund27). Det separata bidraget av tonic dopamincellskydd till dopaminkoncentrationer i förgränsen är mindre tydligt. Vissa bevis tyder på att detta bidrag är mycket litet28. Det kan vara tillräckligt för att producera nästan kontinuerlig stimulering av D2-receptorer med högre affinitet, vilket gör att systemet kan märka korta pauser vid avfyrning av dopaminceller29 och använd dessa pauser som negativa förutsägelsefel.
Mikrodialys har använts i stor utsträckning för att direkt mäta dopaminnivåer för hjärnan, om än med låg temporär upplösning (vanligtvis i genomsnitt i många minuter). Sådana långsamma mätningar av dopamin kan vara utmanande att exakt relatera till beteende. Icke desto mindre visar mikrodialys av dopamin i nucleus accumbens (NAc; ventral / medial striatum) positiva korrelationer till lokomotorisk aktivitet30 och andra motivindex5. Detta har vidtagits allmänt för att det finns långsamma ("tonic") förändringar i dopaminkoncentrationen, och att dessa långsamma förändringar förmedlar en motiverande signal. Mer specifikt har beräkningsmodeller föreslagit att toniska dopaminnivåer följer den långsiktiga genomsnittliga belöningsgraden31 - en användbar motiveringsvariabel för tidsallokering och foderbeslut. Det är värt att betona att väldigt få artiklar tydligt definierar "toniska" dopaminnivåer - de antar vanligtvis bara att dopaminkoncentrationen långsamt förändras över flera minuters tidsskala för mikrodialys.
Ändå står denna "fasiska dopamin = RPE / lärande, tonic dopamin = motivation" inför många problem. För det första finns det inga direkta belägg för att tonic dopamincellskydd normalt varierar över långsamma skalor. Tonic avfyrningshastigheter förändras inte med förändrad motivation32,33. Det har hävdats att tonicdopaminnivåerna förändras på grund av en förändrad andel aktiva dopaminceller34,35. Men i många studier på odrivna, opåverkade djur har dopaminceller aldrig rapporterats växla mellan tysta och aktiva tillstånd.
Det faktum att mikrodialys mäter dopaminnivåer långsamt betyder inte att dopaminnivåer faktiskt förändras långsamt. Vi har nyligen15 undersökte rått NAc-dopamin i en sannolik belöningsuppgift, med användning av både mikrodialys och snabbskannad cyklisk voltammetri. Vi bekräftade att mesolimbisk dopamin, mätt med mikrodialys, korrelerar med belöningsgraden (belöningar / min). Men även med en förbättrad mikrodialys temporal upplösning (1min) fluktuerade dopamin lika snabbt som vi provade det: vi såg inga bevis för en iboende långsam dopaminsignal.
Med hjälp av den finare temporära upplösningen fortfarande av voltammetri observerade vi en nära relation mellan dopaminfluktuationer under sekund och motivation. När råttor utförde sekvensen av åtgärder som behövdes för att uppnå belöningar steg dopamin högre och högre och nådde en topp precis som de fick belöningen (och sjönk snabbt när de konsumerade den). Vi visade att dopamin korrelerade starkt med omedelbart tillståndsvärde - definierat som den förväntade framtida belöningen, diskonterad med den förväntade tiden som behövs för att ta emot den. Denna snabba dopamindynamik kan också förklara mikrodialysresultaten utan att åberopa separata dopaminsignaler på olika tidsskalor. När djur upplever mer belöningar ökar de sina förväntningar på framtida belöningar vid varje steg i försökssekvensen. I stället för en långsamt utvecklande genomsnittlig belöningsfrekvenssignal förklaras korrelationen mellan dopamin och belöningsgrad bäst som ett medelvärde över den förlängda insamlingstiden för mikrodialysprov för dessa snabbt utvecklande tillståndsvärden.
Denna värdetolkning av mesolimbisk dopaminfrisättning överensstämmer med voltammetriresultat från andra forskningsgrupper, som upprepade gånger har funnit att dopaminfrisättning ramper upp med ökande närhet till belöning36-38(Fig 2). Denna motivationssignal är inte i sig ”långsam” utan kan snarare observeras i ett kontinuerligt intervall av tidsskalor. Även om dopaminramper kan pågå i flera sekunder när ett tillvägagångssätt också varar flera sekunder38, detta återspeglar beteendes tidsförlopp snarare än inneboende dopamindynamik. Förhållandet mellan mesolimbisk dopaminfrisättning och fluktuerande värde syns så snabbt som inspelningstekniken tillåter, dvs på en ~ 100ms tidsskala med akuta voltammetrielektroder15.
Snabba dopaminsvängningar speglar inte bara motivation, de driver också omedelbart motiverat beteende. Större fasresponser av dopaminceller för att utlösa ledtrådar förutsäger kortare reaktionstider på samma prövning39. Optogenetisk stimulering av VTA-dopaminceller gör råttor mer benägna att börja arbeta i vår probabilistiska belöningsuppgift15, precis som om de hade en högre förväntning på belöning. Optogenetisk stimulering av SNc-dopaminneuroner, eller deras axoner i ryggstratum, ökar sannolikheten för rörelse40,41. Kritiskt är dessa beteendeeffekter uppenbara inom ett par hundra millisekunder från början av optogenetisk stimulering. Förmågan hos belöningsförutsägbara ledtrådar att öka motivation verkar förmedlas av mycket snabb dopaminerg modulering av excitabiliteten hos NAc-spiny neuroner42. Eftersom dopamin förändras snabbt, och dessa dopaminförändringar påverkar motivation snabbt, beskrivs motivationen för dopamin bättre som snabb ("fasisk"), inte långsam ("tonic").
Vidare löser inte i sig åberopande av separata snabba och långsamma tidsskalor det avkodningsproblem som neuroner med dopaminreceptorer står inför. Om dopamin signalerar inlärning verkar modulering av synaptisk plasticitet vara ett lämpligt cellulärt svar. Men omedelbara effekter på motiverat beteende innebär omedelbara effekter på spikning - t.ex. genom snabba förändringar i upphetsning. Dopamin kan ha båda dessa postsynaptiska effekter (och mer), så har en given dopaminkoncentration en specifik betydelse? Eller behöver denna betydelse konstrueras - t.ex. genom att jämföra dopaminnivåer över tiden eller genom att använda andra sammanfallande signaler för att bestämma vilket cellulärt maskineri som ska ingå? Denna möjlighet diskuteras vidare nedan.
Frigör dopamin samma information som avfyrning av dopaminceller?
Förhållandet mellan snabba dopaminfluktuationer och motivationsvärde verkar konstigt, med tanke på att dopamincellskydd i stället liknar RPE. Dessutom har vissa studier rapporterat RPE-signaler i mesolimbisk dopaminfrisättning43. Det är viktigt att notera en utmaning vid tolkningen av vissa former av neurala data. Värdesignaler och RPE är korrelerade med varandra - inte överraskande eftersom RPE vanligtvis definieras som värdeförändringen från ett ögonblick till ett annat ("temporär skillnad" RPE). På grund av denna korrelation är det viktigt att använda experimentella mönster och analyser som skiljer värde från RPE-konton. Problemet förvärras när man använder ett neuralt mått som är beroende av relativa, snarare än absoluta, signaländringar. Voltammetry-analyser jämför vanligtvis dopamin vid någon tidpunkt av intresse med en "baslinje" -epok tidigare i varje försök (för att ta bort signalkomponenter som är icke-dopaminberoende, inklusive elektrodladdning vid varje spänningssvep och drift över en tidsskala av minuter). Men att subtrahera en baslinje kan göra att en värdesignal liknar en RPE-signal. Detta är vad vi observerade i våra egna voltammetri-data (Fig. 2e). Förändringar i belöningsförväntningen återspeglades i förändringar i dopaminkoncentrationen tidigt i varje försök, och dessa förändringar missas om man bara antar en konstant baslinje över studier15. Slutsatser om dopaminfrisättning och RPE-kodning måste därför ses med försiktighet. Denna datatolkningsfara gäller inte bara voltammetri, utan alla analyser som bygger på relativa förändringar - eventuellt inklusive vissa fMRI och fotometri44.
Ändå måste vi fortfarande förena värderelaterad frisättning av dopamin i NAc-kärnan med den konsekventa frånvaron av värderelaterad spikning av dopaminneuroner.13även inom det laterala VTA-området som tillhandahåller dopamin till NAc-kärnan45. En potentiell faktor är att dopaminceller vanligtvis registreras i huvudbegränsade djur som utför klassiska konditioneringsuppgifter, medan dopaminfrisättning vanligtvis mäts i obegränsade djur som aktivt rör sig genom sin miljö. Vi föreslog att mesolimbisk dopamin specifikt skulle kunna indikera värdet av "arbete"15 - att det återspeglar ett krav på att ägna tid och ansträngning för att få belöningen. I enlighet med detta ökar dopamin med signaler som instruerar rörelse, men inte med signaler som instruerar stillhet, även om de indikerar liknande framtida belöning46. Om - som i många klassiska konditioneringsuppgifter - det inte finns någon fördel med aktivt "arbete", kan dopaminerga förändringar som indikerar arbetets värde vara mindre uppenbara.
Ännu viktigare kan vara det faktum att frisättning av dopamin kan kontrolleras lokalt vid själva terminalerna och därmed visa spatio-temporala mönster oberoende av cellkroppsspikning. Till exempel kan den basolaterala amygdala (BLA) påverka frisättningen av NAc-dopamin även när VTA inaktiveras47. Omvänt reducerar inaktivering av BLA frisättning av dopamin av NAc och motsvarande motiverat beteende utan att uppenbarligen påverka VTA-skjutningen48. Dopaminterminaler har receptorer för en rad neurotransmittorer, inklusive glutamat, opioider och acetylkolin. Nikotiniska acetylkolinreceptorer tillåter striatal kolinerga internuroner (CIN) att snabbt kontrollera dopaminfrisättning49,50. Även om det länge har noterats att lokal kontroll av frisättning av dopamin är potentiellt viktigt7,51, det har inte inkluderats i beräkningar av dopaminfunktion. Jag föreslår att dopaminfrisättningsdynamik relaterad till värdekodning till stor del uppstår genom lokal kontroll även om avfyrning av dopaminceller ger viktiga RPE-liknande signaler för inlärning.
Hur kan dopamin betyda både inlärning och motivation utan förvirring?
I princip är en värdesignal tillräcklig för att överföra RPE också, eftersom temporära skillnader RPE helt enkelt är snabba värdeförändringar (Fig. 2B). Exempelvis kan distinkta intracellulära vägar i målneuroner vara annorlunda känsliga för den absoluta koncentrationen av dopamin (representerande värde) kontra snabba relativa förändringar i koncentration (som representerar RPE). Detta schema verkar troligt, med tanke på den komplexa dopaminmoduleringen av spiny neuronfysiologi52 och deras känslighet för temporära mönster av kalciumkoncentration53. Ändå verkar detta också något överflödigt. Om det redan finns en RPE-liknande signal i dopamincellspikning, borde det vara möjligt att använda den snarare än att härleda RPE från en värdesignal.
För att på lämpligt sätt använda distinkta RPE- och värdesignaler kan dopaminmottagande kretsar aktivt växla hur de tolkar dopamin. Det finns spännande bevis på att acetylkolin också kan tjäna denna växlingsroll. Samtidigt som dopaminceller bränder spikar till oväntade signaler visar CIN: er korta (~ 150ms) raster i skjutning, som inte skalas med RPE54. Dessa CIN-pauser kan drivas av VTA GABAergiska neuroner55 såväl som "överraskning" -relaterade celler i den intralaminära thalamus, och har föreslagits att fungera som en associerbar signal som främjar lärande56. Morris och Bergman föreslog54 att kolinergiska pauser definierar temporära fönster för striatal plasticitet, under vilka dopamin kan användas som en inlärningssignal. Dopaminberoende plastisitet undertrycks kontinuerligt av mekanismer inklusive muskariniska m4-receptorer på direktvägs-striatal neuroner57. Modeller av intracellulär signalering tyder på att frånvaron av m4-bindning under CIN-pauser kan fungera synergistiskt med fasisk dopaminbrist för att öka PKA-aktiveringen58och därigenom främjar synaptisk förändring.
Striatal kolinergiska celler är således väl positionerade för att dynamiskt byta innebörden av ett multiplexerat dopaminergt meddelande. Under CIN-pauser skulle lättnad av ett muskarinblock över synaptisk plasticitet möjliggöra att dopamin kan användas för att lära sig. Vid andra tillfällen skulle frisläppande från dopaminterminaler skulpteras lokalt för att påverka pågående beteendeprestanda. För närvarande är detta förslag både spekulativt och ofullständigt. Det har föreslagits att CIN: er integrerar information från många omgivande spiny neuroner för att extrahera användbara nätverkssignaler såsom entropi59,60. Men det är inte alls klart att CIN-aktivitetsdynamik kan användas för att generera dopaminvärdesignaler61och även för att granska dopamininlärningssignaler.
Betyder dopamin samma sak i hela förhjärnan?
När RPE-idén tog grepp, föreställdes man att dopamin var en global signal, som sänder ett felmeddelande genom hela streatala och frontala kortikala mål. Schultz betonade att apa-dopaminceller i hela VTA och SNc har mycket liknande svar62. Studier av identifierade dopaminceller har också hittat ganska homogena RPE-liknande svar i gnagare, åtminstone för laterala VTA-neuroner inom klassiska konditioneringssituationer.13. Ändå är dopaminceller molekylärt och fysiologiskt olika63-65 och det finns nu många rapporter om att de visar olika skottmönster i beteende djur. Dessa inkluderar fasiska ökningar av avfyrning till aversiva händelser66 och utlösa ledtrådar67 som passar dåligt med RPE-kontot. Många dopaminceller visar ett initialt kort-latensrespons på sensoriska händelser som återspeglar överraskning eller "varning" mer än specifik RPE-kodning68,69. Denna varningsaspekt är mer framträdande i SNc69, där dopaminceller projicerar mer till “sensorimotorisk” dorsal / lateral striatum (DLS45,63). Underpopulationer av SNc-dopaminceller har också rapporterats öka41 eller minska70 avfyrning i samband med spontana rörelser, även utan externa ledtrådar.
Flera grupper använde fiberfotometri och kalciumindikatorn GCaMP för att undersöka bulkaktivitet av subpopulationer av dopaminneuroner71,72. Dopaminceller som projicerar till dorsal / medial striatum (DMS) visade kortvarig deprimerad aktivitet till oväntade korta chocker, medan de som projicerade till DLS visade ökad aktivitet71- mer konsekvent med ett varningssvar. Distinkta dopaminergiska reaktioner i olika underregioner i framhjärnan har också observerats med GCaMP för att undersöka aktiviteten hos dopaminaxoner och terminaler40,72,73. Använda två-fotonavbildning i huvudsäkra möss, Howe och Dombeck40 rapporterade fasisk dopaminaktivitet relaterad till spontana rörelser. Detta sågs främst i enskilda dopaminaxoner från SNc som avslutades i ryggstriatum, medan VTA-dopaminaxoner i NAc svarade mer för att belöna leverans. Andra fann också belöningsrelaterad dopaminergisk aktivitet i NAc, med DMS istället mer kopplad till kontralaterala åtgärder72 och den bakre svansen av striatum som svarar på aversiv och ny stimuli74.
Direkta åtgärder för frisättning av dopamin avslöjar också heterogenitet mellan subregioner30,75. Med mikrodialys fann vi att dopamin var korrelerat med värde specifikt i NAc-kärnan och ventralmedialt frontalt cortex, inte i andra mediala delar av striatum (NAc-skal, DMS) eller frontal cortex. Detta är spännande eftersom det verkar kartlägga väl två "hotspots" av värdekodning som konsekvent ses i mänskliga fMRI-studier76,77. Speciellt NAc BOLD-signalen, som har en nära relation till dopamin-signalering78ökar med belöningsförväntan (värde) - mer än med RPE76.
Oavsett om dessa rumsliga mönster för frisättning av dopamin uppstår från avfyrning av distinkta dopamincellspopulationer, lokal kontroll av dopaminfrisättning eller båda, utmanar de idén om ett globalt dopaminmeddelande. Man kan dra slutsatsen att det finns många olika dopaminfunktioner, med (till exempel) dopamin i ryggstriatum som signalerar "rörelse" och dopamin i ventral striatum som signalerar "belöning".40. Jag föredrar dock en annan konceptuell metod. Olika striatal subregioner får input från olika kortikala regioner, och så kommer att bearbeta olika typer av information. Ändå delar varje striatal subregion en gemensam mikrokretsarkitektur, inklusive separata D1-kontra D2-receptor som bär spiny neuroner79, CIN och så vidare. Även om det är vanligt att hänvisa till olika striatala subregioner (t.ex. DLS, DMS, NAc-kärna) som om de är diskreta områden, finns det inga skarpa anatomiska gränser mellan dem (NAc-skalet är lite mer neurokemiskt distinkt). Istället finns det bara milda gradienter i receptortäthet, internuron-proportioner etc., som verkar mer som justeringar av parametrarna för en delad beräkningsalgoritm. Med tanke på denna vanliga arkitektur, kan vi beskriva en vanlig dopaminfunktion, abstrakt från den specifika information som hanteras av varje subregion?
Striatal dopamin och fördelning av begränsade resurser.
Jag föreslår att en mängd olika dopamineffekter på pågående beteende kan förstås som modulering av beslut om resursallokering. Specifikt ger dopamin uppskattningar av hur värt det är att spendera en begränsad intern resurs, varvid den specifika resursen skiljer sig mellan striatal subregioner. För "motor" striatum (~ DLS) är resursen rörelse, vilket är begränsat eftersom rörelse kostar energi, och eftersom många åtgärder är oförenliga med varandra80. Ökning av dopamin gör det mer troligt att ett djur kommer att bestämma att det är värt att spendera energi för att röra sig eller flytta snabbare6,40,81. Observera att en dopaminsignal som kodar för "rörelse är värt" kommer att ge korrelationer mellan dopamin och rörelse, även utan dopamin som kodar för "rörelse" per se.
För "kognitiv" striatum (~ DMS) är resurserna kognitiva processer inklusive uppmärksamhet (som per definition är begränsad kapacitet82) och arbetsminne83. Utan dopamin, försummas yttre ledtrådar som normalt provocerar orienterande rörelser, som om de anses vara mindre uppmärksamma3. Dessutom är det medvetet att marschera kognitiva kontrollprocesser (kostsamt)84). Dopamin - särskilt i DMS85 - spelar en nyckelroll för att avgöra om det är värt att anstränga sig86,87. Detta kan inkludera om man ska använda mer kognitivt krävande, övervägande (”modellbaserade”) beslutsstrategier88.
För "motiverande" striatum (~ NAc) kan en viktig begränsad resurs vara djurets tid. Mesolimbisk dopamin krävs inte när djur utför en enkel, fast åtgärd för att snabbt få belöningar89. Men många former av belöning kan endast erhållas genom långvarigt arbete: utökade sekvenser av icke-belönade handlingar, som vid foder. Att välja att arbeta innebär att andra fördelaktiga sätt att spendera tid måste förutses. Hög mesolimbisk dopamin indikerar att det är värt att engagera sig i tillfälligt utsträckt, ansträngande arbete, men eftersom dopamin sänks djur gör det inte bry, och kan istället bara förbereda sig för att sova90.
Inom varje cortico-striatal loop krets är dopamins bidrag till pågående beteende såväl ekonomiskt (som rör resursallokering) och motiverande (oavsett om det är värt att spendera resurser81). Dessa kretsar är inte helt oberoende utan har snarare en hierarkisk, spiralformande organisation: mer ventrale delar av striatum påverkar dopaminceller som projicerar till mer ryggpartier5,91. På detta sätt kan beslut om att delta i arbete också hjälpa till att stärka nödvändiga specifika, kortare rörelser. Men totalt sett ger dopamin "aktiveringssignaler" - vilket ökar sannolikheten för att något beslut fattas - snarare än "riktade" signaler som anger hur resurser bör användas5.
Vilken är beräkningsrollen för dopamin när beslut fattas?
Ett sätt att tänka på den aktiva rollen är när det gäller beslut "trösklar". I vissa matematiska modeller ökar beslutsprocesserna tills de når en tröskelnivå när systemet blir engagerat i en handling92. Högre dopamin skulle motsvara ett lägre tröskelvärde, så att besluten fattas snabbare. Denna idé är enkel, men gör ändå kvantitativa förutsägelser som har bekräftats. Att sänka tröskelvärdena för rörelse skulle orsaka en specifik förändring i formen av reaktionstidsfördelningen, precis vad man ser när amfetamin infunderas i sensorimotor striatum20.
I stället för fasta tröskelvärden kan beteendemässiga och neurala data passa bättre om trösklarna minskar med tiden, som om beslut blir allt mer brådskande. Basal ganglia-utgång har föreslagits att tillhandahålla en dynamiskt utvecklande hastighetssignal, som stärker selektionsmekanismer i cortex93. Brådskan var också större när framtida belöningar var närmare i tiden, vilket gjorde att detta koncept liknade dopamins värdekodande, aktiverande roll.
Är en sådan aktiveringsroll tillräcklig för att beskriva de prestandamodulerande effekterna av striatal dopamin? Detta är relaterat till den långvariga frågan om basala ganglia-kretsar direkt väljer bland lärda handlingar80 eller bara stärka val som görs någon annanstans93,94. Det finns åtminstone två sätt på vilka dopamin kan verka ha en mer "riktad" effekt. Den första är när dopamin verkar inom en hjärnsubregion som behandlar i sig riktad information. Basal ganglia-kretsar har en viktig, delvis lateraliserad roll som orienterar sig mot och närmar sig potentiella belöningar. Primatkudatet (~ DMS) är involverat i att driva ögonrörelser mot kontralaterala rumsfält95. En dopaminerg signal om att något i kontralateralt utrymme är värt att orientera sig mot kan redovisa den observerade korrelationen mellan dopaminerg aktivitet i DMS och kontralaterala rörelser72, såväl som det rotationsbeteende som produceras av dopaminmanipulationer96. En andra "riktad" påverkan av dopamin är uppenbar när (bilaterala) dopaminlesioner förspänner råttor mot alternativ med låg ansträngning / låg belöning, snarare än alternativ med hög ansträngning / hög belöning97. Detta kan återspegla det faktum att vissa beslut är mer seriella än parallella, där råttor (och människor) utvärderar alternativen en gång i taget98. I dessa beslutssammanhang kan dopamin fortfarande betala en grundläggande aktiverande roll genom att förmedla värdet av det för närvarande övervägda alternativet, som sedan kan accepteras eller inte24.
Aktiva djur fattar beslut på flera nivåer, ofta till höga priser. Utöver att tänka på enskilda beslut kan det vara bra att överväga en övergripande bana genom en sekvens av tillstånd (Fig 1). Genom att underlätta övergångar från ett tillstånd till nästa kan dopamin påskynda flödet längs inlärda banor99. Detta kan relatera till dopamins viktiga inflytande över beteendets tidpunkt44,100. En nyckelgräns för framtida arbete är att få en djupare förståelse för hur sådana dopamineffekter på pågående beteende uppstår mekanistiskt, genom att förändra informationsbearbetning inom enstaka celler, mikrokretsar och storskaliga cortikal-basala ganglier. Jag har också betonat gemensamma beräkningsroller för dopamin i en rad striatalmål, men till stor del försummat kortikala mål, och det återstår att se om dopaminfunktioner i båda strukturerna kan beskrivas inom samma ram.
Sammanfattningsvis, en adekvat beskrivning av dopamin skulle förklara hur dopamin kan signalera både inlärning och motivation på samma snabba tidsskalor utan förvirring. Det skulle förklara varför dopamin frisläppas i viktiga mål covaries med belöningsförväntning även om dopamincellskydd inte gör det. Och det skulle ge en enhetlig beräkning av dopaminåtgärder i hela striatum och på annat håll, vilket förklarar olika beteendeeffekter på rörelse, kognition och timing. Vissa specifika idéer som presenteras här är spekulativa, men är avsedda att stärka förnyad diskussion, modellering och antydande nya experiment.
Tack.
Jag tackar de många kollegorna som gav insiktsfulla kommentarer om tidigare textutkast, inklusive Kent Berridge, Peter Dayan, Brian Knutson, Jeff Beeler, Peter Redgrave, John Lisman, Jesse Goldberg och de anonyma domarna. Jag beklagar att rymdbegränsningarna uteslutit diskussion om många viktiga tidigare studier. Väsentligt stöd gavs av National Institute on Neurological Disorders and Stroke, National Institute of Mental Health och National Institute on Drug Abuse.