Gepubliceerd online 2018 mei 14. doi: 10.1038 / s41593-018-0152-y
Abstract
Dopamine is een kritische modulator van zowel leren als motivatie. Dit vormt een probleem: hoe kunnen doelwitcellen weten of verhoogde dopamine een signaal is om te leren of om te bewegen? Er wordt vaak aangenomen dat motivatie langzame ("tonische") dopamine-veranderingen met zich meebrengt, terwijl snelle ("fasische") dopamine-fluctuaties zorgen voor fouten in het voorspellen van beloningen voor leren. Toch hebben recente studies aangetoond dat dopamine een motiverende waarde heeft en beweging bevordert, zelfs op tijdschalen van minder dan een seconde. Hier beschrijf ik een alternatief verslag van hoe dopamine voortdurend gedrag reguleert. Dopamine-afgifte gerelateerd aan motivatie wordt snel en lokaal gebeeldhouwd door receptoren op dopamine-terminals, onafhankelijk van het afvuren van dopaminecellen. Doelneuronen schakelen abrupt tussen leer- en prestatiemodi, waarbij striatale cholinerge interneuronen een kandidaat-schakelmechanisme bieden. De gedragsimpact van dopamine verschilt per subregio, maar in elk geval geeft dopamine een dynamische schatting van de vraag of het de moeite waard is om een beperkte interne hulpbron, zoals energie, aandacht of tijd, te besteden.
Is dopamine een signaal om te leren, om te motiveren of beide?
Ons begrip van dopamine is in het verleden veranderd en verandert opnieuw. Een cruciaal onderscheid is tussen dopamine-effecten op actueel gedrag (prestaties) en dopamine-effecten op toekomst gedrag (leren). Beide zijn echt en belangrijk, maar op verschillende momenten was de ene voorstander en de andere niet.
Toen het (in de jaren '70) mogelijk werd om selectieve, volledige laesies van dopamine-routes uit te voeren, was het voor de hand liggende gedragsgevolg een ernstige vermindering van beweging1. Dit past bij de akinetische effecten van dopamineverlies bij mensen, veroorzaakt door gevorderde ziekte van Parkinson, toxische medicijnen of encefalitis2. Toch vertonen noch gevallen van ratten noch mensen een fundamenteel onvermogen om te bewegen. Dopamine-beschadigde ratten zwemmen in koud water3, en akinetische patiënten kunnen opstaan en wegrennen als er een brandalarm klinkt ("paradoxale" kinesie). Evenmin is er een basistekort in het waarderen van beloningen: ratten met dopamine-beschadiging consumeren voedsel dat in hun mond wordt gestopt en vertonen tekenen dat ze ervan genieten4. Integendeel, ze zullen er niet voor kiezen om zich in te spannen om actief beloningen te verkrijgen. Deze en vele andere resultaten hebben een fundamenteel verband gelegd tussen dopamine en motivatie5. Zelfs de bewegingsvertraging die wordt waargenomen bij minder ernstige gevallen van de ziekte van Parkinson kan worden beschouwd als een motivatietekort, een weerspiegeling van impliciete beslissingen dat het niet de moeite waard is om de energie te verbruiken die nodig is voor snellere bewegingen6.
Toen (in de jaren '80) kwamen baanbrekende opnames van dopamine-neuronen in zich gedragende apen (in gebieden van de middenhersenen die uitsteken naar de voorhersenen: ventraal tegmentaal gebied, VTA / substantia nigra pars compacta, SNc). Onder de waargenomen schietpatronen bevonden zich korte uitbarstingen van activiteit op prikkels die onmiddellijke bewegingen veroorzaakten. Deze "fasische" afgifte van dopamine werd aanvankelijk geïnterpreteerd als ondersteuning van "gedragsactivering"7 en "motiverende opwinding"8 – met andere woorden, als stimulans voor het huidige gedrag van het dier.
Er vond een radicale verschuiving plaats in de jaren '90, met de herinterpretatie van fasische dopamine-uitbarstingen als codering beloningsvoorspellingsfouten (RPE's9). Dit was gebaseerd op een belangrijke observatie: dopaminecellen reageren op onverwachte prikkels die verband houden met toekomstige beloning, maar reageren vaak niet meer als deze prikkels worden verwacht.10. Het RPE-idee is ontstaan in eerdere leertheorieën, en vooral in het zich toen ontwikkelende computerwetenschappelijke gebied van versterkend leren11. Het punt van een RPE-signaal is updaten waarden(schattingen van toekomstige beloningen). Deze waarden worden later gebruikt om keuzes te maken die de beloning maximaliseren. Omdat het afvuren van dopamine-cellen leek op RPE's en RPE's worden gebruikt om te leren, werd het vanzelfsprekend om de rol van dopamine bij leren te benadrukken. Latere optogenetische manipulaties bevestigden de dopaminerge identiteit van RPE-coderende cellen12,13 en toonden aan dat ze inderdaad het leren moduleren14,15.
Het idee dat dopamine een leersignaal geeft, past prachtig bij de literatuur dat dopamine de synaptische plasticiteit moduleert in het striatum, het primaire doelwit van dopamine in de voorhersenen. Het drievoudige samenvallen van glutamaatstimulatie van een striatale dendrietruggengraat, postsynaptische depolarisatie en dopamine-afgifte zorgt er bijvoorbeeld voor dat de wervelkolom groeit16. Dopaminerge modulatie van langetermijnleermechanismen helpt bij het verklaren van de aanhoudende gedragseffecten van verslavende drugs, die de eigenschap delen om striatale dopamine-afgifte te verbeteren17. Zelfs de diepe akinesie met dopamineverlies kan gedeeltelijk worden verklaard door dergelijke leermechanismen18. Gebrek aan dopamine kan worden behandeld als een constant negatieve RPE, die de waarden van acties geleidelijk naar nul bijwerkt. Soortgelijke progressieve, extinctie-achtige effecten op gedrag kunnen worden geproduceerd door dopamine-antagonisten19,20.
Toch is het idee dat dopamine een cruciale rol speelt bij voortdurende motivatie nooit verdwenen - integendeel, het wordt algemeen als vanzelfsprekend beschouwd door gedragsneurowetenschappers. Dit is passend gezien het sterke bewijs dat dopaminefuncties in motivatie/beweging/stimulering los te koppelen zijn van leren15,20-23. Minder algemeen gewaardeerd is de uitdaging die gepaard gaat met het verzoenen van deze motiverende rol met de theorie dat DA een RPE-leersignaal geeft.
Motivatie "kijkt vooruit": het gebruikt voorspellingen van toekomstige beloning (waarden) om het huidige gedrag op de juiste manier te stimuleren. Leren daarentegen "kijkt achteruit" naar toestanden en acties in het recente verleden, en actualiseert hun waarden. Dit zijn complementaire fasen van een cyclus: de bijgewerkte waarden kunnen worden gebruikt bij latere besluitvorming als die toestanden opnieuw worden aangetroffen, vervolgens weer worden bijgewerkt, enzovoort. Maar bij welke fase van de cyclus is dopamine betrokken: waarden gebruiken om beslissingen te nemen (prestaties) of waarden bijwerken (leren)?
In sommige omstandigheden is het eenvoudig voor te stellen dat dopamine beide rollen tegelijkertijd speelt.24Onverwachte, beloningsvoorspellende signalen zijn de archetypische gebeurtenissen voor het opwekken van het afvuren en vrijgeven van dopaminecellen, en dergelijke signalen stimuleren doorgaans zowel gedrag als leren.Fig 1). In deze specifieke situatie nemen zowel beloningsvoorspelling als beloningsvoorspellingsfouten gelijktijdig toe - maar dit is niet altijd het geval. Om maar een voorbeeld te noemen: mensen en andere dieren zijn vaak gemotiveerd om voor beloningen te werken, zelfs als er weinig of niets verrassends gebeurt. Ze kunnen harder en harder werken naarmate ze dichter en dichter bij de beloning komen (de waarde neemt toe naarmate de beloning dichterbij komt). Het punt is dat leren en motivatie conceptueel, computationeel en gedragsmatig verschillend zijn - en toch lijkt dopamine beide te doen.
Hieronder beoordeel ik kritisch de huidige ideeën over hoe dopamine zowel leer- als motiverende functies kan bereiken. Ik stel een bijgewerkt model voor, gebaseerd op drie belangrijke feiten: 1) dopamine-afgifte van terminals komt niet eenvoudig voort uit het afvuren van dopaminecellen, maar kan ook lokaal worden gecontroleerd; 2) dopamine beïnvloedt zowel de synaptische plasticiteit als de prikkelbaarheid van doelcellen, met duidelijke gevolgen voor respectievelijk leren en presteren; 3) Dopamine-effecten op plasticiteit kunnen worden in- of uitgeschakeld door nabijgelegen circuitelementen. Samen kunnen deze functies ervoor zorgen dat hersencircuits kunnen schakelen tussen twee verschillende dopamine-boodschappen, respectievelijk voor leren en motivatie.
Zijn er afzonderlijke "fasische" en "tonische" dopaminesignalen, met verschillende betekenissen?
Er wordt vaak beweerd dat de lerende en motiverende rollen van dopamine op verschillende tijdschalen voorkomen25. Dopaminecellen vuren continu ("tonisch") af met een paar pieken per seconde, met af en toe korte ("fasische") uitbarstingen of pauzes. Uitbarstingen, vooral als ze kunstmatig worden gesynchroniseerd over dopaminecellen, zorgen voor een overeenkomstige snelle toename van dopamine in de voorhersenen26 die zeer voorbijgaand zijn (duur van minder dan een seconde).27). De afzonderlijke bijdrage van het vuren van tonische dopaminecellen aan de dopamineconcentraties in de voorhersenen is minder duidelijk. Er zijn aanwijzingen dat deze bijdrage erg klein is28. Het kan voldoende zijn om bijna continue stimulatie van de D2-receptoren met hogere affiniteit te produceren, waardoor het systeem korte pauzes in het afvuren van dopaminecellen kan opmerken29 en gebruik deze pauzes als negatieve voorspellingsfouten.
Microdialyse wordt veel gebruikt om de dopaminegehalten in de voorhersenen rechtstreeks te meten, zij het met een lage temporele resolutie (meestal gemiddeld over vele minuten). Dergelijke langzame metingen van dopamine kunnen een uitdaging zijn om precies verband te houden met gedrag. Desalniettemin vertoont microdialyse van dopamine in de nucleus accumbens (NAc; ventraal/mediaal striatum) positieve correlaties met locomotorische activiteit30 en andere indicatoren van motivatie5. Algemeen wordt aangenomen dat dit betekent dat er langzame ("tonische") veranderingen zijn in de dopamineconcentratie en dat deze langzame veranderingen een motiverend signaal overbrengen. Meer specifiek hebben computationele modellen voorgesteld dat tonische dopaminegehalten het gemiddelde beloningspercentage op lange termijn volgen31 - een nuttige motiverende variabele voor tijdsbesteding en foerageerbeslissingen. Het is de moeite waard om te benadrukken dat maar heel weinig artikelen de "tonische" dopamine-niveaus duidelijk definiëren - ze gaan er meestal gewoon van uit dat de dopamine-concentratie langzaam verandert over de tijdschaal van meerdere minuten van microdialyse.
Toch stuit deze visie op "fasische dopamine=RPE/leren, tonische dopamine=motivatie" op veel problemen. Ten eerste is er geen direct bewijs dat het afvuren van tonische dopaminecellen normaal gesproken varieert over langzame tijdschalen. Tonic-vuursnelheden veranderen niet met veranderende motivatie32,33. Er is beweerd dat tonische dopaminegehalten veranderen als gevolg van een veranderend aandeel actieve dopaminecellen34,35. Maar in veel onderzoeken bij niet-gedrogeerde, niet-beschadigde dieren is nooit gemeld dat dopaminecellen schakelen tussen stille en actieve toestanden.
Bovendien betekent het feit dat microdialyse het dopaminegehalte langzaam meet niet dat het dopaminegehalte ook daadwerkelijk langzaam verandert. Wij onlangs15 onderzocht rat NAc dopamine in een probabilistische beloningstaak, met behulp van zowel microdialyse als cyclische voltammetrie met snelle scan. We hebben bevestigd dat mesolimbische dopamine, zoals gemeten door microdialyse, correleert met het beloningspercentage (beloningen/min). Maar zelfs met een verbeterde temporele resolutie van de microdialyse (1 min) fluctueerde dopamine net zo snel als we het bemonsterden: we zagen geen bewijs voor een inherent traag dopamine-signaal.
Met behulp van de nog fijnere temporele resolutie van voltammetrie zagen we een nauwe relatie tussen dopaminefluctuaties van minder dan een seconde en motivatie. Terwijl ratten de reeks acties uitvoerden die nodig waren om beloningen te behalen, steeg dopamine hoger en hoger en bereikte een piek net toen ze de beloning kregen (en daalde snel terwijl ze het consumeerden). We toonden aan dat dopamine sterk correleerde met de momentane toestandswaarde - gedefinieerd als de verwachte toekomstige beloning, verdisconteerd door de verwachte tijd die nodig is om deze te ontvangen. Deze snelle dopaminedynamiek kan ook de microdialyseresultaten verklaren, zonder aparte dopaminesignalen op verschillende tijdschalen op te roepen. Naarmate dieren meer beloningen ervaren, verhogen ze hun verwachtingen van toekomstige beloningen bij elke stap in de proefreeks. In plaats van een langzaam evoluerend gemiddeld beloningssignaal, kan de correlatie tussen dopamine en beloningspercentage het best worden verklaard als een gemiddelde, over de verlengde microdialysemonsterverzameltijd, van deze snel evoluerende toestandswaarden.
Deze waarde-interpretatie van mesolimbische dopamine-afgifte komt overeen met voltammetrieresultaten van andere onderzoeksgroepen, die herhaaldelijk hebben ontdekt dat de dopamine-afgifte toeneemt naarmate de beloning toeneemt.36-38(Fig 2). Dit motiverende signaal is niet inherent "traag", maar kan eerder worden waargenomen over een continu bereik van tijdschalen. Hoewel dopamine-ramps enkele seconden kunnen duren wanneer een naderingsgedrag ook enkele seconden duurt38, weerspiegelt dit het tijdsverloop van het gedrag, in plaats van de intrinsieke dopamine-dynamiek. De relatie tussen mesolimbische dopamine-afgifte en fluctuerende waarde is zichtbaar zo snel als de opnametechniek toelaat, dwz op een tijdschaal van ~ 100 ms met acute voltammetrie-elektroden15.
Snelle dopaminefluctuaties weerspiegelen niet alleen motivatie, ze sturen ook direct gemotiveerd gedrag aan. Grotere fasische reacties van dopaminecellen om cues te triggeren voorspellen kortere reactietijden bij diezelfde proef39. Optogenetische stimulatie van VTA-dopaminecellen zorgt ervoor dat ratten eerder aan het werk gaan in onze probabilistische beloningstaak15, net alsof ze een hogere verwachting van beloning hadden. Optogenetische stimulatie van SNc-dopamineneuronen, of hun axonen in dorsaal striatum, verhoogt de kans op beweging40,41. Cruciaal is dat deze gedragseffecten zichtbaar zijn binnen een paar honderd milliseconden na het begin van optogenetische stimulatie. Het vermogen van beloningsvoorspellende signalen om de motivatie te stimuleren lijkt te worden gemedieerd door zeer snelle dopaminerge modulatie van de prikkelbaarheid van NAc-stekelige neuronen42. Aangezien dopamine snel verandert en deze veranderingen in dopamine de motivatie snel beïnvloeden, kunnen de motiverende functies van dopamine beter worden omschreven als snel ("fasisch"), niet langzaam ("tonic").
Bovendien lost het aanroepen van afzonderlijke snelle en langzame tijdschalen op zichzelf niet het decoderingsprobleem op waarmee neuronen met dopaminereceptoren worden geconfronteerd. Als dopamine leren signaleert, lijkt modulatie van synaptische plasticiteit een geschikte cellulaire respons. Maar onmiddellijke effecten op gemotiveerd gedrag impliceren onmiddellijke effecten op piekeren, bijvoorbeeld door snelle veranderingen in prikkelbaarheid. Dopamine kan beide postsynaptische effecten (en meer) hebben, dus heeft een gegeven dopamineconcentratie een specifieke betekenis? Of moet deze betekenis worden geconstrueerd - bijvoorbeeld door dopamine-niveaus in de loop van de tijd te vergelijken, of door andere samenvallende signalen te gebruiken om te bepalen welke cellulaire machinerie moet worden ingeschakeld? Deze mogelijkheid wordt hieronder verder besproken.
Brengt dopamine-afgifte dezelfde informatie over als het afvuren van dopamine-cellen?
De relatie tussen snelle dopaminefluctuaties en motiverende waarde lijkt vreemd, aangezien het vuren van dopaminecellen in plaats daarvan lijkt op RPE. Bovendien hebben sommige onderzoeken RPE-signalen gemeld bij de afgifte van mesolimbische dopamine43. Het is belangrijk op te merken dat er een uitdaging is bij het interpreteren van sommige vormen van neurale gegevens. Waardesignalen en RPE's zijn met elkaar gecorreleerd - niet verrassend, aangezien de RPE meestal wordt gedefinieerd als de verandering in waarde van het ene moment op het andere ("temporal-difference" RPE). Vanwege deze correlatie is het van cruciaal belang om experimentele ontwerpen en analyses te gebruiken die waarde onderscheiden van RPE-accounts. Het probleem wordt nog verergerd wanneer een neurale meting wordt gebruikt die afhankelijk is van relatieve in plaats van absolute signaalveranderingen. Voltammetrie-analyses vergelijken gewoonlijk dopamine op een bepaald tijdstip van belang met een "baseline"-tijdperk eerder in elke proef (om signaalcomponenten te verwijderen die niet-dopamine-afhankelijk zijn, inclusief opladen van elektroden bij elke spanningszwaai en drift over een tijdschaal van minuten). Maar door een basislijn af te trekken, kan een waardesignaal op een RPE-signaal lijken. Dit is wat we hebben waargenomen in onze eigen voltammetriegegevens (Fig. 2e). Veranderingen in beloningsverwachting werden weerspiegeld in veranderingen in de dopamineconcentratie in het begin van elke proef, en deze veranderingen worden over het hoofd gezien als men gewoon uitgaat van een constante basislijn in alle proeven15. Conclusies over dopamine-afgifte en RPE-codering moeten dus met de nodige voorzichtigheid worden bekeken. Dit gevaar voor gegevensinterpretatie is niet alleen van toepassing op voltammetrie, maar op elke analyse die berust op relatieve veranderingen – mogelijk inclusief fMRI en fotometrie44.
Desalniettemin moeten we waardegerelateerde dopamine-afgifte in de NAc-kern nog steeds verzoenen met de consistente afwezigheid van waardegerelateerde pieken door dopamine-neuronen13, zelfs binnen het laterale VTA-gebied dat dopamine aan de NAc-kern levert45. Een mogelijke factor is dat dopaminecellen meestal worden geregistreerd bij dieren met hoofdsteunen die klassieke conditioneringstaken uitvoeren, terwijl de afgifte van dopamine doorgaans wordt gemeten bij dieren zonder beperkingen die actief door hun omgeving bewegen. We stelden voor dat mesolimbische dopamine specifiek de waarde van "werk" zou kunnen aangeven15 – dat het een vereiste weergeeft voor het besteden van tijd en moeite om de beloning te verkrijgen. In overeenstemming hiermee neemt dopamine toe met signalen die beweging instrueren, maar niet met signalen die stilte instrueren, zelfs als ze een vergelijkbare toekomstige beloning aangeven46. Als er - zoals bij veel klassieke conditioneringstaken - geen voordeel is aan actief 'werk', dan zijn dopaminerge veranderingen die de waarde van werk aangeven mogelijk minder duidelijk.
Misschien nog belangrijker is het feit dat de afgifte van dopamine lokaal kan worden gecontroleerd op de terminals zelf, en dus spatio-temporele patronen kan vertonen die onafhankelijk zijn van het vastlopen van het cellichaam. De basolaterale amygdala (BLA) kan bijvoorbeeld de afgifte van NAc-dopamine beïnvloeden, zelfs wanneer VTA is geïnactiveerd47. Omgekeerd vermindert het inactiveren van BLA de afgifte van NAc-dopamine en het bijbehorende gemotiveerde gedrag, zonder dat het vuren van VTA kennelijk wordt beïnvloed48. Dopamine-terminals hebben receptoren voor een reeks neurotransmitters, waaronder glutamaat, opioïden en acetylcholine. Nicotine-acetylcholinereceptoren zorgen ervoor dat striatale cholinerge interneuronen (CIN's) de afgifte van dopamine snel kunnen regelen49,50. Hoewel al lang is opgemerkt dat lokale controle van de afgifte van dopamine mogelijk belangrijk is7,51, is het niet opgenomen in computationele rekeningen van de dopaminefunctie. Ik stel voor dat de dynamiek van dopamine-afgifte gerelateerd aan waardecodering grotendeels ontstaat door lokaal controle, ook al levert het afvuren van dopaminecellen belangrijke RPE-achtige signalen voor leren.
Hoe kan dopamine zonder verwarring zowel leren als motiveren?
In principe is een waardesignaal voldoende om ook RPE over te brengen, aangezien RPE's met temporeel verschil eenvoudigweg snelle waardeveranderingen zijn (Fig. 2B). Verschillende intracellulaire routes in doelneuronen kunnen bijvoorbeeld verschillend gevoelig zijn voor de absolute concentratie van dopamine (waarde vertegenwoordigend) versus snelle relatieve veranderingen in concentratie (vertegenwoordigend RPE). Dit schema lijkt aannemelijk, gezien de complexe dopaminemodulatie van de fysiologie van stekelige neuronen52 en hun gevoeligheid voor temporele patronen van calciumconcentratie53. Toch lijkt ook dit enigszins overbodig. Als er al een RPE-achtig signaal bestaat bij het spiken van dopaminecellen, zou het mogelijk moeten zijn om het te gebruiken in plaats van RPE opnieuw af te leiden uit een waardesignaal.
Om op de juiste manier verschillende RPE- en waardesignalen te gebruiken, kunnen dopamine-ontvangercircuits actief veranderen hoe ze dopamine interpreteren. Er is intrigerend bewijs dat acetylcholine ook deze schakelrol kan vervullen. Op hetzelfde moment dat dopaminecellen uitbarstingen van pieken afvuren naar onverwachte signalen, tonen CIN's kort (~ 150ms) pauzes bij het schieten, die niet schaalbaar zijn met RPE's54. Deze CIN-pauzes kunnen worden aangestuurd door VTA GABAergische neuronen55 evenals "verrassings" -gerelateerde cellen in de intralaminaire thalamus, en er is voorgesteld om te fungeren als een associeerbaarheidssignaal dat leren bevordert56. stelden Morris en Bergman voor54 dat cholinerge pauzes tijdelijke vensters definiëren voor striatale plasticiteit, waarin dopamine kan worden gebruikt als een leersignaal. Dopamine-afhankelijke plasticiteit wordt continu onderdrukt door mechanismen, waaronder muscarine m4-receptoren op striatale neuronen met directe route57. Modellen van intracellulaire signalering suggereren dat tijdens CIN-pauzes de afwezigheid van m4-binding synergetisch kan werken met fasische dopamine-uitbarstingen om PKA-activering te stimuleren58, waardoor synaptische verandering wordt bevorderd.
Striatale cholinerge cellen zijn dus goed gepositioneerd om de betekenis van een gemultiplexte dopaminerge boodschap dynamisch om te schakelen. Tijdens CIN-pauzes zou het opheffen van een muscarineblokkade boven synaptische plasticiteit ervoor zorgen dat dopamine kan worden gebruikt om te leren. Op andere momenten zou de afgifte van dopamine-terminals lokaal worden gebeeldhouwd om de voortdurende gedragsprestaties te beïnvloeden. Momenteel is deze suggestie zowel speculatief als onvolledig. Er is voorgesteld dat CIN's informatie integreren van vele omliggende stekelige neuronen om bruikbare signalen op netwerkniveau te extraheren, zoals entropie59,60. Maar het is helemaal niet duidelijk dat CIN-activiteitsdynamiek kan worden gebruikt om dopaminewaardesignalen te genereren61, en ook om dopamine-leersignalen door te geven.
Betekent dopamine hetzelfde in de hele voorhersenen?
Toen het RPE-idee aansloeg, dacht men dat dopamine een wereldwijd signaal was, dat een foutmelding uitzond over striatale en frontale corticale doelen. Schultz benadrukte dat aap-dopaminecellen in VTA en SNc zeer vergelijkbare reacties hebben62. Studies van geïdentificeerde dopaminecellen hebben ook vrij homogene RPE-achtige reacties gevonden bij knaagdieren, althans voor laterale VTA-neuronen binnen klassieke conditioneringscontexten13. Dopaminecellen zijn echter moleculair en fysiologisch divers63-65 en er zijn nu veel rapporten dat ze verschillende schietpatronen vertonen bij zich gedragende dieren. Deze omvatten fasische toenames in vuren naar aversieve gebeurtenissen66 en triggersignalen67 die slecht passen bij het standaard RPE-account. Veel dopaminecellen vertonen een initiële reactie met een korte latentie op sensorische gebeurtenissen die meer een weerspiegeling is van verrassing of "waarschuwing" dan specifieke RPE-codering68,69. Dit signalerende aspect komt meer naar voren in SNc69, waar dopaminecellen meer projecteren naar "sensomotorisch" dorsaal/lateraal striatum (DLS45,63). Er is ook gemeld dat subpopulaties van SNc-dopaminecellen toenemen41 of verlagen70 vuren in combinatie met spontane bewegingen, zelfs zonder externe signalen.
Verschillende groepen gebruikten vezelfotometrie en de calciumindicator GCaMP om de bulkactiviteit van subpopulaties van dopamineneuronen te onderzoeken71,72. Dopaminecellen die naar het dorsale/mediale striatum (DMS) projecteren, vertoonden tijdelijk onderdrukte activiteit bij onverwachte korte schokken, terwijl die naar DLS projecteerden verhoogde activiteit vertoonden71– consistenter met een waarschuwingsreactie. Duidelijke dopaminerge reacties in verschillende subregio's van de voorhersenen zijn ook waargenomen met behulp van GCaMP om de activiteit van dopamine-axonen en terminals te onderzoeken40,72,73. Met behulp van beeldvorming met twee fotonen in muizen met hoofdsteunen, Howe en Dombeck40 gerapporteerde fasische dopamine-activiteit gerelateerd aan spontane bewegingen. Dit werd voornamelijk gezien in individuele dopamine-axons van SNc die eindigden in dorsaal striatum, terwijl VTA-dopamine-axons in NAc meer reageerden op beloningslevering. Anderen vonden ook beloningsgerelateerde dopaminerge activiteit in NAc, met DMS in plaats daarvan meer gekoppeld aan contralaterale acties72 en de achterste staart van het striatum reageert op aversieve en nieuwe stimuli74.
Directe metingen van dopamine-afgifte onthullen ook heterogeniteit tussen subregio's30,75. Met microdialyse vonden we dopamine gecorreleerd met waarde specifiek in NAc-kern en ventraal-mediale frontale cortex, niet in andere mediale delen van striatum (NAc-schaal, DMS) of frontale cortex. Dit is intrigerend omdat het goed lijkt te passen bij twee "hotspots" van waardecodering die consequent worden gezien in fMRI-studies bij mensen76,77. In het bijzonder het NAc BOLD-signaal, dat nauw verband houdt met dopamine-signalering78, neemt toe met beloningsanticipatie (waarde) - meer dan met RPE76.
Of deze ruimtelijke patronen van dopamine-afgifte nu voortkomen uit het afvuren van verschillende subpopulaties van dopaminecellen, lokale controle van dopamine-afgifte, of beide, ze dagen het idee van een wereldwijde dopamine-boodschap uit. Men zou kunnen concluderen dat er veel verschillende dopaminefuncties zijn, waarbij (bijvoorbeeld) dopamine in het dorsale striatum "beweging" signaleert en dopamine in het ventrale striatum "beloning" signaleert.40. Ik ben echter voorstander van een andere conceptuele benadering. Verschillende striatale subregio's krijgen input van verschillende corticale regio's en zullen dus verschillende soorten informatie verwerken. Toch deelt elke striatale subregio een gemeenschappelijke microcircuitarchitectuur, inclusief afzonderlijke D1- versus D2-receptordragende stekelige neuronen79, CIN's, enzovoort. Hoewel het gebruikelijk is om te verwijzen naar verschillende striatale subregio's (bijv. DLS, DMS, NAc-kern) alsof het afzonderlijke gebieden zijn, zijn er geen scherpe anatomische grenzen ertussen (NAc-schaal is neurochemisch iets meer onderscheidend). In plaats daarvan zijn er slechts zachte gradiënten in receptordichtheid, verhoudingen van interneuronen enz., die meer lijken op aanpassingen aan de parameters van een gedeeld rekenalgoritme. Kunnen we, gezien deze gemeenschappelijke architectuur, een gemeenschappelijke dopaminefunctie beschrijven, weggeabstraheerd van de specifieke informatie die door elke subregio wordt verwerkt?
Striatale dopamine en de toewijzing van beperkte middelen.
Ik stel voor dat een verscheidenheid aan ongelijksoortige dopamine-effecten op doorlopend gedrag kan worden opgevat als modulatie van beslissingen over de toewijzing van middelen. Met name dopamine geeft schattingen van hoe de moeite waard het is om een beperkte interne hulpbron te besteden, waarbij de specifieke hulpbron verschilt tussen striatale subregio's. Voor "motor" striatum (~DLS) is beweging de bron, die beperkt is omdat bewegen energie kost en omdat veel acties onverenigbaar zijn met elkaar80. Toenemende dopamine maakt het waarschijnlijker dat een dier zal besluiten dat het de moeite waard is om energie te steken om te bewegen, of om sneller te bewegen6,40,81. Merk op dat een dopaminesignaal dat codeert voor "beweging is de moeite waard" correlaties zal produceren tussen dopamine en beweging, zelfs zonder dat dopamine codeert voor "beweging" werkt.
Voor "cognitief" striatum (~ DMS) zijn de middelen cognitieve processen inclusief aandacht (wat per definitie een beperkte capaciteit heeft82) en werkgeheugen83. Zonder dopamine worden opvallende externe signalen die normaal gesproken oriënterende bewegingen uitlokken, verwaarloosd, alsof ze als minder aandachtswaardig worden beschouwd3. Bovendien is het doelbewust aansturen van cognitieve controleprocessen moeizaam (kostbaar).84). Dopamine – vooral in DMS85 – speelt een sleutelrol bij de beslissing of het de moeite waard is om deze inspanning te leveren86,87. Dit kan inhouden of er meer cognitief veeleisende, deliberatieve ("op modellen gebaseerde") beslissingsstrategieën moeten worden gebruikt88.
Voor "motiverend" striatum (~NAc) kan een belangrijke beperkte hulpbron de tijd van het dier zijn. Mesolimbische dopamine is niet vereist wanneer dieren een eenvoudige, vaste actie uitvoeren om snel beloningen te krijgen89. Maar veel vormen van beloning kunnen alleen worden verkregen door langdurig werk: uitgebreide reeksen van onbeloonde acties, zoals bij foerageren. Kiezen om aan het werk te gaan, betekent dat andere nuttige manieren van tijdsbesteding moeten worden opgegeven. Hoge mesolimbische dopamine geeft aan dat het de moeite waard is om tijdelijk langdurig, inspannend werk te doen, maar als de dopamine wordt verlaagd, nemen dieren niet de moeite en kunnen ze zich in plaats daarvan gewoon voorbereiden om te slapen90.
Binnen elk cortico-striatale luscircuit is de bijdrage van dopamine aan aanhoudend gedrag dus zowel economisch (betreft de toewijzing van middelen) als motiverend (of het nu de moeite waard middelen te besteden81). Deze circuits zijn niet volledig onafhankelijk, maar hebben eerder een hiërarchische, spiraalvormige organisatie: meer ventrale delen van striatum beïnvloeden dopaminecellen die naar meer dorsale delen uitsteken5,91. Op deze manier kunnen beslissingen om aan het werk te gaan ook helpen om de vereiste specifieke, kortere bewegingen te stimuleren. Maar over het algemeen geeft dopamine "activerende" signalen - waardoor de kans groter wordt dat er een beslissing wordt genomen - in plaats van "directionele" signalen die specificeren hoe middelen moeten worden besteed5.
Wat is de computationele rol van dopamine bij het nemen van beslissingen?
Een manier van denken over deze activerende rol is in termen van "drempels" bij het nemen van beslissingen. In bepaalde wiskundige modellen nemen de besluitvormingsprocessen toe totdat ze een drempelniveau bereiken, wanneer het systeem zich inzet voor een actie92. Hogere dopamine zou gelijk zijn aan een lagere afstand tot de drempel, zodat beslissingen sneller worden genomen. Dit idee is simplistisch, maar maakt kwantitatieve voorspellingen die zijn bevestigd. Het verlagen van de bewegingsdrempels zou een specifieke verandering in de vorm van de reactietijddistributie veroorzaken, precies wat wordt gezien wanneer amfetamine wordt toegediend in het sensomotorische striatum20.
In plaats van vaste drempels, kunnen gedrags- en neurale gegevens beter passen als drempels in de loop van de tijd afnemen, alsof beslissingen steeds urgenter worden. Er is voorgesteld dat basale ganglia-output een dynamisch evoluerend urgentiesignaal geeft, dat selectiemechanismen in de cortex stimuleert93. De urgentie was ook groter wanneer toekomstige beloningen dichterbij kwamen, waardoor dit concept vergelijkbaar was met de waardecodering, activerende rol van dopamine.
Is zo'n activerende rol voldoende om de prestatiemodulerende effecten van striatale dopamine te beschrijven? Dit houdt verband met de al lang bestaande vraag of basale ganglia-circuits direct selecteren uit aangeleerde acties80 of alleen keuzes die elders zijn gemaakt, versterken93,94. Er zijn ten minste twee manieren waarop dopamine een meer "directioneel" effect lijkt te hebben. De eerste is wanneer dopamine werkt binnen een subregio van de hersenen die inherent directionele informatie verwerkt. Basale ganglia-circuits hebben een belangrijke, gedeeltelijk gelateraliseerde rol bij het oriënteren op en het naderen van potentiële beloningen. De caudate van primaten (~ DMS) is betrokken bij het aansturen van oogbewegingen naar contralaterale ruimtelijke velden95. Een dopaminerge signaal dat iets in de contralaterale ruimte de moeite waard is om naar te oriënteren, kan de waargenomen correlatie tussen dopaminerge activiteit in DMS en contralaterale bewegingen verklaren.72, evenals het rotatiegedrag geproduceerd door dopamine-manipulaties96. Een tweede "directionele" invloed van dopamine is duidelijk wanneer (bilaterale) dopamine-laesies ratten verleiden tot keuzes met weinig inspanning / lage beloning, in plaats van alternatieven met hoge inspanning / hoge beloning97. Dit kan een weerspiegeling zijn van het feit dat sommige beslissingen meer serieel dan parallel zijn, waarbij ratten (en mensen) opties een voor een evalueren98. In deze beslissingscontexten kan dopamine nog steeds een fundamenteel activerende rol spelen door de waarde van de momenteel overwogen optie over te brengen, die vervolgens kan worden geaccepteerd of niet.24.
Actieve dieren nemen beslissingen op meerdere niveaus, vaak tegen hoge tarieven. Naast het nadenken over individuele beslissingen, kan het nuttig zijn om een algemeen traject door een opeenvolging van toestanden te overwegen (Fig 1). Door overgangen van de ene toestand naar de volgende te vergemakkelijken, kan dopamine de stroom langs aangeleerde trajecten versnellen99. Dit kan verband houden met de belangrijke invloed van dopamine op de timing van gedrag44,100. Een belangrijke grens voor toekomstig werk is om een beter begrip te krijgen van hoe dergelijke dopamine-effecten op doorlopend gedrag mechanistisch ontstaan, door de informatieverwerking binnen enkele cellen, microcircuits en grootschalige corticale-basale ganglia-lussen te veranderen. Ook heb ik de nadruk gelegd op gemeenschappelijke computationele rollen van dopamine in een reeks striatale doelen, maar grotendeels verwaarloosde corticale doelen, en het valt nog te bezien of dopaminefuncties in beide structuren binnen hetzelfde kader kunnen worden beschreven.
Samengevat, zou een adequate beschrijving van dopamine verklaren hoe dopamine zowel leren als motivatie kan signaleren, op dezelfde snelle tijdschalen, zonder verwarring. Het zou verklaren waarom dopamine-afgifte in belangrijke doelwitten covarieert met beloningsverwachting, ook al doet het vuren van dopamine-cellen dat niet. En het zou een uniform computationeel verslag opleveren van dopamine-acties in het hele striatum en elders, wat de ongelijksoortige gedragseffecten op beweging, cognitie en timing verklaart. Sommige specifieke ideeën die hier worden gepresenteerd, zijn speculatief, maar zijn bedoeld om hernieuwde discussies, modellering en indringende nieuwe experimenten te stimuleren.
Dankwoord.
Ik dank de vele collega's die verhelderend commentaar hebben geleverd op eerdere tekstversies, waaronder Kent Berridge, Peter Dayan, Brian Knutson, Jeff Beeler, Peter Redgrave, John Lisman, Jesse Goldberg en de anonieme scheidsrechters. Ik betreur het dat de ruimtebeperkingen de bespreking van veel belangrijke eerdere studies verhinderden. Essentiële ondersteuning werd geboden door het National Institute on Neurological Disorders and Stroke, het National Institute of Mental Health en het National Institute on Drug Abuse.