Dissocieerbare dopaminedynamiek voor leren en motivatie (2019)

https://www.nature.com/articles/s41586-019-1235-y

Abstract

De dopamine-projectie van het ventrale tegmentale gebied (VTA) naar de nucleus accumbens (NAc) is van cruciaal belang voor de motivatie om te werken voor beloningen en beloningsgestuurd leren. Hoe dopamine beide functies ondersteunt, is onduidelijk. Dopamine celpieken kunnen voorspellingsfouten coderen, die essentiële leersignalen zijn in computationele theorieën over adaptief gedrag. Daarentegen neemt de afgifte van dopamine toe naarmate dieren beloningen naderen, wat de verwachting van beloning weerspiegelt. Deze mismatch kan een weerspiegeling zijn van verschillen in gedragstaken, langzamere veranderingen in dopaminecel-spiking of spike-onafhankelijke modulatie van dopamine-afgifte. Hier vergelijken we spiking van geïdentificeerde VTA-dopaminecellen met NAc-dopamine-afgifte in dezelfde besluitvormingstaak. Signalen die duiden op een aanstaande beloning namen zowel de spiking als de release toe. De afgifte van NAc-kern-dopamine ging echter ook gepaard met dynamisch evoluerende beloningsverwachtingen, zonder overeenkomstige veranderingen in VTA-dopaminecellen. Onze resultaten suggereren een fundamenteel verschil in hoe dopamine-afgifte wordt gereguleerd om verschillende functies te bereiken: uitzendburst-signalen bevorderen het leren, terwijl lokale controle de motivatie stimuleert.

Hoofd

Dopamine is beroemd gerelateerd aan 'beloning', maar hoe precies? Eén functie omvat het leren van onverwachte beloningen. Korte verhogingen van het vuren van dopamine cellen coderen voor voorspellingsfouten (RPE's)1,2,3-Leersignalen voor het optimaliseren van toekomstig gemotiveerd gedrag. Dopamine-manipulaties kunnen het leren beïnvloeden alsof ze RPE's veranderen4,5,6, maar ze beïnvloeden ook onmiddellijk gemotiveerd gedrag, alsof dopamine signalen de verwachting belonen (waarde)5. Bovendien escaleert NAc-dopamine tijdens een gemotiveerde benadering, consistent met de dopamine-coderingswaarde7,8,9,10,11.

Met enkele uitzonderingen2,12,13dopamine-invlieging bij de middenhersenen is onderzocht tijdens klassieke conditionering bij dieren met een vaste kop3,14, in tegenstelling tot dopamine-afgifte voor de hersenen. We vergeleken daarom het schieten met release onder dezelfde omstandigheden. We identificeerden VTA dopamine neuronen met behulp van optogenetische tagging3,13. Om de dopamine-afgifte van NAc te meten, hebben we drie onafhankelijke methoden gebruikt: microdialyse, voltammetrie en de optische sensor dLight15-Met convergente resultaten. Onze primaire conclusie is dat hoewel RPE-geschaalde VTA-dopamine-pieksalvo's abrupte veranderingen in dopamine-afgifte verschaffen die geschikt zijn voor leren, afzonderlijke NAc-dopaminefluctuaties geassocieerd met motivatie onafhankelijk van VTA-dopaminecelfibratie ontstaan.

Dopamine volgt de motivatie op belangrijke loci

We hebben ratten opgeleid in een operante 'bandiet'-taak5 (Fig. 1a, b). Bij elke proef leidde de verlichting van een neus-poke-poort ('Light-on') tot nadering en toegang ('Center-in'). Na een variabele vasthoudperiode (0.5–1.5 s), leidde witte ruis ('Go cue') ertoe dat de rat zich terugtrok ('Center-out') en een aangrenzende poort ('Side-in') prikte. Bij beloonde proeven ging dit Side-in-evenement gepaard met een klik van de voedselhopper die de rat ertoe aanzette een voedselpoort ('Food-port-in') te naderen om een ​​suikerkorrel te verzamelen. De keuzes naar links en naar rechts werden elk beloond met onafhankelijke waarschijnlijkheden, die soms zonder waarschuwing veranderden. Als ratten meer kans hadden om beloningen te ontvangen, waren ze meer gemotiveerd om de taak uit te voeren. Dit was duidelijk in hun 'latentie' - de tijd tussen Light-on en Center-in-wat gevoelig was voor de uitkomst van de voorgaande paar onderzoeken (Extended Data Fig. 1) en daardoor omgekeerd met beloningssnelheid (Fig. 1b).

Fig. 1: Dopamine laat covaries vrij met beloningssnelheid specifiek in NAc core en ventral prelimbic cortex.
figure1

a, Bandit-task-evenementen. b, Voorbeeldsessie. Bovenste rij, beloningskansen in elk blok (links: rechts); rij twee, vinkjes geven de uitkomst van elke proef aan (groot, beloond; kort, niet beloond); rij drie, lekkende integrator schatting van beloningspercentage (zwart) en lopend gemiddelde van latentie (cyaan; omgekeerde logschaal); onderste rij, NAc-kern dopamine in dezelfde sessie (monsters van 1 minuut). DA, dopamine. c, Top, microdialyse locaties in mediale frontale cortex en striatum (zie ook Uitgebreide gegevens Fig. 1). n = 51 sondelocaties van 12 ratten, elk met 2 microdialyse-sondes die tussen sessies werden verlaagd. De balkkleur geeft de correlatie aan tussen dopamine en beloningspercentage. ACC, anterieure cingulaire cortex; dPL, dorsale prelimbische cortex; vPL, ventrale prelimbische cortex; IL, infralimbische cortex; DMS, dorsaal-mediaal striatum. Middelste, gemiddelde kruiscorrelogrammen tussen dopamine en beloningspercentage. Rode balken geven een betrouwbaarheidsinterval van 99% van de geschudde tijdreeksen aan. Onderaan, relaties tussen neurochemicaliën en beloningspercentage (meervoudige regressie). NA, noradrenaline; 5-HT, serotonine; ACh, acetylcholine; GABA, y-aminoboterzuur; Glu, glutamaat; NM, normetadrenaline; DOPAC, 3,4-dihydroxyfenylazijnzuur; 3-MT, 3-methoxytyramine; HVA, homovanillinezuur; 5-HIAA, 5-hydroxyindolazijnzuur. d, Effect van blokovergangen op beloningstarief (links), latentie (midden) en NAc-kerndopamine (rechts). Overgangen werden geclassificeerd door de vraag of de ervaren beloningsratio toenam (n = 25) of verlaagd (n = 33). Gegevens zijn van alle 14 sessies waarin NAc-kern-dopamine werd gemeten (één per rat, waarbij gegevens van nieuwe en eerder gerapporteerde5 dieren), en uitgezet als gemiddelde ± sem e, Samengestelde kaarten van correlaties tussen dopamine en beloningstarief (n = 19 ratten, 33 sessies, 58 sondeplaatsingen). De contouren van de hersenatlas in deze afbeelding zijn gereproduceerd met toestemming van Paxinos en Watson, 200551.

We hebben eerder gemeld5 een correlatie tussen NAc dopamine-afgifte en beloningspercentage, consistent met de motivationele rol van mesolimbisch dopamine16. Hier hebben we eerst geprobeerd vast te stellen of deze relatie wordt waargenomen in de voorhersenen, in overeenstemming met de 'globaal uitgezonden' dopamine-signalering17, of is beperkt tot specifieke subregio's. We stelden verder de hypothese dat deze dopaminedynamica zou verschillen tussen striatum en cortex, omdat deze structuren een duidelijke dopamine-opname-afbraakkinetiek hebben.18 en kan dopamine gebruiken voor verschillende functies19,20.

Met behulp van microdialyse met hoge prestatie vloeistofchromatografie-massaspectrometrie (HPLC-MS) onderzochten we mediale frontale cortex en striatum (Fig. 1c, Uitgebreide gegevens Afb. 1). We hebben gelijktijdig 21-neurotransmitters en metabolieten getest met 1-min tijdsresolutie en regressie gebruikt om chemische tijdreeksen te vergelijken met gedragsvariabelen (Extended Data Fig. 2).

We repliceerden de correlatie tussen beloningssnelheid en NAc-dopamine - in tegenstelling tot andere neurotransmitters (Fig. 1c, d). Deze relatie was echter gelokaliseerd in de NAc-kern en bleef niet bestaan ​​in de NAc-schaal of het dorsaal-mediale striatum. In tegenstelling tot onze hypothese, hebben we een vergelijkbaar ruimtelijk patroon waargenomen in de frontale cortex: de dopamineafgifte correleerde met de beloningssnelheid in de ventrale prelimbische cortex, maar niet in meer dorsale of ventrale subregio's (Fig. 1c, e). Hoewel onverwacht, hebben deze dubbele 'hotspots' van waardegerelateerde dopamineafgifte een intrigerende parallel in menselijke neuroimaging: bloedzuurstofniveau-afhankelijk signaal correleert met subjectieve waarde, specifiek in NAc en ventraal-mediale prefrontale cortex21.

VTA-schieten houdt geen verband met motivatie

We gingen vervolgens na of deze motivatie-gerelateerde dopamine van de voorhersenen voortkomt uit het variabele vuren van dopamine cellen uit de middenhersenen. De NAc-kern ontvangt dopamine-invoer van zijgedeelten van VTA (VTA-l)6,22,23. In head-fixed muizen hebben VTA-l dopamine-neuronen naar verluidt uniforme, RPE-achtige reacties op geconditioneerde stimuli3. Om VTA-l-dopaminecellen op te nemen, hebben we de VTA met adeno-geassocieerd virus (AAV) geïnfecteerd voor Cre-afhankelijke expressie van channelrhodopsin (AAV-DIO-ChR2) bij ratten die Cre-recombinase tot expressie brengen onder een tyrosinehydroxylase (TH) -promotor (zie Methoden). Optrodes (Fig. 2a, b) opgenomen antwoorden van afzonderlijke eenheden op korte blauw-laserpulsen (Fig. 2c, Extended Data Fig. 3, 4, Aanvullende afbeelding 1). We vonden 27 goed geïsoleerde VTA-l-cellen met betrouwbare korte latentie-spikes en identificeerden ze als dopamine-neuronen.

Fig. 2: De activiteit van geïdentificeerde VTA dopamine-neuronen verandert niet met de beloningssnelheid.
figure2

aLinks, optrode-schema met 16 tetrodes rond een optische vezel met een diameter van 200 µm. Rechts, voorbeeld van optrode-plaatsing binnen laterale VTA. Schaalbalk, 1 mm. Rode dopaminecelmarker tyrosinehydroxylase; groen, ChR2 – EYFP; geel, overlappen. Voor alle plaatsingen, zie Uitgebreide gegevens Fig. 3. b, VTA-dopaminecelpieken. Rode balken geven gedetecteerde bursts en het aantal pieken in elke burst aan (zie Methoden). Schaal, 0.5 s, 0.5 mV. c, Voorbeeld neuronenreactie op laserpulsen met toenemende duur. d, Session-wide-brandsnelheid versus spike-breedte (bij half-maximum) voor elke VTA-cel. Blauwe, gemerkte dopaminecellen; paars, een afzonderlijke cluster van veronderstelde niet-dopamine neuronen. Insets, voorbeelden van gemiddelde golfvormen (negatieve spanning naar boven). eVuursnelheid (blauw; bakken van 1 minuut) van een VTA-dopamine-neuron tijdens een bandiettaak. Latentie (cyaan) is afhankelijk van het beloningspercentage, maar de vuursnelheid niet. f, Vuursnelheid voor alle VTA-neuronen (blauw, dopamine, paars, niet-dopamine, grijs, niet-geclassificeerd) in blokken met een lage of hoge beloningssnelheid. Geen vertoonde significante verschillen (Wilcoxon ondertekende ranktest met 1-min-bakken, allemaal P > 0.05 na correctie voor meerdere vergelijkingen). g, Gemiddelde kruiscorrelatie tussen dopamine-cellen en beloningspercentage vertoont geen significant verband. h, Analyse van dopamine-activeringssnelheid bij blokovergangen (zelfde formaat als Fig. 1d). n = 95 beloning stijgt, 76 afneemt. i. Verdelingen van inter-spike-intervallen (ISI's, links) en spike bursts (rechts) zijn niet veranderd tussen blokken met hogere en lagere beloningspercentages (Kolmogorov-Smirnov-statistieken: ISI's, 0.138, P = 0.92; bursts, 0.165, P = 0.63).

Alle dopamine-neuronen waren tonisch actief, met relatief lage vuursnelheden (gemiddeld 7.7 Hz, bereik 3.7-12.9 Hz; vergeleken met alle VTA-l-neuronen die samen met dopaminecellen werden geregistreerd, P <0.001 eenzijdige Mann-Whitney-test). Ze hadden ook langere spike-golfvormen (P <5 × 10-6, eenzijdige Mann-Whitney-test), hoewel er uitzonderingen waren (Fig. 2d), wat bevestigt dat de duur van de golfvorm een ​​onvoldoende marker is voor dopaminecellen in vivo3,24. Een afzonderlijke cluster van VTA-l-neuronen (n = 38, van dezelfde sessies) met korte golfvormen en hogere vuursnelheden (> 20 Hz; gemiddeld 41.3 Hz, bereik 20.1-97.1 Hz) bevatten geen gelabelde dopaminecellen. We nemen aan dat deze sneller vurende cellen GABAergisch en / of glutamaterge zijn3,25, en verwijzen naar hen als 'niet-dopamine' hieronder.

We hebben dezelfde dopaminecellen opgenomen voor meerdere gedragstaken. VTA-l-dopaminecellen reageerden sterk op willekeurig getimede voedselhoppers en geleidelijk minder sterk toen deze klikken voorspelbaarder werden gemaakt door voorafgaande aanwijzingen (Extended Data Fig. 5). Dit is consistent met canonieke RPE-achtige codering door dopaminecellen in Pavloviaanse taken2,3,26.

Op basis van bewijs van verdoofde dieren, is eerder beweerd dat veranderde dopaminegehalten gemeten met microdialyse het gevolg zijn van veranderingen in de tonische afvuursnelheid van dopaminecellen.27 en / of het aandeel van actieve versus inactieve dopamineneuronen28. In de bandiettaak was tonische dopaminecelfosfering in elk blok van onderzoeken echter onverschillig voor de beloningssnelheid (Fig. 2e, g). Er was geen significante verandering in de vuurtarieven van individuele dopaminecellen, of die van andere VTA-l-neuronen, tussen blokken met een hogere en lagere beloning (Fig. 2f, h; zie ook ref. 29 voor concordante resultaten in kop-gefixeerde muizen). Er was ook geen algehele verandering in de snelheid waarmee dopamine-cellen bursts van pieken vuren (Fig. 2i). Bovendien hebben we geen dopaminecellen waargenomen die schakelen tussen actieve en inactieve staten. Het percentage tijd dat dopamine-cellen inactief (lange tussenpiekintervallen) doorbrachten was erg laag en veranderde niet tussen blokken met een hogere of lagere beloning (Fig. 2i).

De anatomie van de dopamine-projectie van VTA-NAc is intensief onderzocht6,22,23, maar gezien deze schijnbare functionele mismatch tussen schieten en loslaten, hebben we opnieuw bevestigd dat we opnamen maakten van het juiste deel van de VTA. Kleine injecties van het retrograde merkstof choleratoxine B (CTb) in NAc-kern resulteerden in een dichte labeling van TH+ neuronen binnen hetzelfde VTA-l gebied als onze optrode opnames (Extended Data Fig. 3). Binnen de geschatte opnamezone, 21% van TH+ cellen waren ook CTb+en dit is waarschijnlijk een onderschatting van de fractie NAc core-projecterende VTA-l dopamine cellen, omdat onze tracer-injecties de NAc-kern niet volledig vulden. Dus, onze steekproef van n = 27 gelabelde VTA-dopaminecellen (plus veel meer niet-gelabelde cellen) bevatten vrijwel zeker NAc-kernprojecterende neuronen. Ten slotte hebben we in een extra rat twee gelabelde VTA-l-dopaminecellen opgenomen na selectief AAV in de NAc-kern te hebben geïnjecteerd (uitgebreide gegevens Fig. 3). Beide retrograde geïnfecteerde cellen hadden schietpatronen die in alle opzichten sterk leken op de andere gelabelde dopaminecellen, inclusief een gebrek aan tonische afvuurveranderingen met variërend beloningspercentage (Aanvullende afbeelding 1). We concluderen dat veranderingen in tonisch VTA-l dopaminecelafbranden niet verantwoordelijk zijn voor motivatie-gerelateerde veranderingen in de dopamine-afgifte van voorhersenen.

Tracking release op meerdere tijdschalen

Geeft NAc dopamine het beloningspercentage per se vrij, zoals in sommige theorieën wordt gesuggereerd30of is deze correlatie aangedreven door dynamische fluctuaties in dopamine-afgifte die te snel zijn om met microdialyse op te lossen? We hebben voor de laatste mogelijkheid gepoogd op basis van voltammetrie-gegevens5, maar probeerde bevestiging te krijgen met behulp van een onafhankelijke maatstaf voor dopamine-afgifte die verschillende tijdschalen kan overbruggen. De dLight1-reeks van genetisch gecodeerde optische dopamine-indicatoren werd ontwikkeld door circulair gepermuteerde GFP in dopamine D1-receptoren te plaatsen15. De binding van dopamine veroorzaakt een zeer specifieke toename in fluorescentie (Fig. 3a). We infundeerden AAV in NAc om ofwel dLight1.1 (vier geverifieerde NAc-plaatsingen van drie ratten) of de helderdere variant dLight1.3b (zes geverifieerde NAc-plaatsingen van vier ratten) en bewaakte fluorescentie door vezelfotometrie tot expressie te brengen. We observeerden duidelijke NAc-dopaminereacties op Pavloviaanse beloningsvoorspellende aanwijzingen, vergelijkbaar met VTA-dopaminecelfibrillatie (Extended Data Fig. 5).

Fig. 3: overbruggingstijden van dopaminemeting.
figure3

a, Fluorescentie-respons van dLight1.3b. Inzet, titraties van dopamine (n = 15 interessegebieden (ROI's)) en noradrenaline (n = 9). Hoofdfiguur, in bad aangebrachte neurotransmitters (alle n = 12 ROI's). Zijn, histamine. b, Sample bandit-sessie inclusief genormaliseerd NAc dLight1.3b-signaal (1-min-bins). c, d Lichtsignaal verandert met blokovergangen. n = 35 verhogingen van het beloningspercentage, 45 verlagingen. d, Kruiscorrelatie tussen dLight en beloningspercentage. e, Nauwere weergave van het gearceerde gedeelte van b. Pijlen: zwart, centrum-neus-in; lichtrood, Side-in (beloond); lichtblauw, Side-in (niet beloond); donkerrood, Food-port-in (beloond); donkerblauw, Food-port-in (niet beloond). Volgende rijen: schatting van de leaky-integrator van het beloningspercentage; dLight op lage resolutie (1 min); dLicht met hoge resolutie (50 Hz, groen; vijfpunts mediaan gefilterd, zwart); modelstatuswaarden (cyaan); en RPE's (magenta). Na verschillende niet-beloonde onderzoeken zijn de staatswaarden aan het begin van het onderzoek laag, waarna beloning een positieve RPE en een daarmee gepaard gaande sterke toename van dopamine oproept. Opeenvolgende beloonde onderzoeken verminderen RPE's, maar verhogen de toestandswaarden, vergezeld van toenemende dopamine. f, Korte tijdschaal-crosscorrelaties tonen een nauwe relatie tussen dLight en waarde en een kleinere relatie met RPE. gCorrelaties binnen de proef tussen modelvariabelen en dLight met verschillende vertragingen; correlatie met zowel waarde als RPE is het sterkst tot dLight ongeveer 0.3 s later. h, In alle sessies was de maximale correlatie groter voor de waarde dan voor RPE of beloningspercentage.

Voor de bandiettaak hebben we eerst het dLight-signaal in 1-min-bakken onderzocht (afb. 3b) voor vergelijking met microdialyse. We zagen opnieuw een duidelijke relatie tussen NAc-dopamineafgifte en beloningssnelheid, zowel in kruiscorrelatie als in analyse van blokovergangen (Fig. 3c, d). Vervolgens hebben we nader onderzocht hoe deze relatie ontstaat. In plaats van langzaam te variëren in een tijdsbestek van minuten, vertoonde het dLight-signaal zeer dynamische fluctuaties binnen en tussen elke test (Fig. 3e). We hebben deze fluctuaties vergeleken met ogenblikkelijke toestandswaarden en RPE's geschat op basis van een versterkingslerend model (een semi-Markov beslissingsproces5). Zoals eerder gemeld met behulp van voltammetrie5, NAc dopamine toonde van moment tot moment een sterke correlatie met toestandswaarden (Fig. 3f), zichtbaar als oplopend binnen trials waarbij beloningen werden verwacht (Fig. 3e). We zagen ook voorbijgaande stijgingen met minder verwachte beloningsleveringen, consistent met RPE (hieronder onderzocht). In elke dLight-sessie vertoonde dopamine een sterkere correlatie met waarden dan RPE's of beloningspercentage (Fig. 3h, Uitgebreide gegevens Afb. 6). Correlaties met zowel toestandswaarden als RPE waren maximaal met betrekking tot het dLight-signaal ~ 0.3, XNUMX s later, consistent met een korte vertraging veroorzaakt door neurale verwerking van signalen en sensorresponstijd (Fig. 3g; met voltammetrie rapporteerden we een vertraging van 0.4–0.5 s)5.

Ontvlamming met Dopamine verklaart de afgifte niet

Vervolgens vergeleken we het vuren van dopamine cellen en het vrijgeven rond bandit-taakgebeurtenissen. Externe stimuli bij Light-on, Go cue en beloond Met Side-in (klik met voedsel-hopper) riep elk een snelle schietstijging op (Fig. 4a). Deze responsen werden waargenomen in de grote meerderheid van de dopaminecellen (Fig. 4c), hoewel de relatieve omvang van de antwoorden op verschillende signalen van cel tot cel varieerde (Aanvullende afbeelding 1). Het NAc dLight-signaal reageerde ook snel en betrouwbaar op elk van deze opvallende aanwijzingen (Afb. 4b, c), consistent met burst-firing van dopamine-cellen die de dopamine-afgifte aansturen.

Fig. 4: Phasic VTA dopamine-vuren houdt geen rekening met NAc-dopaminedynamica.
figure4

a, Event-gerichte activiteit van VTA-l dopamine cellen. Top, spike rasters voor één representatieve cel; bottom, average spike rate (n = 29). In alle panelen geven foutbanden ± sem aan b, Event-uitgelijnde NAc dLight. Top, representatieve sessie; onderste, gemiddelde (n = 10), genormaliseerd naar piekbeloonde Side-in-respons. In deze afbeelding worden dLight-signalen weergegeven ten opzichte van een 2-s 'basislijn'-tijdperk dat eindigt op 1 s voor Center-in. Let op verhogingen (pijlen) kort voor Center-in en Food-port-in. c, Cumulatieve verdelingen van de tijd die nodig is voor dopaminecellen (vast; n = 29), dLight (onderbroken; n = 10), om volgende cue-onsets te verhogen (shuffle-test vergeleken met de basislijn, 10,000 shuffles, P <0.01, meerdere vergelijkingen gecorrigeerd). Voor Light-on zijn alleen latenties <1 s inbegrepen; alleen voor Side-in beloonde proeven. Mediane latenties (van sigmoid-fit): licht aan, afvuren 152 ms, dLight 266 ms; Go cue, afvuren 67 ms, dLight 212 ms; Side-in, afvuren 85 ms, dLight 129 ms. Niet-dopaminecellen waren meestal onverschillig voor cue-onsets (uitgebreide gegevens Fig. 8). d, Opmerkelijke aanwijzing vanwege cue-evoked, approach-related dopamine. Top, gemiddelde dopamine-cellen schieten (n = 29); midden, gemiddelde dLight (n = 10); onderkant, voltammetrie (n = 6), genormaliseerd naar piek korte latentie Light-on respons. Linkerpanelen, latenties <1 s, rechts, latenties> 2 s. De gegevens zijn uitgelijnd op Licht-aan (vast) of Midden in (gestippeld); rode stippellijn, mediane latentie. Voor langere latenties is er geen toename van het afvuren nabij Center-in, maar dLight en voltammetrie vertonen een duidelijke toename. e, Scatterplot waarbij pieksignalen worden vergeleken die zijn uitgelijnd op Light-on (y as) of Center-in (x as). Voor elke cel geven sessieverbonden lijnen gegevens aan voor verschillende latentiebereiken (<1 s,> 2 s). Dopamine-afvuren (boven) toont consequent Light-on-respons voor onderzoeken met korte latentie (tweezijdige variantieanalyse (ANOVA), uitlijning × latentie-interactie, F = 7.47, P = 0.0008). dLight (midden), voltammetrie (onder) signalen zijn consistent beter uitgelijnd met Center-in (tweeweg ANOVA voor dLight: uitlijning × latentie-interactie, F = 9.28, P = 0.0043). f, Dopamine neemt toe tijdens de nadering, gekwantificeerd als hellingshoek (zie Methoden). Cirkels geven individuele dopaminecellen aan (n = 29), dLight-sessies (n = 10).

We zagen ook duidelijke verhogingen van de dopamine-afgifte van NAc toen de ratten de starthaven naderden (vlak voor het Center-in) en de voedselhaven (vlak voor Food-port-in). Dit past goed bij de uitgebreide voltammetrie literatuur die aantoont dat gemotiveerd benaderingsgedrag gepaard gaat met snelle verhogingen van NAc-kern-dopamine5,7,8,9,10,11. De dopamine-celpopulatie van VTA-l vertoonde echter op die momenten geen overeenkomstige toename van het afvuren (Fig. 4a; zie Uitgebreide gegevens Afb. 7 voor aanvullende vergelijkingen, inclusief voor niet-dopamine cellen).

Om cue-opgewekte en benaderingsgerelateerde dopamine-activiteit beter te dissociëren, hebben we proeven gescheiden door korte (<1 s) en lange (> 2 s) latenties (Fig. 4d, e). Verhogingen van het vuren van dopamine cellen werden consequent vergrendeld aan het begin van de cue bij Light-on, bij voorkeur voor onderzoeken met een korte latentie. Alle 25-dopaminecellen met een aanzienlijk aantal brandsnelheden na Light-on waren beter afgestemd op Light-on dan Center-in (Afb. 4e). Daarentegen waren verhogingen van NAc-dopamineafgifte vóór Center-in verschillend van cue-opgewekte dopamine-afgifte (Fig. 4d, e). dLichtsignalen consistent verhoogd voor Centre-in bij lang-latentie-onderzoeken (tien van de tien sessies) en vóór voedsel-poort-in (negen van de tien sessies), zonder overeenkomstige toename van dopamine-vuren (Fig. 4f).

Uiteindelijk hebben we bekeken hoe gebeurtenisgerelateerde dopamine-signalen afhankelijk zijn van de recente beloningsgeschiedenis. Tijdens het eerste deel van elke proef was het vuren van dopaminecellen niet afhankelijk van de beloningssnelheid (Fig. 5a), ondanks de invloed van het beloningspercentage op de motivatie (Fig. 5b). Vervolgens was de fasische reactie op de beloningskeu bij Side-in betrouwbaarder wanneer het beloningspercentage lager was (Fig. 5a), consistent met positieve RPE-codering. Toen dit beloningskenmerk werd weggelaten, staakten dopaminecellen het vuren, hoewel het coderen van negatieve RPE's veel zwakker of afwezig was, ongeacht of ze op populatieniveau werden onderzocht (Fig. 5a, b) of als individuele cellen (Uitgebreide gegevens Fig. 8). Eerder is voorgesteld dat negatieve RPE's worden gecodeerd tijdens de duur van dopaminepauzes31, maar dit werd waargenomen in slechts 2 van de 29 individuele neuronen. Vergelijkbare resultaten werden verkregen als de beloningsverwachting op andere manieren werd geschat, inclusief op proef gebaseerde leermodellen voor versterking (actor-criticus en Q-learning) of simpelweg door recente beloningen te tellen (uitgebreide gegevens Fig. 8).

Fig. 5: Beloningsgeschiedenis beïnvloedt dopamine-afgifte VTA en NAc dopamine-afgifte anders.
figure5

a, Top, gemiddelde vuurtempo van dopaminecellen (n = 29) uitgelijnd met Side-in, uitgesplitst naar beloningspercentage (terciles, afzonderlijk berekend voor elke cel). Vóór Side-in is activiteit niet afhankelijk van de verwachting van een beloning. Na Side-in worden beloonde (rode) en niet-beloonde (blauwe) proeven afzonderlijk weergegeven. De food-click-respons is sterker wanneer het beloningspercentage laag is, consistent met het coderen van positieve RPE's. Onderste fractie van individuele dopaminecellen met een vuursnelheid die op elk moment aanzienlijk varieert met het beloningspercentage (shuffle-test, P <0.01, meerdere vergelijkingen gecorrigeerd). Vinkjes bovenaan geven tijden aan waarop deze fractie significant hoger was dan de kans (binominaal, P <0.01). Na Side-in worden alleen negatieve correlaties getest, dat wil zeggen potentiële RPE-codering. b, Regressieplots voor sessies met geregistreerde dopaminecellen, die het effect van recente beloningshistorie op (log-) latentie (boven) en dopamine-spiking laten zien. Asterisken geven significante regressiegewichten aan (t-test, P <0.05). Tijdens de 0.5 s voor Go-cue (terwijl de rat een gestage neus moet houden om de proef voort te zetten) wordt dopamine-spiking niet beïnvloed door de beloningsgeschiedenis (midden). Dit verandert zodra de uitkomst wordt onthuld (bodem; beoordeling van piek- of dal van activiteit in de 0.5 s na Side-in), maar alleen voor beloonde proeven. c, d, Idem als hierboven, behalve voor dLight (genormaliseerd voor piek Side-in-reactie). De dopamineafgifte wordt op betrouwbare wijze geschaald met de beloningsratio, zelfs nog voor de Side-in.

De afgifte van dopamine bij Side-in toonde ook een duidelijke, voorbijgaande codering van positieve RPE's, maar niet van negatieve RPE's (Fig. 5c, d). Deze dLight-respons was enigszins vertraagd en langdurig in vergelijking met schieten, consistent met de tijd die nodig was voor vrijgave en heropname32, maar bleef een subseconfenomeen. Anders dan bij het afvuren waren de signalen van dLight in het begin van elke test echter groter wanneer recente proeven werden beloond (fig. 5c), consistent met waardecodering. We observeerden deze afhankelijkheid van de beloningsgeschiedenis, zelfs wanneer de rat niet actief in beweging was, maar een neus in de middelste poort hield terwijl hij wachtte op de Go-cue (Fig. 5d). Over het algemeen concluderen we dat NAc dopamine-afgifte zowel cue-evoked responses als beloningsverwachtingen weerspiegelt, en dat alleen de eerste goed kan worden verklaard door VTA-l dopaminecel-vuren.

Discussie

VTA-l levert de overheersende bron van dopamine aan de NAc-kern6,23,24. VTA-l-dopaminecellen, inclusief cellen die naar de NAc-kern projecteren, vertonen consistent RPE-coderende bursts3,12. Men denkt dat VTA-uitbarstingen bijzonder belangrijk zijn voor het aansturen van NAc-dopamine32, en inderdaad vonden we dat door cue opgewekte VTA-bursts werden vergeleken met NAc-releases. We vonden echter ook waardengerelateerde patronen van NAc-dopaminevrijgave die niet werden gegenereerd door vuren van VTA-l-dopaminecellen, hetzij op lange (tonische) of korte (fasische) tijdschalen. Andere subpopulaties van dopamine kunnen verschillende signalen bevatten13,33,34, en we kunnen de mogelijkheid niet uitsluiten dat het afvuren van dopaminecelsubpopulaties die hier niet zijn geregistreerd, waardegerelateerde dopamine in de NAc-kern produceert. Waardegerelateerd vuren is echter nooit gerapporteerd voor dopaminecellen in een breed scala aan onderzoeken. Onze resultaten suggereren dat de dynamiek van NAc-dopamine op verschillende manieren, op verschillende tijdstippen en voor verschillende functies wordt geregeld, en dat het opnemen van dopaminecellen belangrijk maar niet voldoende is om dopaminesignalen te begrijpen.35.

Afgifte van dopamineklemmen wordt sterk beïnvloed door lokale, niet-versterkende mechanismen36,37,38,39,40. NAc dopamine-afgifte wordt bijvoorbeeld gemoduleerd door de basolaterale amygdala, zelfs wanneer VTA spiking farmacologisch wordt onderdrukt41,42. Het is al tientallen jaren bekend dat lokale controle van dopamine-afgifte functies kan bereiken die anders zijn dan die van dopaminecel spiking36,43, maar dit is niet verwerkt in de theoretische opvattingen over dopamine. Verschillende striatale subregio's dragen bij aan verschillende soorten beslissingen en kunnen hun eigen dopamine-afgifte afhankelijk van de behoefte beïnvloeden44. Het moet nog worden bepaald hoe gelokaliseerd deze controle van dopamine-afgifte kan zijn. Een beperking die gedeeld wordt door de 3 manieren waarop we dopamine-afgifte hebben gemeten, is dat ze allemaal bemonsteren op een ruimtelijke schaal van ten minste 100 µm, terwijl in vivo microscopie suggereert dat dopamine-afgifte heterogeen kan zijn op aanzienlijk kleinere schalen.15.

Onze resultaten ondersteunen niet het bestaan ​​van een afzonderlijk tonisch dopamine-signaal dat motiverende effecten van dopamine kan veroorzaken. In plaats daarvan veranderen dopamine-verschuivingen die traag lijken als ze langzaam worden gemeten (met microdialyse) tot snelle fluctuaties, indien snel gemeten (met voltammetrie of dLight). Verder opnames van geïdentificeerde VTA-dopaminecellen door onszelf en anderen30 leveren sterk bewijs tegen het idee29 dat verandert in tonische dopaminecelfositie tonische veranderingen in dopamine-afgifte. Hoewel tonisch afvuren kan worden veranderd door laesies of medicijnmanipulaties28zijn we ons niet bewust van aanhoudende veranderingen in de vuursnelheid bij enige gedragstaak. Vuren kan afnemen op een tijdschaal van ongeveer 1 s tijdens het anticiperen op motiverend relevante gebeurtenissen45,46. Deze afname is echter het tegenovergestelde van wat nodig zou zijn om dopamine-afgifte met beloningsverwachting te stimuleren, en heeft in plaats daarvan meer gelijkenis met een reeks tijdelijke negatieve voorspellingsfouten.47. Hoewel aanhoudende signalen die de doorlopende beloningssnelheid coderen, voor de computer nuttig kunnen zijn30dopamine verschaft in plaats daarvan snel fluctuerende fout- en waardesignalen. Het blijft mogelijk dat aanhoudende signalen worden berekend in een volgende stap, door intracellulaire signaalroutes stroomafwaarts van dopamine-receptoren.

Veel groepen hebben een toenemende dopamine-afgifte waargenomen als ratten hun beloningen benaderen5,7,8,9,10,11, consistent met codering van escalerende beloningsverwachtingen. Sommigen hebben betoogd dat deze dopamine-hellingbanen eenvoudig RPE's weergeven, door te veronderstellen dat ratten ofwel snel waarden vergeten48 of dat ze een verwrongen verzameling toestandsrepresentaties hebben49. Dit laatste idee wordt niet ondersteund door onze observatie dat ophitsing snel wordt gemoduleerd van trial naar trial op basis van bijgewerkte beloningsverwachtingen, sterker wordend binnen een korte opeenvolging van opeenvolgende beloningen, terwijl RPE-achtige reacties op cues zwakker worden (Fig. 3e). Meer in het algemeen kan elke theorie waarin dopamine alleen RPE's (leer signalen) transporteert, geen verklaring bieden voor de zeer goed gevestigde connectie tussen aanhoudende mesolimbische dopamine en motivatie16. De NAc-kern is niet nodig voor hoogopgeleide reacties op geconditioneerde stimuli, maar is vooral belangrijk bij het nemen van tijdrovende inspanningen om beloningen te verkrijgen50. NAc core dopamine lijkt een essentieel dynamisch signaal te geven van hoe de moeite waard is om tijd en moeite toe te wijzen aan het werk5,44, hoewel dit signaal niet aanwezig is bij het vuren van dopamine-cellen met VTA.

Methoden

Dieren

Alle dierproeven werden goedgekeurd door de Institutional Committees on Use and Care of Animals van de University of Michigan of de University of California San Francisco. Mannetjesratten (300-500 g, ofwel wildtype Long-Evans of TH-Cre+ met een achtergrond van Long-Evans52) werden gehandhaafd op een omgekeerde 12: 12 licht: donker cyclus en getest tijdens de donkere fase. Ratten hadden een lichte voedselbehoefte en ontvingen dagelijks 15 g standaard laboratorium rattenvoer, naast voedselbeloningen verdiend tijdens taakprestaties. Er is geen precalculatie van de monsteromvang uitgevoerd. De onderzoekers waren niet blind voor toewijzing tijdens experimenten en uitkomstevaluatie.


Gedrag

Vooropleiding en testen werden uitgevoerd in computergestuurde operante kamers van Med Associates (25 cm x 30 cm op het breedste punt), elk met een neuswand met vijf gaten, zoals eerder beschreven5. Bandiet-taaksessies gebruikten de volgende parameters: bloklengtes waren 35-45-onderzoeken, willekeurig geselecteerd voor elk blok; wachttijd voor Go cue was 500-1,500 ms (uniforme verdeling); links-rechts beloningskansen waren 10, 50 en 90% (voor elektrofysiologie, fotometrie, voltammetrie en eerder gerapporteerde microdialyse ratten5) of 20, 50 en 80% (nieuw gerapporteerde microdialyse-ratten).

De huidige beloningsratio werd geschat met behulp van een op tijd gebaseerde lek-integrator53. Het beloningspercentage werd verhoogd elke keer dat een beloning werd ontvangen, en exponentieel verviervoudigd met een snelheid ingesteld door parameter τ (de tijd in s dat de beloningssnelheid daalt met ~ 63%, dat wil zeggen 1-1 / e). Voor alle analyses, τ werd geselecteerd op basis van het gedrag van de rat, waarbij de (negatieve) correlatie tussen de beloningsratio en log (latentie) in elke sessie werd gemaximaliseerd. De correlaties tussen dopamine voor de hersenen en beloningspercentage waren niet erg gevoelig voor deze keuze τ (Uitgebreide gegevens Afb. 1).

Om blokovergangen te classificeren als 'toenemend' of 'afnemend' in beloningspercentage, vergeleken we de gemiddelde lekintegrator-beloningssnelheid in de laatste 5 min van een blok met de gemiddelde beloningssnelheid in de eerste 8 min van het volgende blok.

Ratten die voor elektrofysiologie en fotometrie werden gebruikt, voerden ook een Pavloviaanse aanpakstaak uit, in dezelfde operatiekamer met het huislicht aan gedurende de sessie. Drie auditieve signalen (2 kHz, 5 kHz en 9 kHz) werden geassocieerd met verschillende kansen op voedselafgifte (gecompenseerd voor ratten). Cues werden gespeeld als een reeks toonpips (100 ms aan, 50 ms uit) gedurende een totale duur van 2.6 s gevolgd door een vertragingsperiode van 500 ms. Signalen en onvoorspelde beloningen werden in pseudo-willekeurige volgorde afgeleverd met een variabel interval tussen de proeven (15–30 s, uniforme verdeling).


microdialyse

Chirurgie

Ratten werden bilateraal geïmplanteerd met geleidingscanulae (CMA, 830 9024) in cortex en striatum. Een groep (n = 8) ontving één geleidecanule gericht op de prelimbische en infralimbische cortex (anteroposterior (AP) +3.2 mm, mediolateraal (ML) 0.6 mm ten opzichte van bregma; en dorsoventraal (DV) 1.4 mm onder het hersenoppervlak) en een andere gericht op het dorsomediale striatum en nucleus accumbens in het tegenovergestelde halfrond (AP +1.3, ML 1.9 en DV 3.4). Beide implantaten stonden 5 graden van elkaar af langs het rostraal-caudale vlak. Een tweede groep (n = 4) ontving één geleidecanule gericht op de cortex cingularis anterior (AP +1.6, ML 0.8 en DV 0.8) en een andere gericht op accumbens (kern / schaal in het tegenoverliggende halfrond op AP +1.6, ML 1.4 en DV 5.5 (n = 2) of AP +1.6, ML 1.9 en DV 5.7 (n = 2). Implantaatzijden werden gecompenseerd door ratten. De dieren mochten een week herstellen voordat ze opnieuw werden getraind.

Chemie

Water, methanol en acetonitril voor mobiele fasen waren van Burdick & Jackson HPLC-kwaliteit, gekocht bij VWR (Radnor). Alle andere chemicaliën werden gekocht bij Sigma Aldrich, tenzij anders vermeld. Kunstmatige cerebrospinale vloeistof (aCSF) omvatte 145 mM NaCl, 2.68 mM KCl, 1.40 mM CaCl2, 1.01 mM MgSO4, 1.55 mM Na2HPO4 en 0.45 mM NaH2PO4, aangepaste pH tot 7.4 met NaOH. Ascorbinezuur (250 nM eindconcentratie) werd toegevoegd om de oxidatie van analyten te verminderen.

Monsterverzameling en HPLC-MS

Op de dag van het testen werden de dieren in de operatiekamer geplaatst met het licht van het huis erop. Op maat gemaakte concentrische polyacrylonitrilmembraan-microdialysesondes (1-mm dialyserend AN69-membraan; Hospal) werden bilateraal in de geleidecanule ingebracht en continu geperfuseerd (Chemyx, Fusion 400) met aCSF bij 2 μl / min voor 90 min om equilibratie mogelijk te maken. Na verzameling van basislijninzameling van 5-min was het huislampje gedoofd, waardoor het dier naar bandiet-taakbeschikbaarheid ging. De monsterverzameling werd voortgezet met intervallen van 1-min en monsters werden onmiddellijk gederivatiseerd54 met 1.5 µl natriumcarbonaat, 100 mM; 1.5 µl benzoylchloride (2% (v / v) benzoylchloride in acetonitril); en 1.5 µl isotopisch gelabeld intern standaardmengsel verdund in 50% (v / v) acetonitril dat 1% (v / v) zwavelzuur bevat, en verrijkt met gedeutereerde ACh en choline (C / D / N isotopen) tot een eindconcentratie van 20 nM. De verzameling van monsterseries wisselde af tussen de twee sondes met tussenpozen van 30 seconden in elk van de 26 sessies, met uitzondering van één sessie waarin een gebroken membraan resulteerde in slechts één serie (51 monsterreeksen in totaal). Monsters werden geanalyseerd met behulp van Thermo Scientific UHPLC-systemen (Accela of Vanquish Horizon gekoppeld aan een Quantum Ultra triple quadrupool massaspectrometer uitgerust met een HESI II ESI-sonde), werkend in meervoudige reactiebewaking. Monsters van vijf microliter werden geïnjecteerd op een Phenomenex core-shell bifenyl Kinetex HPLC-kolom (2.1 mm x 100 mm). Mobiele fase A was 10 mM ammoniumformiaat met 0.15% mierenzuur en mobiele fase B was acetonitril. De mobiele fase kreeg als volgt een elutiegradiënt met 450 µl / min: aanvankelijk 0% B; 0.01 min, 19% B; 1 minuut, 26% B; 1.5 min, 75% B; 2.5 min, 100% B; 3 minuten, 100% B; 3.1 min, 5% B; en 3.5 min, 5% B. Thermo Xcalibur QuanBrowser (Thermo Fisher Scientific) werd gebruikt om pieken automatisch te verwerken en te integreren. Elk van de> 100,000 pieken werd afzonderlijk visueel geïnspecteerd om een ​​goede integratie te garanderen.

Analyse

Alle neurochemische concentratiegegevens werden afgevlakt met een voortschrijdend gemiddelde van drie punten (y′ = [0.25 × (y-1) + 0.5y + 0.25 × (y+ 1)]) en z-score genormaliseerd binnen elke sessie om vergelijkingen tussen sessies mogelijk te maken. Voor elke doelregio werd voor elke sessie een kruiscorrelogram gegenereerd en werd het gemiddelde van de sessies uitgezet. Voor elke subplot werden één procent betrouwbaarheidsgrenzen gegenereerd door een tijdreeks 100,000 keer te schudden en een verdeling van correlatiecoëfficiënten voor elke sessie te genereren. Meerdere regressiemodellen werden gegenereerd met behulp van de regressiefunctie in MATLAB, met het neurochemische als de uitkomstvariabele en gedragsstatistieken als voorspellers. Regressiecoëfficiënten werden significant bepaald op drie alfaniveaus (0.05, 0.0005 en 0.000005), na Bonferroni-correctie voor meerdere vergelijkingen (alfa / (21 chemicaliën × 7 regio's × 9 gedragsregressoren)). Voor analyse van blokovergangen werden gegevens weggegooid in tijdperken van 3 minuten, waarbij het monster met de overgangstijd werd weggegooid.


elektrofysiologie

Ratten (n = 25) werden geïmplanteerd met op maat ontworpen aandrijfbare optrodes, elk bestaande uit 16 tetrodes (opgebouwd uit 12.5 µm nichroomdraad, Sandvik) die op de zijkant van een 200 µm optische vezel waren gelijmd en zich uitstrekten tot 500 µm onder de vezeltip. Tijdens dezelfde operatie injecteerden we 1 µl AAV2 / 5-EF1a-DIO-ChR2 (H134R) -EYFP in de laterale VTA (AP 5.6, ML 0.8, DV 7.5) of NAc-kern (AP 1.6, ML 1.6, DV 6.4) . Breedband (1–9,000 Hz) hersensignalen werden bemonsterd (30,000 samples per seconde) met behulp van Intan digitale headstages. Optrodes werden aan het einde van elke opnamesessie met ten minste 80 µm verlaagd. Individuele eenheden werden offline geïsoleerd met behulp van een MATLAB-implementatie van MountainSort55 gevolgd door een zorgvuldige handmatige inspectie.

Classificatie

Om te identificeren of een geïsoleerde VTA-I-eenheid dopaminerge was (TH+), hebben we de stimulus-geassocieerde latentietest gebruikt56. In het kort, aan het einde van elke experimentele sessie, hebben we de optrode verbonden met een laserdiode en lichtpulstreinen geleverd met verschillende breedtes en frequenties. Om een ​​eenheid als lichtgevoelig te identificeren, moest deze het significantieniveau bereiken van P <0.001 voor pulstreinen van 5 ms en 10 ms. We vergeleken ook de door licht opgewekte golfvormen (binnen 10 ms na het begin van de laserpuls) met gemiddelden voor de hele sessie; alle door licht opgewekte eenheden hadden een Pearson-correlatiecoëfficiënt van> 0.9. Dopamine-neuronen werden met succes geregistreerd van vier ratten met VTA-l AAV-infusies (IM657, 1 eenheid; IM1002, 3 eenheden; IM1003, 15 eenheden; IM1037, 9 eenheden) en één rat met NAc-kern AAV (IM-1078, 2 eenheden) . Piekbreedte werd gedefinieerd als de volledige breedte-op-half-maximum van de meest prominente negatieve component van de uitgelijnde, gemiddelde piekgolfvorm. Niet-gemerkte VTA-neuronen met een sessiebrede afvuursnelheid> 20 Hz en een piekbreedte <200 µs werden geclassificeerd als niet-dopaminecellen. Om ervoor te zorgen dat we dopamine- en niet-dopaminecellen binnen dezelfde subregio's vergeleken, hebben we alleen niet-dopaminecellen geanalyseerd die zijn opgenomen tijdens sessies met ten minste één optisch gelabelde dopaminecel.

Analyse

Spike bursts werden gedetecteerd door de conventionele '80 / 160-sjabloon'-benadering57: elke keer dat een interval tussen de pieken van 80 ms of minder optreedt, worden deze en volgende pieken beschouwd als onderdeel van een burst totdat er een interval is van 160 ms of meer. Ter vergelijking van 'tonisch' vuren met beloningspercentage, werden dopamine-pieken geteld in bakken van 1 minuut. Om snellere veranderingen te onderzoeken, werden spike-dichtheidsfuncties geconstrueerd door spike-treinen te convolueren met een Gauss-kern met een variantie van 20 ms. Om te bepalen hoe snel een neuron reageerde op een gegeven cue, gebruikten we bakken van 40 ms (verschuivend in stappen van 20 ms) en gebruikten we een shuffle-test (10,000 shuffles) voor elke keer dat de bak de vuursnelheid na het begin van de cue vergelijkt met de vuursnelheid in de 250 ms die onmiddellijk voorafgaat aan de cue. De eerste bak waarbij de afvuursnelheid na de cue significant was (P <0.01, correctie voor meerdere vergelijkingen) groter dan baseline-afvuren werd beschouwd als de tijd tot respons.

De piek-afvuursnelheid werd berekend als de maximale (Gauss-afgevlakte) afvuursnelheid van elke test in een 250-ms-venster na het naar binnen gaan voor beloonde proeven, en de vallei werd berekend als de minimale afvuursnelheid in een 2-s-venster, beginnend één seconde na het inspringen voor niet-beloonde trials.

Om een ​​hellingshoek te berekenen tijdens benaderingsgedrag, hebben we de gemiddelde ontlaadsnelheden geëgaliseerd met een 50-ms Gauss-kernel, het maximum / minimum gedetecteerd van het resulterende signaal in een 0.5-s-venster vóór elke gebeurtenis (incenter of voedselpoort) ) en de ondertekende hoek gemeten die de twee extrema verbindt. Om schietcijfers in 'hoge' en 'lage' beloningsblokken te vergelijken, hebben we voor elke sessie een gemiddelde verdeling van de gemiddelde leaky-integrator-beloningssnelheid in elk blok uitgevoerd.


Voltammetrie en computationeel model

Fast-scan cyclische voltammetrie resultaten hier weergegeven reanimatiegegevens eerder in detail gepresenteerd5. In-trial schattingen van de statuswaarde en beloningsvoorspellingsfouten werden berekend met behulp van een semi-Markov beslissingsproces-versterkingslerenmodel, precies zoals eerder beschreven5.


fotometrie

We gebruikten een virale benadering om de genetisch gecodeerde optische dopamine-sensor dLight tot expressie te brengen15. Onder anesthesie met isofluraan werd 1 μl AAV9-CAG-dLight (1 × 1012 virale genomen per ml; UC Davis vectorkern) werd langzaam (100 nl / min) geïnjecteerd (Nanoject III, Drummond) door een 30 µm glazen micropipet in het ventrale striatum bilateraal (AP: 1.7 mm, ML: 1.7 mm, DV: -7.0 mm). Tijdens dezelfde operatie werden optische vezels (400 µm kern, 430 µm totale diameter) bevestigd aan een metalen ferrule (Doric) ingebracht (doeldiepte 200 µm hoger dan AAV) en op hun plaats gecementeerd. Gegevens werden> drie weken later verzameld om dLight-expressie mogelijk te maken.

Voor dLight-excitatie werden blauwe (470 nm) en violette (405 nm; controle) LED's sinusoïdaal gemoduleerd op verschillende frequenties (respectievelijk 211 Hz en 531 Hz58). Zowel excitatie- als emissiesignalen gingen door minicube-filters (Doric) en bulkfluorescentie werd gemeten met een femtowatt-detector (Newport, Model 2151) bemonstering bij 10 kHz. Demodulatie produceerde afzonderlijke 470 nm (dopamine) en 405 nm (controle) signalen, die vervolgens naar elkaar werden geschaald via een kleinste kwadratische aanpassing58. Fractioneel fluorescentiesignaal (dF/F) werd vervolgens gedefinieerd als (470-405_fit) / 405_fit. Voor alle analyses werd dit signaal gedownsampled naar 50 Hz en afgevlakt met een vijfpunts mediaanfilter. Zie Uitgebreide gegevens Afb. Voor weergave van 470 nm en 405 nm signalen afzonderlijk. 7.

Gegevens van plaatsing van een optische vezel werden opgenomen in analyses als de vezelpunt in NAc was, en de fluorescentiereactie op ten minste één taakwijzing had een z-score van> 1. Deze criteria sloten één rat uit en leverden drie ratten / vier plaatsingen op (IM1065-links, IM1066-bilateraal, IM1089-rechts) voor dLight1.1 en vier ratten / zes plaatsingen (IM1088-bilateraal, IM1105-rechts, IM1106-bilateraal, IM1107-rechts) voor dLight1.3b. Vergelijkbare resultaten werden verkregen voor dLight1.1 en dLight1.3 (uitgebreide gegevens Fig. 7), dus gegevens werden gecombineerd.

Om een ​​hellingshoek te berekenen tijdens benaderingsgedrag, hebben we het maximum / minimum van het resulterende signaal in een 0.5-s-venster vóór elke gebeurtenis gedetecteerd (in het midden of in de voedselpoort) en de ondertekende hoek gemeten die de twee extrema's met elkaar verbindt.


Affiniteit en moleculaire specificiteit van dLight1.3b

In vitro metingen werden uitgevoerd zoals eerder beschreven15. In het kort werden HEK293T (ATCC CRL # 1573) cellen gekweekt en getransfecteerd met plasmiden die coderen voor dlight1.3b, aangedreven door een CMV-promotor, en gewassen met HBSS (Life Technologies) aangevuld met Ca2+ (4mM) en Mg2+ (2 mM) voor beeldvorming. Beeldvorming werd uitgevoerd met behulp van een 40 × op olie gebaseerd objectief op een omgekeerde Zeiss Observer LSN710 confocale microscoop met golflengten van 488 nm / 513 nm (excitatie / emissie). Voor het testen van de fluorescentiereacties van de sensor werden neurotransmitters rechtstreeks in het bad aangebracht tijdens time-lapse-beeldvorming, in ten minste twee onafhankelijke experimenten. Titraties van dopamine en noradrenaline werden verkregen door tienvoudige seriële verdunningen uit te voeren om acht verschillende concentraties te bereiken. Alle andere neurotransmitters werden getest bij drie opeenvolgende concentraties (100 nM, 1 µM en 10 µM). Alle neurotransmitterconcentraties werden verkregen door verdunning uit een voorraadconcentratie van 1 mM in HBSS, vers bereid. Ruwe fluorescentie-intensiteiten van time-lapse-beeldvorming werden gekwantificeerd op Fiji; elke ROI werd handmatig getekend op het membraan van individuele cellen. Fluorescerende vouwverandering (ΔF/F) werd berekend als F piek (gemiddelde fluorescentie-intensiteit van vier frames) - F basaal (gemiddelde fluorescentie-intensiteit van vier beelden vóór toevoeging van liganden) /F basaal. Grafieken en statistische analyses werden uitgevoerd met GraphPad Prism 6. Gegevenspunten werden geanalyseerd met een één-plaats-specifieke bindingskromme die geschikt was om te verkrijgen Kd waarden. In box- en whisker-plots omvat het vak het bereik van 25% tot 75% en strijken snorren van minimale naar maximale waarden.


Rapportage samenvatting

Nadere informatie over onderzoeksontwerp is beschikbaar in de Nature Research Reporting Summary gekoppeld aan dit artikel.

Beschikbaarheid van data

Het AAV.Synapsin.dLight1.3b-virus dat in dit onderzoek is gebruikt, is gedeponeerd bij Addgene (nr. 125560; http://www.addgene.org). Alle gegevens zullen beschikbaar zijn via de Collaborative Research in Computational Neuroscience-website voor het delen van gegevens (https://doi.org/110.6080/K0VQ30V9).

Code beschikbaarheid

Aangepaste MATLAB-code is op verzoek verkrijgbaar bij JDB

Specificaties

Opmerking van de uitgever: Springer Nature blijft neutraal met betrekking tot rechtsvorderingen in gepubliceerde kaarten en institutionele voorkeuren.

Referenties

  1. 1.

    Schultz, W., Dayan, P. & Montague, PR Een neuraal substraat van voorspelling en beloning. Wetenschap 275, 1593â € "1599 (1997).

  2. 2.

    Pan, WX, Schmidt, R., Wickens, JR & Hyland, BI Dopaminecellen reageren op voorspelde gebeurtenissen tijdens klassieke conditionering: bewijs voor geschiktheidssporen in het beloningsleernetwerk. J. Neurosci. 25, 6235â € "6242 (2005).

  3. 3.

    Cohen, JY, Haesler, S., Vong, L., Lowell, BB & Uchida, N. Neuron-type-specifieke signalen voor beloning en straf in het ventrale tegmentale gebied. NATUUR 482, 85â € "88 (2012).

  4. 4.

    Steinberg, EE et al. Een oorzakelijk verband tussen voorspellingsfouten, dopamine-neuronen en leren. Nat. Neurosci. 16, 966â € "973 (2013).

  5. 5.

    Hamid, AA et al. Mesolimbic dopamine signaleert de waarde van werk. Nat. Neurosci. 19, 117â € "126 (2016).

  6. 6.

    Saunders, BT, Richard, JM, Margolis, EB & Janak, PH Dopamine-neuronen creëren Pavloviaanse geconditioneerde stimuli met circuitgedefinieerde motiverende eigenschappen. Nat. Neurosci. 21, 1072â € "1083 (2018).

  7. 7.

    Phillips, PE, Stuber, GD, Heien, ML, Wightman, RM & Carelli, RM Subseconde dopamine-afgifte bevordert het zoeken naar cocaïne. NATUUR 422, 614â € "618 (2003).

  8. 8.

    Roitman, MF, Stuber, GD, Phillips, PE, Wightman, RM & Carelli, RM Dopamine werkt als een subseconde modulator van het zoeken naar voedsel. J. Neurosci. 24, 1265â € "1271 (2004).

  9. 9.

    Wassum, KM, Ostlund, SB & Maidment, NT Fasische mesolimbische dopamine-signalering gaat vooraf aan en voorspelt de prestaties van een zelf-geïnitieerde actiesequentie-taak. Biol. Psychiatrie 71, 846â € "854 (2012).

  10. 10.

    Howe, MW, Tierney, PL, Sandberg, SG, Phillips, PE & Graybiel, AM Langdurige dopamine-signalering in striatum duidt op nabijheid en waarde van verre beloningen. NATUUR 500, 575â € "579 (2013).

  11. 11.

    Syed, EC et al. Actie-initiatie vormt mesolimbische dopamine-codering van toekomstige beloningen. Nat. Neurosci. 19, 34â € "36 (2016).

  12. 12.

    Morris, G., Nevet, A., Arkadir, D., Vaadia, E. & Bergman, H.Midbrain dopamine-neuronen coderen voor beslissingen voor toekomstige actie. Nat. Neurosci. 9, 1057â € "1063 (2006).

  13. 13.

    da Silva, JA, Tecuapetla, F., Paixão, V. & Costa, RM Dopamine-neuronactiviteit voordat actie-initiatie poorten en stimuleert toekomstige bewegingen. NATUUR 554, 244â € "248 (2018).

  14. 14.

    Fiorillo, CD, Tobler, PN & Schultz, W. Discrete codering van beloningskans en onzekerheid door dopamine-neuronen. Wetenschap 299, 1898â € "1902 (2003).

  15. 15.

    Patriarchi, T., Cho, JR, Merten, K., Howe, MW, et al. Ultrasnelle neuronale beeldvorming van dopaminedynamica met ontworpen genetisch gecodeerde sensoren. Wetenschap 360, eaat4422 (2018).

  16. 16.

    Salamone, JD & Correa, M. De mysterieuze motiverende functies van mesolimbische dopamine. Neuron 76, 470â € "485 (2012).

  17. 17.

    Schultz, W. Voorspellend beloningssignaal van dopamine-neuronen. J. Neurophysiol. 80, 1â € "27 (1998).

  18. 18.

    Garris, PA & Wightman, RM Verschillende kinetiek bepalen dopaminerge transmissie in de amygdala, prefrontale cortex en striatum: een in vivo voltammetrisch onderzoek. J. Neurosci. 14, 442â € "450 (1994).

  19. 19.

    Frank, MJ, Doll, BB, Oas-Terpstra, J. & Moreno, F. Prefrontale en striatale dopaminerge genen voorspellen individuele verschillen in exploratie en exploitatie. Nat. Neurosci. 12, 1062â € "1068 (2009).

  20. 20.

    St Onge, JR, Ahn, S., Phillips, AG & Floresco, SB Dynamische fluctuaties in dopamine-efflux in de prefrontale cortex en nucleus accumbens tijdens op risico gebaseerde besluitvorming. J. Neurosci. 32, 16880â € "16891 (2012).

  21. 21.

    Bartra, O., McGuire, JT & Kable, JW Het waarderingssysteem: een op coördinaten gebaseerde meta-analyse van BOLD fMRI-experimenten die neurale correlaten van subjectieve waarde onderzoeken. NeuroImage 76, 412â € "427 (2013).

  22. 22.

    Ikemoto, S. Dopamine beloningscircuits: twee projectiesystemen van de ventrale middenhersenen tot het nucleus accumbens-olfactorische tuberkelcomplex. Brain Res. Brain Res. Rev. 56, 27â € "78 (2007).

  23. 23.

    Breton, JM et al. Relatieve bijdragen en in kaart brengen van ventrale tegmentale gebieden dopamine en GABA-neuronen door projectiedoelwit in de rat. J. Comp. Neurol. (2018).

  24. 24.

    Ungless, MA, Magill, PJ & Bolam, JP Uniforme remming van dopamine-neuronen in het ventrale tegmentale gebied door aversieve stimuli. Wetenschap 303, 2040â € "2042 (2004).

  25. 25.

    Morales, M. & Margolis, EB Ventraal tegmentaal gebied: cellulaire heterogeniteit, connectiviteit en gedrag. Nat. Rev Neurosci. 18, 73â € "85 (2017).

  26. 26.

    Morris, G., Arkadir, D., Nevet, A., Vaadia, E. & Bergman, H. Samenvallende maar verschillende berichten van dopamine van de middenhersenen en striatale tonisch actieve neuronen. Neuron 43, 133â € "143 (2004).

  27. 27.

    Floresco, SB, West, AR, Ash, B., Moore, H. & Grace, AA Afferente modulatie van het afvuren van dopamine-neuronen reguleert differentieel de tonische en fasische dopamine-overdracht. Nat. Neurosci. 6, 968â € "973 (2003).

  28. 28.

    Grace, AA Dysregulatie van het dopamine-systeem in de pathofysiologie van schizofrenie en depressie. Nat. Rev Neurosci. 17, 524â € "532 (2016).

  29. 29.

    Cohen, JY, Amoroso, MW & Uchida, N.Serotonerge neuronen signaleren beloning en straf op meerdere tijdschalen. eLife 4, e06346 (2015).

  30. 30.

    Niv, Y., Daw, N. & Dayan, P. Hoe snel te werken: reactievermogen, motivatie en tonische dopamine. Adv. Neural Inf. Werkwijze. syst. 18, 1019 (2006).

  31. 31.

    Bayer, HM, Lau, B. & Glimcher, PW Statistieken van dopamine-neuronpieken in de middenhersenen in de wakkere primaat. J. Neurophysiol. 98, 1428â € "1439 (2007).

  32. 32.

    Chergui, K., Suaud-Chagny, MF & Gonon, F. Niet-lineaire relatie tussen impulsstroom, dopamine-afgifte en dopamine-eliminatie in de hersenen van de rat in vivo. Neurowetenschap leerprogramma 62, 641â € "645 (1994).

  33. 33.

    Parker, NF et al. Beloning en keuzecodering in terminals van dopamineneuronen van de middenhersenen hangt af van het striatale doelwit. Nat. Neurosci. 19, 845â € "854 (2016).

  34. 34.

    Menegas, W., Babayan, BM, Uchida, N. & Watabe-Uchida, M. Tegenover initialisatie van nieuwe aanwijzingen voor dopamine-signalering in ventrale en posterieure striatum bij muizen. eLife 6, e21886 (2017).

  35. 35.

    Trulson, ME Gelijktijdige opname van substantia nigra-neuronen en voltammetrische afgifte van dopamine in de staart van gedragen katten. Brain Res. stier. 15, 221â € "223 (1985).

  36. 36.

    Glowinski, J., Chéramy, A., Romo, R. & Barbeito, L. Presynaptische regulatie van dopaminerge transmissie in het striatum. Cel. Mol. Neurobiol. 8, 7â € "17 (1988).

  37. 37.

    Zhou, FM, Liang, Y. & Dani, JA Endogene nicotine cholinerge activiteit reguleert de afgifte van dopamine in het striatum. Nat. Neurosci. 4, 1224â € "1229 (2001).

  38. 38.

    Threlfell, S. et al. Striatale dopamine-afgifte wordt teweeggebracht door gesynchroniseerde activiteit in cholinerge interneuronen. Neuron 75, 58â € "64 (2012).

  39. 39.

    Cachope, R. et al. Selectieve activering van cholinerge interneuronen verhoogt de accumulatie van fasische dopamine afgifte: de toon zetten voor de verwerking van beloningen. Cell Reports 2, 33â € "41 (2012).

  40. 40.

    Sulzer, D., Cragg, SJ & Rice, ME Striatale dopamine-neurotransmissie: regulering van afgifte en opname. Basale ganglia 6, 123â € "148 (2016).

  41. 41.

    Floresco, SB, Yang, CR, Phillips, AG & Blaha, CD Basolaterale amygdala-stimulatie roept glutamaatreceptorafhankelijke dopamine-efflux op in de nucleus accumbens van de verdoofde rat. EUR. J. Neurosci. 10, 1241â € "1251 (1998).

  42. 42.

    Jones, JL et al. Basolaterale amygdala moduleert terminale dopamine-afgifte in de nucleus accumbens en geconditioneerde respons. Biol. Psychiatrie 67, 737â € "744 (2010).

  43. 43.

    Schultz, W. Antwoorden van dopamineneuronen van de middenhersenen op gedragstriggers in de aap. J. Neurophysiol. 56, 1439â € "1461 (1986).

  44. 44.

    Berke, JD Wat betekent dopamine? Nat. Neurosci. 21, 787â € "793 (2018).

  45. 45.

    Bromberg-Martin, ES, Matsumoto, M. & Hikosaka, O.Duidelijke tonische en fasische anticiperende activiteit in laterale habenula- en dopamine-neuronen. Neuron 67, 144â € "155 (2010).

  46. 46.

    Pasquereau, B. & Turner, RS Dopamine-neuronen coderen voor fouten bij het voorspellen van het optreden van bewegingstriggers. J. Neurophysiol. 113, 1110â € "1123 (2015).

  47. 47.

    Fiorillo, CD, Newsome, WT & Schultz, W. De temporele precisie van beloningsvoorspelling in dopamine-neuronen. Nat. Neurosci. 11, 966â € "973 (2008).

  48. 48.

    Morita, K. & Kato, A. Striatale dopamine-ramping kan wijzen op flexibel leren van versterking met vergeten in de cortico-basale ganglia-circuits. Voorkant. Neurale circuits 8, 36 (2014).

  49. 49.

    Gershman, SJ Dopamine ramps zijn een gevolg van beloningsvoorspellingsfouten. Neural Comput. 26, 467â € "471 (2014).

  50. 50.

    Nicola, SM De flexibele benadering-hypothese: eenwording van inspanning en cue-reagerende hypothesen voor de rol van nucleus accumbens dopamine bij de activering van beloningszoekend gedrag. J. Neurosci. 30, 16585â € "16600 (2010).

  51. 51.

    Paxinos, G. & Watson, C. De rattenhersenen in stereotaxische coördinaten 5th edn (Elsevier Academic, 2005).

  52. 52.

    Witten, IB et al. Recombinase-driver ratlijnen: gereedschappen, technieken en optogenetische toepassing op dopamine-gemedieerde versterking. Neuron 72, 721â € "733 (2011).

  53. 53.

    Sugrue, LP, Corrado, GS & Newsome, WT Overeenstemmingsgedrag en de representatie van waarde in de pariëtale cortex. Wetenschap 304, 1782â € "1787 (2004).

  54. 54.

    Wong, JM et al. Benzoylchloride derivatisering met vloeistofchromatografie-massaspectrometrie voor gerichte metabolomics van neurochemicaliën in biologische monsters. J. Chromatogr. EEN 1446, 78â € "90 (2016).

  55. 55.

    Chung, JE et al. Een volledig geautomatiseerde benadering van spike-sortering. Neuron 95, 1381â € "1394 (2017).

  56. 56.

    Kvitsiani, D. et al. Verschillende gedrags- en netwerkcorrelaties van twee interneurontypen in de prefrontale cortex. NATUUR 498, 363â € "366 (2013).

  57. 57.

    Grace, AA & Bunney, BS De controle van het schietpatroon in nigrale dopamine-neuronen: burst-firing. J. Neurosci. 4, 2877â € "2890 (1984).

  58. 58.

    Lerner, TN et al. Intact-hersenanalyses onthullen verschillende informatie die wordt gedragen door SNc-dopaminesubcircuits. Cel 162, 635â € "647 (2015).

Referenties downloaden

Danksagung

We danken P. Dayan, H. Fields, L. Frank, C. Donaghue en T. Faust voor hun opmerkingen over een vroege versie van het manuscript, en V. Hetrick, R. Hashim en T. Davidson voor technische assistentie en advies. Dit werk werd ondersteund door het National Institute on Drug Abuse, het National Institute of Mental Health, het National Institute on Neurological Disorders and Stroke, de University of Michigan, Ann Arbor en de University of California, San Francisco.

Informatie over beoordelaars

NATUUR bedankt Margaret Rice en de andere anonieme recensent (en) voor hun bijdrage aan de peer review van dit werk.

Auteurs informatie

AM heeft de elektrofysiologie en fotometrie uitgevoerd en geanalyseerd en het computationele model toegepast. JRP heeft de microdialyse met hulp van J.-MTW uitgevoerd en geanalyseerd en de supervisie door RTKAAH heeft de gedragstaak en de initiële fotometrie-opzet ontwikkeld en de voltammetrie uitgevoerd. LTV heeft retrograde tracering en analyse uitgevoerd. TP en LT hebben de dLight-sensor en gedeelde expertise ontwikkeld. JDB heeft het onderzoek ontworpen en begeleid en het manuscript geschreven.

Tegenstrijdige belangen

De auteurs verklaren geen concurrerende belangen.

Correspondentie aan Joshua D. Berke.