Onevenwichtige beslissingshiërarchie bij verslaafden die te voorschijn komen uit het door drugs gekaapte Dopamine-spiraalsysteem (2013)

 

  • Mehdi Keramati mail,
     
  • Boris Gutkin

 

Abstract

Ondanks dat ze expliciet willen stoppen, zijn langdurig verslaafden machteloos om zich tegen drugs te verzetten, ondanks het feit dat ze weten dat drugsgebruik een schadelijke manier van handelen kan zijn. Een dergelijke inconsistentie tussen de expliciete kennis van negatieve gevolgen en de dwangmatige gedragspatronen vertegenwoordigt een cognitief / gedragsconflict dat een centraal kenmerk van verslaving is. Neurobiologisch spelen differentiële cue-geïnduceerde activiteit in verschillende striatale subregio's, evenals de dopamine-connectiviteit die spiraalt van ventrale striatale regio's naar de dorsale regio's, een cruciale rol bij het zoeken naar dwangmatige geneesmiddelen. Het functionele mechanisme dat deze neurofarmacologische observaties integreert met het bovengenoemde cognitieve / gedragsconflict is echter onbekend. Hier geven we een formele computationele verklaring voor de door drugs geïnduceerde cognitieve inconsistentie die duidelijk is in de "zelf-beschreven fout" van de verslaafden. We laten zien dat verslavende medicijnen geleidelijk een motiverende voorkeur produceren voor het zoeken naar drugs bij gewone besluitvormingsprocessen op laag niveau, ondanks de lage abstracte cognitieve waardering van dit gedrag. Deze pathologie komt naar voren binnen het hiërarchische leerraamwerk van versterking wanneer chronische blootstelling aan het geneesmiddel farmacologisch pathologisch persistente fasische dopaminesignalen produceert. Daardoor kaapt het medicijn de dopaminerge spiralen die de versterkingssignalen door de ventro-dorsale cortico-striatale hiërarchie laten stromen. Neurobiologisch verklaart onze theorie de snelle ontwikkeling van door geneesmiddelen opgewekte dopamine-efflux in het ventrale striatum en een vertraagde respons in het dorsale striatum. Onze theorie laat ook zien hoe dit reactiepatroon kritisch afhangt van het dopamine-spiraalcircuit. Gedragsmatig verklaart ons raamwerk de geleidelijke ongevoeligheid van het zoeken naar drugs voor drugsgerelateerde straffen, het blokkerende fenomeen voor de uitkomsten van geneesmiddelen en de aanhoudende voorkeur voor drugs boven natuurlijke beloningen door verslaafden. Het model suggereert toetsbare voorspellingen en vormt verder de weg voor een visie op verslaving als een pathologie van hiërarchische besluitvormingsprocessen. Deze opvatting is complementair aan de traditionele interpretatie van verslaving als interactie tussen gebruikelijke en doelgerichte beslissingssystemen.

Introductie

"We hebben toegegeven dat we machteloos waren over onze verslaving - dat ons leven onhandelbaar was geworden", stelt het allereerste leerstuk van het Narcotics Anonymous 12-step-programma [1]. Dit laat zien hoe machteloze verslaafden zich bevinden als het gaat om het weerstaan ​​van drugs, ondanks het feit dat ze weten dat het nemen van drugs een verkeerde handelwijze is [2]-[4]. In feite is het kenmerk van verslaving dwangmatig zoeken naar de medicijnen, zelfs ten koste van evidente nadelige gevolgen [5]. Een kenmerk van dergelijk pathologisch gedrag wordt duidelijk in gecontroleerde experimenten waarbij verslaafden een karakteristieke "zelf-beschreven fout" vertonen: een inconsistentie tussen de krachtige gedragsreactie op met drugs geassocieerde keuzes en de relatief lage subjectieve waarde die de verslaafde voor het medicijn meldt [4], [6], [7]. Gecombineerd met het verlies van remmende cognitieve controle over gedrag, na langdurige blootstelling aan geneesmiddelen, kan deze divergentie tussen de cognitieve plannen en de geconsolideerde gewoonten resulteren in een overgang van casual naar compulsief gedrag dat op drugs lijkt [8].

Het verlies van cognitieve controle en zelf-beschreven fout is tot nu toe onttrokken aan een principiële verklaring door formele verslavingsmodellen [9]-[13]. Eerdere computertheorieën over drugsverslaving, meestal gesteld binnen het versterkende leerraamwerk, beschouwen verslaving als een pathologische toestand van het gewoonte-leer (stimulus-respons) systeem [9]-[13]. De centrale hypothese achter al die modellen is dat het farmacologische effect van geneesmiddelen op dopamine-signalering, die zogenaamd een stimulus-respons-teach-signaal dragen, resulteert in een geleidelijke overversterking van dergelijke associaties. Dit effect leidt op zijn beurt tot dwangmatige gewoonten om drugs te zoeken. Hoewel deze verminderde kijk op verslaving enkele aspecten van het fenomeen heeft vastgelegd, geeft een groeiende consensus in de verslavingsliteratuur aan dat er meerdere leersystemen bij de pathologie betrokken zijn. Alleen zo'n complexer beeld dat zowel de cognitieve als de gewone processen op een laag niveau omvat, kan de verscheidenheid aan verslavingsgedrag verklaren. [8], [14].

In dit artikel hanteren we een hiërarchische aanpak van leerversterking [15] waar beslissingen worden gerepresenteerd op verschillende abstractieniveaus, in een cognitief-motorische hiërarchie. We nemen aan dat een cascade van dopamine-afhankelijke leersignalen niveaus van de hiërarchie met elkaar verbindt [16]. We gaan er verder van uit dat drugs van misbruik het communicatiemechanisme farmacologisch kapen tussen niveaus van abstractie. Op basis van deze veronderstellingen laten we zien dat de gerapporteerde cognitieve dissonantie bij verslaafden naar voren komt binnen het hiërarchische kader voor versterking van het leren, wanneer chronische blootstelling aan geneesmiddelen de waardebepaling door de beslissingshiërarchie verstoort. Deze verstoring resulteert in een pathologische overwaardering van drugskeuzes bij gewone processen van een laag niveau en drijft daarom het gebruikelijke gedrag van drugsgebruik. Vervolgens laten we zien dat 'niet leuk' is, maar dat dwangmatig zoeken naar drugs kan worden verklaard als door drugs gekaapte, op een laag niveau gebruikelijke processen die het gedrag domineren, terwijl gezonde cognitieve systemen op het hoogste representatieniveau de controle over het gedrag verliezen. Verder laten we zien dat het voorgestelde model een verklaring kan zijn voor recent bewijsmateriaal over snelle versus vertraagde ontwikkeling van door geneesmiddelen opgewekte dopamine-efflux in respectievelijk het ventrale versus het dorsale striatum, evenals de afhankelijkheid van dit patroon op dopamine-spiraliserende circuits.

Materialen en methoden

voorrondes

In overeenstemming met een rijke cognitieve psychologieliteratuur, ons hiërarchisch versterkingsleren [15], [18] raamwerk gaat ervan uit dat een abstract cognitief plan zoals "brouwthee" kan worden opgedeeld in een reeks acties van lager niveau: kokend water, thee zetten in de pot, enz. Een dergelijke ontleding vindt plaats tot concrete reacties op motorisch niveau op het laagste niveau van de hiërarchie (Figuur 1A). Neurobiologisch worden de verschillende niveaus van beslissingshiërarchie van cognitieve naar motorische niveaus weergegeven langs de rostro-caudale as van het cortico-basale ganglia (BG) circuit [19]-[21]. Dit circuit bestaat uit verschillende parallelle gesloten lussen tussen de frontale cortex en de basale ganglia [22], [23] (Figuur 1B). Terwijl de voorste lussen ten grondslag liggen aan een meer abstracte weergave van acties, coderen de caudale lussen, bestaande uit sensorisch-motorische cortex en dorsolaterale striatum, laag-niveau gewoonten [19]-[21].

thumbnail

Figuur 1. Hiërarchische organisatie van gedrag en de cortico-BG-schakeling.

A, Een voorbeeld van een beslissingshiërarchie voor twee alternatieve keuzes: drug versus voedsel. Elke handeling is weergegeven op verschillende niveaus van abstractie, vermoedelijk gecodeerd op verschillende cortico-BG-lussen. Het zoeken naar elk van de twee soorten beloningen kan volgen op een straf van grootte 16. B, Glutamatergische verbindingen van verschillende prefrontale gebieden projecteren naar striatale subregio's en projecteren vervolgens terug naar de PFC via het pallidum en thalamus, waarbij meerdere parallelle lussen worden gevormd. Via het striato-nigro-striatale dopaminetwerk beïnvloeden de ventrale gebieden van het striatum de meer dorsale gebieden. vmPFC, ventrale mediale prefrontale cortex; OFC, orbitale frontale cortex; dACC, dorsale anterior cingulate cortex; SMC, sensorische motorische cortex; VTA, ventrale tegmentale gebied; SNc, substantia nigra pars compacta. Figuur 1B Gewijzigd van ref 21.

doi: 10.1371 / journal.pone.0061489.g001

Binnen deze schakeling signaleert de fasische activiteit van dopamine (DA) neuronen van de middenhersenen die naar het striatum projecteren de fout tussen voorspelde en ontvangen beloningen, daarbij versterkende stimulusrespons versterkende informatie dragend [24]. Deze DAergic-projecties vormen een trapsgewijze seriële connectiviteit die de meer ventrale regio's van het striatum verbindt met steeds meer dorsale regio's door de zogenaamde "spiralende" verbindingen [25]-[27] (Figuur 1B). Functioneel maakt een dergelijke feed-forward-organisatie die de rostrale naar caudale cortico-BG-lussen verbindt, gerichte koppeling van grove naar fijne representaties mogelijk. Dienovereenkomstig wordt van de DA-spiralen de hypothese verwacht dat ze een neurobiologisch substraat verschaffen voor de progressieve afstemming van de beloningsvoorspellingsfout door de hogere niveaus van de hiërarchie (die de abstracte kennis over de waarde van gedragsopties coderen). Deze fout wordt vervolgens gebruikt voor het bijwerken van actiewaarden op meer gedetailleerde niveaus [16]. Met andere woorden, de DA spiralen zorgen ervoor dat de abstracte cognitieve niveaus van waardering het leerproces begeleiden in de meer gedetailleerde actiewaarderingsprocessen.

Theorie schets

In termen van de computationele theorie van wapeningsleren [28] (RL), de agent (in ons geval een persoon of een dier) leert om weloverwogen actie-keuzes te maken door de eerder geschatte waarde bij te werken, , voor elk combinatie van toestandsacties, , wanneer een beloning wordt op tijd door de agent ontvangen als resultaat van het uitvoeren van een actie in de contextuele toestand (stimulus) . De waarde wordt bijgewerkt door het berekenen van het foutvoorspellingsfoutsignaal. Dit signaal hangt niet alleen af ​​van de onmiddellijk ontvangen beloning (), maar ook over de waarde van de nieuwe staat waarin de agent terechtkomt nadat die actie is uitgevoerd. Aangegeven door , vertegenwoordigt deze tijdelijk geavanceerde waardefunctie de som van toekomstige beloningen die het dier verwacht te ontvangen van de resulterende staat, , voorwaarts. De voorspellingsfout kan worden berekend met de volgende vergelijking:


(1)

Intuïtief berekent het voorspellingsfoutsignaal de discrepantie tussen de verwachte en de gerealiseerde lonende waarde van een actie. In een hiërarchische beslissingsstructuur echter, in plaats van het leren van de -waarden onafhankelijk op verschillende niveaus, meer abstracte niveaus kunnen het onderwijssignaal dat op lagere niveaus is berekend, afstemmen. Omdat hogere niveaus van de hiërarchie een meer abstracte weergave zijn van omgevingsvoordelen, vindt leren in die niveaus sneller plaats. Dit komt door de relatieve lage dimensionaliteit van de abstracte representatie van gedrag: een actieplan kan worden gerepresenteerd als een enkele stap (één dimensie) op het hoogste niveau van de hiërarchie en als meerdere gedetailleerde acties (meerdere dimensies) op de lagere niveaus van de hiërarchie. De waarde op het hoogste niveau van dit actieplan zou snel worden geleerd in vergelijking met de gedetailleerde niveaus waar de beloningsfouten alle gedetailleerde actiestappen back-propageren. Het afstemmen van de waarden op een lager niveau door de waarde-informatie van de hogere niveaus kan dus de convergentie van deze waarden versnellen. Een statistisch efficiënte manier om dit te doen is om te veronderstellen dat voor het berekenen van het voorspellingsfoutsignaal bij de -de abstractieniveau, , de tijdelijk geavanceerde waardefunctie, , komt van een hoger niveau van abstractie, [16]:


(2)

Om de optimaliteit te behouden, kan vergelijking 2 alleen worden gebruikt voor het berekenen van de voorspellingsfout wanneer de laatste samenstellende primitieve actie van een abstracte optie wordt uitgevoerd (zie Figuur S1 in Bestand S1). In andere gevallen gebeurt waardeleren op verschillende niveaus onafhankelijk, zoals in vergelijking 1. In beide gevallen wordt het onderwijssignaal gebruikt voor het bijwerken van de eerdere waarden op het overeenkomstige niveau:


(3)
WAAR is het leerritme. Deze vorm van uitwisseling van informatie op afstand tussen verschillende niveaus is biologisch aannemelijk, omdat deze de spiraalvormige structuur van de DA-circuits weerspiegelt en de informatie door de hiërarchie in de richting van de dorsale richting draagt. Tegelijkertijd versnelt het begeleiden van meer abstracte niveaus het leren aanzienlijk, waardoor de high-dimensionaliteit van waardeleren op gedetailleerde niveaus wordt verlicht [16].

In dit artikel laten we zien dat de interactie tussen een gemodificeerde versie van het model ontwikkeld in [16] en de specifieke farmacologische effecten van drugsmisbruik op het dopaminerge systeem kunnen verslavingsgerelateerde gegevens vastleggen op radicaal verschillende analyseschalen: neurobiologisch gedrag en gedrag op circuitniveau. Ten eerste brengt het nieuwe model een mogelijke overtuigende verklaring voor verschillende intrigerende gedragsaspecten in verband met verslaving aan drugs (bijv. De zelf-beschreven fout [4], [6], [7]). Ten tweede kunnen we een breed scala aan bewijzen opnemen met betrekking tot de dynamiek van de door drugs veroorzaakte dopamine-afgifte [17].

We passen het gepresenteerde model aan [16] als volgt. We maken het model efficiënter in termen van werkgeheugencapaciteit door te vervangen Met , in vergelijking 2, omdat de twee waarden convergeren naar hetzelfde stabiele niveau (zie Figuur S2 in Bestand S1, voor computationele en neurobiologische basis):


(4)

Hier is de relatief abstracte optie en is de laatste primitieve actie in de gedragsreeks die deze optie volledig vervult. Evenzo is de lonende waarde van , Waaronder (de lonende waarde van ).

Cruciaal is dat de verschillende drugs die door mensen worden misbruikt een fundamentele eigenschap hebben van farmacologisch toenemende dopamineconcentratie in het striatum [29]. Daarom incorporeren we dit farmacologische effect van het medicijn door een positieve bias toe te voegen, , (zie ook [9]-[12]) naar het voorspellingsfoutsignaal dat door dopamineneuronen wordt gedragen (zie afbeelding S3 in Bestand S1, voor computationele en neurobiologische basis):


(5)

Here vangt het directe farmacologische effect van geneesmiddelen op het DA-systeem, en is zijn versterkende waarde vanwege de euforische effecten (zie Bestand S1 voor aanvullende informatie).

Hoewel de vergelijkingen 3 en 5 samen het berekeningsmechanisme bepalen om de waarden in ons model bij te werken, stellen we ook de hypothese dat een onzekerheidsgebaseerd concurrentiemechanisme het abstractieniveau bepaalt dat het gedrag regelt. Dit is geïnspireerd op het voorgestelde mechanisme in [29] voor arbitrage tussen de gebruikelijke en doelgerichte systemen. In dit opzicht reguleert op elk beslissingspunt alleen het niveau van abstractie met de hoogste zekerheid bij het schatten van de waarde van keuzen gedrag. Zodra dit niveau de beslissing om te handelen heeft genomen, zullen alle lagere niveaus van de hiërarchie door dit dominante niveau worden ingezet om de geselecteerde actie als een reeks primitieve motorische responsen te implementeren (zie Bestand S1 voor aanvullende informatie; Figuur S4 in Bestand S1; Figuur S5 in Bestand S1). Na ontvangst van de feedback op de feedback van de omgeving, worden de waarden op alle niveaus bijgewerkt. Dit op onzekerheid gebaseerde arbitragemechanisme voorspelt dat, aangezien abstracte processen flexibeler zijn, ze een superieur waardeaanstemmingsvermogen hebben tijdens de vroege stadia van leren en dus het controlegedrag in deze stadia. Omdat de abstracte niveaus echter een ruwe weergave van de omgeving gebruiken (bijvoorbeeld omdat ze een relatief klein aantal basisfuncties bevatten), is hun uiteindelijke waardebenaderingscapaciteit niet zo nauwkeurig als die van gedetailleerde niveaus. Met andere woorden, na uitgebreide training is de zekerheid behorend bij de geschatte waarden lager voor de lagere niveaus van de hiërarchie in vergelijking met de hogere niveaus. Met progressief leren nemen de lagere niveaus van de hiërarchie de controle over de actieselectie over, omdat hun onzekerheid geleidelijk afneemt. Dit is in overeenstemming met verschillende bewijslijnen die een progressieve dominantie van de ruggengraat ten opzichte van het ventrale striatum laten zien in de controle over het zoeken naar drugs (evenals het zoeken naar natuurlijke beloningen). [8], [30], [31].

Resultaten

De inconsistentie van hiërarchische waarden komt naar voren onder drugs maar niet in de vorm van natuurlijke beloningen

In tegenstelling tot de vorige op versterking gebaseerde op leer gebaseerde computermodellen van verslaving [9]-[13] die zijn gebaseerd op een benadering met één besluitvormingssysteem, is ons account gebaseerd op een raamwerk met meerdere interacterende systemen. Dientengevolge, hoewel de vorm van het modelleren van het effect van het medicijn op het voorspellingsfoutsignaal in ons model vergelijkbaar is met de vorige [9]-[12], het resulteert in fundamenteel verschillende gevolgen. De door geneesmiddelen veroorzaakte transiënte dopamine-toename verhoogt de directe voorspellingsfout op elk niveau van de hiërarchie en als gevolg daarvan neemt de bias toe, , over de overdracht van kennis van het ene niveau van abstractie naar het volgende, langs de grof-naar-fijnrichting van de hiërarchie. Deze partijdigheid zorgt ervoor dat de asymptotische waarde van het zoeken naar drugs op een bepaald niveau is eenheden hoger dan die van een meer abstracte laag (Figuur 2B). De accumulatie van deze discrepanties langs de rostro-caudale as veroorzaakt geleidelijk aan significante verschillen in de waarde van drugszoekend gedrag tussen de boven- en onderkant van de hiërarchie. Dus, zelfs wanneer gevolgd door een sterke straf, blijft de waarde van drugsgerelateerd gedrag positief bij de motorlussen op laag niveau, terwijl deze op cognitieve niveaus negatief wordt. Met andere woorden, het model voorspelt dat accumulatie van geneesmiddeleffecten boven DA-spiralen de waarde van geneesmiddelen op gang brengt bij gewoonten op motorisch niveau tot een dergelijke hoge amplitude, dat zelfs een sterke natuurlijke straf het niet voldoende kan verminderen. We suggereren dat dit de inconsistentie tussen cognitieve en laag-niveau evaluatie van drugsgerelateerd gedrag bij verslaafden verklaart. Met andere woorden, we stellen voor dat dwangmatig drugs zoeken en de aanzienlijk verminderde elasticiteit van de bijbehorende kosten voortkomen uit het farmacologische effect van het medicijn dat het dopamine-afhankelijke mechanisme kaping dat de informatie overdraagt ​​naar de niveaus van de beslissingshiërarchie.

thumbnail

Figuur 2. Motivatie voor voedsel versus drugs op verschillende niveaus van abstractie (simulatieresultaten).

In de eerste 150-onderzoeken waar geen straf volgt op de beloning, convergeert de waarde van het zoeken naar natuurlijke beloningen op alle niveaus naar 10 (A). Voor het geval van een geneesmiddel is het directe farmacologische effect van het geneesmiddel (, ingesteld op) resulteert in de asymptotische waarde op elk niveau om te zijn eenheden die hoger zijn dan die van een hoger abstractieniveau (B). Dus, wanneer gevolgd door straf, terwijl cognitieve loops correct een negatieve waarde toekennen aan de op drugs gerichte keuze, vinden loops op motorniveau het zoeken naar drugs wenselijk (positieve waarde). De curves in deze figuur tonen de evolutie van waarden in "één" gesimuleerd dier en dus was er geen statistische analyse van toepassing.

doi: 10.1371 / journal.pone.0061489.g002

Hoewel geneesmiddelen in ons model leiden tot een onevenwichtige waardering over niveaus, convergeert de waarde van natuurlijke beloningen naar dezelfde waarde op alle niveaus, vanwege het ontbreken van een direct farmacologisch effect op het DA-signaleringsmechanisme (). Bijgevolg worden noch inconsistenties, noch overwaardering op gedetailleerde niveaus waargenomen in het geval van natuurlijke beloningen (Figuur 2A). Overwaardering van drugszoekende reacties op lagere niveaus van de hiërarchie zou moeten resulteren in een abnormale voorkeur voor drugs boven natuurlijke beloningen en overbetrokkenheid bij drugsgerelateerde activiteiten.

Differentiële dopamine die reageert in de ventrale versus dorsale striatum tot aan drugs gerelateerde aanwijzingen

Neurobiologisch hebben differentiële rollen van de striatale subregio's bij de verwerving en expressie van drugszoekend gedrag de hoofdmoot gemaakt in verslavingsonderzoek. Convergerende gegevens uit verschillende onderzoekslijnen wijzen erop dat de gedragsovergang van recreatief naar compulsief drugsgebruik een neurobiologische verschuiving weerspiegelt van de waardering van de ventrale naar de dorsolaterale striatum. [8], [33], [34], wat overeenkomt met een verschuiving van cognitieve naar gedetailleerde niveaus in ons model. In overeenstemming met ons model, is aangetoond dat DA spiraalvormig netwerk dat de ventrale met progressief meer dorsale gebieden van het striatum verbindt een cruciale rol speelt in deze overgang [25].

In een belangrijke recente studie Willuhn et al. [17] onderzocht het patroon van dopamine-afgifte in reactie op drugsgerelateerde aanwijzingen in het ventrale en dorsolaterale striatum van ratten gedurende drie weken van cocaïnegang. Met behulp van fast-scan cyclische voltammetrie was de kritische observatie dat cue-geïnduceerde DA-efflux in het ventrale striatum opduikt, zelfs na een zeer beperkte training. Daarentegen vertoonde het dorsolaterale striatum cue-geactiveerde DA-efflux alleen na uitgebreide training en de ontwikkeling van dit afgiftepatroon verdween toen het ventrale striatum in het ipsilaterale halfrond werd laesief.

Aangezien de temporele resolutie van fast-scan voltammetrie subseconde fluctuaties in de concentratie opvangt, moet het waargenomen patroon van DA-efflux worden toegeschreven aan "fasische" DA-signalering en dus aan het voorspellingsfoutsignaal, volgens de RL-theorie van dopamine [24]. Volgens de RL-theorie is het voorspellingsfoutsignaal bij het waarnemen van een onverwachte stimulus gelijk aan de lonende waarde die die stimulus voorspelt. Daarom is cue-geïnduceerde DA-release gelijk aan de waarde die wordt voorspeld door die cue.

In dit opzicht biedt ons hiërarchisch raamwerk een formele verklaring voor het differentiële patroon van ventrale versus dorsale striatale DA efflux gerapporteerd in [17]. De waarde die wordt voorspeld door de aan drugs gerelateerde cue op de abstracte cognitieve niveaus van de hiërarchie neemt snel toe in de zeer vroege stadia van de training (Figuur 2B), vanwege de lage dimensionaliteit van het leerprobleem op grote niveaus van abstractie. Als gevolg hiervan laat ons model zien dat de cue-geïnduceerde DA-efflux moet worden waargenomen in het ventrale striatum, zelfs na beperkte training (Figuur 3). Op de meer gedetailleerde niveaus van representatie is het leerproces echter traag (Figuur 2B), vanwege de hoge dimensionaliteit van de probleemruimte, evenals de afhankelijkheid van leren op meer abstracte niveaus via DA spiralen. Dientengevolge zou cue-geïnduceerde DA-efflux in het dorsolaterale striatum geleidelijk moeten ontwikkelen en pas na uitgebreide training waarneembaar worden (Figuur 3).

thumbnail

Figuur 3. Dopamine-efflux op verschillende striatale subgebieden als reactie op drugsgerelateerde aanwijzingen (simulatieresultaten).

In overeenstemming met experimentele gegevens [17], het model laat zien (linkerkolom) dat er in reactie op drugsgerelateerde aanwijzingen dopamine-efflux zal zijn in het ventrale striatum, na beperkte en uitgebreide training. In meer dorsolaterale subregio's zal de cue-opgewekte DA-efflux zich geleidelijk ontwikkelen tijdens het leerproces. Het model voorspelt (tweede kolom van rechts) dat deze vertraagde ontwikkeling van cue-opgewekte DA-efflux in dorsale striatum afhangt van de DA-afhankelijke seriële connectiviteit die de ventrale met de dorsale striatum verbindt. Dat wil zeggen, als gevolg van het loskoppelen van de DA-spiralen, terwijl de cue-opgewekte DA-respons intact blijft in het ventrale striatum, neemt deze significant af in het dorsolaterale striatum. Bovendien voorspelt het model (derde kolom van rechts) vergelijkbare resultaten voor cue-geïnduceerde DA-efflux in dorsolateraal striatum voor het geval van beschadigde ventrale striatum. Tenslotte, als na uitgebreide drug-cue-paren in intacte dieren een straf volgt op het medicijn, voorspelt het model (rechterkolom) dat de aan drugs gerelateerde cue resulteert in remming van de ventrale poot van DA-spiralen, zelfs na beperkte training. In meer dorsale regio's neemt de efflux van DA echter langzaam af tijdens het leren, maar blijft positief, zelfs na uitgebreide parenpest. De gegevens in deze figuur zijn verkregen van "één" gesimuleerd dier en er was dus geen statistische analyse van toepassing.

doi: 10.1371 / journal.pone.0061489.g003

Verder verklaart ons model het bewijsmateriaal in [17] dat een dergelijke vertraagde ontwikkeling van cue-opgewekte DA-efflux in het dorsolaterale striatum afhankelijk is van het ventrale striatum (Figuur 3). In ons model verlaagt een gesimuleerde, unilaterale laesie van het ventrale striatum (het abstracte waarderingsniveau in het model) de door drugspecue voorspelde waarde op gedetailleerde niveaus in de ipsilaterale halfrond aanzienlijk en dus vermindert het niveau van cue-geïnduceerde DA-efflux aanzienlijk. Om de laesie van het ventrale striatum te modelleren, bepalen we eenvoudig de waarde van alle stimuli op het hoogste niveau van de hiërarchie tot nul.

Evenzo voorspelt ons model dat de ontwikkeling van fasische DA-signalering in het dorsolaterale striatum afhangt van de integriteit van de DA-spiraalcircuit (Figuur 3). In feite snijdt een ontkoppeling in het DA-spiraalcircuit in ons model de communicatie over niveaus van abstractie, wat op zijn beurt accumulatie van de door drugs veroorzaakte vooringenomenheid op het versterkingssignaal voorkomt, langs de niveaus van de beslissingshiërarchie. Voor het modelleren van de ontkoppeling in de DA-afhankelijke seriële circuits van ventrale naar dorsale striatum, klemmen we elk niveau van abstractie om lokaal het voorspellingsfoutsignaal te berekenen (zoals in vergelijking 3), zonder de waarde van de tijdelijk geavanceerde toestand van de direct hogere te ontvangen niveau van abstractie.

Verder voorspelt het model dat het patroon van cue-opgewekte DA efflux zal veranderen als na een uitgebreide training met cocaïne en cocaïne-gerelateerde signalen, zoals in het bovenstaande experiment, men begint met het koppelen van de cocaïneverzorging met een sterke straf. We voorspellen dat de DA efflux in reactie op de cocaïne-geassocieerde cue snel onder de basislijn in het ventrale striatum zou moeten dalen. In het dorsolaterale striatum moet de cue-geïnduceerde DA-afgifte echter boven de basislijn blijven (Figuur 3) met een mogelijke vertraagde gedeeltelijke afname. Dit geeft aan dat op gedetailleerde niveaus een positieve subjectieve waarde aan de medicijnstimulus wordt toegekend, ondanks negatieve (onder baseline) waarden op cognitieve niveaus. Het is opmerkelijk dat deze voorspelling afhangt van de aanname dat straf door de hersenen wordt behandeld als een negatieve beloning. Deze aanname is enigszins controversieel: het wordt duidelijk ondersteund door experimentele studies [35], maar ook door anderen anders besproken [14], [36]. Afgezien van deze voorspelling hangen andere aspecten van het model niet af van of de straf wordt gecodeerd door dopamine of door een ander signaleringssysteem.

Het trainingsregime dat wordt gebruikt door Willuhn et al. [34] wordt niet voldoende uitgebreid tot het produceren van dwangmatig drugszoekend gedrag, gekenmerkt door ongevoeligheid voor drugsgerelateerde straffen [37], [38]. Dus, een belangrijke vraag die moet worden beantwoord, is wat de relatie is tussen een vertraagde ontwikkeling van cue-geïnduceerde DA-reactie in DLS en late ontwikkeling van compulsief reageren. Volgens ons model vereist dwangmatig gedrag niet alleen de buitensporige waardering van geneesmiddelenkeuze bij lage niveaus van de hiërarchie, maar ook de overdracht van controle over gedrag van de abstracte cognitieve naar de gebruikelijke processen van laag niveau. De tijdschaal van deze twee processen is slechts ten dele afhankelijk van elkaar: het overwaarderingproces is afhankelijk van het voorspellingsfoutsignaal, terwijl de overdracht van gedragscontrole ook afhangt van de relatieve onzekerheden in de waardeschatting. Daarom kan de overwaardering van drugsgerelateerde cues op lage niveaus van de hiërarchie voorafgaan aan de verschuiving van controle over gedrag van de top naar de onderkant van de hiërarchie. De exacte tijdschalen van de twee processen zijn afhankelijk van de leerfrequentie en de inherente ruis op de verschillende niveaus (zie Bestand S1 voor aanvullende informatie). Met andere woorden, het is aannemelijk dat de cue-geïnduceerde dopamine-efflux in de DLS zich significant kan ontwikkelen voordat de dwangmatige drug-zoeken zich gedragsmatig manifesteert.

Gedragsimplicaties van de inconsistente waardering voor drugs versus natuurlijke beloningen

Gedrag, in ons model, als straffen gepaard gaan met drugs in de vroege stadia van vrijwillig drugsgebruik, wordt de abstracte waarde van het zoeken naar drugs snel negatief. Ervan uitgaande dat het zoeken naar drugs in deze vroege stadia wordt gecontroleerd door abstracte niveaus, maakt een negatieve abstracte evaluatie van de drugskeuze het subject niet bereid om die gedragslijn langer te ervaren. Dit voorkomt consolidatie van een sterke lage voorkeur voor drugs na verloop van tijd. Het model legt dus de elasticiteit van geneesmiddelenkeuzes tot kosten tijdens de vroege stadia van drugsgebruik, maar niet na chronisch gebruik. Consistent laten diermodellen van verslaving zien dat ongevoeligheid van drugszoekende responsen op schadelijke gevolgen die samenhangen met een medicijn zich pas na langdurige zelftoediening door geneesmiddelen ontwikkelt, maar niet beperkt tot drugsgebruik. [37], [38]. In tegenstelling tot onze theorie, eerdere computationele modellen van verslaving [9], [10] zijn in directe tegenspraak met dit bewijsmateriaal, omdat ze voorspellen dat ongunstige gedragsuitkomsten die onmiddellijk volgen op drugsgebruik, zelfs in de allereerste stadia van het ervaren van drugs geen motiverend effect hebben (zie Bestand S1 voor aanvullende informatie).

Ons model verklaart verder het voorkomen van blokkeringseffecten voor medicijnuitkomsten [39]. Blokkering is een conditioneringsverschijnsel waarbij voorafgaande koppeling van een stimulus A met een uitkomst de vorming van associatie tussen een verschillende stimulus B blokkeert met die uitkomst in een volgende trainingsfase, waarin zowel A als B worden gepresenteerd vóór de uitkomst van de uitkomst. [40]. Resultaten van het simuleren van ons model in een Pavloviaans experimenteel ontwerp (zie Bestand S1 voor aanvullende informatie over de Pavloviaanse versie van het model) toont aan dat voor beide gevallen van natuurlijke beloningen en geneesmiddelen, wanneer de geschatte waarde op een bepaald niveau van de hiërarchie zijn evenwichtstoestand bereikt (in plaats van onbegrensd te groeien), er verder geen niveau, aangezien het voorspellingsfoutsignaal is afgenomen tot nul (Figuur 4). Het associëren van een nieuwe stimulus met de al voorspelde beloning wordt dus geblokkeerd. Gedragsbewijs dat een blokkeringseffect vertoont dat geassocieerd is met zowel geneesmiddelen als natuurlijke versterkers [39] is gebruikt als een belangrijk argument om kritiek te leveren op het eerder voorgestelde op dopamine gebaseerde computationele model van verslaving [9]. Hier hebben we laten zien dat het focussen op de hiërarchische aard van representaties en dorsaal-ventrale spiralende dopamine-lus-organisatie in feite verantwoordelijk kan zijn voor de blokkerende gegevens, waardoor deze kritiek wordt omzeild (zie Bestand S1 voor aanvullende informatie).

thumbnail

Figuur 4. Blokkerend effect voor natuurlijke versus medicinale beloningen.

Het model voorspelt dat blokkering optreedt voor natuurlijke beloningen (A) en drugs (B), alleen als de initiële trainingsperiode "uitgebreid" is, zodat de eerste stimulus de waarde van de uitkomst volledig voorspelt. Na een "matige" training voorspellen cognitieve niveaus die flexibeler zijn de waarden volledig en blokkeren zo verder leren. Leren is echter nog steeds actief in processen op laag niveau wanneer de tweede trainingsfase (gelijktijdige presentatie van beide stimuli) start. Ons model voorspelt dus dat gematigde initiële training in een blokkeerexperiment met natuurlijke beloningen ook resulteert in cognitieve / gedragsinconsistentie. De gegevens in deze figuur zijn verkregen van "één" gesimuleerd dier en er was dus geen statistische analyse van toepassing.

doi: 10.1371 / journal.pone.0061489.g004

Zoals eerder vermeld, tonen verschillende bewijslijnen een progressieve dominantie van de ruggengraat ten opzichte van het ventrale striatum in de controle over gedrag tijdens het leerproces. [8], [31], [32]. Geïnterpreteerd op de achtergrond van dat bewijs, verklaart de onevenwichtige waardering van drugszoekers in de hele hiërarchie ook de mislukte pogingen van verslaafden om het drugsgebruik terug te dringen na langdurige ervaring met drugs, terwijl de controle over drugsgerelateerde keuzes is verschoven van niveau gewoonteprocessen. Deze suprematie van door drugs gedomineerde processen leidt natuurlijk tot gedragsinelasticiteit ten opzichte van met drugs samenhangende kosten (dwangmatig zoeken naar drugs), waarschijnlijk vergezeld van zelfgeschreven fouten. Voor het geval van natuurlijke beloningen voorspelt ons model echter dat, hoewel gedragsinelasticiteit toeneemt in de loop van het leren, aangezien er geen inconsistentie in waardering ontstaat over de niveaus van de hiërarchie, straffen die verband houden met beloning uiteindelijk het zoeken naar beloningen zullen belemmeren.

Ons model richt zich op de evaluatie van acties in een "vermoedelijk gegeven" beslissingshiërarchie, en laat los hoe de abstracte opties en hun bijbehorende low-level subroutines in eerste instantie ontdekt worden tijdens de ontwikkeling. Het ontdekken van de beslissingshiërarchie wordt voorgesteld als een bottom-up proces, bereikt door opeenvolgingen van acties op laag niveau te chunking en meer abstracte opties te construeren [41]. Dit proces, dat vermoedelijk een verschuiving van het dorsale naar het ventrale striatum ondergaat, is in de tegenovergestelde richting van het hier voorgestelde mededingingsmechanisme, voor het nemen van controle over het gedrag.

Discussie

Het groeiende aantal bewijzen over de differentiële rol van verschillende striatale subregio's bij verslaving wordt meestal geïnterpreteerd in het kader van de gebruikelijke vs. doelgerichte dichotomie [8], [14], [34]. De hiërarchische besluitvormingsaanpak die we hier gebruiken, is complementair aan dergelijke accounts met dubbele systemen. Terwijl de aanpak met twee processen verschillende algoritmen behandelt (model-vrij versus model-base [30]) voor het oplossen van één probleem, richt het hiërarchische RL-raamwerk zich op verschillende representaties van hetzelfde probleem op verschillende niveaus van temporele abstractie. In theorie kan een van de gebruikelijke of een doelgericht algoritme elk van deze verschillende representaties van het probleem oplossen. In ons model vindt de accumulatie van door drugs geïnduceerde vooroordelen ten opzichte van DA-spiralen plaats in een omgeving waar het waardeschattingsalgoritme modelvrij is (gewoontebehandeling). Dit sluit echter het bestaan ​​van op modellen gebaseerde systemen die werken op de hoogste niveaus van de hiërarchie niet uit. Men kan eenvoudig het PFC-afhankelijke, doelgerichte waarderings- en beslissingssysteem opnemen in het model door aan te nemen dat acties op de hoogste niveaus van abstractie worden geëvalueerd door een doelgericht systeem. Hoewel een dergelijke complicatie de aard van de resultaten in dit manuscript niet verandert, wordt de daaruit voortvloeiende extra flexibiliteit bij het uitleggen van andere aspecten van verslaving aan toekomstige studies overgelaten. In feite groeit in ons model, ongeacht of er een doelgericht systeem bestaat of niet, het verschil in de asymptotische waarde van het zoeken naar drugs tussen de twee uitersten van de hiërarchie samen met het aantal beslissingsniveaus die worden beheerst door het "gewone" proces .

In het licht van onze theorie kan terugval worden beschouwd als een heropleving van slapende onaangepaste gewoonten op motorisch niveau, na een periode van dominantie van cognitieve niveaus. In feite kan men zich voorstellen dat als gevolg van cognitieve therapie (in menselijke verslaafden) of geforceerde extinctie (in diermodellen van onthouding) de hoge waarde van het zoeken naar drugs op het gedetailleerde niveau van de hiërarchie niet wordt gedoofd, maar slapend wordt als gevolg van om de controle terug te brengen naar cognitieve niveaus. Omdat drugsgerelateerd gedrag gevoelig is voor nadelige gevolgen op abstracte niveaus, kan het zoeken naar drugs worden vermeden zolang cognitieve processen op hoog niveau de controle over het gedrag domineren. Men kan zelfs speculeren dat de populaire 12-stapprogramma's (bijv. Anonieme Alcoholisten, Narcotica Anonymous) gedeeltelijk werken door de deelnemers expliciet te vragen om de inconsistentie van hun drugsgerelateerde levensstijl toe te geven, waardoor de abstracte cognitieve niveaus de mogelijkheid krijgen om expliciete controle uit te oefenen over hun gedrag. Stressvolle omstandigheden of herblootstelling aan drugs (priming) kunnen worden gezien als risicofactoren die de dominantie van abstracte niveaus ten opzichte van gedrag verzwakken, wat kan resulteren in het opnieuw verschijnen van drugszoekende reacties (vanwege de latente hoge niet-cognitieve waarden ).

Samenvattend stellen we een samenhangend verslag voor van verschillende, schijnbaar ongelijksoortige verschijnselen die kenmerkend zijn voor drugsverslaving. Ons model biedt een normatieve verklaring voor gegevens over de differentiële rollen van de ventrale versus dorsale striatale circuits bij het zoeken naar drugs en gewoonteprestaties, evenals de selectieve rol van feed-forward DA-connectiviteit voor effecten van geneesmiddelen versus natuurlijke versterkers. Het belangrijkste is dat we laten zien hoe de door geneesmiddelen geïnduceerde pathologie in ventraal-naar-dorsale DA-signalen die de motiverende informatie naar beneden laten druppelen in de cognitieve representatiehiërarchie zou kunnen leiden tot onenigheid tussen de abstracte houding van verslaafden ten opzichte van het zoeken naar drugs en wat ze feitelijk doen. Het is duidelijk dat ons model geen volledig verslag geeft van drugsverslaving, en dat is ook niet de bedoeling. Om andere onverklaarbare aspecten van verslaving uit te leggen, moeten veel andere hersensystemen worden ingebouwd waarvan is aangetoond dat ze worden beïnvloed door drugs. [42]. Hoe dergelijke systemen in het formele computernetwerk kunnen worden ingebouwd, blijft een onderwerp voor verder onderzoek.

ondersteunende informatie

File_S1.pdf
 

Figuur S1,Een voorbeeldbeslissingshiërarchie met vijf niveaus van abstractie. Figuur S2, Het corresponderende neurale circuit voor de drie besproken algoritmen voor waardebepaling is een hiërarchische beslissingsstructuur. A, Met behulp van een eenvoudig TD-leeralgoritme (vergelijking S7) wordt het voorspellingsfoutsignaal in elk abstractieniveau onafhankelijk van andere niveaus berekend. B, In het model voorgesteld door Haruno en Kawato (4) (vergelijking S8), komt de waarde van de tijdelijk gevorderde toestand van een hoger niveau van abstractie. C, in ons model (vergelijking S9) wordt de waarde van de temporeel geavanceerde status vervangen door een combinatie van de beloning en de Q-waarde van de uitgevoerde actie op een hoger abstractieniveau. Figuur S3, Ons model voorspelt verschillende plaatsen van actie van medicijnen op het beloningslerende circuit: sites 1 tot 3. Geneesmiddelen die sites beïnvloeden 4 tot 6 zullen daarentegen niet resulteren in gedrags- en neurobiologische patronen die worden geproduceerd door simulatie van het model voor geneesmiddelen, maar zullen resultaten opleveren die vergelijkbaar zijn met natuurlijke beloningen. Figuur S4, De taak die wordt gebruikt voor het simuleren van het op onzekerheid gebaseerde mededingingsmechanisme tussen de niveaus van de hiërarchie voor het nemen van controle over gedrag. Figuur S5, Simulatieresultaat, met een geleidelijke verschuiving van controle over het gedrag van hogere naar lagere niveaus van de hiërarchie. Q (s, a) en Verenigde Staten van Amerika) toon de geschatte waarde en onzekerheid van de paren van de staat-actie, respectievelijk.

Bestand S1.

Figuur S1,Een voorbeeldbeslissingshiërarchie met vijf niveaus van abstractie. Figuur S2, Het corresponderende neurale circuit voor de drie besproken algoritmen voor waardebepaling is een hiërarchische beslissingsstructuur. A, Met behulp van een eenvoudig TD-leeralgoritme (vergelijking S7) wordt het voorspellingsfoutsignaal in elk abstractieniveau onafhankelijk van andere niveaus berekend. B, In het model voorgesteld door Haruno en Kawato (4) (vergelijking S8), komt de waarde van de tijdelijk gevorderde toestand van een hoger niveau van abstractie. C, in ons model (vergelijking S9) wordt de waarde van de temporeel geavanceerde status vervangen door een combinatie van de beloning en de Q-waarde van de uitgevoerde actie op een hoger abstractieniveau. Figuur S3, Ons model voorspelt verschillende plaatsen van actie van medicijnen op het beloningslerende circuit: sites 1 tot 3. Geneesmiddelen die sites beïnvloeden 4 tot 6 zullen daarentegen niet resulteren in gedrags- en neurobiologische patronen die worden geproduceerd door simulatie van het model voor geneesmiddelen, maar zullen resultaten opleveren die vergelijkbaar zijn met natuurlijke beloningen. Figuur S4, De taak die wordt gebruikt voor het simuleren van het op onzekerheid gebaseerde mededingingsmechanisme tussen de niveaus van de hiërarchie voor het nemen van controle over gedrag. Figuur S5, Simulatieresultaat, met een geleidelijke verschuiving van controle over het gedrag van hogere naar lagere niveaus van de hiërarchie. Q (s, a) en Verenigde Staten van Amerika) toon de geschatte waarde en onzekerheid van de paren van de staat-actie, respectievelijk.

doi: 10.1371 / journal.pone.0061489.s001

(PDF)

Dankwoord

We danken S. Ahmed en P. Dayan voor kritische discussies, en M. Reinoud, D. Redish, N. Daw, E. Koechlin en A. Dezfouli voor commentaar op het manuscript.

Bijdragen van auteurs

Bedacht en ontwierp de experimenten: MK. Voer de experimenten uit: MK. Analyse van de gegevens: MK BG. Bijgedragen reagentia / materialen / analyse-instrumenten: MK. Schreef het papier: MK BG.

Referenties

  1. 1. Narcotics Anonymous (2008). 6th ed. World Service Office.
  2. 2. Goldstein A (2001) Verslaving: van biologie tot drugsbeleid. Oxford University Press, VS.
  3. 3. Volkow ND, Fowler JS, Wang GJ, Swanson JM (2004) Dopamine bij drugsmisbruik en -verslaving: resultaten van beeldvormingsstudies en implicaties voor de behandeling. Molecular Psychiatry 9: 557-569. doi: 10.1038 / sj.mp.4001507. Vind dit artikel online
  4. 4. Stacy AW, Wiers RW (2010) Impliciete cognitie en verslaving: een hulpmiddel om paradoxaal gedrag uit te leggen. Jaaroverzicht van klinische psychologie 6: 551-575. doi: 10.1146 / annurev.clinpsy.121208.131444. Vind dit artikel online
  5. 5. Diagnostische en statistische handleiding voor psychische stoornissen (DSM-IV) (2000). 4th ed. Washington, DC: American Psychiatric Association.
  6. 6. Lamb RJ, Preston KL, Schindler CW, Meisch RA, Davis F, et al. (1991) De versterkende en subjectieve effecten van morfine bij postverslaafden: een onderzoek naar dosis-respons. The Journal of farmacology and experimentental therapeutics 259: 1165-1173. Vind dit artikel online
  7. 7. Goldstein RZ, Woicik PA, Moeller SJ, Telang F, Jayne M, et al. (2010) Liken en willen van drugs- en niet-drugsbeloningen bij actieve cocaïnegebruikers: de STRAP-R-vragenlijst. Journal of psychopharmacology 24: 257-266. doi: 10.1177/0269881108096982. Vind dit artikel online
  8. 8. Everitt BJ, Robbins TW (2005) Neurale versterkingssysteem voor drugsverslaving: van acties tot gewoonten tot dwang. Nature Neuroscience 8: 1481-1489. doi: 10.1038 / nn1579. Vind dit artikel online
  9. 9. Roodachtige AD (2004) Verslaving als een rekenkundig proces dat verkeerd is gegaan. Wetenschap 306: 1944-1947. doi: 10.1126 / science.1102384. Vind dit artikel online
  10. 10. Dezfouli A, Piray P, Keramati MM, Ekhtiari H, Lucas C, et al. (2009) Een neurocomputationeel model voor cocaïneverslaving. Neurale berekening 21: 2869-2893. doi: 10.1162 / neco.2009.10-08-882. Vind dit artikel online
  11. 11. Piray P, Keramati MM, Dezfouli A, Lucas C, Mokri A (2010) Individuele verschillen in dopamine-receptoren van nucleus accumbens voorspellen de ontwikkeling van verslavingsgedrag: een computationele benadering. Neurale berekening 22: 2334-2368. doi: 10.1162 / NECO_a_00009. Vind dit artikel online
  12. 12. Dayan P (2009) Dopamine, versterkingsleren en verslaving. Farmacopsychiatrie 42: 56-65. doi: 10.1055 / s-0028-1124107. Vind dit artikel online
  13. 13. Takahashi Y, Schoenbaum G, Niv Y (2008) Silencing the critics: begrip van de effecten van cocaïne-sensitisatie op dorsolateraal en ventraal striatum in de context van een actor / criticusmodel. Grenzen in neurowetenschappen 2: 86-99. doi: 10.3389 / neuro.01.014.2008. Vind dit artikel online
  14. 14. Redish AD, Jensen S, Johnson A (2008) Een uniform framework voor verslaving: kwetsbaarheden in het beslissingsproces. Gedrags- en hersenwetenschappen 31: 415-487. doi: 10.1017 / S0140525X0800472X. Vind dit artikel online
  15. 15. Botvinick MM (2008) Hiërarchische gedragsmodellen en prefrontale functie. Trends in cognitieve wetenschappen 12: 201-208. doi: 10.1016 / j.tics.2008.02.009. Vind dit artikel online
  16. 16. Haruno M, Kawato M (2006) Heterarchical reinforcement-learning model voor integratie van meerdere cortico-striatale lussen: fMRI-onderzoek in stimulus-actie-beloning associatie leren. Neurale netwerken 19: 1242-1254. doi: 10.1016 / j.neunet.2006.06.007. Vind dit artikel online
  17. 17. Willuhn I, Burgeno LM, Everitt BJ, Phillips PEM (2012) Hiërarchische rekrutering van fasische dopamine-signalering in het striatum tijdens de progressie van cocaïnegebruik. Werkzaamheden van de National Academy of Sciences 109: 20703-20708. doi: 10.1073 / pnas.1213460109. Vind dit artikel online
  18. 18. Botvinick MM, Niv Y, Barto AC (2009) Hiërarchisch georganiseerd gedrag en de neurale basis ervan: een perspectief van versterking van het leerproces. Cognition 113: 262-280. doi: 10.1016 / j.cognition.2008.08.011. Vind dit artikel online
  19. 19. Badre D, D'Esposito M (2009) Is de rostro-caudale as van de frontale kwab hiërarchisch? Nature Reviews Neuroscience 10: 659-669. doi: 10.1038 / nrn2667. Vind dit artikel online
  20. 20. Koechlin E, Ody C, Kouneiher F (2003) De architectuur van cognitieve controle in de menselijke prefrontale cortex. Wetenschap 302: 1181-1185. doi: 10.1126 / science.1088545. Vind dit artikel online
  21. 21. Badre D, Hoffman J, Cooney JW, D'Esposito M (2009) Hiërarchische cognitieve controletekorten na schade aan de menselijke frontale kwab. Nature neuroscience 12: 515-522. doi: 10.1038 / nn.2277. Vind dit artikel online
  22. 22. Alexander GE, DeLong MR, Strick PL (1986) Parallelle organisatie van functioneel gescheiden circuits die basale ganglia en cortex met elkaar verbinden. Jaaroverzicht van neurowetenschappen 9: 357-381. doi: 10.1146 / annurev.neuro.9.1.357. Vind dit artikel online
  23. 23. Alexander GE, Crutcher MD, DeLong MR (1990) Basale ganglia-thalamocorticale circuits: parallelle substraten voor motorische, oculomotorische, prefrontale en limbische functies. Vooruitgang in hersenonderzoek 85: 119-146. Vind dit artikel online
  24. 24. Schultz W, Dayan P, Montague PR (1997) Een neuraal substraat voor voorspelling en beloning. Wetenschap 275: 1593-1599. doi: 10.1126 / science.275.5306.1593. Vind dit artikel online
  25. 25. Belin D, Everitt BJ (2008) Cocaïnewensen hangen af ​​van dopamine-afhankelijke seriële connectiviteit die de ventrale met de dorsale striatum verbindt. Neuron 57: 432-441. doi: 10.1016 / j.neuron.2007.12.019. Vind dit artikel online
  26. 26. Haber SN, Fudge JL, McFarland NR (2000) Striatonigrostriatale Pathways in Primates Vorm een ​​Ascending Spiral van de Shell naar de Dorsolateral Striatum. The Journal of Neuroscience 20: 2369-2382. Vind dit artikel online
  27. 27. Haber SN (2003) Basale ganglia van primaten: parallelle en integratieve netwerken. Journal of Chemical Neuroanatomy 26: 317-330. doi: 10.1016 / j.jchemneu.2003.10.003. Vind dit artikel online
  28. 28. Sutton RS, Barto AG (1998) Reinforcement Learning: An Introduction. Cambridge: MIT Press.
  29. 29. Di Chiara G, Imperato A (1988) Geneesmiddelen die door mensen worden misbruikt, verhogen bij voorkeur de synaptische dopamineconcentraties in het mesolimbische systeem van vrij bewegende ratten. Proceedings van de National Academy of Sciences in de Verenigde Staten van Amerika 85: 5274-5278. doi: 10.1073 / pnas.85.14.5274. Vind dit artikel online
  30. 30. Daw ND, Niv Y, Dayan P (2005) Onzekerheid-gebaseerde concurrentie tussen prefrontale en dorsolaterale striatale systemen voor gedragscontrole. Nature Neuroscience 8: 1704-1711. doi: 10.1038 / nn1560. Vind dit artikel online
  31. 31. Vanderschuren LJMJ, Ciano PD, Everitt BJ (2005) Betrokkenheid van het dorsale striatum bij cue-controlled cocaine seeking. The Journal of Neuroscience 25: 8665-8670. doi: 10.1523 / JNEUROSCI.0925-05.2005. Vind dit artikel online
  32. 32. Volkow ND, Wang GJ, Telang F, Fowler JS, Logan J, et al. (2006) Cocaïne aanwijzingen en dopamine in dorsale striatum: mechanisme van verlangen bij cocaïneverslaving. The Journal of Neuroscience 26: 6583-6588. doi: 10.1523 / JNEUROSCI.1544-06.2006. Vind dit artikel online
  33. 33. Kalivas PW, Volkow ND (2005) De neurale basis van verslaving: een pathologie van motivatie en keuze. Het American Journal of Psychiatry 162: 1403-1413. doi: 10.1176 / appi.ajp.162.8.1403. Vind dit artikel online
  34. 34. Belin D, Jonkman S, Dickinson A, Robbins TW, Everitt BJ (2009) Parallelle en interactieve leerprocessen binnen de basale ganglia: relevantie voor het begrip van verslaving. Gedragsborenonderzoek 199: 89-102. doi: 10.1016 / j.bbr.2008.09.027. Vind dit artikel online
  35. 35. Matsumoto M, Hikosaka O (2009) Twee soorten dopamine-neuronen brengen duidelijk positieve en negatieve motivatiesignalen over. Natuur 459: 837-841. doi: 10.1038 / nature08028. Vind dit artikel online
  36. 36. Frank MJ, Surmeier DJ (2009) Maken substantia nigra dopaminerge neuronen onderscheid tussen beloning en straf? Journal of Molecular Cell Biology 1: 15-16. doi: 10.1093 / JMCB / mjp010. Vind dit artikel online
  37. 37. Vanderschuren LJMJ, Everitt BJ (2004) Het zoeken naar medicijnen wordt dwangmatig na langdurige zelftoediening door cocaïne. Wetenschap 305: 1017-1019. doi: 10.1126 / science.1098975. Vind dit artikel online
  38. 38. Deroche-Gamonet V, Belin D, Piazza PV (2004) Bewijs voor verslavingsgedrag bij de rat. Wetenschap 305: 1014-1017. doi: 10.1126 / science.1099020. Vind dit artikel online
  39. 39. Panlilio LV, Thorndike EB, Schindler CW (2007) Blokkering van conditionering tot een cocaïnepaarde stimulus: het testen van de hypothese dat cocaïne onophoudelijk een signaal geeft van een groter dan verwachte beloning. Farmacologie, biochemie en gedrag 86: 774-777. doi: 10.1016 / j.pbb.2007.03.005. Vind dit artikel online
  40. 40. Kamin L (1969) Voorspelbaarheid, verrassing, aandacht en conditionering. In: Campbell BA, Church RM, editors. Straf en aversief gedrag. New York: Appleton-Century-Crofts. pp. 279-296.
  41. 41. Dezfouli A, Balleine BW (2012) Gewoonten, actiescènes en wapeningsleren. Het Europese tijdschrift voor neurowetenschappen 35: 1036-1051. doi: 10.1111 / j.1460-9568.2012.08050.x. Vind dit artikel online
  42. 42. Koob GF, Le Moal M (2005) Neurobiologie van verslaving. San Diego: Academische pers