Obalanserad beslutshierarki i missbruk som kommer från drogkörd dopamin-spiralkrets (2013)

 

  • Mehdi Keramati post,
     
  • Boris Gutkin

 

Abstrakt

Trots att de uttryckligen vill sluta, är långvariga missbrukare maktlösa att motstå droger, trots att de vet att droganvändning kan vara en skadlig åtgärd. Sådan inkonsekvens mellan den uttryckliga kunskapen om negativa konsekvenser och de tvångsmässiga beteendemönstren representerar en kognitiv / beteendekonflikt som är ett centralt kännetecken för missbruk. Neurobiologiskt spelar differentiell cue-inducerad aktivitet i distinkta striatala subregioner, liksom dopaminanslutningen från ventrala striatalregioner till dorsala regioner, kritiska roller i tvångssökande. Den funktionella mekanismen som integrerar dessa neurofarmakologiska observationer med ovannämnda kognitiva / beteendekonflikt är dock okänd. Här ger vi en formell beräkningsförklaring för den läkemedelsinducerade kognitiva inkonsekvensen som är uppenbar i missbrukarnas ”självbeskrivna misstag”. Vi visar att beroendeframkallande läkemedel gradvis ger en motiverande bias mot drogsökning vid vanliga beslutsprocesser på låg nivå, trots den låga abstrakta kognitiva värderingen av detta beteende. Denna patologi framträder inom den hierarkiska förstärkningsinlärningsramen när kronisk exponering för läkemedlet farmakologiskt producerar patologiska ihållande fasiska dopaminsignaler. Därigenom kapar läkemedlet de dopaminerga spiralerna som kaskadar förstärkningssignalerna ner i den ventro-dorsala kortikostriatal-hierarkin. Neurobiologiskt redogör vår teori för snabb utveckling av läkemedels-cue-framkallat dopaminutflöde i ventralt striatum och ett fördröjt svar i dorsalt striatum. Vår teori visar också hur detta svarsmönster kritiskt beror på dopaminspiralkretsarna. Beteendemässigt förklarar vårt ramverk gradvis okänslighet hos drogsökande mot drogassocierade straff, det blockerande fenomenet för läkemedelsutfall och den ihållande preferensen för droger framför naturliga belöningar av missbrukare. Modellen föreslår testbara förutsägelser och utöver det sätter scenen för en syn på missbruk som en patologi för hierarkiska beslutsprocesser. Denna uppfattning kompletterar den traditionella tolkningen av missbruk som interaktion mellan vanliga och målstyrda beslutssystem.

Beskrivning

"Vi erkände att vi var maktlösa över vår missbruk - att våra liv hade blivit omanagliga" säger den allra första principen om narkotikapersonens 12-steg-program [1]. Detta belyser hur maktlösa missbrukare befinner sig när det gäller att motstå droger, trots att man vet att droganvändning är en felaktigt handlingsplan [2]-[4]. Faktum är att missbrukets kännetecken är tvångssökande mot drogerna, till och med på bekostnad av uppenbara negativa konsekvenser [5]. En underskrift av sådant patologiskt beteende framgår av kontrollerade experiment där missbrukare uppvisar ett karakteristiskt "självbestämt misstag": en inkonsekvens mellan det kraftfulla beteendemässiga svaret mot läkemedelsrelaterade val och det relativt låga subjektiva värdet som missbrukaren rapporterar för drogen [4], [6], [7]. När den kombineras med förlusten av hämmande kognitiv kontroll över beteendet, kan den här skillnaden mellan kognitiva planer och konsoliderade vanor efter långvarig exponering för droger resultera i en övergång från tillfälligt till kompulsivt läkemedelssökande beteende [8].

Förlusten av kognitiv kontroll och självklart misstag har hittills utlöst en principiell förklaring genom formella missbruksmodeller [9]-[13]. Tidigare beräkningsteorier om narkotikamissbruk, som oftast utgörs av förstärkningsinlärningsramen, visar missbruk som ett patologiskt tillstånd för vana-lärande (stimulus-respons) -systemet [9]-[13]. Den centrala hypotesen bakom alla dessa modeller är att läkemedels farmakologiska effekt på dopaminsignalering, som förmodligen bär en stimulus-respons-undervisningssignal, resulterar i gradvis överförstärkning av sådana föreningar. Denna effekt leder i sin tur till tvångssökande droger. Medan denna minskade syn på missbruk har fångat upp några aspekter av fenomenet, visar en växande konsensus i missbrukslitteraturen att flera lärandesystem är inblandade i patologin. Endast en sådan mer komplex bild som inkluderar hjärnans kognitiva, liksom vanliga processer på låg nivå, kan förklara mångfalden av beroende-liknande beteenden [8], [14].

I detta dokument adopterar vi en hierarkisk förstärkningslärande metod [15] där besluten representeras på olika nivåer av abstraktion, i en kognitiv till motorisk hierarki. Vi antar att en kaskad av dopaminberoende läringssignaler kopplar samman nivåerna av hierarkin tillsammans [16]. Vi antar vidare att missbruk av läkemedel kapaculerar kommunikationsmekanismen mellan abstraktionsnivåer. Baserat på dessa antaganden visar vi att den rapporterade kognitiva dissonansen hos missbrukare uppträder inom det hierarkiska förstärkningsinlärningsramverket när kronisk drogexponering stör värdlärning över beslutshierarkin. Denna störning resulterar i en patologisk övervärdering av läkemedelsval vid låga normala processer och leder därför vanligt drogsökande beteende. Vi demonstrerar sedan att "ogillade" men tvångssökande läkemedel kan förklaras som drogkaptenade vanliga processer på låg nivå, dominerande beteende, medan friska kognitiva system i de högsta representativa nivåerna förlorar kontroll över beteende. Vidare visar vi att den föreslagna modellen kan redogöra för de senaste bevisen på snabb vs fördröjd utveckling av läkemedelsrelaterad dopaminutflöde i respektive ventral vs dorsalstriatum samt beroende av detta mönster på dopamin spiralkretsar.

Material och metoder

förberedelser

I överensstämmelse med en rik kognitiv psykologi litteratur, vårt hierarkiska förstärkning lärande [15], [18] ramverk förutsätter att en abstrakt kognitiv plan som "bryggning te" kan brytas upp i en följd av åtgärder på lägre nivå: kokande vatten, sätta te i kruken etc. En sådan sönderdelning fortsätter tills konkreta motornivåer svarar på den lägsta nivån av hierarkin (Figur 1A). Neurobiologiskt representeras de olika nivåerna av beslutshierarki från kognitiva till motornivåer längs den rostro-kaudala axeln av cortico-basal ganglia (BG) kretsen [19]-[21]. Denna krets består av flera parallella slutna loopar mellan den främre cortexen och de basala ganglierna [22], [23] (Figur 1B). Medan de främre slingorna ligger till grund för en mer abstrakt representation av handlingar kodar de kaudala slingorna, som består av sensorisk-motorisk cortex och dorsolateral striatum, en lågnivåvanor [19]-[21].

miniatyr

Figur 1. Hierarkisk organisering av beteende och cortico-BG kretsen.

AEtt exempel på en beslutshierarki för två alternativa val: läkemedel mot mat. Varje åtgärdsförlopp är representerad på olika nivåer av abstraktion, som förmodligen kodas vid olika cortico-BG-slingor. Att söka var och en av de två typerna av belöning kan följa ett straff av magnitud 16. B, Glutamatergiska förbindelser från olika prefrontala områden sträcker sig till striatala subregioner och projicerar sedan tillbaka till PFC genom pallidum och thalamus och bildar flera parallella slingor. Genom striato-nigro-striatal dopamin-nätet påverkar de ventrala områdena i striatum de mer dorsala regionerna. vmPFC, ventral medial prefrontal cortex; OFC, orbital frontal cortex; dACC, dorsal anterior cingulate cortex; SMC, sensorisk-motor cortex; VTA, ventral tegmental area; SNc, substantia nigra pars compacta. Figur 1B Ändrad från ref 21.

doi: 10.1371 / journal.pone.0061489.g001

Inom denna krets signalerar den fasaktiva aktiviteten hos midbrain dopamin (DA) neuroner som sträcker sig till striatumen felet mellan förutspådda och mottagna belöningar och därigenom bär stimulus-responsarmerande information [24]. Dessa DAergic projektioner bildar en kaskad seriell anslutning som länkar de mer ventrala regionerna i striatumen till progressivt mer dorsala regioner genom de så kallade spiralförbindelserna [25]-[27] (Figur 1B). Funktionellt möjliggör en sådan frammatningsorganisation som förbinder rostral till caudal cortico-BG-slingor riktad koppling från grova till fina representationer. Följaktligen hypoteseras DA spiralerna för att tillhandahålla ett neurobiologiskt substrat för progressiv avstämning av belöningsspecifikationsfelet av högre nivåer i hierarkin (kodande abstrakt kunskap om värdet av beteendemöjligheter). Detta fel används då för uppdatering av åtgärdsvärden på mer detaljerade nivåer [16]. Med andra ord tillåter DA spiralerna de abstrakta kognitiva värderingsnivåerna för att styra inlärningen i de mer detaljerade aktionsvärderingsprocesserna.

Teori skiss

När det gäller beräkningsteorin för förstärkningslärande [28] (RL), agenten (i vårt fall en person eller ett djur) lär sig att göra informerade åtgärdsval genom att uppdatera sitt tidigare uppskattade värde, , för varje state-action-par, , när en belöning mottas av agenten vid tidpunkten som ett resultat av att utföra en åtgärd i det kontextuella tillståndet (stimulans) . Värdet uppdateras genom att beräkna felspredningsfelsignalen. Denna signal beror inte bara på den omedelbart mottagna belöningen (), men också på värdet av det nya tillståndet slutar agenten i efter det att åtgärden har utförts. Betecknad av , denna temporärt avancerade värdefunktion representerar summan av framtida belöningar som djuret förväntar sig att ta emot från det resulterande tillståndet, , framåt. Förutsägningsfelet kan beräknas med följande ekvation:


(1)

Intuitivt beräknar prediksionsfelsignalen skillnaden mellan det förväntade och det realiserade belöningsvärdet av en åtgärd. I en hierarkisk beslutsstruktur, istället för att lära sig -värderar oberoende på olika nivåer, mer abstrakta nivåer kan stämma undervisningssignalen beräknad på lägre nivåer. Eftersom högre nivåer i hierarkin representerar en mer abstrakt representation av miljöfel, uppstår lärandet snabbare på dessa nivåer. Detta beror på den relativa lågdimensionaliteten av den abstrakta representationen av beteende: en handlingsplan kan representeras som ett enda steg (en dimension) på toppnivå i hierarkin och som flera detaljerade åtgärder (flera dimensioner) på lägre nivåer av hierarkin. Toppnivåvärdet av denna handlingsplan skulle läras snabbt jämfört med detaljerade nivåer där belöningsfel skulle behöva återskapa alla detaljerade åtgärdssteg. Således kan avstämning av de lägre nivåvärdena med värdeinformationen från de högre nivåerna påskynda konvergensen av dessa värden. Ett statistiskt effektivt sätt att göra det är att anta det för att beräkna förutsägelsesfelsignalen vid -nivån av abstraktion , den temporärt avancerade värdefunktionen, , kommer från en högre grad av abstraktion, [16]:


(2)

För att bevara optimitet kan ekvation 2 användas för beräkning av prediktionsfelet endast när den sista beståndsdelens primitive verkan av ett abstrakt alternativ utförs (se Figur S1 i Fil S1). I andra fall sker värderingsinlärning på olika nivåer oberoende, som i ekvation 1. I båda fallen används undervisningssignalen för uppdatering av tidigare värden på motsvarande nivå:


(3)
var är lärandesatsen. Denna form av informationsutbyte mellan nivåer är biologiskt trovärdig eftersom den reflekterar den spiralformande strukturen hos DA-kretsen, som bär informationen ner i hierarkin i ventro-dorsalriktningen. Samtidigt, som styrs av mer abstrakta nivåer, accelererar signifikant lärandet, vilket lindrar den högdimensionella värderingsinlärningen på detaljerade nivåer [16].

I det här dokumentet visar vi att interaktionen mellan en modifierad version av modellen utvecklats i [16] och de specifika farmakologiska effekterna av missbruksmissbruk på det dopaminerga systemet kan fånga beroendeberoende data vid radikalt olika analysvågor: beteendemässig och kretsnivå neurobiologisk. För det första ger den nya modellen en möjlig övertygad förklaring av flera intressanta beteendemässiga aspekter som är förknippade med narkotikamissbruk (t.ex. det självskriven misstaget [4], [6], [7]). För det andra kan vi redogöra för ett brett spektrum av bevis avseende dynamiken i den drogframkallade dopaminfrisättningen [17].

Vi modifierar modellen som presenteras i [16] som följer. Vi gör modellen mer effektiv när det gäller arbetsminneskapacitet genom att ersätta med , i ekvation 2, eftersom de två värdena överensstämmer med samma stabila nivå (se figur S2 i Fil S1, för beräkningsmässig och neurobiologisk grund):


(4)

Här, är det relativt abstrakta alternativet och är den sista primitiva åtgärden i beteendessekvensen som fyller i detta alternativ. Liknande, är det givande värdet av , Vilken innefattar (det givande värdet av ).

Avgörande delar de olika läkemedlen som missbrukas av människor en grundläggande egenskap av farmakologiskt ökande dopaminkoncentration inom striatumet [29]. Följaktligen införlivar vi denna farmakologiska effekt av läkemedlet genom tillsats av en positiv förspänning, , (se även [9]-[12]) till prediktionsfelsignalen buren av dopaminneuroner (se figur S3 i Fil S1, för beräkningsmässig och neurobiologisk grund):


(5)

Här fångar den direkta farmakologiska effekten av läkemedel på DA-systemet, och är dess förstärkningsvärde på grund av de euforeniska effekterna (se Fil S1 för kompletterande information).

Medan ekvationerna 3 och 5 tillsammans definierar beräkningsmekanismen för att uppdatera värdena i vår modell, förutser vi också att en osäkerhetsbaserad konkurrensmekanism bestämmer graden av abstraktion som styr beteendet. Detta är inspirerat av den föreslagna mekanismen i [29] för skiljedom mellan de vanliga och målstyrda systemen. I detta avseende kontrollerar endast graden av abstraktion med högsta säkerhet vid bedömning av värdet av val vid varje beslutspunkt beteende. När denna nivå har fattat beslutet att agera kommer alla lägre nivåer av hierarkin att utnyttjas av denna dominerande nivå för att genomföra den valda åtgärden som en sekvens av primitiva motorresponser (se Fil S1 för kompletterande information Figur S4 in Fil S1; Figur S5 in Fil S1). Vid mottagandet av belöningsreaktionen från miljön uppdateras värdena på alla nivåer. Denna osäkerhetsbaserade skiljemekanism förutsäger att när abstrakta processer är mer flexibla, har de överlägsen värde-approximationsförmåga under de tidiga stadierna av inlärning och därmed kontrollbeteende vid dessa steg. Men eftersom de abstrakta nivåerna använder en grov miljörepresentation (t.ex. på grund av att ett relativt litet antal grundfunktioner finns), är deras ultimata värde approximationsförmåga inte lika exakt som för detaljerade nivåer. Med andra ord, efter omfattande träning är säkerheten i samband med de uppskattade värdena lägre för de lägre nivåerna i hierarkin jämfört med de övre nivåerna. Således, med progressivt lärande, tar de lägre nivåerna av hierarkin över kontrollen över åtgärdsvalet, eftersom deras osäkerhet minskar gradvis. Detta överensstämmer med flera rader av bevis som visar en progressiv dominans hos dorsalen över den ventrala striatumen i kontrollen över drogsökande (såväl som att söka naturliga belöningar) [8], [30], [31].

Resultat

Hierarkisk värdering inkonsekvens framkommer under drog men inte naturliga belöningar

I motsats till de tidigare förstärkningsinlärningsbaserade beräkningsmodellerna för missbruk [9]-[13] som bygger på ett system med ett enda beslutssystem bygger vårt konto på ett ramverk med flera interagerande system. Som ett resultat, även om formen för modellering av läkemedlets effekt på förutsägelsefelsignalen i vår modell liknar de tidigare [9]-[12], resulterar det i fundamentalt olika konsekvenser. Den läkemedelsinducerade övergående dopaminförhöjningen ökar det omedelbara prediktionsfelet på varje nivå i hierarkin och som ett resultat medför en förspänning, , på överföring av kunskap från en nivå av abstraktion till nästa, längs grov-till-fina riktningen av hierarkin. Denna bias orsakar det asymptotiska värdet av läkemedelssökning på en given nivå att vara enheter högre än det för ett mer abstrakt lager (Figur 2B). Uppbyggnaden av dessa skillnader längs den rostro-caudala axeln inducerar gradvis signifikanta skillnader i värdet av läkemedelssökande beteenden mellan topp- och bottenändarna i hierarkin. Således, även när det följs av en stark bestraffning, är värdet av läkemedelsrelaterat beteende fortfarande positivt vid lågnivåmotorens slingor, medan det blir negativt på kognitiva nivåer. Med andra ord förutspår modellen att ackumulering av läkemedelseffekt över DA-spiraler ökar läkemedelssökande värde vid vanliga nivåer till en sådan hög amplitud att även en stark naturlig bestraffning inte kommer att kunna minska den tillräckligt. Vi föreslår att detta förklarar inkonsekvensen mellan kognitiv och låg nivå utvärdering av narkotikarelaterade beteenden hos missbrukare. Med andra ord föreslår vi att kompulsiv läkemedelssökning och den signifikant reducerade elasticiteten med tillhörande kostnader härrör från den farmakologiska effekten av läkemedlet som kapar den dopaminberoende mekanismen som överför informationen bland nivåerna av beslutshierarki.

miniatyr

Figur 2. Motivation för mat vs läkemedel vid olika abstraktionsnivåer (simuleringsresultat).

I de första 150-försöken där ingen straff följer belöningen, samlas värdet av att söka naturliga belöningar på alla nivåer till 10 (A). När det gäller läkemedel är emellertid läkemedlets direkta farmakologiska effekt (, satt till) resulterar i det asymptotiska värdet på varje nivå att vara enheter högre än en högre abstraktionsnivå (B). Således, när följd av bestraffning, medan kognitiva slingor korrekt tilldelar ett negativt värde till läkemedelssökande val, finner motornivå-slingor ett läkemedelssökande önskvärt (positivt värde). Kurvorna i denna figur visar utvecklingen av värden i "ett" simulerat djur och således var ingen statistisk analys tillämplig.

doi: 10.1371 / journal.pone.0061489.g002

Medan läkemedel, i vår modell, resulterar i obalanserad värdering över nivåer, värderar naturliga belöningar sig till samma värde på alla nivåer, på grund av brist på direkt farmakologisk effekt på DA-signalmekanismen (). Följaktligen kommer varken inkonsekvens eller övervärdering på detaljerade nivåer att observeras vid naturliga belöningar (Figur 2A). Övervärdering av läkemedelssökande svar på lägre nivåer i hierarkin bör leda till onormal preferens av droger över naturliga belöningar och överintegration i narkotikarelaterade aktiviteter.

Differentiell dopamin svarar i ventral kontra dorsalstriatum till läkemedelsrelaterade signaler

Neurobiologiskt, differentierade roller i striatala subregioner i förvärv och uttryck av läkemedelssökande beteende har tagit ett centralt stadium i missbruksforskning. Konvergerande bevis från olika forskningslinjer tyder på att beteendeövergången från rekreations- till kompulsiv narkotikabruk speglar ett neurobiologiskt förskjutning av värdering från ventral till dorsolateral striatum [8], [33], [34], vilket motsvarar en övergång från kognitiva till detaljerade nivåer i vår modell. I överensstämmelse med vår modell visar DA spirande nätverk som förbinder ventralen med progressivt mer dorsala regioner i striatum att spela en nyckelroll vid denna övergång [25].

I en nyckelfärdig studie har Willuhn et al. [17] bedömde mönstret av dopaminfrisättning som svar på läkemedelsrelaterade signaler i den ventrala och dorsolaterala striatumen av råttor under tre veckors upplevelse av kokain. Med hjälp av snabbskanning cyklisk voltammetri var den kritiska observationen att cue-inducerad DA-utflöde i ventralstriatum framträder även efter mycket begränsad träning. Dorsolaterala striatum visade däremot cue-utlöst DA-utflöde först efter omfattande träning, och utvecklingen av detta frisättningsmönster försvann när ventralstriatumet var belastad på den ipsilaterala halvklotet.

Eftersom den tidsmässiga upplösningen av snabb-scan-voltammetri fångar underliggande fluktuationer i koncentrationen, bör det observerade mönstret av DA-utflöde hänföras till "fasisk" DA-signalering och således till prediktionsfelsignalen enligt RL-teorin om dopamin [24]. Enligt RL-teorin är prediktionsfelsignalen vid observation av en oväntad stimulans lika med det givande värde som den stimulansen förutsäger. Därför är cue-inducerad DA-frisättning ekvivalent med det förutspådda värdet av den cue.

I detta avseende ger vårt hierarkiska ramverk en formell förklaring till differentialmönstret av ventral kontra dorsal striatal DA efflux rapporterad i [17]. Värdet som förutspås av den läkemedelsrelaterade cue på abstrakta kognitiva nivåerna i hierarkin ökar snabbt i de mycket tidiga stadierna av träning (Figur 2B), på grund av lågdimensionell inlärningsproblem vid höga abstraktionsnivåer. Som ett resultat visar vår modell att den cue-inducerade DA-effluxen bör observeras i ventralstriatum även efter begränsad träning (Figur 3). På de mer detaljerade nivåerna av representation är emellertid inlärningsprocessen långsam (Figur 2B), på grund av problemstorlekens stora dimension samt beroendet av att lära sig på mer abstrakta nivåer genom DA-spiraler. Följaktligen bör cue-inducerad DA-utflöde i dorsolateral striatum utvecklas gradvis och bli observerbar först efter omfattande träning (Figur 3).

miniatyr

Figur 3. Dopaminutflöde vid olika striatala subregioner som svar på läkemedelsrelaterade signaler (simuleringsresultat).

I linje med experimentella data [17], visar modellen (vänster kolumn) att som svar på läkemedelsrelaterade signaler kommer dopaminutflöde i ventralstriatum efter begränsad och omfattande träning. I mer dorsolaterala delregioner kommer emellertid Cue-elicited DA-utflöde att utvecklas gradvis under loppet av lärandet. Modellen förutspår (andra kolumnen från höger) att denna fördröjda utveckling av cue-elicited DA-efflux i dorsalstriatum beror på DA-beroende seriell anslutning som förbinder ventralen med dorsalstriatumet. Det är som ett resultat av att koppla DA-spiralerna, medan cue-elicited DA-svaret förblir intakt i ventralstriatumet, minskar det signifikant i den dorsolaterala striatumen. Dessutom förutspår modellen (tredje kolumn från höger) liknande resultat för cue-inducerad DA-efflux i dorsolateral striatum för fallet av ventilerad ventralstriatum. Slutligen, om man efter omfattande drogcue-parning i intakta djur följer ett drog, förutspår modellen (höger kolumn) att läkemedelsrelaterad kue resulterar i inhibering av det ventrala benet av DA-spiraler, även efter begränsad träning. I mer dorsala områden minskar dock DA-utflödet långsamt under inlärningen, men kommer att förbli positivt, även efter omfattande parning av dödsstraff. Data som presenteras i denna figur erhålls från "ett" simulerat djur och således var ingen statistisk analys tillämplig.

doi: 10.1371 / journal.pone.0061489.g003

Dessutom förklarar vår modell bevisen i [17] att sådan fördröjd utveckling av cue-elicited DA efflux i dorsolateral striatum beror på ventralstriatumet (Figur 3). I vår modell minskar en simulerad unilateral lesion av ventralstriatumen (abstrakt värderingsnivå i modellen) signifikant narkotikabetalansvärdet vid detaljerade nivåer i den ipsilaterala halvklotet och minskar således signifikant nivån av cueinducerad DA-utflöde. För att modellera lesionen av ventralstriatumet fixar vi helt enkelt värdet av alla stimuli på högsta nivån i hierarkin till noll.

På samma sätt förutser vår modell att utvecklingen av fasisk DA-signalering i dorsolateral striatum beror på integriteten hos DA-spiralkretsen (Figur 3). Faktum är att en avbrytning i DA-spiralkretsen i vår modell sänker kommunikationen över abstraktionsnivåer, vilket i sin tur förhindrar ackumulering av den läkemedelsinducerad bias på förstärkningssignalen, längs nivåerna av beslutshierarkin. För att modellera avkopplingen i DA-beroende seriekretsar från ventral till dorsalstriatum klämmer vi varje abstraktionsnivå för att beräkna prediktionsfelsignalen lokalt (som i ekvation 3) utan att ta emot värdet av det temporärt avancerade tillståndet från det omedelbart högre abstraktionsnivå.

Dessutom förutspår modellen att mönstret av cue-elicited DA-utflöde kommer att förändras om man efter en omfattande träning med kokain- och kokainrelaterade signaler, som i ovanstående experiment, börjar para kokainleveransen med en stark bestraffning. Vi förutser att DA-utflödet som svar på den kokainrelaterade köen bör snabbt minska under baslinjen i ventralstriatumet. I den dorsolaterala striatumen bör dock cue-inducerad DA-frisättning ligga över baslinjen (Figur 3) med en eventuell försenad partiell minskning. Detta indikerar att positivt subjektivt värde till läkemedelsstimuleringen ges på detaljerade nivåer, trots negativa (under baslinje) värden på kognitiva nivåer. Det är anmärkningsvärt att denna förutsägelse beror på antagandet att straffet behandlas av hjärnan helt enkelt som en negativ belöning. Detta antagande är något kontroversiellt: det stöds tydligt av experimentella studier [35], men har också diskuterats annars av andra [14], [36]. Förutom denna förutsägelse beror andra aspekter av modellen inte på huruvida straffet kodas av dopamin eller av ett annat signalsystem.

Utbildningsregimen som används av Willuhn et al. [34] förlängs inte tillräckligt för att producera kompulsivt läkemedelssökande beteende, kännetecknat av okänslighet för läkemedelsrelaterade bestraffningar [37], [38]. Således är en nyckelfråga som ska besvaras vad är förhållandet mellan fördröjd utveckling av cue-inducerad DA-respons i DLS och sen utveckling av tvångsmässig respons. Enligt vår modell kräver kompulsiv beteende inte bara den överdrivna värderingen av läkemedelsval på låga nivåer i hierarkin utan även överföringen av kontroll över beteende från abstraktkognitiv till de vanliga processerna på låg nivå. Tidsskalan för dessa två processer är endast delvis beroende av varandra: Övervärderingsprocessen beror på prediktionsfelsignalen, medan överföringen av beteendekontroll också beror på de relativa osäkerheterna i värdesuppskattningen. Därför kan övervärderingen av läkemedelsrelaterade signaler på låga nivåer i hierarkin föregå förskjutningen av kontroll över beteende från topp till botten av hierarkin. Exakta tidsskala för de två processerna beror på inlärningsfrekvensen och bruset som är inneboende på respektive nivåer (se Fil S1 för kompletterande information). Med andra ord är det troligt att den cue-inducerade dopaminutflödet i DLS kan utvecklas signifikant innan det kompulsiva läkemedelssökandet uppträder beteende.

Beteendemässiga konsekvenser av inkonsekvent värdering för droger kontra naturliga belöningar

Beteende, i vår modell, om straffet är parat med läkemedel i de tidiga stadierna av frivillig narkotikabruk blir abstrakta värdet av läkemedelssökande svar negativt snabbt. Om man antar att läkemedelssökande kontrolleras av abstrakta nivåer under dessa tidiga skeden, gör negativ abstrakt utvärdering av läkemedelsvalet subjektet ovilligt att uppleva denna handlingsåtgärd längre. Detta kommer att förhindra konsolidering av stark lågnivåpreferens mot droger över tiden. Således förklarar modellen elasticitet av läkemedelsval till kostnader under de tidiga stadierna av läkemedelskonsumtionen, men inte efter kronisk användning. Konsekvent visar djurmodeller av beroende att oöverskridande av läkemedelssökande svar på skadliga följder som är förknippade med läkemedel utvecklas först efter långvarig läkemedelsförvaltning, men inte begränsad drogbruk [37], [38]. Till skillnad från vår teori, tidigare beräkningsmodeller av beroende [9], [10] står i direkt motsättning till denna bevisning, eftersom de förutsäger att negativa beteendemässiga resultat som omedelbart följer narkotikamissbruk, inte har någon motivationseffekt även vid de mycket tidiga stadierna av att uppleva droger (se Fil S1 för kompletterande information).

Vår modell beskriver vidare förekomsten av blockerande effekt för läkemedelsutfall [39]. Blockering är ett konditioneringsfenomen där tidigare parning av ett stimulans A med ett resultat blockerar bildandet av association mellan en annan stimulans B med det resultatet i en efterföljande träningsfas där både A och B presenteras före utlämnandet av resultatet [40]. Resultat av att simulera vår modell i en Pavlovian experimentell design (se Fil S1 för kompletterande information om Pavlovian-versionen av modellen) visar att för både fall av naturliga belöningar och droger när det uppskattade värdet vid en viss nivå av hierarkin når sitt stadiga tillstånd (i stället för att växa obegränsat) inträffar inget vidare lärande vid det nivå, eftersom prediktionsfelsignalen har minskat till noll (Figur 4). Således kommer associering av en ny stimulans med det redan förutspådda belöningen att blockeras. Beteende som visar en blockerande effekt i samband med både läkemedel och naturliga förstärkare [39] har använts som ett viktigt argument för att kritisera den tidigare föreslagna dopaminbaserade beräkningsmodellen av beroende [9]. Här visade vi att fokus på den hierarkiska karaktären hos representationer och dorsal-ventral spiralformad dopaminslingorganisation faktiskt kan utgöra blockeringsdata och därigenom kringgå denna kritik (se Fil S1 för kompletterande information).

miniatyr

Figur 4. Blockeringseffekt för naturliga vs drogbelöningar.

Modellen förutser att blockering uppstår för naturliga belöningar (A) och droger (B), endast om den ursprungliga träningsperioden är "omfattande", så att den första stimulansen förutspår resultatet av resultatet fullt ut. Efter "måttlig" träning, förutsäger kognitiva nivåer som är mer flexibla fullständigt värdena och därigenom blockera vidare inlärning. Emellertid är inlärning fortfarande aktiv i lågnivåprocesser när den andra träningsfasen (samtidig presentation av båda stimuli) börjar. Således förutser vår modell att måttlig inledande träning i ett blockeringsexperiment med naturliga belöningar också kommer att leda till kognitiv / beteendets inkonsekvens. Data som presenteras i denna figur erhålls från "ett" simulerat djur och således var ingen statistisk analys tillämplig.

doi: 10.1371 / journal.pone.0061489.g004

Som tidigare nämnts visar flera bevislinjer en progressiv dominans av dorsalen över den ventrala striatumen i kontrollen över beteendet under loppet av lärandet [8], [31], [32]. Att tolkas mot bakgrund av dessa bevis förklarar den obalanserade drogsökande värderingen över hierarkin också missbrukares misslyckade ansträngningar för att minska droganvändningen efter långvarig erfarenhet av drog, när kontrollen över drogrelaterade val har flyttats från kognitiv till låg- nivå vanliga processer. Denna överlägsenhet av läkemedelsdominerade processer leder naturligtvis till beteendemässig oelasticitet för läkemedelsrelaterade kostnader (tvångssökande), sannolikt åtföljd av självbeskrivna misstag. För naturliga belöningar förutspår dock vår modell att även om beteendemässig oelasticitet ökar under inlärningen, eftersom ingen värdering-inkonsekvens utvecklas över nivåerna i hierarkin, kommer straff i samband med belöning så småningom att hämma belöningssökning.

Vår modell fokuserar på utvärdering av åtgärder i en "förmodligen given" beslutshierarki, och lämnar undan hur de abstrakta alternativen och deras motsvarande lågnivå-subrutiner initialt upptäcks under utveckling. Upptäcka beslutshierarkin föreslås vara en bottom-up-process, genom att sammanfoga sekvenser av lågnivååtgärder och bygga mer abstrakta alternativ [41]. Denna process, som förmodligen genomgår ett skifte från dorsalt till ventralstriatum, ligger i motsatt riktning mot den tävlingsmekanism som föreslås här för att ta kontroll över beteendet.

Diskussion

Den växande kroppen av bevis på differentiella rollen hos olika striatala subregioner i beroende är vanligtvis tolkad inom ramen för vanliga vs målriktad dikotomi [8], [14], [34]. Det hierarkiska beslutsfattande tillvägagångssätt som vi använder här kompletterar sådana dubbla systemkonton. Medan dual-process-metoden handlar om olika algoritmer (modellfri vs modellbas [30]) för att lösa ett enda problem fokuserar det hierarkiska RL-ramverket på olika representationer av samma problem vid olika nivåer av temporal abstraktion. I teorin kan antingen en vanlig eller en målriktad algoritm lösa var och en av dessa olika representationer av problemet. I vår modell sker ackumuleringen av läkemedelsinducerade förspänningar över DA-spiraler i en inställning där värdesuppskattningsalgoritmen är modellfri (vanligt lärande). Detta utesluter dock inte förekomsten av modellbaserade system som arbetar på toppnivåerna i hierarkin. Man kan helt enkelt införliva det PFC-beroende målriktade värderings- och beslutssystemet i modellen genom att anta att åtgärder på högsta nivå av abstraktion utvärderas av ett målriktat system. Medan sådan komplikation inte förändrar arten av resultaten som presenteras i detta manuskript, lämnas dess efterföljande ytterligare flexibilitet för att förklara annan aspekt av missbruk till framtida studier. Faktum är att i vår modell, oberoende av om ett mål-direkt system existerar eller ej, växlar skillnaden i det asymptotiska värdet av läkemedelssökande mellan hierarkins två ytterligheter med antalet beslutsnivåer som regleras av den "vanliga" processen .

I ljuset av vår teori kan återfall ses som återupplivande av vilande maladaptiva vanor på motornivå efter en period av kognitiva nivåers dominans. Faktum är att man kan föreställa sig att som ett resultat av kognitiv terapi (i mänskliga missbrukare) eller tvångsutrotning (i djurmodeller av abstinens), dämpas högt värde av läkemedelssökande på den detaljerade nivån av hierarkin, men blir vilande att flytta kontrollen tillbaka till kognitiva nivåer. Eftersom läkemedelsrelaterat beteende är känsligt för negativa konsekvenser på abstrakta nivåer, kan drogsökande undvikas så länge kognitiva processer på hög nivå dominerar kontrollen av beteende. Man kan till och med spekulera att de populära 12-stegsprogrammen (t.ex. Alkoholister Anonym, Anonyma Anklagar etc.) arbetar delvis genom att uttryckligen kräva deltagarna att erkänna inkonsekvensen av deras narkotikarelaterade livsstil och därigenom ge de abstrakta kognitiva nivåerna möjlighet att utöva exakt kontroll över deras beteende. Stressfulla förhållanden eller återexponering för läkemedel (priming) kan betraktas som riskfaktorer som försvårar abonnans nivåers dominans över beteende, vilket kan resultera i återuppkomsten av läkemedelssökande svar (på grund av de latenta höga icke-kognitiva värdena ).

Sammanfattningsvis föreslår vi ett sammanhängande redogörelse för flera, till synes olika fenomen som är karakteristiska för drogberoende. Vår modell ger ett normativt redogörelse för data om de olika rollerna för de ventrala kontra dorsala striatala kretsarna i läkemedelssökande förvärv och vana-prestanda, liksom den selektiva rollen som DA-anslutning för feed-forward för effekter av läkemedel kontra naturliga förstärkare. Viktigast av allt, vi visar hur den läkemedelsinducerade patologin i ventrala till dorsala DA-signaler som sipprar motiverande information ner i kognitiv representationshierarki kan leda till missnöje mellan missbrukares abstrakta attityder till drogsökning och vad de faktiskt gör. Självklart ger vår modell inte och är inte tänkt att ge en fullständig redogörelse för drogmissbruk. Att förklara andra oförklarliga aspekter av missbruk kräver att man införlivar många andra hjärnsystem som visar att de påverkas av missbrukande droger [42]. Hur man införlivar sådana system inom det formella beräkningsnätverket är fortfarande ett ämne för vidare utredning.

Stödjande information

File_S1.pdf
 

Figur S1,Ett exempelbeslut hierarki med fem nivåer av abstraktion. Figur S2, Den motsvarande neurala kretsen för de tre diskuterade värdesinlärningsalgoritmerna är en hierarkisk beslutsstruktur. A, Med hjälp av en enkel TD-inlärningsalgoritm (ekvation S7) beräknas prediktionsfelsignalen i varje abstraktionsnivå oberoende av andra nivåer. B, I modellen som föreslagits av Haruno och Kawato (4) (ekvation S8) kommer värdet av det temporärt avancerade tillståndet från en högre abstraktionsnivå. C, I vår modell (ekvation S9) ersätts värdet av det temporärt avancerade tillståndet med en kombination av belöningen och Q-värdet av den utförda åtgärden på en högre abstraktionsnivå. Figur S3, Vår modell förutspår olika verksamhetsställen för droger på belöningssystemet: webbplatser 1 till 3. Droger som påverkar webbplatser 4 till 6, däremot, kommer inte att resultera i beteendemässiga och neurobiologiska mönster som framställs genom simulering av modellen för droger, men kommer att ge resultat som liknar naturliga belöningar. Figur S4, Uppgiften som används för att simulera den osäkerhetsbaserade konkurrensmekanismen bland nivåerna i hierarkin för att ta kontroll över beteendet. Figur S5, Simuleringsresultat, som visar gradvis övergång av kontroll över beteende från högre till lägre nivåer i hierarkin. Q (s, a) och Usa) visa det uppskattade värdet och osäkerheten hos de respektive pariseringsparen.

Fil S1.

Figur S1,Ett exempelbeslut hierarki med fem nivåer av abstraktion. Figur S2, Den motsvarande neurala kretsen för de tre diskuterade värdesinlärningsalgoritmerna är en hierarkisk beslutsstruktur. A, Med hjälp av en enkel TD-inlärningsalgoritm (ekvation S7) beräknas prediktionsfelsignalen i varje abstraktionsnivå oberoende av andra nivåer. B, I modellen som föreslagits av Haruno och Kawato (4) (ekvation S8) kommer värdet av det temporärt avancerade tillståndet från en högre abstraktionsnivå. C, I vår modell (ekvation S9) ersätts värdet av det temporärt avancerade tillståndet med en kombination av belöningen och Q-värdet av den utförda åtgärden på en högre abstraktionsnivå. Figur S3, Vår modell förutspår olika verksamhetsställen för droger på belöningssystemet: webbplatser 1 till 3. Droger som påverkar webbplatser 4 till 6, däremot, kommer inte att resultera i beteendemässiga och neurobiologiska mönster som framställs genom simulering av modellen för droger, men kommer att ge resultat som liknar naturliga belöningar. Figur S4, Uppgiften som används för att simulera den osäkerhetsbaserade konkurrensmekanismen bland nivåerna i hierarkin för att ta kontroll över beteendet. Figur S5, Simuleringsresultat, som visar gradvis övergång av kontroll över beteende från högre till lägre nivåer i hierarkin. Q (s, a) och Usa) visa det uppskattade värdet och osäkerheten hos de respektive pariseringsparen.

doi: 10.1371 / journal.pone.0061489.s001

(PDF)

Erkännanden

Vi tackar S. Ahmed och P. Dayan för kritiska diskussioner, och M. Reinoud, D. Redish, N. Daw, E. Koechlin och A. Dezfouli för att kommentera manuskriptet.

Författarbidrag

Upptäckt och utformat experimenten: MK. Utförde experimenten: MK. Analyserade data: MK BG. Bidragande reagens / material / analysverktyg: MK. Skrev papperet: MK BG.

Referensprojekt

  1. 1. Anonyma narkotika (2008). 6th ed. World Service Office.
  2. 2. Goldstein A (2001) Addiction: From Biology to Drug Policy. Oxford University Press, USA.
  3. 3. Volkow ND, Fowler JS, Wang GJ, Swanson JM (2004) Dopamin i drogmissbruk och missbruk: Resultat från bildbehandling och behandlingsimplikationer. Molecular Psychiatry 9: 557-569. doi: 10.1038 / sj.mp.4001507. Hitta den här artikeln online
  4. 4. Stacy AW, Wiers RW (2010) Implicit kognition och missbruk: ett verktyg för att förklara paradoxalt beteende. Årlig granskning av klinisk psykologi 6: 551-575. doi: 10.1146 / annurev.clinpsy.121208.131444. Hitta den här artikeln online
  5. 5. Diagnostisk och statistisk manual för mentala störningar (DSM-IV) (2000). 4th ed. Washington, DC: American Psychiatric Association.
  6. 6. Lamb RJ, Preston KL, Schindler CW, Meisch RA, Davis F, et al. (1991) De förstärkande och subjektiva effekterna av morfin hos postmissbrukare: en dosresponsstudie. Journal of Pharmacology and Experimental Therapy 259: 1165-1173. Hitta den här artikeln online
  7. 7. Goldstein RZ, Woicik PA, Moeller SJ, Telang F, Jayne M, et al. (2010) Lik och vilja av läkemedels- och icke-läkemedelsbelöningar hos aktiva kokainanvändare: STRAP-R-frågeformuläret. Journal of Psychopharmacology 24: 257-266. doi: 10.1177/0269881108096982. Hitta den här artikeln online
  8. 8. Everitt BJ, Robbins TW (2005) Neurala system för förstärkning av narkotikamissbruk: från handlingar till vanor till tvång. Natur Neurovetenskap 8: 1481-1489. doi: 10.1038 / nn1579. Hitta den här artikeln online
  9. 9. Redish AD (2004) Addiction som en beräkningsprocess gått fel. Vetenskap 306: 1944-1947. doi: 10.1126 / science.1102384. Hitta den här artikeln online
  10. 10. Dezfouli A, Piray P, Keramati MM, Ekhtiari H, Lucas C, et al. (2009) En neurokomputativ modell för kokainberoende. Neural Computation 21: 2869-2893. doi: 10.1162 / neco.2009.10-08-882. Hitta den här artikeln online
  11. 11. Piratkopiering P, Keramati MM, Dezfouli A, Lucas C, Mokri A (2010) Individuella skillnader i dopaminreceptorer av nukleinsaccumbens förutsäger utveckling av beroendeframkallande beteende: en beräkningsmetod. Neural Computation 22: 2334-2368. doi: 10.1162 / NECO_a_00009. Hitta den här artikeln online
  12. 12. Dayan P (2009) Dopamin, förstärkningslärande och missbruk. Pharmacopsychiatry 42: 56-65. doi: 10.1055 / s-0028-1124107. Hitta den här artikeln online
  13. 13. Takahashi Y, Schoenbaum G, Niv Y (2008) Tysta kritikerna: förstå effekterna av kokain sensibilisering på dorsolateral och ventral striatum i samband med en skådespelare / kritikmodell. Gränser i neurovetenskap 2: 86-99. doi: 10.3389 / neuro.01.014.2008. Hitta den här artikeln online
  14. 14. Redish AD, Jensen S, Johnson A (2008) En enhetlig ram för missbruk: sårbarheter i beslutsprocessen. Behavioral and Brain Sciences 31: 415-487. doi: 10.1017 / S0140525X0800472X. Hitta den här artikeln online
  15. 15. Botvinick MM (2008) Hierarkiska modeller av beteende och prefrontal funktion. Trender i kognitiv vetenskap 12: 201-208. doi: 10.1016 / j.tics.2008.02.009. Hitta den här artikeln online
  16. 16. Haruno M, Kawato M (2006) Heterarkisk förstärkningsinlärningsmodell för integration av flera kortikostriatala slingor: fMRI-undersökning i stimulus-action-belöning föreningsinlärning. Neurala nätverk 19: 1242-1254. doi: 10.1016 / j.neunet.2006.06.007. Hitta den här artikeln online
  17. 17. Willuhn I, Burgeno LM, Everitt BJ, Phillips PEM (2012) Hierarkisk rekrytering av fasisk dopamin-signalering i striatumen under framsteg av kokainanvändning. Förlopp av National Academy of Sciences 109: 20703-20708. doi: 10.1073 / pnas.1213460109. Hitta den här artikeln online
  18. 18. Botvinick MM, Niv Y, Barto AC (2009) Hierarkiskt organiserat beteende och dess neurala fundament: ett förstärkande inlärningsperspektiv. Kognition 113: 262-280. doi: 10.1016 / j.cognition.2008.08.011. Hitta den här artikeln online
  19. 19. Badre D, D'Esposito M (2009) Är frontlobens rostro-kaudala axel hierarkisk? Naturrecensioner Neurovetenskap 10: 659–669. doi: 10.1038 / nrn2667. Hitta den här artikeln online
  20. 20. Koechlin E, Ody C, Kouneiher F (2003) Arkitekturen av kognitiv kontroll i den mänskliga prefrontala cortexen. Vetenskap 302: 1181-1185. doi: 10.1126 / science.1088545. Hitta den här artikeln online
  21. 21. Badre D, Hoffman J, Cooney JW, D'Esposito M (2009) Hierarkiska kognitiva kontrollunderskott efter skador på den mänskliga frontloben. Naturneurovetenskap 12: 515–522. doi: 10.1038 / nn.2277. Hitta den här artikeln online
  22. 22. Alexander GE, DeLong MR, Strick PL (1986) Parallell organisation av funktionellt segregerade kretsar som förbinder basala ganglier och cortex. Årlig granskning av neurovetenskap 9: 357-381. doi: 10.1146 / annurev.neuro.9.1.357. Hitta den här artikeln online
  23. 23. Alexander GE, Crutcher MD, DeLong MR (1990) Basal ganglia-talamokortiska kretsar: parallella substrat för motor, oculomotor, prefrontal och limbic funktioner. Framsteg i hjärnforskning 85: 119-146. Hitta den här artikeln online
  24. 24. Schultz W, Dayan P, Montague PR (1997) Ett neuralt substrat av förutsägelse och belöning. Vetenskap 275: 1593-1599. doi: 10.1126 / science.275.5306.1593. Hitta den här artikeln online
  25. 25. Belin D, Everitt BJ (2008) Kokainsökande vanor beror på dopaminberoende seriell anslutning som förbinder ventral med dorsalstriatum. Neuron 57: 432-441. doi: 10.1016 / j.neuron.2007.12.019. Hitta den här artikeln online
  26. 26. Haber SN, Fudge JL, McFarland NR (2000) Striatonigrostriatalvägar i Primates bildar en stigande spiral från Shell till Dorsolateral Striatum. Journal of Neuroscience 20: 2369-2382. Hitta den här artikeln online
  27. 27. Haber SN (2003) Primärbasala ganglier: parallella och integrerade nätverk. Journal of Chemical Neuroanatomy 26: 317-330. doi: 10.1016 / j.jchemneu.2003.10.003. Hitta den här artikeln online
  28. 28. Sutton RS, Barto AG (1998) Förstärkande lärande: En introduktion. Cambridge: MIT Press.
  29. 29. Di Chiara G, Imperato A (1988) Läkemedel som missbrukas av människor ökar företrädesvis synaptiska dopaminkoncentrationer i mesolimbic-systemet med fritt rörliga råttor. Förhandlingar vid National Academy of Sciences i USA 85: 5274-5278. doi: 10.1073 / pnas.85.14.5274. Hitta den här artikeln online
  30. 30. Daw ND, Niv Y, Dayan P (2005) Osäkerhetsbaserad tävling mellan prefrontala och dorsolaterala striatalsystem för beteendekontroll. Natur Neurovetenskap 8: 1704-1711. doi: 10.1038 / nn1560. Hitta den här artikeln online
  31. 31. Vanderschuren LJMJ, Ciano PD, Everitt BJ (2005) Inblandning av dorsalstriatum i cue-kontrollerad kokainsökning. Journal of Neuroscience 25: 8665-8670. doi: 10.1523 / JNEUROSCI.0925-05.2005. Hitta den här artikeln online
  32. 32. Volkow ND, Wang GJ, Telang F, Fowler JS, Logan J, et al. (2006) Kokainstrålar och dopamin i dorsalstriatum: Maskinkrav i kokainberoende. Journal of Neuroscience 26: 6583-6588. doi: 10.1523 / JNEUROSCI.1544-06.2006. Hitta den här artikeln online
  33. 33. Kalivas PW, Volkow ND (2005) Den neurala grunden för missbruk: en patologi av motivation och val. Den amerikanska tidskriften Psykiatri 162: 1403-1413. doi: 10.1176 / appi.ajp.162.8.1403. Hitta den här artikeln online
  34. 34. Belin D, Jonkman S, Dickinson A, Robbins TW, Everitt BJ (2009) Parallella och interaktiva inlärningsprocesser inom basalganglia: relevans för förståelse av missbruk. Behavioral Brain Research 199: 89-102. doi: 10.1016 / j.bbr.2008.09.027. Hitta den här artikeln online
  35. 35. Matsumoto M, Hikosaka O (2009) Två typer av dopaminneuron överför tydligt positiva och negativa motivationssignaler. Natur 459: 837-841. doi: 10.1038 / nature08028. Hitta den här artikeln online
  36. 36. Frank MJ, Surmeier DJ (2009) Skillar substantia nigra dopaminerga neuroner mellan belöning och straff? Journal of Molecular Cell Biology 1: 15-16. doi: 10.1093 / JMCB / mjp010. Hitta den här artikeln online
  37. 37. Vanderschuren LJMJ, Everitt BJ (2004) Läkemedelssökande blir tvångsmässigt efter långvarig kokain självadministration. Vetenskap 305: 1017-1019. doi: 10.1126 / science.1098975. Hitta den här artikeln online
  38. 38. Deroche-Gamonet V, Belin D, Piazza PV (2004) Bevis för beroendeframkallande beteende hos råtta. Vetenskap 305: 1014-1017. doi: 10.1126 / science.1099020. Hitta den här artikeln online
  39. 39. Panlilio LV, Thorndike EB, Schindler CW (2007) Blockering av konditionering till en kokainparad stimulans: Testa hypotesen att kokain kontinuerligt producerar en signal om större än förväntad belöning. Farmakologi, biokemi och beteende 86: 774-777. doi: 10.1016 / j.pbb.2007.03.005. Hitta den här artikeln online
  40. 40. Kamin L (1969) Förutsägbarhet, överraskning, uppmärksamhet och konditionering. I: Campbell BA, Church RM, redaktörer. Straffet och aversivt beteende. New York: Appleton-Century-Crofts. pp. 279-296.
  41. 41. Dezfouli A, Balleine BW (2012) Vanor, actionsekvenser och förstärkningslärande. Den europeiska tidskriften om neurovetenskap 35: 1036-1051. doi: 10.1111 / j.1460-9568.2012.08050.x. Hitta den här artikeln online
  42. 42. Koob GF, Le Moal M (2005) Neurobiologi av Addiction. San Diego: Academic Press