Dezechilibrat Ierarhia deciziilor în dependenți proveniți din circuitul de spiralizare a dopaminei (2013)

 

  • Mehdi Keramati Poștă,
     
  • Boris Gutkin

 

Abstract

În ciuda faptului că doresc în mod explicit să renunțe, dependenții pe termen lung se găsesc neputincioși să reziste drogurilor, în ciuda faptului că știu că consumul de droguri poate fi o acțiune dăunătoare. O astfel de inconsecvență între cunoașterea explicită a consecințelor negative și tiparele comportamentale compulsive reprezintă un conflict cognitiv/comportamental care este o caracteristică centrală a dependenței. Din punct de vedere neurobiologic, activitatea diferențială indusă de indicii în subregiuni striatale distincte, precum și conectivitatea dopaminică în spirală de la regiunile striatale ventrale la regiunile dorsale, joacă un rol critic în căutarea compulsivă de droguri. Cu toate acestea, mecanismul funcțional care integrează aceste observații neurofarmacologice cu conflictul cognitiv/comportamental menționat mai sus este necunoscut. Aici oferim o explicație computațională formală pentru inconsecvența cognitivă indusă de droguri care este evidentă în „greșeala auto-descrisă” a dependenților. Arătăm că drogurile care creează dependență produc treptat o părtinire motivațională către căutarea de droguri în procesele de decizie obișnuite de nivel scăzut, în ciuda evaluării cognitive abstracte scăzute a acestui comportament. Această patologie apare în cadrul de învățare de întărire ierarhică atunci când expunerea cronică la medicament produce farmacologic semnale de dopamină fazice persistente patologic. Astfel, medicamentul deturnează spiralele dopaminergice care fac cascadă semnalele de întărire în jos în ierarhia cortico-striatală ventro-dorsală. Din punct de vedere neurobiologic, teoria noastră explică dezvoltarea rapidă a efluxului de dopamină provocat de medicamente în striatul ventral și un răspuns întârziat în striatul dorsal. Teoria noastră arată, de asemenea, cum acest tipar de răspuns depinde în mod critic de circuitele spiralate ale dopaminei. Din punct de vedere comportamental, cadrul nostru explică insensibilitatea treptată a căutării de droguri la pedepsele asociate drogurilor, fenomenul de blocare a rezultatelor drogurilor și preferința persistentă pentru droguri față de recompensele naturale ale dependenților. Modelul sugerează predicții testabile și, dincolo de asta, stabilește scena pentru o viziune a dependenței ca o patologie a proceselor ierarhice de luare a deciziilor. Această viziune este complementară interpretării tradiționale a dependenței ca interacțiune între sistemele de decizie obișnuite și cele direcționate către un scop.

Introducere

„Am recunoscut că eram neputincioși față de dependența noastră – că viața noastră devenise de necontrolat”, spune primul principiu al programului Narcotic Anonymous în 12 pași. [1]. Acest lucru evidențiază modul în care dependenții neputincioși se găsesc atunci când vine vorba de a rezista drogurilor, în ciuda faptului că știe că consumul de droguri este o cale de acțiune greșită. [2]-[4]. De fapt, semnul distinctiv al dependenței este căutarea compulsivă a drogurilor chiar și cu prețul unor consecințe adverse evidente. [5]. O semnătură a unui astfel de comportament patologic devine evidentă în experimentele controlate în care dependenții prezintă o „greșeală auto-descrisă” caracteristică: o inconsecvență între răspunsul comportamental puternic față de alegerile asociate drogurilor și valoarea subiectivă relativ scăzută pe care dependentul o raportează pentru drog. [4], [6], [7]. Atunci când este combinată cu pierderea controlului cognitiv inhibitor asupra comportamentului, după expunerea prelungită la droguri, această divergență între planurile cognitive și obiceiurile consolidate poate duce la o tranziție de la un comportament ocazional la un comportament compulsiv de căutare de droguri. [8].

Pierderea controlului cognitiv și greșeala auto-descrisă au eludat până acum o explicație de principiu prin modele formale de dependență [9]-[13]. Teoriile computaționale anterioare ale dependenței de droguri, prezentate mai ales în cadrul învățării prin întărire, văd dependența ca o stare patologică a sistemului de învățare a obiceiurilor (stimul-răspuns) [9]-[13]. Ipoteza centrală din spatele tuturor acestor modele este că efectul farmacologic al medicamentelor asupra semnalizării dopaminei, presupus purtând un semnal de predare stimul-răspuns, are ca rezultat o supraîntărire treptată a unor astfel de asociații. Acest efect duce la rândul său la obiceiuri compulsive de căutare a drogurilor. În timp ce această viziune redusă asupra dependenței a surprins unele aspecte ale fenomenului, un consens tot mai mare în literatura de specialitate indică faptul că mai multe sisteme de învățare sunt implicate în patologie. Doar o imagine atât de complexă, care include procesele cognitive ale creierului, precum și procesele obișnuite de nivel scăzut, poate explica varietatea de comportamente asemănătoare dependenței. [8], [14].

În această lucrare, adoptăm o abordare de învățare prin consolidare ierarhică [15] unde deciziile sunt reprezentate la diferite niveluri de abstractizare, într-o ierarhie cognitiv-motorie. Presupunem că o cascadă de semnale de învățare dependente de dopamină leagă nivelurile ierarhiei între ele [16]. În plus, presupunem că drogurile de abuz deturnează din punct de vedere farmacologic mecanismul de comunicare între nivelurile de abstractizare. Pe baza acestor ipoteze, arătăm că disonanța cognitivă raportată la dependenți apare în cadrul de învățare de întărire ierarhică atunci când expunerea cronică la droguri perturbă învățarea valorii în ierarhia de decizie. Această întrerupere are ca rezultat o supraevaluare patologică a alegerilor de droguri la procesele obișnuite de nivel scăzut și, prin urmare, conduce la comportamentul obișnuit de căutare a drogurilor. Apoi demonstrăm că „căutarea de droguri neplăcută”, dar compulsivă poate fi explicată ca procese obișnuite de nivel scăzut deturnate de droguri care domină comportamentul, în timp ce sistemele cognitive sănătoase de la nivelurile de reprezentare superioare pierd controlul asupra comportamentului. Mai mult, demonstrăm că modelul propus poate ține seama de dovezile recente privind dezvoltarea rapidă și întârziată a efluxului de dopamină provocat de medicamente în striatul ventral și respectiv dorsal, precum și dependența acestui model de circuitele spiralate ale dopaminei.

Materiale și metode

Preliminarii

În concordanță cu o bogată literatură de psihologie cognitivă, învățarea noastră de întărire ierarhică [15], [18] cadrul presupune că un plan cognitiv abstract precum „prepararea ceaiului” poate fi împărțit într-o succesiune de acțiuni de nivel inferior: fierberea apei, punerea ceaiului în oală etc. O astfel de descompunere se desfășoară până la răspunsuri concrete la nivel motor la cel mai de jos nivel al ierarhie (Figura 1A). Din punct de vedere neurobiologic, diferitele niveluri ale ierarhiei de decizie de la nivel cognitiv la nivel motor sunt reprezentate de-a lungul axei rostro-caudale a circuitului ganglionilor cortico-bazali (BG). [19]-[21]. Acest circuit este compus din mai multe bucle închise paralele între cortexul frontal și ganglionii bazali [22], [23] (Figura 1B). În timp ce ansele anterioare stau la baza unei reprezentări mai abstracte a acțiunilor, buclele caudale, constând din cortexul senzitivo-motor și striatul dorsolateral, codifică obiceiuri de nivel scăzut. [19]-[21].

miniatura

Figura 1. Organizarea ierarhică a comportamentului și circuitul cortico-BG.

A, Un exemplu de ierarhie de decizie pentru două opțiuni alternative: droguri vs. alimente. Fiecare curs de acțiune este reprezentat la diferite niveluri de abstractizare, se presupune că sunt codificate la diferite bucle cortico-BG. Căutarea fiecăruia dintre cele două tipuri de recompensă ar putea urma o pedeapsă de magnitudinea 16. B, Conexiunile glutamatergice din diferite zone prefrontale se proiectează în subregiuni striatale și apoi se proiectează înapoi la PFC prin pallidum și talamus, formând mai multe bucle paralele. Prin rețeaua de dopamină striato-nigro-striatală, regiunile ventrale ale striatului influențează regiunile mai dorsale. vmPFC, cortexul prefrontal medial ventral; OFC, cortexul frontal orbital; dACC, cortex cingulat anterior dorsal; SMC, cortexul senzitivo-motor; VTA, zona tegmentală ventrală; SNc, substantia nigra pars compacta. Figura 1B Modificat de la ref 21.

doi: 10.1371 / journal.pone.0061489.g001

În cadrul acestui circuit, activitatea fazică a neuronilor dopaminergici (DA) mezencefal care se proiectează spre striat semnalează eroarea dintre recompensele prezise și cele primite, transportând astfel informații de întărire a răspunsului stimul. [24]. Aceste proiecții DAergice formează o conexiune serială în cascadă care leagă regiunile mai ventrale ale striatului de regiuni din ce în ce mai multe dorsale prin așa-numitele conexiuni ″spirale″ [25]-[27] (Figura 1B). Din punct de vedere funcțional, o astfel de organizare de tip feed-forward care conectează buclele cortico-BG rostrale la caudale permite cuplarea direcționată de la reprezentările grosiere la cele fine. În consecință, spiralele DA sunt emise pentru a oferi un substrat neurobiologic pentru reglarea progresivă a erorii de predicție a recompensei de către nivelurile superioare ale ierarhiei (codificarea cunoștințelor abstracte despre valoarea opțiunilor comportamentale). Această eroare este apoi utilizată pentru actualizarea valorilor de acțiune la niveluri mai detaliate [16]. Cu alte cuvinte, spiralele DA permit nivelurilor cognitive abstracte de evaluare să ghideze învățarea în procesele de acțiune-evaluare mai detaliate.

Schiță teorie

În ceea ce privește teoria computațională a învățării prin întărire [28] (RL), agentul (în cazul nostru o persoană sau un animal) învață să facă alegeri informate de acțiune prin actualizarea valorii estimate anterioare, , pentru fiecare pereche stare-acțiune, , când o recompensă este primit de agent la timp ca urmare a efectuării unei acţiuni în stare contextuală (stimul) . Valoarea este actualizat prin calculul semnalului de eroare de predicție a recompensei. Acest semnal nu depinde numai de recompensa primită instantaneu (), dar și asupra valorii noii stări în care ajunge agentul, după efectuarea acelei acțiuni. Notat cu , această funcție de valoare avansată temporal reprezintă suma recompenselor viitoare pe care animalul se așteaptă să le primească din starea rezultată, , mai departe. Eroarea de predicție poate fi calculată prin următoarea ecuație:


(1)

Intuitiv, semnalul de eroare de predicție calculează discrepanța dintre valoarea recompensă așteptată și cea realizată a unei acțiuni. Într-o structură de decizie ierarhică, totuși, mai degrabă decât învățarea -valori independent la diferite niveluri, niveluri mai abstracte pot regla semnalul de predare calculat la niveluri inferioare. Deoarece nivelurile superioare ale ierarhiei reprezintă o reprezentare mai abstractă a contingentelor de mediu, învățarea are loc mai rapid la acele niveluri. Acest lucru se datorează dimensionalității relativ scăzute a reprezentării abstracte a comportamentului: un plan de acțiune poate fi reprezentat ca un singur pas (o singură dimensiune) la nivelul superior al ierarhiei și ca acțiuni detaliate multiple (dimensiuni multiple) la nivelurile inferioare. a ierarhiei. Valoarea de nivel superior a acestui plan de acțiune ar fi învățată rapid în comparație cu nivelurile detaliate în care erorile de recompensă ar trebui să propagă înapoi toți pașii de acțiune detaliați. Astfel, reglarea valorilor de nivel inferior cu informațiile de valoare de la nivelurile superioare poate accelera convergența acestor valori. O modalitate eficientă din punct de vedere statistic de a face acest lucru este să presupunem că pentru calcularea semnalului de eroare de predicție la -al-lea nivel de abstractizare, , funcția de valoare avansată temporal, , provine de la un nivel superior de abstractizare, [16]:


(2)

Pentru a păstra optimitatea, ecuația 2 poate fi utilizată pentru calcularea erorii de predicție numai atunci când este efectuată ultima acțiune primitivă constitutivă a unei opțiuni abstracte (vezi Figura S1 în Fișierul S1). În alte cazuri, învățarea valorii la diferite niveluri are loc independent, ca în ecuația 1. În ambele cazuri, semnalul de predare este apoi utilizat pentru actualizarea valorilor anterioare la nivelul corespunzător:


(3)
Unde este rata de învățare. Această formă de schimb de informații între niveluri este plauzibilă din punct de vedere biologic, deoarece reflectă structura în spirală a circuitelor DA, transportând informația în jos ierarhie în direcția ventro-dorsală. În același timp, a fi ghidat de niveluri mai abstracte accelerează semnificativ învățarea, atenuând dimensionalitatea înaltă a învățării valorice la niveluri detaliate. [16].

În această lucrare arătăm că interacțiunea dintre o versiune modificată a modelului dezvoltat în [16] iar efectele farmacologice specifice ale drogurilor de abuz asupra sistemului dopaminergic pot capta date legate de dependență la scări radical diferite de analiză: comportamentală și neurobiologică la nivel de circuit. În primul rând, noul model aduce o posibilă explicație convingătoare pentru mai multe aspecte comportamentale interesante asociate cu dependența de droguri (de exemplu, greșeala auto-descrisă [4], [6], [7]). În al doilea rând, putem explica o gamă largă de dovezi cu privire la dinamica eliberării de dopamină evocată de droguri. [17].

Modificam modelul prezentat in [16] după cum urmează. Facem modelul mai eficient în ceea ce privește capacitatea memoriei de lucru prin înlocuire cu , în ecuația 2, deoarece cele două valori converg către același nivel constant (vezi Figura S2 din Fișierul S1, pentru baze computaționale și neurobiologice):


(4)

Aici, este varianta relativ abstracta si este ultima acțiune primitivă din secvența comportamentală care completează această opțiune. În mod similar, este valoarea recompensă a , Care include (valoarea recompensă a ).

În mod esențial, diferitele medicamente abuzate de oameni au o proprietate fundamentală de creștere farmacologică a concentrației de dopamină în striatul. [29]. În consecință, încorporăm acest efect farmacologic al medicamentului prin adăugarea unei părtiniri pozitive, , (Vezi si [9]-[12]) la semnalul de eroare de predicție transportat de neuronii dopaminergici (vezi Figura S3 în Fișierul S1, pentru baze computaționale și neurobiologice):


(5)

Aici surprinde efectul farmacologic direct al medicamentului asupra sistemului DA și este valoarea sa de întărire datorită efectelor euforigene (vezi Fișierul S1 pentru informații suplimentare).

În timp ce ecuațiile 3 și 5 definesc împreună mecanismul de calcul pentru actualizarea valorilor din modelul nostru, de asemenea, emitem ipoteza că un mecanism de competiție bazat pe incertitudine determină nivelul de abstractizare care controlează comportamentul. Aceasta este inspirată de mecanismul propus în [29] pentru arbitraj între sistemele obișnuite și cele direcționate către scop. În acest sens, la fiecare punct de decizie, doar nivelul de abstractizare cu cea mai mare certitudine în estimarea valorii alegerilor controlează comportamentul. Odată ce acest nivel a luat decizia de a acționa, toate nivelurile inferioare ale ierarhiei vor fi desfășurate de acest nivel dominant pentru a implementa acțiunea selectată ca o secvență de răspunsuri motorii primitive (vezi Fișierul S1 pentru informații suplimentare; Figura S4 în Fișierul S1; Figura S5 în Fișierul S1). La primirea feedback-ului recompensei de la mediu, valorile la toate nivelurile sunt actualizate. Acest mecanism de arbitrare bazat pe incertitudine prezice că, pe măsură ce procesele abstracte sunt mai flexibile, ele au o capacitate superioară de aproximare a valorii în primele etape de învățare și, prin urmare, controlează comportamentul în aceste etape. Cu toate acestea, deoarece nivelurile abstracte folosesc o reprezentare grosieră a mediului (de exemplu, datorită conținutului unui număr relativ mic de funcții de bază), capacitatea lor finală de aproximare a valorii nu este la fel de precisă ca cea a nivelurilor detaliate. Cu alte cuvinte, după o pregătire extinsă, certitudinea asociată cu valorile estimate este mai mică pentru nivelurile inferioare ale ierarhiei în comparație cu nivelurile superioare. Astfel, odată cu învăţarea progresivă, nivelurile inferioare ale ierarhiei preiau controlul asupra selecţiei acţiunilor, pe măsură ce incertitudinea lor scade treptat. Acest lucru este în acord cu mai multe linii de dovezi care arată o dominanță progresivă a striatului dorsal asupra ventralului în controlul asupra căutării de droguri (precum și în căutarea recompenselor naturale) [8], [30], [31].

REZULTATE

Inconsecvența în evaluarea ierarhiei apare sub droguri, dar nu recompense naturale

Spre deosebire de modelele computaționale anterioare bazate pe învățare de consolidare ale dependenței [9]-[13] care se bazează pe o abordare cu un singur sistem de decizie, contul nostru este construit pe un cadru cu mai multe sisteme de interacțiune. Drept urmare, deși forma efectului medicamentului de modelare asupra semnalului de eroare de predicție în modelul nostru este similară cu cele precedente [9]-[12], rezultă în consecințe fundamental diferite. Creșterea tranzitorie a dopaminei indusă de medicament crește eroarea de predicție imediată la fiecare nivel al ierarhiei și, ca urmare, antrenează o prejudecată, , despre transferul de cunoștințe de la un nivel de abstractizare la altul, de-a lungul direcției grosier-fină a ierarhiei. Această părtinire face ca valoarea asimptotică a căutării de droguri la un anumit nivel să fie unități mai mari decât cele ale unui alt strat abstract (Figura 2B). Acumularea acestor discrepanțe de-a lungul axei rostro-caudale induce progresiv diferențe semnificative în valoarea comportamentelor de căutare a drogurilor între extremele de sus și de jos ale ierarhiei. Astfel, chiar și atunci când este urmată de o pedeapsă puternică, valoarea comportamentului asociat drogurilor rămâne pozitivă la buclele motorii de nivel scăzut, în timp ce devine negativă la nivel cognitiv. Cu alte cuvinte, modelul prezice că acumularea efectului de droguri peste spiralele DA crește valoarea căutării de droguri la obiceiurile la nivel motor la o amplitudine atât de mare încât nici măcar o pedeapsă naturală puternică nu o va putea scădea suficient. Sugerăm că acest lucru explică inconsecvența dintre evaluarea cognitivă și la nivel scăzut a comportamentelor legate de droguri la dependenți. Cu alte cuvinte, propunem că căutarea compulsivă de droguri și elasticitatea semnificativ redusă la costurile asociate provin din efectul farmacologic al medicamentului deturnând mecanismul dependent de dopamină care transferă informațiile între nivelurile ierarhiei decizionale.

miniatura

Figura 2. Motivația pentru mâncare versus drog la diferite niveluri de abstractizare (rezultate de simulare).

În primele 150 de încercări în care nicio pedeapsă nu urmează recompensei, valoarea căutării recompenselor naturale la toate nivelurile converge la 10 (A). În cazul medicamentului, totuși, efectul farmacologic direct al medicamentului (, setat la) rezultă ca valoarea asimptotică la fiecare nivel să fie unități mai mari decât cele ale unui nivel superior de abstractizare (B). Astfel, atunci când sunt urmate de pedeapsă, în timp ce buclele cognitive atribuie corect o valoare negativă alegerii de căutare a drogurilor, buclele la nivel motor consideră că căutarea de droguri este de dorit (valoare pozitivă). Curbele din această figură arată evoluția valorilor la „unul” animal simulat și, prin urmare, nu a fost aplicată nicio analiză statistică.

doi: 10.1371 / journal.pone.0061489.g002

În timp ce medicamentele, în modelul nostru, au ca rezultat o evaluare dezechilibrată între niveluri, valoarea recompenselor naturale converge la aceeași valoare la toate nivelurile, din cauza lipsei unui efect farmacologic direct asupra mecanismului de semnalizare DA (). În consecință, nici inconsecvența, nici supraevaluarea la niveluri detaliate nu vor fi observate în cazul recompenselor naturale (Figura 2A). Supraevaluarea răspunsurilor de căutare de droguri la nivelurile inferioare ale ierarhiei ar trebui să aibă ca rezultat preferința anormală a medicamentelor față de recompensele naturale și o angajare excesivă în activități legate de droguri.

Dopamină diferențială care răspunde în striatul ventral versus dorsal la indicii asociate medicamentelor

Din punct de vedere neurobiologic, rolurile diferențiate ale subregiunilor striatale în dobândirea și exprimarea comportamentului de căutare de droguri au ocupat centrul cercetării privind dependența. Dovezi convergente din diferite linii de cercetare sugerează că tranziția comportamentală de la consumul recreațional de droguri la consumul compulsiv reflectă o schimbare neurobiologică a evaluării de la striatul ventral la cel dorsolateral. [8], [33], [34], corespunzând unei treceri de la nivelurile cognitive la nivelurile detaliate în modelul nostru. În concordanță cu modelul nostru, rețeaua în spirală DA care conectează ventralul la regiunile dorsale progresive ale striatului se arată că joacă un rol esențial în această tranziție. [25].

Într-un studiu cheie recent, Willuhn și colab. [17] a evaluat modelul de eliberare de dopamină ca răspuns la indicii asociate medicamentelor în striatul ventral și dorsolateral al șobolanilor pe parcursul a trei săptămâni de experiență de cocaină. Folosind voltametria ciclică cu scanare rapidă, observația critică a fost că efluxul DA indus de indicii în striatul ventral apare chiar și după antrenament foarte limitat. Spre deosebire de aceasta, striatul dorsolateral a arătat eflux DA declanșat cue doar după antrenament extins, iar dezvoltarea acestui model de eliberare a dispărut când striatul ventral a fost lezionat în emisfera ipsilaterală.

Deoarece rezoluția temporală a voltametriei cu scanare rapidă captează fluctuații subsecunde ale concentrației, modelul observat al efluxului DA ar trebui atribuit semnalizării DA „fazice” și, prin urmare, semnalului de eroare de predicție, conform teoriei RL a dopaminei. [24]. Conform teoriei RL, semnalul de eroare de predicție la observarea unui stimul neașteptat este egal cu valoarea recompensă pe care o prezice acel stimul. Prin urmare, eliberarea DA indusă de indicii este echivalentă cu valoarea prezisă de acel indiciu.

În acest sens, cadrul nostru ierarhic oferă o explicație formală pentru modelul diferențial al efluxului DA striat ventral versus dorsal raportat în [17]. Valoarea prezisă de indiciul asociat drogurilor la nivelurile cognitive abstracte ale ierarhiei crește rapid în stadiile foarte timpurii ale antrenamentului (Figura 2B), datorită dimensionalității scăzute a problemei de învățare la niveluri ridicate de abstractizare. Ca rezultat, modelul nostru arată că efluxul DA indus de indicii ar trebui să fie observat în striatul ventral chiar și după antrenament limitat (Figura 3). La nivelurile mai detaliate de reprezentare, însă, procesul de învățare este lent (Figura 2B), datorită dimensionalității ridicate a spațiului problemei, precum și dependenței de învățare pe niveluri mai abstracte prin spirale DA. În consecință, efluxul DA indus de indicii în striatul dorsolateral ar trebui să se dezvolte treptat și să devină observabil numai după antrenament extins (Figura 3).

miniatura

Figura 3. Eflux de dopamină la diferite subregiuni striatale ca răspuns la indicii asociate medicamentelor (rezultate de simulare).

În conformitate cu datele experimentale [17], modelul arată (coloana din stânga) că, ca răspuns la indicii asociate medicamentelor, va exista un eflux de dopamină în striatul ventral, după antrenament limitat și extins. În mai multe subregiuni dorsolaterale, totuși, efluxul DA determinat de indicii se va dezvolta treptat pe parcursul învățării. Modelul prezice (a doua coloană de la dreapta) că această dezvoltare întârziată a efluxului DA provocat de indicii în striatul dorsal depinde de conectivitatea în serie dependentă de DA care leagă ventralul de striatul dorsal. Adică, ca urmare a deconectării spiralelor DA, în timp ce răspunsul DA determinat de semnal rămâne intact în striatul ventral, scade semnificativ în striatul dorsolateral. Mai mult, modelul prezice (a treia coloană de la dreapta) rezultate similare pentru efluxul DA indus de indicii în striatul dorsolateral pentru cazul striatului ventral lezionat. În cele din urmă, dacă după o pereche extinsă de indicii de droguri la animalele intacte, o pedeapsă urmează drogului, modelul prezice (coloana din dreapta) că indicii legate de droguri au ca rezultat inhibarea piciorului ventral al spiralelor DA, chiar și după antrenament limitat. În mai multe regiuni dorsale, totuși, efluxul DA scade lent în timpul învățării, dar va rămâne pozitiv, chiar și după o pereche extinsă de droguri-pedeapsă. Datele prezentate în această figură sunt obținute de la „unul” animal simulat și, prin urmare, nu a fost aplicată nicio analiză statistică.

doi: 10.1371 / journal.pone.0061489.g003

În plus, modelul nostru explică dovezile în [17] că o astfel de dezvoltare întârziată a efluxului DA determinat de indicii în striatul dorsolateral depinde de striatul ventral (Figura 3). În modelul nostru, o leziune unilaterală simulată a striatumului ventral (nivelul abstract de evaluare în model) scade semnificativ valoarea estimată a medicamentului la niveluri detaliate în emisfera ipsilaterală și, prin urmare, scade semnificativ nivelul de eflux DA indus de indicii. Pentru a modela leziunea striatului ventral, fixăm pur și simplu valoarea tuturor stimulilor de la cel mai înalt nivel al ierarhiei la zero.

În mod similar, modelul nostru prezice că dezvoltarea semnalizării DA fazice în striatul dorsolateral depinde de integritatea circuitului de spiralare DA (Figura 3). De fapt, o deconectare a circuitului în spirală DA din modelul nostru întrerupe comunicarea între nivelurile de abstractizare, ceea ce, la rândul său, previne acumularea distorsiunii induse de droguri asupra semnalului de întărire, de-a lungul nivelurilor ierarhiei de decizie. Pentru a modela deconectarea în circuitele seriale dependente de DA ale striatului ventral spre dorsal, fixăm fiecare nivel de abstractizare pentru a calcula local semnalul de eroare de predicție (ca în ecuația 3), fără a primi valoarea stării avansate temporal din partea imediat superioară. nivelul de abstractizare.

Mai mult, modelul prezice că tiparul de eflux DA provocat de indicii se va schimba dacă după un antrenament extins cu indicații asociate cocainei și cocainei, ca în experimentul de mai sus, se începe să împerecheze livrarea cocainei cu o pedeapsă puternică. Previzăm că efluxul DA, ca răspuns la indicația asociată cocainei, ar trebui să scadă rapid sub valoarea inițială în striatul ventral. În striatul dorsolateral, totuși, eliberarea DA indusă de indicii ar trebui să rămână peste valoarea inițială (Figura 3) cu o posibilă scădere parțială întârziată. Acest lucru indică atribuirea unei valori subiective pozitive stimulului de droguri la niveluri detaliate, în ciuda valorilor negative (sub valoarea inițială) la niveluri cognitive. Este de remarcat faptul că această predicție depinde de presupunerea că pedeapsa este tratată de creier pur și simplu ca o recompensă negativă. Această ipoteză este oarecum controversată: este susținută în mod clar de studii experimentale [35], dar discutat altfel și de alții [14], [36]. Cu excepția acestei predicții, alte aspecte ale modelului nu depind de dacă pedeapsa este codificată de dopamină sau de un alt sistem de semnalizare.

Regimul de antrenament utilizat de Willuhn et al. [34] nu este suficient extins la producerea unui comportament compulsiv de căutare a drogurilor, caracterizat prin insensibilitate la pedepsele asociate drogurilor [37], [38]. Astfel, o întrebare cheie la care trebuie să se răspundă este care este relația dintre dezvoltarea întârziată a răspunsului DA indus de indicii în DLS și dezvoltarea târzie a răspunsului compulsiv. Conform modelului nostru, comportamentul compulsiv necesită nu numai evaluarea excesivă a alegerii medicamentelor la niveluri joase ale ierarhiei, ci și transferul controlului asupra comportamentului de la procesele cognitive abstracte la procesele obișnuite de nivel scăzut. Scala de timp a acestor două procese depinde doar parțial una de alta: procesul de supraevaluare depinde de semnalul de eroare de predicție, în timp ce transferul controlului comportamental depinde și de incertitudinile relative în estimarea valorii. Prin urmare, supraevaluarea indiciilor asociate drogurilor la nivelurile scăzute ale ierarhiei poate precede schimbarea controlului asupra comportamentului de sus în josul ierarhiei. Scalele de timp exacte ale celor două procese depind de rata de învățare și, respectiv, de zgomotul inerent la diferitele niveluri (vezi Fișierul S1 pentru informații suplimentare). Cu alte cuvinte, este probabil ca efluxul de dopamină indus de indicii în DLS să se dezvolte semnificativ înainte ca căutarea compulsivă de droguri să se manifeste comportamental.

Implicații comportamentale ale evaluării inconsecvente pentru medicamente versus recompense naturale

Din punct de vedere comportamental, în modelul nostru, dacă pedeapsa este asociată cu drogurile în stadiile incipiente ale consumului voluntar de droguri, valoarea abstractă a răspunsului la căutarea de droguri devine negativă rapid. Presupunând că căutarea de droguri este controlată de niveluri abstracte în timpul acestor etape incipiente, evaluarea negativă abstractă a alegerii medicamentelor face ca subiectul să nu mai experimenteze acel curs de acțiune. Acest lucru va preveni consolidarea preferinței puternice la nivel scăzut față de medicamente în timp. Astfel, modelul explică elasticitatea alegerilor de droguri la costuri în primele etape ale consumului de droguri, dar nu după consumul cronic. În mod consecvent, modelele animale de dependență arată că insensibilitatea răspunsurilor la căutarea de droguri la consecințele dăunătoare asociate drogurilor se dezvoltă numai după autoadministrarea prelungită a drogurilor, dar fără a se limita la consumul de droguri. [37], [38]. Spre deosebire de teoria noastră, modelele computaționale anterioare ale dependenței [9], [10] sunt în contradicție directă cu acest corp de dovezi, deoarece prevăd că rezultatele comportamentale adverse care urmează imediat consumului de droguri nu au niciun efect motivațional chiar și în stadiile foarte incipiente ale consumului de droguri (vezi Fișierul S1 pentru informații suplimentare).

Modelul nostru ține cont în continuare de apariția efectului de blocare a rezultatelor medicamentelor [39]. Blocarea este un fenomen de condiționare în care împerecherea anterioară a unui stimul A cu un rezultat blochează formarea de asociere între un stimul diferit B cu acel rezultat într-o fază de antrenament ulterioară, în care atât A cât și B sunt prezentate înainte de livrarea rezultatului. [40]. Rezultatele simulării modelului nostru într-un design experimental pavlovian (vezi Fișierul S1 pentru informații suplimentare despre versiunea pavloviană a modelului) arată că atât pentru cazurile de recompense naturale, cât și de droguri, atunci când valoarea estimată la un anumit nivel al ierarhiei atinge starea de echilibru (mai degrabă decât să crească nelimitat), nu are loc nicio învățare ulterioară la acel nivel. nivel, deoarece semnalul de eroare de predicție a scăzut la zero (Figura 4). Astfel, asocierea unui nou stimul cu recompensa deja prezisă va fi blocată. Dovezi comportamentale care arată un efect de blocare asociat atât cu medicamentele, cât și cu întăritorii naturali [39] a fost folosit ca argument major pentru a critica modelul computațional al dependenței propus anterior pe bază de dopamină [9]. Aici am arătat că concentrarea asupra naturii ierarhice a reprezentărilor și a organizării buclei de dopamină în spirală dorso-ventral poate explica de fapt datele de blocare, eludând astfel această critică (vezi Fișierul S1 pentru informații suplimentare).

miniatura

Figura 4. Efect de blocare pentru recompense naturale vs. medicamente.

Modelul prezice că blocarea are loc pentru recompense naturale (A) și droguri (B), numai dacă perioada de pregătire inițială este „extensă”, astfel încât primul stimul prezice pe deplin valoarea rezultatului. După antrenament „moderat”, nivelurile cognitive care sunt mai flexibile prezic pe deplin valorile și astfel blochează învățarea ulterioară. Totuși, învățarea este încă activă în procesele de nivel scăzut atunci când începe a doua fază de antrenament (prezentarea simultană a ambilor stimuli). Astfel, modelul nostru prezice că antrenamentul inițial moderat într-un experiment de blocare cu recompense naturale va duce, de asemenea, la inconsecvență cognitivă/comportamentală. Datele prezentate în această figură sunt obținute de la „unul” animal simulat și, prin urmare, nu a fost aplicată nicio analiză statistică.

doi: 10.1371 / journal.pone.0061489.g004

După cum sa menționat anterior, mai multe linii de dovezi arată o dominație progresivă a dorsului asupra striatului ventral în controlul asupra comportamentului pe parcursul învățării. [8], [31], [32]. Fiind interpretată pe fundalul acestor dovezi, evaluarea dezechilibrată a căutării de droguri în întreaga ierarhie explică, de asemenea, eforturile nereușite ale dependenților de a reduce consumul de droguri după o experiență prelungită cu droguri, când controlul asupra opțiunilor legate de droguri a trecut de la cognitiv la scăzut. nivel procesele obișnuite. Această supremație a proceselor dominate de droguri duce în mod natural la inelasticitatea comportamentală la costurile asociate drogurilor (căutarea compulsivă de droguri), probabil însoțită de o greșeală auto-descrisă. În cazul recompenselor naturale, totuși, modelul nostru prezice că, deși inelasticitatea comportamentală crește pe parcursul învățării, deoarece nu se dezvoltă nicio inconsecvență în evaluare la nivelurile ierarhiei, pedepsele asociate cu recompensă vor inhiba în cele din urmă căutarea recompensei.

Modelul nostru se concentrează pe evaluarea acțiunilor într-o ierarhie de decizie „presumabil dată” și lasă deoparte modul în care opțiunile abstracte și subrutinele lor de nivel scăzut corespunzătoare sunt descoperite inițial în timpul dezvoltării. Descoperirea ierarhiei decizionale este propusă a fi un proces de jos în sus, realizat prin împărțirea secvențelor de acțiuni de nivel scăzut și construirea de opțiuni mai abstracte. [41]. Acest proces, care se presupune că suferă o schimbare de la striatul dorsal la cel ventral, este în direcția opusă mecanismului de competiție propus aici, pentru preluarea controlului asupra comportamentului.

Discuție

Numărul tot mai mare de dovezi privind rolul diferențial al diferitelor subregiuni striate în dependență este de obicei interpretat în cadrul dihotomiei obișnuite vs. [8], [14], [34]. Abordarea ierarhică de luare a deciziilor pe care o folosim aici este complementară acestor conturi cu sistem dual. În timp ce abordarea cu proces dublu se ocupă de diferiți algoritmi (fără model vs. baza de model [30]) pentru rezolvarea unei singure probleme, cadrul ierarhic RL se concentrează pe diferite reprezentări ale aceleiași probleme la diferite niveluri de abstractizare temporală. În teorie, fie un algoritm obișnuit, fie unul orientat către un scop poate rezolva fiecare dintre aceste reprezentări diferite ale problemei. În modelul nostru, acumularea de distorsiuni induse de medicamente asupra spiralelor DA are loc într-un cadru în care algoritmul de estimare a valorii este lipsit de model (învățare a obiceiurilor). Totuși, acest lucru nu exclude existența sistemelor bazate pe modele care funcționează la nivelurile superioare ale ierarhiei. Se poate încorpora pur și simplu sistemul de evaluare și decizie în funcție de obiectiv, dependent de PFC, în model, presupunând că acțiunile la cele mai înalte niveluri de abstractizare sunt evaluate de un sistem orientat spre obiectiv. Deși o astfel de complicație nu schimbă natura rezultatelor prezentate în acest manuscris, flexibilitatea suplimentară care rezultă în explicarea altor aspecte ale dependenței este lăsată pentru studiile viitoare. De fapt, în modelul nostru, indiferent dacă există sau nu un sistem obiectiv direct, discrepanța în valoarea asimptotică a căutării de droguri între cele două extreme ale ierarhiei crește odată cu numărul de niveluri de decizie guvernate de procesul „obișnuit”. .

În lumina teoriei noastre, recidiva poate fi privită ca o revigorare a obiceiurilor dezadaptative la nivel motric latent, după o perioadă de dominare a nivelurilor cognitive. De fapt, ne putem imagina că, ca urmare a terapiei cognitive (la dependenții umani) sau a dispariției forțate (la modelele animale de abstinență), valoarea ridicată a căutării de droguri la nivelul detaliat al ierarhiei nu se stinge, ci devine latentă datorită pentru a schimba controlul înapoi la niveluri cognitive. Deoarece comportamentul legat de droguri este sensibil la consecințele adverse la niveluri abstracte, prin urmare, căutarea de droguri poate fi evitată atâta timp cât procesele cognitive de nivel înalt domină controlul comportamentului. Se poate chiar specula că programele populare în 12 pași (de exemplu, Alcoolicii Anonimi, Narcoticii Anonimi etc.) funcționează parțial prin solicitarea explicită participanților să admită inconsecvența stilului lor de viață legat de droguri, împuternicind astfel nivelurile cognitive abstracte să exercite un control explicit asupra lor. comportament. Condițiile stresante sau reexpunerea la droguri (amorsare) pot fi considerate factori de risc care slăbesc dominanța nivelurilor abstracte asupra comportamentului, ceea ce poate duce la reapariția răspunsurilor de căutare a drogurilor (datorită valorilor non-cognitive ridicate latente). ).

Pe scurt, propunem o relatare coerentă pentru mai multe fenomene, aparent disparate, caracteristice dependenței de droguri. Modelul nostru oferă o explicație normativă pentru datele despre rolurile diferențiale ale circuitelor striatale ventrale și dorsale în achiziția de droguri și performanța obiceiurilor, precum și rolul selectiv al conectivității DA feed-forward pentru efectele drogurilor față de întăritorii naturali. Cel mai important, arătăm modul în care patologia indusă de droguri în semnalele DA ventral-dorsale care scurg informațiile motivaționale în ierarhia reprezentării cognitive ar putea duce la o discordanță între atitudinile abstracte ale dependenților față de căutarea de droguri și ceea ce fac ei de fapt. În mod evident, modelul nostru nu oferă și nu este menit să ofere o relatare completă a dependenței de droguri. Explicarea altor aspecte neexplicate ale dependenței necesită încorporarea multor alte sisteme ale creierului care s-a dovedit a fi afectate de droguri de abuz [42]. Cum să se încorporeze astfel de sisteme în rețeaua formală de calcul rămâne un subiect pentru investigații ulterioare.

informatii justificative

File_S1.pdf
 

Figura S1,Un exemplu de ierarhie de decizie cu cinci niveluri de abstractizare. Figura S2, Circuitul neuronal corespunzător celor trei algoritmi de învățare a valorilor discutați este o structură de decizie ierarhică. A, Folosind un algoritm simplu de învățare TD (ecuația S7), semnalul de eroare de predicție în fiecare nivel de abstractizare este calculat independent de alte niveluri. B, În modelul propus de Haruno și Kawato (4) (ecuația S8), valoarea stării temporal-avansate provine de la un nivel superior de abstractizare. C, în modelul nostru (ecuația S9) valoarea stării temporal-avansate este substituită cu o combinație a recompensei și a valorii Q a acțiunii efectuate la un nivel superior de abstractizare. Figura S3, Modelul nostru prezice diferite locuri de acțiune ale medicamentelor pe circuitul de învățare recompensă: locurile 1 până la 3. Medicamentele care afectează locurile 4 până la 6, în schimb, nu vor avea ca rezultat modelele comportamentale și neurobiologice produse de simularea modelului pentru medicamente, ci va produce rezultate similare cu cazul recompenselor naturale. Figura S4, Sarcina utilizată pentru simularea mecanismului de concurență bazat pe incertitudine între nivelurile ierarhiei pentru preluarea controlului asupra comportamentului. Figura S5, Rezultatul simulării, care arată o schimbare treptată a controlului asupra comportamentului de la nivelurile superioare la cele inferioare ale ierarhiei. Q(s,a) și Statele Unite ale Americii) arată valoarea estimată și respectiv incertitudinea perechilor stare-acțiune.

Fișierul S1.

Figura S1,Un exemplu de ierarhie de decizie cu cinci niveluri de abstractizare. Figura S2, Circuitul neuronal corespunzător celor trei algoritmi de învățare a valorilor discutați este o structură de decizie ierarhică. A, Folosind un algoritm simplu de învățare TD (ecuația S7), semnalul de eroare de predicție în fiecare nivel de abstractizare este calculat independent de alte niveluri. B, În modelul propus de Haruno și Kawato (4) (ecuația S8), valoarea stării temporal-avansate provine de la un nivel superior de abstractizare. C, în modelul nostru (ecuația S9) valoarea stării temporal-avansate este substituită cu o combinație a recompensei și a valorii Q a acțiunii efectuate la un nivel superior de abstractizare. Figura S3, Modelul nostru prezice diferite locuri de acțiune ale medicamentelor pe circuitul de învățare recompensă: locurile 1 până la 3. Medicamentele care afectează locurile 4 până la 6, în schimb, nu vor avea ca rezultat modelele comportamentale și neurobiologice produse de simularea modelului pentru medicamente, ci va produce rezultate similare cu cazul recompenselor naturale. Figura S4, Sarcina utilizată pentru simularea mecanismului de concurență bazat pe incertitudine între nivelurile ierarhiei pentru preluarea controlului asupra comportamentului. Figura S5, Rezultatul simulării, care arată o schimbare treptată a controlului asupra comportamentului de la nivelurile superioare la cele inferioare ale ierarhiei. Q(s,a) și Statele Unite ale Americii) arată valoarea estimată și respectiv incertitudinea perechilor stare-acțiune.

doi: 10.1371 / journal.pone.0061489.s001

(PDF)

recunoasteri

Le mulțumim lui S. Ahmed și P. Dayan pentru discuțiile critice și M. Reinoud, D. Redish, N. Daw, E. Koechlin și A. Dezfouli pentru comentarii asupra manuscrisului.

Contribuțiile autorului

A conceput și proiectat experimentele: MK. A efectuat experimentele: MK. S-au analizat datele: MK BG. Reactivi/materiale/instrumente de analiză contribuite: MK. A scris lucrarea: MK BG.

Referinte

  1. 1. Narcotice anonime (2008). a 6-a ed. Biroul World Service.
  2. 2. Goldstein A (2001) Dependență: de la biologie la politica de droguri. Oxford University Press, SUA.
  3. 3. Volkow ND, Fowler JS, Wang GJ, Swanson JM (2004) Dopamina în abuzul și dependența de droguri: rezultate din studiile imagistice și implicațiile tratamentului. Molecular Psychiatry 9: 557–569. doi: 10.1038/sj.mp.4001507. Găsiți acest articol online
  4. 4. Stacy AW, Wiers RW (2010) Cogniție implicită și dependență: un instrument pentru explicarea comportamentului paradoxal. Revizuirea anuală a psihologiei clinice 6: 551–575. doi: 10.1146 / annurev.clinpsy.121208.131444. Găsiți acest articol online
  5. 5. Manualul de diagnostic și statistic al tulburărilor mintale (DSM-IV) (2000). a 4-a ed. Washington, DC: Asociația Americană de Psihiatrie.
  6. 6. Lamb RJ, Preston KL, Schindler CW, Meisch RA, Davis F și colab. (1991) Efectele de întărire și subiective ale morfinei la post-dependenți: un studiu doză-răspuns. Jurnalul de farmacologie și terapie experimentală 259: 1165–1173. Găsiți acest articol online
  7. 7. Goldstein RZ, Woicik PA, Moeller SJ, Telang F, Jayne M și colab. (2010) Aprecierea și dorința de recompense pentru droguri și non-droguri la consumatorii activi de cocaină: chestionarul STRAP-R. Jurnalul de psihofarmacologie 24: 257–266. doi: 10.1177/0269881108096982. Găsiți acest articol online
  8. 8. Everitt BJ, Robbins TW (2005) Sisteme neuronale de întărire pentru dependența de droguri: de la acțiuni la obiceiuri la constrângere. Nature Neuroscience 8: 1481–1489. doi: 10.1038 / nn1579. Găsiți acest articol online
  9. 9. Redish AD (2004) Dependența ca proces de calcul a dispărut. Știința 306: 1944–1947. doi: 10.1126 / science.1102384. Găsiți acest articol online
  10. 10. Dezfouli A, Piray P, Keramati MM, Ekhtiari H, Lucas C și colab. (2009) Un model neurocomputațional pentru dependența de cocaină. Neural Computation 21: 2869–2893. doi: 10.1162/neco.2009.10-08-882. Găsiți acest articol online
  11. 11. Piray P, Keramati MM, Dezfouli A, Lucas C, Mokri A (2010) Diferențele individuale în receptorii de dopamină din nucleul accumbens prezic dezvoltarea unui comportament asemănător dependenței: o abordare computațională. Neural Computation 22: 2334–2368. doi: 10.1162/NECO_a_00009. Găsiți acest articol online
  12. 12. Dayan P (2009) Dopamină, învățare de întărire și dependență. Farmacopsihiatrie 42: 56–65. doi: 10.1055/s-0028-1124107. Găsiți acest articol online
  13. 13. Takahashi Y, Schoenbaum G, Niv Y (2008) Reducerea la tăcere a criticilor: înțelegerea efectelor sensibilizării la cocaină asupra striatumului dorsolateral și ventral în contextul unui model actor/critic. Frontiere în Neuroscience 2: 86–99. doi: 10.3389 / neuro.01.014.2008. Găsiți acest articol online
  14. 14. Redish AD, Jensen S, Johnson A (2008) Un cadru unificat pentru dependență: vulnerabilități în procesul de decizie. Științe comportamentale și ale creierului 31: 415–487. doi: 10.1017 / S0140525X0800472X. Găsiți acest articol online
  15. 15. Botvinick MM (2008) Modele ierarhice de comportament și funcție prefrontală. Tendințe în științe cognitive 12: 201–208. doi: 10.1016 / j.tics.2008.02.009. Găsiți acest articol online
  16. 16. Haruno M, Kawato M (2006) Model heterarhic de întărire-învățare pentru integrarea mai multor bucle cortico-striatale: examinarea fMRI în învățarea asocierii stimul-acțiune-recompensă. Rețele neuronale 19: 1242–1254. doi: 10.1016 / j.neunet.2006.06.007. Găsiți acest articol online
  17. 17. Willuhn I, Burgeno LM, Everitt BJ, Phillips PEM (2012) Recrutarea ierarhică a semnalizării dopaminei fazice în striatul în timpul progresiei consumului de cocaină. Proceedings of the National Academy of Sciences 109: 20703–20708. doi: 10.1073 / pnas.1213460109. Găsiți acest articol online
  18. 18. Botvinick MM, Niv Y, Barto AC (2009) Comportamentul organizat ierarhic și fundamentele sale neuronale: o perspectivă de învățare prin întărire. Cognition 113: 262–280. doi: 10.1016 / j.cognition.2008.08.011. Găsiți acest articol online
  19. 19. Badre D, D'Esposito M (2009) Este axa rostro-caudală a lobului frontal ierarhică? Nature Reviews Neuroscience 10: 659–669. doi: 10.1038 / nrn2667. Găsiți acest articol online
  20. 20. Koechlin E, Ody C, Kouneiher F (2003) Arhitectura controlului cognitiv în cortexul prefrontal uman. Știința 302: 1181–1185. doi: 10.1126 / science.1088545. Găsiți acest articol online
  21. 21. Badre D, Hoffman J, Cooney JW, D'Esposito M (2009) Deficiențe de control cognitiv ierarhic în urma leziunilor lobului frontal uman. Nature neuroscience 12: 515–522. doi: 10.1038 / nn.2277. Găsiți acest articol online
  22. 22. Alexander GE, DeLong MR, Strick PL (1986) Organizarea paralelă a circuitelor segregate funcțional care leagă ganglionii bazali și cortexul. Anual Review of Neuroscience 9: 357–381. doi: 10.1146/annurev.neuro.9.1.357. Găsiți acest articol online
  23. 23. Alexander GE, Crutcher MD, DeLong MR (1990) Circuite ganglionar-talamocorticale bazale: substraturi paralele pentru funcțiile motorii, oculomotorii, prefrontale și limbice. Progress in Brain Research 85: 119–146. Găsiți acest articol online
  24. 24. Schultz W, Dayan P, Montague PR (1997) Un substrat neural de predicție și recompensă. Știința 275: 1593–1599. doi: 10.1126 / science.275.5306.1593. Găsiți acest articol online
  25. 25. Belin D, Everitt BJ (2008) Obiceiurile de căutare a cocainei depind de conectivitatea în serie dependentă de dopamină care leagă ventralul cu striatul dorsal. Neuron 57: 432–441. doi: 10.1016 / j.neuron.2007.12.019. Găsiți acest articol online
  26. 26. Haber SN, Fudge JL, McFarland NR (2000) Căile striatonigrostriatale la primate formează o spirală ascendentă de la coajă la striatul dorsolateral. The Journal of Neuroscience 20: 2369–2382. Găsiți acest articol online
  27. 27. Haber SN (2003) Ganglionii bazali de primate: rețele paralele și integrative. Journal of Chemical Neuroanatomy 26: 317–330. doi: 10.1016/j.jchemneu.2003.10.003. Găsiți acest articol online
  28. 28. Sutton RS, Barto AG (1998) Învățare prin consolidare: o introducere. Cambridge: MIT Press.
  29. 29. Di Chiara G, Imperato A (1988) Drogurile abuzate de oameni cresc concentrațiile de dopamină sinaptică în sistemul mezolimbic al șobolanilor care se mișcă liber. Proceedings of the National Academy of Sciences of the United States of America 85: 5274–5278. doi: 10.1073 / pnas.85.14.5274. Găsiți acest articol online
  30. 30. Daw ND, Niv Y, Dayan P (2005) Competiția bazată pe incertitudine între sistemele striatale prefrontale și dorsolaterale pentru controlul comportamental. Nature Neuroscience 8: 1704–1711. doi: 10.1038 / nn1560. Găsiți acest articol online
  31. 31. Vanderschuren LJMJ, Ciano PD, Everitt BJ (2005) Implicarea striatumului dorsal în căutarea controlată de cocaină. The Journal of Neuroscience 25: 8665–8670. doi: 10.1523 / JNEUROSCI.0925-05.2005. Găsiți acest articol online
  32. 32. Volkow ND, Wang GJ, Telang F, Fowler JS, Logan J și colab. (2006) Indicații de cocaină și dopamină în striatul dorsal: mecanism de poftă în dependența de cocaină. The Journal of Neuroscience 26: 6583–6588. doi: 10.1523 / JNEUROSCI.1544-06.2006. Găsiți acest articol online
  33. 33. Kalivas PW, Volkow ND (2005) Baza neuronală a dependenței: o patologie a motivației și alegerii. The American Journal of Psychiatry 162: 1403–1413. doi: 10.1176 / appi.ajp.162.8.1403. Găsiți acest articol online
  34. 34. Belin D, Jonkman S, Dickinson A, Robbins TW, Everitt BJ (2009) Procese de învățare paralele și interactive în ganglionii bazali: relevanță pentru înțelegerea dependenței. Behavioral Brain Research 199: 89–102. doi: 10.1016 / j.bbr.2008.09.027. Găsiți acest articol online
  35. 35. Matsumoto M, Hikosaka O (2009) Două tipuri de neuroni dopaminergici transmit distinct semnale motivaționale pozitive și negative. Natura 459: 837–841. doi: 10.1038 / nature08028. Găsiți acest articol online
  36. 36. Frank MJ, Surmeier DJ (2009) Neuronii dopaminergici substanței negre fac diferența între recompensă și pedeapsă? Jurnalul de biologie celulară moleculară 1: 15–16. doi: 10.1093/jmcb/mjp010. Găsiți acest articol online
  37. 37. Vanderschuren LJMJ, Everitt BJ (2004) Căutarea de droguri devine compulsivă după autoadministrarea prelungită de cocaină. Știința 305: 1017–1019. doi: 10.1126 / science.1098975. Găsiți acest articol online
  38. 38. Deroche-Gamonet V, Belin D, Piazza PV (2004) Dovezi pentru comportament asemănător dependenței la șobolan. Știința 305: 1014–1017. doi: 10.1126 / science.1099020. Găsiți acest articol online
  39. 39. Panlilio LV, Thorndike EB, Schindler CW (2007) Blocarea condiționării la un stimul asociat cocaină: testarea ipotezei că cocaina produce perpetuu un semnal de recompensă mai mare decât cea așteptată. Farmacologie, biochimie și comportament 86: 774–777. doi: 10.1016 / j.pbb.2007.03.005. Găsiți acest articol online
  40. 40. Kamin L (1969) Previzibilitate, surpriză, atenție și condiționare. În: Campbell BA, Church RM, editori. Pedeapsa și comportamentul aversiv. New York: Appleton-Century-Crofts. p. 279–296.
  41. 41. Dezfouli A, Balleine BW (2012) Obiceiuri, secvențe de acțiune și învățare prin întărire. Jurnalul european de neuroștiință 35: 1036–1051. doi: 10.1111 / j.1460-9568.2012.08050.x. Găsiți acest articol online
  42. 42. Koob GF, Le Moal M (2005) Neurobiologia dependenței. San Diego: Academic Press