Sensibilitatea nucleului accumbens la încălcările în așteptarea recompensei (2007)

Neuroimage. 2007 1 ianuarie;34(1):455-61. Epub 2006 17 octombrie.

Spicer J, Galvan A, Hare TA, Voss H, Glover G, Casey B.

Sursă

Institutul Sackler pentru Psihobiologie de Dezvoltare, Colegiul Medical Weill Cornell al Universității Cornell, 1300 York Avenue, Box 140, New York, NY 10021, SUA.

Abstract

Acest studiu a examinat dacă regiunile frontostriatale ventrale codifică diferențial rezultatele așteptate și neașteptate ale recompensei. Am manipulat parametric probabilitatea de recompensă și am examinat răspunsul neuronal la recompensă și non-recompensă pentru fiecare condiție de probabilitate din striatul ventral și cortexul orbitofrontal (OFC). Prin încercările târzii ale experimentului, subiecții au prezentat răspunsuri comportamentale mai lente pentru afecțiunea cu cea mai mică probabilitate de recompensă, comparativ cu condiția cu cea mai mare probabilitate de recompensă. La nivel neuronal, atât nucleul accumbens (NAcc) cât și OFC au prezentat o mai mare activare la studiile recompensate în comparație cu studiile nerecompensate, dar accumbens par să fie cel mai sensibil la încălcările rezultatelor așteptate ale recompensei. Aceste date sugerează roluri distincte pentru circuitele frontostriatale în predicția recompensei și în răspunsul la încălcări ale așteptărilor.

 

Introducere

Formarea de predicții precise și detectarea încălcărilor așteptărilor cu privire la evenimentele recompensatoare viitoare este o componentă esențială a comportamentului direcționat către obiective. Studiile imagistice umane și primate non-umane sugerează că regiunile frontostriatale bogate în dopamină sunt implicate în formarea de predicții despre rezultatele viitoare ale recompensei și în optimizarea comportamentului în consecință. Mecanismele neuronale ale erorii de predicție legate de recompensă - o reprezentare a discrepanței dintre recompensa reală și cea așteptată (Schultz și colab., 1997) – au fost studiate la primate non-umane în ceea ce privește recompensele așteptate și neașteptate și/sau omisiunile de recompensă (Hollerman et al, 1998, Leon și Shadlen, 1999; Tremblay și Schultz, 1999). Studiul actual a folosit o sarcină simplă de potrivire cu întârziere spațială cu eșantion, similară cu cea utilizată anterior cu primatele non-umane (Fiorillo et al, 2003), care a manipulat probabilitatea rezultatului recompensei, pentru a examina răspunsurile neuronale la recompensele așteptate și neașteptate.

Dovezile convergente implică sistemul dopaminergic ca fiind esențial pentru predicție și procesarea recompensei (Olds și Milner, 1954; Montague et al, 2004, Schultz, 2002 pentru revizuire). Studiile pe primate non-umane au arătat că neuronii dopaminergici răspund la recompense primare neașteptate și, în cele din urmă, la stimulii care prezic acele recompense (Mirencowicz & Schultz, 1994, Tobler et al, 2005). Neuronii dopaminergici din zona tegmentală ventrală (VTA) a maimuței se vor declanșa ca răspuns la o recompensă primară care este neprevăzută (sau prezisă cu o probabilitate scăzută) mai mult decât la o recompensă care este pe deplin prezisă (Fiorillo et al, 2003;Tobler et al, 2005). În schimb, activitatea acelorași neuroni este suprimată atunci când o recompensă așteptată nu este furnizată în raport cu o omisiune așteptată a recompensei (Fiorillo et al, 2003; Tobler et al, 2005). Astfel, neuronii dopaminergici codifică eroarea de predicție reprezentând discrepanța dintre rezultatul real și cel prezis (Schultz și colab., 1997; Tobler et al, 2005), astfel încât prezentarea neașteptată a recompensei are ca rezultat o activitate crescută, iar omisiunile neașteptate ale recompensei au ca rezultat o activitate scăzută.

Schimbările în declanșarea dopaminei ca răspuns la modificările rezultatului recompensei sunt paralele cu modificări ale comportamentului. Studiile pe primate non-umane au descoperit că o maimuță își va crește lingul anticipat în funcție de probabilitatea cu care un stimul condiționat este asociat cu un stimul ulterior necondiționat (livrarea de suc). Ca atare, stimulii care reprezintă o probabilitate mare de livrare ulterioară a sucului provoacă o lingă mai anticipativă (Fiorillo și colab., 2003).

Există conexiuni anatomice reciproce între regiunile asociate cu comportamentul direcționat către un scop (de exemplu cortexul prefrontal) și cele asociate cu comportamente apetitive mai automate (de exemplu, striatul ventral) unde pot fi calculate predicții (Shultz și colab., 1997; Haber și colab., 2003). Aceste regiuni sunt puternic inervate cu dopamină prin proiecții de la neuronii dopaminergici din creierul mediu și aceste conexiuni pot forma un circuit neuroanatomic funcțional care sprijină optimizarea comportamentului în favorizarea acțiunilor care au ca rezultat cele mai mari câștiguri.

Recent, studiile de imagistică prin rezonanță magnetică funcțională umană (fMRI) au implicat două regiuni ale acestui circuit, nucleul accumbens și cortexul orbitofrontal, în reprezentarea erorii de predicție. De exemplu, s-a demonstrat că secvențele imprevizibile de livrare a sucului și apei determină o activitate crescută în NAcc față de livrarea previzibilă (Berns et al, 2001). Eroare de predicție bazată pe temporal (McClure și colab., 2003) și stimul (O'Doherty et al, 2003 O'Doherty et al, 2004) încălcările activează și striatul ventral.

Rolul OFC în predicția recompensei a fost mai puțin clar. În timp ce unele studii au raportat sensibilitatea OFC în condiții de eroare de predicție (Berns și colab., 2001; O'Doherty și colab., 2003; Ramnini şi colab., 2004; Dreher și colab., 2005) alții nu au (McClure și colab., 2003; O'Doherty și colab., 2004; Delgado și colab., 2005). Studiile care pun mai puțin accent pe eroarea de predicție arată o mai mare activare a OFC la rezultate favorabile comparativ cu cele nefavorabile (O'Doherty et al, 2001; Elliott et al, 2003; Galvan et al, 2005) în studiile valorii recompensei (Gottfried și colab., 2003), și valență (Cox și colab., 2005; O'Doherty, 2000 O'Doherty, 2003 O'Doherty, 2004). Recent, Kringelbach și Rolls (2004) a integrat literatura de neuroimagistică și neuropsihologică pentru a ține seama de funcțiile variate ale cortexului orbitofrontal. Ele sugerează o distincție medial-laterală și o distincție anterior-posterior. Cortexul orbitofrontal medial și lateral monitorizează valoarea recompensei și, respectiv, evaluarea pedepsitorilor (de ex O'Doherty et al, 2001 ; Rolls et al, 2003). Se crede că cortexul orbitofrontal anterior este implicat mai mult în reprezentarea întăritorilor abstracti (O'Doherty et al, 2001) peste cele mai simple legate de gust (ex De Araujo et al, 2003) și durere (de ex Craig și colab., 2000).

Aceste regiuni frontostriatale ventrale au recent (Knutson et al, 2005) au fost asociate cu reprezentarea valorii așteptate (produsul probabilității așteptate și al mărimii rezultatului) în timpul anticiparea rezultatului recompensei. Având în vedere designul elegant, dar complex, care includea 18 indicii reprezentând numeroase combinații de magnitudine, probabilitate și/sau valență, lipsa puterii statistice i-a împiedicat pe autori să examineze activarea creierului legată de stimulente. rezultate. În studiul de față, am folosit trei indicii distincte, fiecare dintre acestea fiind asociat cu 33%, 66% sau 100% recompensă pentru încercările corecte. Accentul acestui studiu a fost pus pe rezultatul recompensei mai degrabă decât anticiparea recompensei, pentru a examina sensibilitatea la nivel neuronal la încălcările așteptărilor de recompensă, mai degrabă decât la anticiparea recompensei înainte de rezultat. Această analiză este critică în înțelegerea predictibilității recompenselor din cauza schimbărilor în declanșarea dopaminei care apar la rezultatul recompensei atunci când apar încălcări ale așteptărilor prezise (Fiorillo et al, 2003) .Cele a priori predicțiile despre accumbens și răspunsul OFC la recompense monetare așteptate și neașteptate s-au bazat pe lucrări anterioare de imagistică care implicau aceste regiuni în procesarea recompensei (Knutson et al, 2001; 2005; O'Doherty et al, 2001; Galvan et al, 2005). Am folosit o potrivire întârziată spațială simplă pentru a eșantiona paradigmă similară cu cea utilizată de Fiorillo și colab. (2003) în studiile electrofiziologice ale neuronilor dopaminergici la primate non-umane. Am emis ipoteza că activitatea în striatul ventral, în special NAcc, ar crește atunci când se livrează o recompensă neașteptată și va scădea atunci când nu se livrează o recompensă așteptată. Comportamentul era de așteptat să paralele aceste schimbări cu timpi medii de reacție mai rapidi la indicii care prezic recompensa cel mai des, dar timpi de reacție mai lenți la indicii care prezic recompensa cel mai puțin des. În plus, am emis ipoteza că OFC ar fi sensibil la rezultatul recompensei (recompensă sau nu), dar că accumbens ar fi cel mai sensibil la schimbările în predicțiile de recompensă. Aceste ipoteze s-au bazat pe rapoarte din studii imagistice anterioare (Galvan et al 2005, în presă) și lucrări de primate non-umane care arată o implicare striatală mai mare în parametrii de probabilitate a recompensei, în raport cu activitatea blocată de recompensă a OFC (Schultz, et al, 2000) și pe o sumă fixă ​​de recompensă, mai degrabă decât variabilă, în condițiile de probabilitate.

Metode

Participanții

Doisprezece adulți sănătoși dreptaci (7 femei), cu vârste cuprinse între 19 și 27 de ani (vârsta medie 24 de ani), au fost incluși în experimentul fMRI. Subiecții nu aveau antecedente de boli neurologice sau psihiatrice și toți subiecții au fost de acord cu studiul aprobat de Consiliul de evaluare instituțional înainte de participare.

Experimental

Participanții au fost testați folosind o versiune modificată a unei sarcini cu două variante de răspuns întârziat descrisă anterior (Galvan et al, 2005) într-un studiu privind fMRI legat de eveniment (Figura 1). În această sarcină, trei indicii au fost asociate fiecare cu o probabilitate distinctă (33%, 66% și 100%) de a obține o sumă fixă ​​de recompensă. Subiecții au fost instruiți să apese fie degetul arătător, fie degetul mijlociu pentru a indica partea pe care a apărut un indiciu atunci când li s-a solicitat și să răspundă cât mai repede posibil, fără a face greșeli. Una dintre cele trei imagini de desene animate pirați a fost prezentată în ordine aleatorie, fie pe partea stângă, fie pe partea dreaptă a unei fixări centrate timp de 1000 msec (vezi Figura 1). După o întârziere de 2000 msec, subiecților li s-a prezentat un prompt de răspuns de două cufere de comori pe ambele părți ale fixației (2000 msec) și li sa instruit să apese un buton cu degetul arătător drept dacă piratul se afla pe partea stângă a fixației sau degetul mijlociu drept dacă piratul se afla pe partea dreaptă a fixației. După o altă întârziere de 2000 msec, fie feedback-ul recompensei (monede de desene animate), fie un cufăr de comori gol a fost prezentat în centrul ecranului (1000 msec) pe baza probabilității de recompensă a acelui tip de încercare. A existat un interval intertrial (ITI) de 12 secunde înainte de începerea următoarei încercări.

Figura 1  

Proiectarea sarcinilor

Au existat trei condiții de probabilitate de recompensă: o probabilitate de recompensă de 33%, 66% și 100%. În condiția de 33%, subiecții au fost recompensați în 33% dintre încercări și nicio recompensă (un cufăr de comori gol) nu a avut loc în celelalte 66% dintre încercări în acea condiție. În condiția de 66%, subiecții au fost recompensați în 66% dintre încercări și nu a avut loc nicio recompensă pentru celelalte 33% dintre încercări. În condiția de 100%, subiecții au fost recompensați pentru toate încercările corecte.

Subiecților li sa garantat 50 USD pentru participarea la studiu și li sa spus că ar putea câștiga cu până la 25 USD în plus, în funcție de performanța (așa cum este indexată în funcție de timpul de reacție și acuratețe) la sarcină. Stimulii au fost prezentați cu sistemul integrat de imagistică funcțională (IFIS) (PST, Pittsburgh) folosind un afișaj video LCD în orificiul scanerului MR și un dispozitiv de colectare a răspunsului cu fibră optică.

Experimentul a constat din cinci runde a 18 încercări (6 fiecare dintre tipurile de încercare cu 33%, 66% și 100% probabilitate de recompensă), care au durat 6 minute și 8 s fiecare. Fiecare rundă a avut 6 încercări ale fiecărei probabilități de recompensă prezentate în ordine aleatorie. La sfârșitul fiecărei curse, subiecții au fost actualizați cu privire la câți bani câștigaseră în timpul acelei curse. Înainte de începerea experimentului, subiecții au primit instrucțiuni detaliate care au inclus familiarizarea cu stimulii folosiți și au efectuat o practică pentru a asigura înțelegerea sarcinii. Li s-a spus că există o relație între indicii și rezultatele monetare, dar natura exactă a acelei relații nu a fost dezvăluită.

Achizitie de imagini

Imagistica a fost efectuată folosind un scaner RMN 3T General Electric folosind o bobină cu cap în cuadratura. Scanările funcționale au fost obținute folosind o secvență spirală de intrare și ieșire (Glover & Thomason, 2004). Parametrii au inclus o matrice TR=2000, TE=30, 64 X 64, 29 felii coronale de 5 mm, rezoluție în plan de 3.125 X 3.125 mm, flip 90°) pentru 184 de repetări, inclusiv patru achiziții aruncate la începutul fiecare alergare. Au fost colectate scanări în plan anatomice ponderate T1 (TR=500, TE=min, 256 X 256, FOV=200 mm, grosime a feliei de 5 mm) în aceleași locații ca și imaginile funcționale, în plus față de un set de date 3-D de imagini SPGR de înaltă rezoluție (TR=25, TE=5, 1.5 mm grosime de felie, 124 de felii).

Analiza imaginilor

Pachetul software Brainvoyager QX (Brain Innovations, Maastricht, Țările de Jos) a fost folosit pentru a efectua o analiză ale efectelor aleatorii a datelor imagistice. Înainte de analiză, pe imaginile brute au fost efectuate următoarele proceduri de preprocesare: corecția mișcării 3D pentru a detecta și corecta mișcările mici ale capului prin alinierea spațială a tuturor volumelor la primul volum prin transformarea corpului rigid, corectarea timpului de scanare a secțiunii (folosind interpolarea sinc), eliminarea tendințelor liniare, filtrarea temporală de trecere înaltă pentru a elimina deviațiile neliniare de 3 sau mai puține cicluri pe curs de timp și netezirea datelor spațiale folosind un nucleu gaussian cu un FWHM de 4 mm. Mișcările estimate de rotație și translație nu au depășit niciodată 2 mm pentru subiecții incluși în această analiză.

Datele funcționale au fost co-înregistrate la volumul anatomic prin alinierea punctelor corespunzătoare și ajustări manuale pentru a obține o potrivire optimă prin inspecție vizuală și apoi au fost transformate în spațiul Talairach. În timpul transformării Talairach, voxelii funcționali au fost interpolați la o rezoluție de 1 mm3 în scopuri de aliniere, dar pragurile statistice s-au bazat pe dimensiunea voxelului de achiziție originală. Nucleul accumbens și cortexul frontal orbital au fost definite de un GLM voxelwise al întregului creier cu recompensa ca predictor principal (vezi mai jos) și apoi localizate de coordonatele Talairach în legătură cu atlasul creierului Duvernoy (Talairach și Tournoux, 1988; Duvernoy, 1991).

Analizele statistice ale datelor imagistice au fost efectuate pe întreg creierul folosind un model liniar general (GLM) compus din 60 (5 curse X 12 subiecți) rulări funcționale normalizate z. Predictorul principal a fost recompensa (recompensă versus încercări fără recompensă) pentru toate probabilitățile de recompensă la rezultatul recompensei. Predictorul a fost obținut prin convoluția unui răspuns ideal de vagon (presupunând o valoare 1 pentru volumul de prezentare a sarcinii și un volum de 0 pentru punctele de timp rămase) cu un model liniar al răspunsului hemodinamic (Boynton și colab., 1996) și folosit pentru a construi matricea de proiectare a fiecărui curs de timp din experiment. Au fost incluse numai încercările corecte și au fost creați predictori separați pentru încercările de eroare. Analizele de contrast post-hoc asupra regiunilor de interes au fost apoi efectuate pe baza testelor t asupra ponderilor beta ale predictorilor. Simulările Monte Carlo au fost efectuate folosind programul AlphaSim din cadrul AFNI (Cox, 1996) pentru a determina praguri adecvate pentru a atinge un nivel alfa corectat de p<0.05 pe baza volumelor de căutare de aproximativ 25,400 mm3 și, respectiv, 450 mm3 pentru cortexul frontal orbital și, respectiv, nucleul accumbens. Modificările procentuale ale semnalului RM în raport cu valoarea inițială (intervalul imediat anterior procesului de 20 de secunde) în nucleul accumbens și cortexul frontal orbital au fost calculate utilizând media legată de evenimente asupra voxelilor semnificativ activi obținuți din analizele de contrast.

Întregul GLM a creierului s-a bazat pe 50 de încercări cu recompensă per subiect (n=12) pentru un total de 600 de încercări și 30 de încercări fără recompensă per subiect (n=12) pentru un total de 360 ​​de teste fără recompensă de-a lungul întregului experiment. Contrastele ulterioare privind condițiile de probabilitate a recompensei au constat în număr diferit de încercări de recompensă și fără recompensă. Pentru condiția de probabilitate de recompensă 100% au existat 6 încercări de recompensă per cursă (5) per subiect (12) pentru un total de 360 ​​de încercări de recompensă și nicio încercare fără recompensă. Pentru condiția de probabilitate de recompensă de 66% au existat 4 încercări de recompensă per cursă (5) per subiect (12) pentru un total de 240 de încercări de recompensă și 120 de încercări fără recompensă. Pentru condiția de probabilitate de recompensă de 33%, au existat 2 încercări de recompensă per cursă (5) per subiect (12) pentru un total de 120 de încercări de recompensă și 240 de încercări fără recompensă.

REZULTATE

Datele comportamentale

Efectele probabilității recompensei și ale timpului asupra sarcinii au fost testate cu o analiză de varianță de 3 (33%, 66%, 100%) x 5 (execuții 1-5) măsuri repetate (ANOVA) pentru variabilele dependente ale timpului mediu de reacție (RT). ) și precizia medie.

Nu au existat efecte sau interacțiuni principale ale probabilității de recompensă (F[2,22]=.12, p<.85) timp pe sarcină (F[4,44]=2.02, p<.14) sau probabilitatea de recompensă X timp pe sarcină (F[8, 88]=1.02, p<.41) pentru acuratețea medie. Acest lucru era de așteptat, deoarece acuratețea participanților a atins niveluri apropiate de plafon pentru toate probabilitățile experimentului (condiție 33% = 97.2%; condiție 66% = 97.5%; condiție 100% = 97.7%).

A existat o interacțiune semnificativă între probabilitatea de recompensă și timpul petrecut pe sarcină (F[8,88] = 3.5, p < 01) asupra RT medie, dar nu au efecte principale ale timpului asupra sarcinii (F[4,44] = .611 , p < 0.59) sau probabilitate de recompensă (F[2,22]= 2.84, p < 0.08). Testele t post-hoc ale interacțiunii semnificative au arătat că a existat o diferență semnificativă între condițiile de probabilitate de recompensă de 33% și 100% în timpul încercărilor târzii ale experimentului (execuția 5) (t(11)=3.712, p<.003), cu RT medie mai rapidă pentru condiția de probabilitate de recompensă 100% (medie =498.30, sd=206.23) față de condiția de 33% (medie=583.74, sd=270.23).

Diferența în timpul mediu de reacție între condițiile de 100% și 33% a crescut de două ori de la studiile timpurii la cele tardive (vezi Figura 2a). Pentru a arăta în continuare învățarea, am introdus o inversare, schimbând probabilitățile de recompensă pentru condițiile de 33% și 100% la sfârșitul experimentului. O ANOVA 2 (probabilitate) X 2 (inversare și non-inversare) pentru studiile târzii a arătat o interacțiune semnificativă (F (1,11)=18.97, p=0.001), cu o scădere a RT la condiția care a fost de 33% probabilitate în neinversare (medie=583.74, sd=270.24) și 100% în inversare (medie=519.89, sd=180.46) (Figura 2b).

Figura 2  

Rezultate comportamentale (RT)

Rezultatele imaginilor

Un GLM pentru încercări corecte folosind probabilitatea de recompensă ca predictor principal a fost modelat în punctul în care subiectul a primit feedback sau nu cu privire la recompensă (adică rezultatul). Această analiză a identificat regiunile NAcc (x=9, y=6, z=−1 și x=−9, y=9, z=−1) și OFC (x=28, y=39, z =− 6) (vezi Figura 3a, b). Testele t post-hoc între ponderile beta ale încercărilor recompensate versus cele nerecompensate au arătat o activare mai mare în ambele regiuni pentru a recompensa (NAcc: t(11)=3.48, p<0.01; OFC x=28, y=39, z =−6, t(11)=3.30, p<0.02)1.

Figura 3  

Activare mai mare a rezultatelor recompensate versus nerecompensate în a) nucleul accumbens (x=9,y=6,z=−1; x=−9, y=9, z=−1) și b) cortexul frontal orbital (x= 28,y=39, z=−6).

Au existat două rezultate posibile (recompensă sau fără recompensă) pentru cele două programe de recompensă intermitente (33% și 66% probabilitate) și un singur rezultat pentru programul de recompensă continuă (probabilitate de recompensă 100%), care a fost folosit ca o condiție de comparație. În timp ce a existat un efect principal al recompensei (recompensă versus încercări fără recompensă) în OFC descris mai sus, activitatea OFC nu a variat în funcție de probabilitatea recompensei în studiul curent [F(2,10)=0.84, p=0.46) . În schimb, NAcc a arătat modificări distincte ale activității la rezultat ca o funcție a manipulării probabilității recompensei [F(2,10)=9.32, p<0.005]. Mai exact, activitatea NAcc a crescut pentru a recompensa rezultatele, atunci când recompensa a fost neașteptată (condiția de probabilitate a recompensei 33%) în raport cu cea așteptată (condiția de referință 100%) [t(11)=2.54, p<03 vezi Figura 4a]. În al doilea rând, a existat o activitate NAcc diminuată la nicio recompensă, atunci când o recompensă a fost așteptată și nu a fost primită (condiția de probabilitate a recompensei de 66%) în raport cu recompensa care nu a fost așteptată sau primită (condiția de probabilitate a recompensei de 33%; t(59)=2.08, p <.04; vezi Figura 4b). Rețineți că nu au existat diferențe semnificative în activare între condițiile de probabilitate de recompensă de 33% și 66% [t(11)=.510, p=.62] sau între condițiile de probabilitate de recompensare de 66% și 100% [t(11)= 1.20, p=.26] în rezultatele recompensate. Semnalul MR în funcție de rezultatul recompensei și probabilitatea este afișat în Figura 4.

Figura 4  

Semnalul RM procentual se modifică în funcție de rezultatul recompensei și probabilitatea în nucleul accumbens la a) rezultate recompensate și b) nerecompensate.

Discuție

Acest studiu a examinat efectele încălcărilor rezultatelor așteptate ale recompensei asupra comportamentului și activității neuronale în accumbens și cortexul frontal orbital (OFC), care sa dovedit anterior a fi implicate în anticiparea rezultatelor recompensei (McClure et al 2004; Knutson et al, 2005). Am arătat că atât nucleul accumbens, cât și OFC au fost recrutați în timpul încercărilor recompensate în raport cu studiile nerecompensate, dar numai nucleul accumbens au arătat sensibilitate la încălcări ale rezultatului recompensei prezis în acest studiu. O mai mare sensibilitate a accumbens la valoarea recompensei (de exemplu, magnitudinea) în raport cu OFC a fost demonstrată în lucrările anterioare (Galvan et al 2005), și împreună aceste constatări sugerează că această regiune poate fi implicată în calculul atât a mărimii, cât și a probabilității recompensei. Lipsa de sensibilitate a OFC la aceste manipulări poate reflecta o reprezentare mai absolută a recompensei sau ambiguitatea rezultatului (Hsu și colab., 2005). Alternativ, deoarece semnalul MR a fost mai variabil în această regiune, este posibil ca aceste efecte să fi fost slăbite în studiul actual.

În studiile electrofiziologice la animale, neuronii dopaminergici din mijlocul creierului (care se proiectează către nucleul accumbens) s-au dovedit a avea un răspuns mic sau deloc la rezultatele prognozate de recompensă (probabilitate = 1.0), dar arată o declanșare fazică atunci când recompensa este furnizată cu mai puțin de 100. % probabilitate, chiar și după antrenament extins (Fiorillo et al, 2003). În studiul actual, am arătat o activitate accumbens mai mare pentru a recompensa atunci când recompensa a fost neașteptată (condiție 33%) față de momentul în care era așteptată (condiție 100%) în concordanță cu aceste constatări. În plus, studiile electrofiziologice ale neuronilor dopaminergici la animale (de exemplu, Fiorillo et al, 2003) au arătat că pentru studiile la care recompensa a fost prezisă, dar nu a avut loc, activitatea neuronală a scăzut. Studiul actual a arătat un model similar la accumbens, cu o scădere a activității în această regiune în studiile nerecompensate pentru condiția de probabilitate de recompensă de 66% față de condiția de 33%.2

Neuronii dopaminergici au fost implicați în învățare în două moduri. În primul rând, ele codifică contingențele dintre stimuli (sau răspuns) și rezultate prin semnale de erori de predicție care detectează încălcări ale așteptărilor (Schultz și colab., 1997; Mirencowicz şi Schultz, 1998; Fiorillo et al, 2003). Astfel, eroarea de predicție pare să ofere un semnal de predare care corespunde principiilor de învățare descrise inițial de Rescorla și Wagner (1972). În al doilea rând, ele servesc la modificarea răspunsurilor comportamentale (Schultz și colab., 1997; McClure și colab., 2004) astfel încât acțiunile să fie părtinitoare către indiciile care sunt cele mai predictive. În studiul actual arătăm că prin încercările târzii ale experimentului, cea mai optimă performanță este pentru condiția cu cea mai mare probabilitate de recompensă (probabilitate de recompensă 100%) și cea mai puțin optimă pentru condiția cu cea mai mică probabilitate (probabilitate de recompensă de 33%). Această constatare comportamentală este în concordanță cu munca de probabilitate anterioară, care arată performanța cea mai puțin optimă cu cea mai mică probabilitate de rezultat al recompensei, sugerând că neprevăzutele recompensei au fost învățate în timp (Delgado et al, 2005). Pentru a arăta în continuare învățarea, am introdus o inversare, schimbând probabilitățile de recompensă pentru condițiile de 33% și 100% la sfârșitul experimentului. Această manipulare a dus la atenuarea diferențelor dintre aceste condiții, coroborând și mai mult efectele de învățare.

Un obiectiv major al studiilor legate de recompense este de a determina modul în care recompensele influențează și comportamentul părtinitor (de ex Robbins și Everitt, 1996; Schultz, 2004) pe lângă caracterizarea procesării neuronale subiacente. Numeroși factori contribuie la cât de rapid și robust influențează recompensele comportamentul, inclusiv programele de întărire (Skinner, 1958), valoarea recompensei (Galvan et al, 2005), și predictibilitatea recompensei (Fiorillo et al, 2003; Delgado et al, 2005). Valoarea așteptată, care este produsul mărimii și probabilității unei recompense (Pascal, circa 1600), influențează alegerile comportamentale (von Frisch, 1967; Montague şi colab., 1995; Montague și Berns, 2002). Folosind o sarcină foarte similară în care doar rezultatul (magnitudinea în loc de probabilitate) a diferit de studiul actual, am arătat că nucleul accumbens era sensibil la valorile discrete ale recompensei (Galvan et al, 2005). Luate împreună cu probele prezentate aici și în altă parte (Tobler et al, 2005), sugerăm că striatul ventral contribuie probabil la calcularea valorii așteptate a recompensei, având în vedere sensibilitatea sa atât la probabilitatea cât și la magnitudinea recompensei.

Rolul cortexului frontal orbital în predicția recompensei este în concordanță cu subdiviziunile funcționale ale acestei regiuni prin Kringelbach și Rolls (2004). Ei sugerează că mai multe porțiuni anterioare și mediale ale OFC sunt sensibile la manipulările abstracte ale recompensei. Activarea OFC în acest studiu a fost observată în această locație generală. Studiile electrofiziologice implică OFC în codificarea valorii subiective a unui stimul de recompensă (pentru revizuire, O'Doherty, 2004). De exemplu, neuronii OFC se declanșează cu un anumit gust atunci când unui animal îi este foame, dar își scad rata de aprindere odată ce animalul este săturat și valoarea recompensei hranei a scăzut (Critchley și Rolls, 1996). Ca atare, alții au sugerat că OFC este cel mai sensibil la recompense relative (Tremblay și Schultz, 1999) și preferința de recompensă (Schultz și colab., 2000). Studiile de neuroimagistică au arătat un model analog la oameni cu o varietate de stimuli, inclusiv gust (O'Doherty et al, 2001; Kringelbach și colab., 2003), olfactiv (Anderson și colab., 2003; Rolls et al, 2003), și bani (Elliott et al, 2003; Galvan et al, 2005), cu fiecare activare variind în locația activității de la anterior la posterior și de la OFC medial la lateral. OFC a fost implicat în așteptarea recompensei (O'Doherty et al 2002), dar numai în măsura în care valoarea predictivă a răspunsului este legată de specific valoare a recompensei asociate, mai degrabă decât în ​​probabilitatea ca această recompensă să apară (O'Doherty, 2004 ). În studiul actual, nu am observat sensibilitate la încălcări în predicția recompensei în OFC. Knutson și colegii (2005) au raportat corelații între estimările probabilității și activarea creierului în așteptarea recompensei în cortexul prefrontal mezial (Knutson et al 2005), dar nu în mod specific în cortexul frontal orbital. În contrast, Ramnani et al (2004 ) a raportat sensibilitatea OFC la eroarea de predicție pozitivă în cortexul frontal orbital medial folosind o sarcină de vizualizare pasivă și Dreher et al. (2005) a raportat predicția erorii OFC într-o sarcină care a manipulat atât probabilitatea, cât și magnitudinea indicii predictivi, dar aceste contingențe au fost învățate înainte de scanare. Prin urmare, este încă de susținut faptul că OFC poate calcula recompensele prezise, ​​dar poate că aceste calcule sunt mai brute (adică însumate pe o gamă de probabilități) sau mai lente pentru a se forma în raport cu calculele precise care par să apară în NAcc. Alternativ, această regiune poate fi mai sensibilă la detectarea stimulilor cu valoare incertă și/sau ambiguă, așa cum este propus de Hsu și colab (2005), decât la detectarea încălcărilor în predicția recompensei. Hsu și colab (2005) arată că nivelul de ambiguitate în alegeri (alegeri incerte făcute din cauza lipsei de informații) se corelează pozitiv cu activarea în OFC. În cele din urmă, variabilitatea mai mare a semnalului MR în această regiune poate să fi diminuat capacitatea noastră de a detecta și aceste efecte.

Întrebarea fundamentală a studiului actual a fost modul în care codul accumbens și OFC au prezis în mod diferențial rezultatele recompenselor în raport cu rezultatele neprevăzute (adică încălcările așteptărilor). Am manipulat parametric probabilitatea de recompensă și am examinat răspunsul neuronal la încercările de recompensă și non-recompensă pentru fiecare condiție de recompensă probabilă. Datele noastre sunt în concordanță cu imagistica umană și studiile electrofiziologice non-umane anterioare (Fiorillo et al, 2003; Schultz, 2002) și sugerează că accumbens și OFC sunt sensibili la rezultatul recompensării (recompensă sau nu). Cu toate acestea, activitatea în aceste regiuni, în special în cei accumbens, pare a fi modulată de predicții despre probabilitatea rezultatelor recompenselor care se formează odată cu învățarea în timp. Acest model dinamic de activare ar putea reprezenta modificări ale activității dopaminei în interiorul sau proiectarea către aceste regiuni, pe măsură ce informațiile despre recompensa prezisă sunt învățate și actualizate.

Note de subsol

1NAcc [t(11)=3.2, p<0.04] ​​și OFC [t(11)=3.5, p<0.02] au arătat o activitate crescută în așteptarea recompensei pentru condiția de recompensă intermitentă, dar nu continuă

2Omiterea rezultatului recompensei în condiția de 33% a dus la o ușoară creștere a activității NAcc, mai degrabă decât la o scădere, similară cu cea observată de Knutson și colab., 2001. O posibilă interpretare a acestui rezultat este că subiecții au fost motivați sau recompensați în mod intrinsec dacă au prezis că nu va veni nicio recompensă pentru acel proces, și niciunul nu a făcut-o. Alternativ, deoarece rezultatele recompenselor pentru aceste studii au fost cele mai puține ca număr pe parcursul experimentului, activitatea poate reflecta învățarea continuă pentru această afecțiune.

Declinarea responsabilității editorului: Acesta este un fișier PDF al unui manuscris needitat care a fost acceptat pentru publicare. Ca serviciu pentru clienții noștri oferim această versiune timpurie a manuscrisului. Manuscrisul va fi supus copierii, tipăririi și revizuirii probelor rezultate înainte de a fi publicat în forma sa finală. Rețineți că în timpul procesului de producție pot fi descoperite erori care ar putea afecta conținutul și toate denunțările legale care se referă la jurnal.

Referinte

  • Anderson A, Christoff K, Stappen I, Panitz D, Ghahremani D, Glover G, Gabrieli JD, Sobel N. Reprezentări neuronale disociate ale intensității și valenței în olfactionul uman. Natură Neuroștiință. 2003;6: 196-202.
  • Berns GS, McClure SM, Pagnoni G, Montague PR. Predictibilitatea modulează răspunsul creierului uman la recompensă. Revista de Neuroștiințe. 2001;21: 2793-2798. [PubMed]
  • Boynton GM, Engel SA, Glover GH, Heeger DJ. Analiza sistemelor liniare a imagistică prin rezonanță magnetică funcțională în V1 uman. Revista de Neuroștiințe. 1996;16: 4207-4221. [PubMed]
  • Cox RW. AFNI: Software pentru analiza și vizualizarea neuroimagazelor cu rezonanță magnetică funcțională. Calcule în cercetarea biomedicală. 1996;29: 162-173.
  • Cox SM, Andrade A, Johnsrude IS. A învăța să vă placă: un rol pentru cortexul orbitofrontal uman în recompensa condiționată. Revista de Neuroștiințe. 2005;25: 2733-2740. [PubMed]
  • Craig AD, Chen K, Bandy D, Reiman EM. Activarea termosenzorială a cortexului insular. Natură Neuroștiință. 2000;3: 184-190.
  • Critchley HD, Rolls ET. Foamea și sațietatea modifică răspunsurile neuronilor olfactiv și vizual din cortexul orbitofrontal al primatelor. Journal of Neurophysiology. 1996;75: 1673-1686. [PubMed]
  • De Araujo IET, Kringelbach ML, Rolls ET, McGlone F. Răspunsurile corticale umane la apă în gură și efectele setei. Journal of Neurophysiology. 2003;90: 1865-1876. [PubMed]
  • Delgado MR, Miller M, Inati S, Phelps EA. Un studiu fMRI al învățării probabilităților legate de recompense. Neuroimage. 2005;24: 862-873. [PubMed]
  • Dreher JC, Kohn P, Berman KF. Codificarea neuronală a proprietăților statistice distincte ale informațiilor despre recompense la oameni. Cortex cerebral. 2005 Epub înainte de imprimare.
  • Elliott R, Newman JL, Longe OA, Deakin JFW. Modele de răspuns diferențiate în cortexul striat și orbitofrontal la recompensa financiară la oameni: un studiu de imagistică prin rezonanță magnetică funcțională parametrică. Revista de Neuroștiințe. 2003;23: 303-307. [PubMed]
  • Fiorillo CD, Tobler PN, Schultz W. Codificarea discretă a probabilității și incertitudinii recompensei de către neuronii dopaminergici. Știință. 2003;299: 1898-1902. [PubMed]
  • Galvan A, Hare TA, Davidson M, Spicer J, Glover G, Casey BJ. Rolul circuitelor frontostriale ventrale în învățarea bazată pe recompense la om. Jurnalul de Neuroștiințe. 2005;25: 8650-8656. [PubMed]
  • Galvan A, Hare TA, Parra C, Penn J, Voss H, Glover G, Casey BJ. Dezvoltarea mai timpurie a accumbens în raport cu cortexul orbitofrontal poate sta la baza comportamentelor de asumare a riscurilor la adolescenți. Jurnalul de Neuroștiințe. 2006;26: 6885-6892. [PubMed]
  • Gottfried JA, O'Doherty J, Dolan RJ. Codificarea valorii de recompensă predictivă la amigdala umană și la cortexul orbitofrontal. Știință. 2003;301: 1104-1107. [PubMed]
  • Haber SN. Ganglionii bazali de primate: rețele paralele și integrative. Journal of Chemical Neuroanatomy. 2003;26: 317-330. [PubMed]
  • Hollerman J, Schultz W. Neuronii dopaminergici raportează o eroare în predicția temporală a recompensei în timpul învățării. Natură Neuroștiință. 1998;1: 304-309.
  • Hsu M, Bhatt M, Adolphs R, Tranel D, Camerer CF. Sistemele neuronale care răspund la grade de incertitudine în luarea deciziilor umane. Știință. 2005;310: 1680-1683. [PubMed]
  • Knutson B, Adams CM, Fong GW, Hommer D. Anticiparea unei recompense monetare crescătoare selectiv recrutează nucleul accumbens. Revista de Neuroștiințe. 2001;21: 1-5.
  • Knutson B, Taylor J, Kaufman M, Peterson R, Glover G. Reprezentarea neuronală distribuită a valorii așteptate. Jurnalul de Neuroștiințe. 2005;25: 4806-4812. [PubMed]
  • Kringelbach ML, O'Doherty J, Rolls ET, Andrews C. Activarea cortexului orbitofrontal uman la un stimul alimentar lichid este corelată cu plăcerea subiectivă. Cortex cerebral. 2003;13: 1064-1071. [PubMed]
  • Kringelbach ML, Rolls ET. Neuroanatomia funcțională a cortexului orbitofrontal uman: dovezi din neuroimagistică și neuropsihologie. Progrese în neurobiologie. 2004;72: 341-372. [PubMed]
  • Leon MI, Shadlen MN. Efectul mărimii recompensei așteptate asupra răspunsului neuronilor din cortexul prefrontal dorsolateral al macacului. Neuron. 1999;24: 415-425. [PubMed]
  • McClure SM, Berns GS, Montague PR. Erorile de predicție temporală într-o sarcină de învățare pasivă activează striatul uman. Neuron. 2003;38: 339-346. [PubMed]
  • McClure SM, Laibson DI, Loewenstein G, Cohen JD. Sistemele neuronale separate acordă recompense monetare imediate și întârziate. Știință. 2004;306: 503-507. [PubMed]
  • Mirenowicz J, Schultz W. Importanța imprevizibilității pentru răspunsurile la recompense în neuronii dopaminei primate. Journal of Neurophysiology. 1994;72: 1024-1027. [PubMed]
  • Montague PR, Berns GS. Economia neuronală și substraturile biologice ale evaluării. Neuron. 2002;36: 265-284. [PubMed]
  • Montague PR, Hyman SE, Cohen JD. Rolurile computaționale ale dopaminei în controlul comportamental. Natura. 2004;431: 379-387.
  • O'Doherty JP. Reprezentări de recompense și învățare legată de recompense în creierul uman: perspective din neuroimagistică. Opinia curentă în neurobiologie. 2004;14: 769-776. [PubMed]
  • O'Doherty JP, Dayan P, Friston K, Critchley H, Dolan RJ. Modele de diferențe temporale și învățare legată de recompensă în creierul uman. Neuron. 2003;38: 329-337. [PubMed]
  • O'Doherty JP, Deichmann R, Critchley HD, Dolan RJ. Răspunsuri neuronale în timpul anticipării unei recompense gustative primare. Neuron. 2002;33: 815-826. [PubMed]
  • O'Doherty J, Kringelbach M, Rolls ET, Hornak J, Andrews C. Reprezentări abstracte de recompensă și pedeapsă în cortexul orbitofrontal uman. Natură Neuroștiință. 2001;4: 95-102.
  • O'Doherty J, Rolls ET, Francis S, Bowtell R, McGlone F, Kobal G, Renner B, Ahne G. Activarea olfactivă legată de sațietate specifică senzorială a cortexului orbitofrontal uman. Neuroreport. 2000;11: 893-897. [PubMed]
  • Olds J, Milner P. Armarea pozitivă produsă de stimularea electrică a zonei septale și a altor regiuni ale creierului de șobolan. Jurnal de fiziologie și psihologie comparată. 1954;47: 419-427.
  • Ramnani N, Elliott R, Athwal B, Passingham R. Eroare de predicție pentru recompensă monetară gratuită în cortexul prefrontal uman. NeuroImage. 2004;23: 777-786. [PubMed]
  • Rescorla R, Wagner A. În: Condiționarea clasică 2: Cercetare și teorie curentă. Black A, Prokasy W, editori. Appleton Century-Crofts; New York: 1972. p. 64–69.
  • Robbins TW, Everitt BJ. Mecanisme neurocomportamentale de recompensă și motivație. Opinii actuale în neurobiologie. 1996;6: 228-235.
  • Rolls E, Kringelbach M, DeAraujo I. Diferite reprezentări ale mirosurilor plăcute și neplăcute în creierul uman. European Journal of Neuroscience. 2003;18: 695-703. [PubMed]
  • Schultz W, Dayan P, Montague PR. Un substrat neural de predicție și recompensă. Știință. 1997;275: 1593-1599. [PubMed]
  • Schultz W, Tremblay L, Hollerman JR. Prelucrarea recompenselor în cortexul orbitofrontal primat și în ganglionii bazali. Cereb Cortex. 2000;10: 272-284. [PubMed]
  • Schultz W. Obtinerea formalei cu dopamina si recompensa. Neuron. 2002;36: 241-263. [PubMed]
  • Schultz W. Codificarea neuronală a termenilor de bază de recompensă din teoria învățării animalelor, teoria jocurilor, microeconomie și ecologie comportamentală. Opinia curentă în neurobiologie. 2004;14: 139-147. [PubMed]
  • Skinner BF. Diagramarea graficelor de armare. Journal of Experimental Analysis of Behavior. 1958;1: 103-107.
  • Sutton RS, Barto AG. Învățare prin consolidare: o introducere. MIT Press; Cambridge, MA: 1998.
  • Schultz W, Tremblay L, Hollerman J. Procesarea recompensei în cortexul orbitofrontal al primatelor și ganglionii bazali. Cortex cerebral. 2000;10: 272-284. [PubMed]
  • Talairach J, Tournoux P. Colajul stereotaxic co-planar al creierului uman. Thieme; New York: 1988.
  • Tobler PN, Fiorillo CD, Schultz W. Codarea adaptivă a valorii recompensei de către neuronii dopaminergici. Știință. 2005;307: 1642-1645. [PubMed]
  • Tremblay L, Schultz W. Preferință de recompensă relativă în cortexul orbitofrontal al primatelor. Natura. 1999;398: 704-708. [PubMed]
  • von Frisch K. Limbajul dansului și orientarea albinelor. Harvard University Press; Cambridge, Massachusetts: 1967.