Costul obținerii de recompense sporește semnalul de eroare de predicție a recompenselor neuronilor de dopamină cerebrală mijlocie (2019)

Abstract

Se știe că neuronii dopaminei din creierul mijlociu codifică erorile de predicție a recompensei (RPE) utilizate pentru actualizarea predicțiilor valorice. Aici, vom examina dacă semnalele RPE codificate de neuronii dopaminei midbrain sunt modulate de costul plătit pentru obținerea recompenselor, prin înregistrarea de la neuroni dopaminici la maimuțele care se comportă treaz în timpul efectuării unei sarcini de sacadă efortante. Răspunsurile neuronului dopaminic la indicii care prezic recompensa și la livrarea de recompense au fost crescute după efectuarea unei acțiuni costisitoare comparativ cu o acțiune mai puțin costisitoare, sugerând că RPE-urile sunt îmbunătățite în urma efectuării unei acțiuni costisitoare. La nivel comportamental, asociațiile stimul-recompensă sunt învățate mai repede după efectuarea unei acțiuni costisitoare comparativ cu o acțiune mai puțin costisitoare. Astfel, informațiile despre costul acțiunii sunt procesate în sistemul de recompensare a dopaminei într-un mod care amplifică următorul semnal RPE de dopamină, care, la rândul său, promovează o învățare mai rapidă în situații de costuri ridicate.

Introducere

Oamenii și animalele preferă o recompensă primită după ce au depus eforturi mari pentru a o obține comparativ cu aceeași recompensă după un efort mai mic1,2,3. Au fost prezentate o serie de explicații pentru acest efect, cum ar fi justificarea efortului4,5 și efectul de contrast6, în care se atribuie o valoare mai mare unui rezultat obținut după efort plătit. Cu toate acestea, rămâne neclar dacă și modul în care procesarea informațiilor de recompensă în creier este modulată de efortul depus pentru a obține o recompensă.

Ne-am concentrat în mod special pe sistemul de dopamină din creierul mediu, având în vedere rolul acestui sistem în promovarea adaptării comportamentale la recompense7,8,9. Se știe că neuronii dopaminici reprezintă semnalele de eroare de predicție a recompensei (RPE) care pot facilita învățarea predicțiilor recompensei de către ganglionii bazali10,11,12,13,14,15,16,17. Puterea RPE depinde de cantitatea, calitatea și valoarea subiectivă sau utilitatea recompensei7,18,19,20,21. Mai mult, activitatea dopaminergică este modulată de costuri și / sau efort22,23. Pe această bază, am postulat că semnalul RPE dopaminergic ar fi direct modulat de costul plătit pentru a obține o recompensă. Mai mult, deoarece semnalul RPE este implicat cauzal în medierea învățării asociațiilor stimul-recompensă24,25,26, am emis ipoteza că costul plătit pentru a obține recompensa ar crește direct viteza de învățare a asociațiilor stimul-recompensă.

Pentru a ne testa ipotezele, am măsurat atât comportamentul, cât și activitatea dopaminergică la două maimuțe japoneze, în timp ce acestea efectuau o sarcină de efort bazată pe sacadă. Maimuțele reacționează mai repede la un indiciu de predicție a recompensei care este prezentat după o acțiune cu costuri ridicate (HC) comparativ cu cea după o acțiune cu costuri reduse (LC). Activitatea neuronilor dopaminergici până la indicii de predicție a recompensei este crescută cu costul plătit. În plus, viteza de învățare a asociației stimul-recompensă este, de asemenea, sporită de costul plătit. Prin urmare, sugerăm că costul plătit pentru obținerea recompenselor crește semnalul RPE în neuronii dopaminici și, prin urmare, îmbunătățește asociațiile stimul-recompensă.

REZULTATE

Activitate de sacadare High-Low Cost (HLC)

Pentru a examina efectul costului plătit asupra comportamentului și asupra activității neuronului dopaminic, maimuțele au efectuat o sarcină de sacadare cu două condiții de cost (Fig. 1a, vezi Metode). În studiile HC, maimuțele au făcut rapid o sacadă la țintă și și-au ținut privirea asupra ei fără să clipească pentru o perioadă mai lungă (Fig. 1b; linii verzi). În contrast, în studiile LC maimuțele s-au uitat liber în jur înainte de a se fixa pentru o perioadă mai scurtă (fig. 1b, linii violete). Deoarece menținerea unei fixări lungi este dificilă pentru maimuțe, acestea au făcut mai multe erori în timpul întârzierilor în studiile HC (Fig. 1c). Pentru a controla diferența consecventă în probabilitatea recompensei între studiile HC și studiile LC, am inserat avorturi forțate într-o porțiune din studiile LC pentru a egaliza ratele de succes și probabilitățile de recompensă între tipurile de studii (Fig. 1d).

Fig. 1
figure1

Sarcină HLC Saccade. a Sarcina de sacadare HLC. Indicatorii de cost (C cue) au semnalat efortul necesar pentru a obține o recompensă potențială. A fost necesară o fixare îndelungată în timpul perioadei de întârziere în studiile cu costuri ridicate. Indicatorul de recompensă (indiciu R) indică dacă maimuțele ar putea obține o recompensă sau nu. b Cursul de timp al unghiului de vedere în timpul perioadei de întârziere. Panourile superioare și inferioare prezintă unghiurile de privire orizontale și, respectiv, verticale. Liniile verzi și violet indică unghiul de vedere în studiile cu costuri ridicate (50 de studii în fiecare panou) și, respectiv, în studiile cu costuri reduse (50 de studii în fiecare panou). c Numărul de erori din perioada de întârziere în studiile cu costuri ridicate și cu costuri reduse (**P< 0.01; cu două cozi împerecheați t Test; t67 = 8.8, P = 4.8 × 10-15, n = 68 pentru Monkey P; t83 = 26.6, P ≈ 0, n = 84 pentru Monkey S). Cercurile negre și barele de eroare indică media și SEM. d Ratele de succes în studiile cu costuri ridicate și cele cu costuri reduse (cu două cozi t Test; t67 = 0.51, P = 0.61, n = 68 pentru Monkey P; t83 = 0.79, P = 0.43, n = 84 pentru Monkey S). e RT la indicii de cost (**P <0.01; cu două cozi împerecheați t Test; t67 = 20.4, P ≈ 0, n = 68 pentru Monkey P; t69 = 2.0, P = 1.2 × 10-3, n = 70 pentru Monkey S). f RT la indicii de recompensă (**P <0.01; cu două cozi împerecheați t Test; Monkey P (n = 68): HC + vs. LC +, t67 = 3.5, P = 9.2 × 10-4; HC− vs. LC−, t67 = 24.5, P ≈ 0; HC + vs. HC−, t67 = 21.6, P ≈ 0; LC + vs. LC−, t67 = 28.5, P ≈ 0; Monkey S (n = 70): HC + vs. LC +, t69 = 5.6, P = 4.4 × 10-7; HC− vs. LC−, t69 = 4.8, P = 8.4 × 10-5; HC + vs. HC−, t69 = 18.0, P ≈ 0; LC + vs. LC−, t69 = 5.9, P = 1.1 × 10-7)

Costul plătit crește valoarea indicilor de predicție a recompensei

Pentru a obține dovezi implicite pentru o diferență în evaluarea subiectivă a indicilor de către maimuță, am testat timpii de reacție ai maimuțelor (RT). În special, am anticipat că, dacă maimuțele atribuie o valoare subiectivă mai mare unei opțiuni decât altei, acestea ar trebui să afișeze RT mai rapide pentru opțiunea mai apreciată27. Când RT-urile au fost comparate între indicii de cost, ambele maimuțe au prezentat RT-uri mai rapide la LC în comparație cu tacul HC (Fig. 1e), demonstrând o preferință implicită pentru condiția LC. Când RT-urile au fost comparate între indicii de recompensă, ambele maimuțe au prezentat RT-uri mai rapide pentru a recompensa (R +) indicii decât indicii fără recompensă (R−) (Fig. 1f), indicând faptul că au preferat indicii R + decât indicii R. În plus, ambele maimuțe au prezentat RT mai rapide la RHC+ tac comparativ cu RLC+ indiciu și către RHC- tac comparativ cu RLC- tac (Fig. 1f), indicând faptul că au apreciat mai mult indicii de predicție a recompensei în HC comparativ cu starea LC.

În plus, am inclus studii de alegere în sarcina de sacadare HLC pentru a testa preferințele evidente ale maimuțelor între indicii (Fig. Suplimentară. 1a). Maimuțele au ales preferențial indicii LC atunci când aleg între indicii de cost (Fig. Suplimentară. 1b). Monkey S a ales preferențial RHC+ tac atunci când efectuați sarcina de alegere între RHC+ și RLC+ indiciu, dar nici o preferință între RHC- și RLC- indicii (Fig. Suplimentar 1c, d). În schimb, maimuța P nu a arătat nici o preferință evidentă între RHC+ și RLC+ indicii, dar cu toate acestea a preferat RHC- indicați atunci când alegeți între RHC- și RLC- indicii (Fig. Suplimentar 1c, d).

Rezultate electrofiziologice în sarcina de sacadă HLC

Am înregistrat o activitate unitară de la neuroni situați în substanța nigra pars compacta (SNc) și zona tegmentală ventrală (VTA) în timpul sarcinii de sacare HLC. Am identificat 70 de neuroni dopaminici de-a lungul celor două maimuțe (Fig. Suplimentar. 2a; 18 și 52 de neuroni de la Monkey P și, respectiv, S). Examenul histologic a confirmat că neuronii au fost localizați în sau în jurul SNc / VTA (Fig. Suplimentar. 2b).

În Fig. 2, arătăm activitatea unui neuron dopaminic reprezentativ. Acest neuron a arătat o activare modestă a indicelui LC și activarea sau suprimarea fazică a recompensei (RHC+ și RLC+) sau fără indicii de recompensă (RHC- și RLC-), respectiv (Fig. 2, Fig. Suplimentar 3). Neuronul a arătat, de asemenea, activarea fazică a recompensei imprevizibile, precum și suprimarea fazică ca răspuns la un stimul aversiv, un puf de aer imprevizibil (Fig. 2, panoul din dreapta). În plus, neuronul a arătat o supresie modestă până la indicii inițiali, dar nu a răspuns la recompensarea livrării. Întreaga populație de neuroni dopaminerici pe care am înregistrat-o a arătat cu toții răspunsuri similare la indicarea inițială și livrarea recompensei (Fig. Suplimentară. 4a, b). În sarcina de sacare HLC, s-a plătit un cost de efort înainte de a obține recompensa. Deoarece costul prezis a redus activitatea neuronului dopaminic22,23, răspunsurile neuronului dopaminic ar fi suprimate în momentul prezentării inițiale16.

Fig. 2
figure2

Activitatea unui neuron dopaminic reprezentativ în sarcina de sacadă HLC. Funcțiile de densitate a vârfurilor (implicate cu o funcție Gaussiană) și graficele raster sunt aliniate cu momentul de debut al tacului de start, cu tacul de cost (cu tac C), cu ținta de fixare, cu tacul de recompensă (cu tac R) și cu bip. Fiecare culoare reprezintă o condiție (galben: HC +, verde: HC−, roz: LC +, cian: LC−), respectiv. Momentele apariției sacadei sunt indicate de cruci gri. Răspunsurile neuronilor dopaminerici la recompensa imprevizibilă sau puf de aer sunt, de asemenea, reprezentate în panoul din dreapta (roșu: recompensă imprevizibilă, albastru: puf de aer imprevizibil)

Neuronii dopaminici codifică informații atât despre recompensă, cât și despre cost

Neuronii au răspuns treptat la tacul LC, dar mai puțin robust la tacul HC (Fig. 3a, b). Răspunsurile evocate la indicii privind condițiile de cost au prezentat un răspuns mai mic la indicii HC decât indicii LC (testul cu două cozi al lui Wilcoxon semnat, P <3.2 × 10-4, n = 70). Am cuantificat efectul costului prezis asupra răspunsurilor neuronale utilizând o analiză a caracteristicii de funcționare a receptorului (ROC). Distribuția zonei sub curba ROC (auROC) a fost semnificativ <0.5 (Fig. 3c; testul de rang semnat Wilcoxon cu două cozi; P = 5.4 × 10-4, n = 70), indicând faptul că răspunsurile la indicii HC au fost mai mici decât la indicii LC. Costul prezis a fost găsit anterior pentru a reduce activitatea neuronului dopaminic, în concordanță cu rezultatele noastre22,23. În plus, populația de neuroni dopaminici a prezentat o activare semnificativă a indicelui LC în timp ce nu a prezentat nicio supresie semnificativă a indicilor HC (Fig. Suplimentară. 4c, d). Aceste rezultate sugerează că neuronii dopaminei codifică și integrează informații despre recompensă și costuri în momentul prezentării costului.

Fig. 3
figure3

Răspunsurile neuronului dopaminic la indicii de cost. a Un răspuns reprezentativ al neuronului dopaminic la indicii de cost. Funcțiile densității vârfurilor au fost calculate din activitatea normalizată a unui neuron dopaminergic înregistrat de la maimuța P. Liniile colorate indică funcțiile densității vârfurilor, iar punctele colorate indică sincronizarea vârfului. Culorile verde și violet indică activitatea în studiile cu costuri ridicate și, respectiv, cu costuri reduse. Linia verticală indică momentul prezentării costului. Zona de culoare gri indică perioada de calcul a ratei de tragere ca răspuns la indicii de stare. b Activitatea mediană a populației a neuronilor dopaminergici înregistrată de la maimuța P până la indicii de stare. Liniile solide, liniile punctate reprezintă media și, respectiv, SEM. c Distribuția zonelor din ROC pentru a cuantifica efectul costului prezis asupra răspunsului neuronal la indicele de cost. Pătratele umplute și cercurile deschise indică datele de la maimuța P și respectiv S. Vârful săgeții indică mediana auROC (0.47). d, g Răspunsuri reprezentative ale neuronului dopaminic de tip motivațional (d) sau neuron dopaminic de tip salience (g) la recompensa imprevizibilă sau puf de aer. Curbele roșii și albastre indică răspunsul la recompensa imprevizibilă și, respectiv, la puful de aer imprevizibil. Linia verticală indică momentul recompensei imprevizibile sau livrării aerului. Pătratele roșii și albastre pal indică perioada pentru calcularea ratei de tragere ca răspuns la recompensa imprevizibilă sau puf de aer. e, h Activitatea medie a populației de neuroni dopaminici de tip motivațional cu valoare motivațională (e) sau neuroni dopaminici de tip salience (h) la recompensa imprevizibilă sau puf de aer. f, i Distribuția auROC-urilor calculate din valoarea motivațională de tip neuroni dopaminici (f) sau neuroni dopaminici de tip salience (i). Vârfurile săgeții indică medianele auROC-urilor (f 0.48; i 0.46)

Au fost descrise anterior două subtipuri distincte de neuroni dopaminergici: valoarea motivațională și neuronii de evidență28,29. Am găsit dovezi în populația noastră de neuroni dopaminatici a unor modele de răspuns compatibile cu ambele subtipuri. Neuronii de tip valoric au arătat suprimarea fazică a stimulilor aversivi ai pufului de aer (Fig. 3d, e). În schimb, neuronii de evidență au arătat o activare fazică a stimulilor aversivi (fig. 3g, h). Fixarea îndelungată în procesul HC este, de asemenea, neplăcută și aversivă; prin urmare, este posibil ca cele două subtipuri de neuroni dopaminici să prezinte modele de răspuns diferite la indicii condiției de cost. Dacă neuronii dopaminergici reprezintă stimuli și costuri aversive într-o manieră similară, atunci neuronii de valoare ar trebui să prezinte o activitate scăzută la tacul HC datorită aversivității sale. Pe de altă parte, neuronii de evidență ar trebui să crească în activitate la indicii HC, deoarece cresc și la stimuli neplăcuti. Cu toate acestea, răspunsurile evocate ale ambelor tipuri de neuroni au fost mai mici la tacul HC comparativ cu tacul LC (testul cu două cozi al lui Wilcoxon semnat-rang; P = 0.021, n = 41 și P = 0.0044, n = 29 pentru valoare și, respectiv, tipurile de evidență), iar analiza ROC a arătat răspunsuri mai mici la HC comparativ cu tacul LC în ambele subtipuri (Fig. 3f, i; testul de rang semnat Wilcoxon cu două cozi; P = 0.030, n = 41 și P = 0.0058, n = 29 pentru valoare, respectiv tipurile de evidență). Astfel, costul prezis a redus activitatea în ambele subtipuri de neuroni dopaminergici. Aceste rezultate indică faptul că informațiile privind costurile sunt procesate de neuronii dopaminici într-un mod calitativ diferit față de stimulii aversivi.

În sarcina de sacadare HLC, am inserat un avort forțat într-o porțiune din studiile LC pentru a egaliza ratele de succes și probabilitatea de recompensă între tipurile de studii. Această manipulare a crescut incertitudinea de a obține recompensă sau riscul de a nu primi recompensă în starea LC. Prin urmare, activitatea mai mare a neuronilor dopaminici și evaluarea crescută a maimuțelor pentru LC peste tacul HC s-ar putea datora diferenței de risc sau incertitudinii dintre condițiile de cost. Cu toate acestea, nu am găsit nicio relație între numărul de avorturi forțate și diferența dintre RT (Fig. Suplimentară. 5a, b), și am găsit o corelație pozitivă între numărul de avorturi forțate și auROC (Fig. suplimentară. 5c). Am comparat, de asemenea, răspunsurile dopaminei la indicii de cost după avorturi vs. după studii corecte, dar nu am găsit nicio diferență în ambele condiții de cost (Fig. Suplimentară. 5d). Aceste rezultate indică faptul că numărul de avorturi forțate în starea LC nu explică nici creșterea evaluării, nici activarea dopaminergică îmbunătățită la reperul LC.

Răspunsuri crescute la dopamină pentru a recompensa indicii în funcție de costul plătit

Neuronii dopaminei înregistrați s-au dovedit a activa activarea și suprimarea fazică pentru a recompensa și nu au indicii care să prevadă recompensa, respectiv (Fig. 2). Apoi, am evaluat dacă aceste răspunsuri au fost modulate de costul suportat anterior. Un exemplu de neuron reprezentativ și neuroni mediată de populație care prezintă activare mai mare la RHC+ indiciu decât RLC+ tac sunt prezentate în figura 4a și respectiv b. (testul de rang semnat Wilcoxon cu două cozi; P = 7.4 × 10-5, n = 70). Distribuția auROC-urilor a fost> 0.5, indicând faptul că răspunsul la RHC+ tac a fost mai mare decât la RLC+ tac (Fig. 4c; testul de rang semnat Wilcoxon cu două cozi; P = 1.4 × 10-4, n = 70). Aceste rezultate indică faptul că răspunsul la indicii de predicție a recompensei în starea HC este semnificativ mai mare decât în ​​starea LC. Prin urmare, constatările noastre sugerează că semnalul RPE pozitiv reprezentat de neuronii dopaminici este crescut cu costul suportat anterior.

Fig. 4
figure4

Răspunsurile neuronului dopaminic pentru a recompensa indicii. a Un exemplu de răspuns al neuronilor la indicii R +. Funcțiile densității vârfurilor au fost calculate din activitatea neuronului dopaminergic înregistrat de la maimuța P. Liniile și punctele colorate indică densitatea vârfurilor și, respectiv, sincronizarea vârfurilor. Culorile galben și roz indică activitate în studiile cu costuri ridicate și, respectiv, cu costuri reduse. Linia verticală indică momentul prezentării R + cue. Zona de culoare gri indică perioada de calcul a ratei de tragere ca răspuns la indicii de recompensă. b Activitatea medie a populației a neuronilor dopaminergici înregistrată de la maimuța P la indicii R +. Liniile solide și liniile întrerupte reprezintă media și, respectiv, SEM. c Distribuția auROC-urilor pentru a cuantifica efectul costului plătit asupra răspunsului neuronal la indicii R +. Pătratele umplute și cercurile deschise indică datele de la maimuța P și respectiv S. Vârful săgeții indică mediana auROC-urilor (0.53). d Un răspuns reprezentativ la R-cues. Culorile verde și cyan indică, respectiv, studii cu costuri ridicate și cu costuri reduse. Linia verticală indică momentul prezentării R-cue. e Activitatea mediană a populației a neuronilor dopaminergici înregistrată de la maimuța P la indicii R. f Distribuția auROC-urilor pentru a cuantifica efectul costului plătit asupra răspunsului neuronal la R-cues. Vârful săgeții indică mediana auROC (0.50)

Neuronii dopaminici au arătat, de asemenea, suprimarea fazică a indiciilor R (Fig. 4d, e). Cu toate acestea, răspunsurile neuronilor dopaminergici la indicii R nu au arătat o diferență semnificativă în funcție de costul suportat (testul cu două cozi al lui Wilcoxon semnat); P = 0.25, n = 70), iar analiza ROC nu a dezvăluit nicio dovadă a unei tendințe în distribuția răspunsului (Fig. 4f; Testul semnat de Wilcoxon, P = 0.35; n = 70). Astfel, costul plătit nu a fost reflectat în semnalul RPE negativ provocat de indicii care nu prevăd recompense. Acest lucru poate fi cauzat de un efect de podea: activitatea spontană a neuronului dopaminic este scăzută (în jur de 5 Hz); și, în consecință, este posibil să nu existe un interval dinamic suficient pentru a codifica în mod adecvat o astfel de diferență de cost cheltuită pentru răspunsul RPE negativ (fig. 4d, e).

Am examinat, de asemenea, efectul costului plătit asupra indicilor de recompensă pentru neuroni dopaminici de tip valoare și saliență separat, dar ambele tipuri de neuroni dopaminici au prezentat un model de răspuns similar (Fig. 6a – h). Prin urmare, costul plătit manifestă un efect similar asupra răspunsului la recompensarea indicilor atât în ​​neuroni dopaminici, cât și în valoare.

Duratele efective de fixare ale maimuțelor nu au fost constante, dar au variat pe bază de proces cu proces (fig. 1b). Prin urmare, a fost posibil ca răspunsurile dopaminei la indicii de recompensă să fie modulate de duratele efective de fixare, pe bază de proces. Cu toate acestea, nu am putut găsi nicio corelație semnificativă între ele pentru fiecare condiție de cost și recompensă (Fig. Suplimentară. 7anunț). Mai mult, RT-urile la indicii de recompensă au fost, de asemenea, modulate de condițiile de cost și recompensă (Fig. 1f). O posibilitate este că răspunsurile neuronilor dopaminerici ar putea fi explicate de către RTs la indicii de recompensă, pe bază de proces cu proces. Cu toate acestea, nu am putut găsi nicio corelație semnificativă între RT și răspunsurile normalizate la dopamină la indicii de recompensă (Fig. Suplimentară. 7e – h). Aceste rezultate sugerează că răspunsurile la dopamină sunt independente atât de RT cât și de duratele de fixare ale fiecărui proces, totuși modulate de suma costurilor necesare și de recompensa așteptată care sunt fixate pentru fiecare tip de studii.

Mai mult, este, de asemenea, posibil ca avortul forțat în starea LC să genereze atât preferințele maimuțelor, cât și activarea îmbunătățită a neuronilor dopaminergici la indicii de recompensă în starea HC. Dacă da, numărul avorturilor forțate ar trebui să fie legat atât de preferință, cât și de gradul de activare îmbunătățită. Cu toate acestea, numărul de avorturi forțate nu a avut efecte nici asupra preferinței maimuțelor, nici asupra activării neuronilor dopaminergici la indicii de recompensă (Fig. Suplimentară. 8). Prin urmare, RT-uri mai rapide și răspunsuri DA mai mari la RHC+ indiciu decât RLC+ tac nu se datorează întreruperilor forțate inserate în starea LC.

Costul suportat crește răspunsurile dopaminei pentru a recompensa livrarea

Răspunsul neuronilor dopaminergici la indicii R + ar trebui să provină din răspunsul la recompensa în sine, deoarece neuronii dopaminergici își modifică răspunsul la indicii de predicție a recompensei în raport cu asocierea stimul-recompensă.8,30. Prin urmare, ne-am așteptat ca neuronii dopaminici să prezinte o îmbunătățire a răspunsului dependent de cost plătit pentru a recompensa livrarea. Pentru a măsura activitatea neuronului dopaminic până la livrarea recompensei, maimuțele au efectuat sarcina incertă a HLC cu două indicii noi de recompensare (Fig. 5a). Deoarece recompensele au fost livrate numai în jumătate din prezentările de recompense, indicii de recompensă nu au prezis în mod fiabil și nici nu au predit în mod diferit livrarea recompensei. Acest lucru a fost făcut pentru a maximiza capacitatea de reacție a neuronilor dopaminergici la primirea unei recompense (neprevăzute), astfel încât să creștem sensibilitatea noastră pentru a detecta o modulație a reacției neuronilor în funcție de costul cheltuit.

Fig. 5
figure5

Sarcină incertă HLC. a Sarcina incertă a HLC. În această sarcină, au fost utilizate indicii de recompensă incerte, în care recompensele au fost livrate 50% din timp, indiferent de indicii care au fost prezentate. b RT la indicii de cost în studiile cu costuri ridicate și cu costuri reduse. Numai maimuța P a arătat un RT mai rapid la tacul LC decât tacul HC (**P <0.01; cu două cozi împerecheați t Test; t4 = 9.0, P = 8.5 × 10-4, n = 5 pentru maimuța P; t18 = 1.4, P = 0.19, n = 19 pentru maimuța S). Cercurile negre și barele de eroare indică media și SEM. c RT la indicii de recompensă în studiile cu costuri ridicate și cu costuri reduse. Nu a existat nicio diferență în RT în ceea ce privește indicii de recompensă între condiția de cost ridicat și costul redus (cu două cozi asociată t Test; t4 = 0.97, P = 0.39, n = 5 pentru maimuța P; t18 = 0.99, P = 0.39, n = 19 pentru maimuța S)

Când RT-urile au fost comparate între indicii de cost, maimuța P a arătat o RT mai rapidă la indicii LC decât indicii HC (Fig. 5b). Nu a existat nicio diferență în RT la indicii de recompensă între starea HC și LC la oricare dintre maimuțe (Fig. 5c).

În sarcina incertă a HLC, neuronii dopaminici au prezentat o activare modestă a indicelui LC, dar nu au răspuns la indicii de recompensă, deoarece nu au fost predictivi pentru recompensă (Fig. 6a). În întreaga populație, răspunsurile evocate au fost mai mici la HC decât indicii LC (fig. 6b; testul de rang semnat Wilcoxon cu două cozi; P = 2.7 × 10-3, n = 19), iar analizele ROC au arătat răspunsuri mai mici la tacul HC (Fig. 6c; testul de rang semnat Wilcoxon cu două cozi; P = 5.5 × 10-3, n = 19). Răspunsul neuronal la recompensarea livrării în starea HC a fost mai mare decât LC (Fig. 6d; testul de rang semnat Wilcoxon cu două cozi; P = 0.036, n = 19). Distribuția auROC-urilor a fost> 0.5 indicând un răspuns mai mare de livrare a recompensei în HC comparativ cu studiile LC (Fig. 6e; testul de rang semnat Wilcoxon cu două cozi; P = 0.049, n = 19). Aceste rezultate indică faptul că răspunsul la livrarea recompensei este îmbunătățit în studiul HC și că costul plătit crește semnalul RPE pozitiv la livrarea recompensei.

Fig. 6
figure6

Răspunsul neuronului dopaminic la recompensa. a Activitatea reprezentativă a neuronului dopaminic în sarcina incertă a HLC. Fiecare culoare reprezintă condițiile (galben: HC +, verde: HC−, roz: LC +, cyan: LC−). Momentele apariției sacadei sunt indicate de cruci gri. Răspunsurile acestui neuron dopaminic la recompensa imprevizibilă și puf de aer sunt, de asemenea, descrise în panoul din dreapta (roșu: recompensă imprevizibilă, albastru: puf de aer imprevizibil). b Activitatea medie a populației a neuronilor dopaminergici înregistrată de la maimuța S până la indicii de stare. Culorile verde și violet indică activitate în studiile cu costuri ridicate și, respectiv, cu costuri reduse. Liniile solide și liniile întrerupte reprezintă media și, respectiv, SEM. Zona de culoare gri indică fereastra de timp pentru calcularea ratei de tragere ca răspuns la indicii de stare. c Distribuția auROC-urilor pentru a cuantifica efectul costului prezis asupra răspunsului neuronal la indicii de cost. Pătratele umplute indică datele de la maimuța P (n = 3) și cercurile deschise indică datele de la maimuța S (n = 16). Vârful săgeții indică mediana auROC (0.44). d Activitatea medie a populației a neuronilor dopaminergici înregistrată de la maimuța S până la livrarea recompensei. Culorile galben și roz indică activitate în studiile cu costuri ridicate și, respectiv, cu costuri reduse. Zona de culoare gri indică fereastra de timp pentru a calcula rata de tragere ca răspuns la livrarea recompensei. e Distribuția auROC-urilor pentru a cuantifica efectul costului plătit asupra răspunsului neuronal la livrarea recompensei. Vârful săgeții indică mediană a AUROC (0.55)

În plus, am comparat răspunsurile la dopamină în urma absenței unei recompense. AuROC-urile nu au prezentat o distribuție părtinitoare, indicând că costul plătit nu a avut niciun efect asupra RPE-urilor negative la momentul rezultatului (Fig. Suplimentară. 9a). Neuronii dopaminergici nu au arătat nicio diferență între răspunsurile la RHC și RLC indicii (Fig. suplimentar 9b).

Costul suportat sporește viteza de învățare

Având în vedere că RPE-urile pentru recompensarea livrării sunt crescute cu costul plătit, sub ipoteza că RPE-urile sunt direct implicate în medierea învățării stimul-recompensă, ne-am așteptat ca RPE-urile îmbunătățite să se reflecte în comportamentul de învățare printr-o viteză de învățare îmbunătățită.24. Pentru a testa efectul costului plătit asupra învățării, maimuțele au efectuat sarcina de explorare HLC (fig. 7a; vezi Metode). În această sarcină, au fost prezentate simultan două indicii de recompensă (R + și R−), iar maimuțele au trebuit să aleagă una. Am egalizat ratele de succes și probabilitatea de recompensare între tipurile de probe (cu două cozi t Test; t48 = 0.15, P = 0.89, n = 49 pentru maimuța P; t85 = 1.2, P = 0.25, n = 86 pentru maimuța S). Atunci când RT-urile au fost comparate pentru indicii de cost, ambele maimuțe au prezentat RT-uri mai rapide la tacul LC decât tacul HC (Fig. 7b; cu două cozi împerecheați t Test; t48 = 12.9, P ≈ 0, n = 49 pentru maimuța P; t85 = 3.4, P = 9.4 × 10-4, n = 86 pentru maimuța S). La compararea RT-urilor cu indicii de recompensă, maimuța S a prezentat RT-uri mai rapide în condiția HC decât LC (Fig. 7c; cu două cozi împerecheați t Test; t48 = 1.3, P = 0.19, n = 49 pentru maimuța P; t85 = 2.8, P = 6.8 × 10-3, n = 86 pentru maimuța S). Atunci când se compară RT-urile în prima și a doua jumătate a sesiunii de învățare separat, RT-urile la tacul LC au fost mai rapide decât la tacul HC în timpul primei (Fig. Suplimentară. 10a) și a doua jumătate a sesiunii (Fig. suplimentară. 10c). Dimpotrivă, RT-urile de maimuță S la indicativul de recompensă în starea HC au fost mai rapide decât în ​​starea LC doar în a doua jumătate a sesiunii (Fig. Suplimentară. 10d), dar nu prima jumătate (Fig. suplimentar. 10b).

Fig. 7
figure7

Sarcină de explorare HLC. a Sarcina de explorare HLC. În această sarcină, maimuțele au trebuit să aleagă între indicii R + și R−, care au fost generate aleatoriu în fiecare sesiune de învățare. Dacă ar alege tacul R + ar putea obține o recompensă și dacă ar alege R-tac nu ar obține recompensă. b RT la indicii de cost în studiile cu costuri ridicate și cu costuri reduse. Maimuțele au prezentat RT-uri mai rapide la indicii low-cost (**P< 0.01; cu două cozi împerecheați t Test). Cercurile negre și barele de eroare indică media și SEM. c RT la indicii de recompensă în studiile cu costuri ridicate și cu costuri reduse. Monkey S a prezentat RT-uri mai rapide la indicii de recompensă în condiții de cost ridicat

În sarcina de explorare HLC, indicii de recompensă au fost generate aleatoriu în fiecare sesiune de învățare. Prin urmare, maimuțele au trebuit să învețe relația dintre indicii de recompensă și recompense în fiecare sesiune. Pe măsură ce studiile au progresat în cadrul unei sesiuni, maimuțele au ales indicii R + mai frecvent în fiecare condiție de cost (Fig. 8a). Pentru a cuantifica viteza de învățare, potrivim o funcție exponențială cumulativă datelor, încorporând doi parametri liberi, a și b, indicând abruptitatea curbei și, respectiv, platoul (Fig. suplimentar. 11a, b). Raportul jurnalului dintre parametrii de abruptitate (jurnal aHC/aLC) a fost semnificativ mai mare decât zero indicând un parametru de abruptitate mai mare în HC decât studiile LC (Fig. 8b; cu două cozi t Test; t48 = 2.1, P = 0.042, medie = 0.58, n = 49 pentru maimuța P; t85 = 2.5, P = 0.013, medie = 0.19, n = 86 pentru maimuța S). Raportul jurnalului dintre parametrii platoului (jurnal bHC/bLC), nu a fost diferit de zero, indicând nicio diferență între condițiile de cost (Fig. 8c; cu două cozi t Test; t48 = 0.76, P = 0.45, medie = -0.0024, n = 49 pentru maimuța P; t85 = 0.56, P = 0.58, medie = 0.010, n = 86 pentru maimuța S). Aceste rezultate indică faptul că viteza de învățare este mai rapidă în studiile HC. Apoi, am modelat curbele de învățare folosind un model de consolidare-învățare (RL) (vezi Metode). Acest model include parametrii ratei de învățare (αHC și αLC) și ratele de explorare (βHC și βLC) pentru ambele condiții de cost (Fig. suplimentar. 11c, d). Când ne potrivim comportamentului, am constatat că raportul jurnal între parametrii ratei de învățare (log αHC/αLC) a fost mai mare decât zero, indicând un parametru de rată de învățare semnificativ mai mare în HC decât în ​​studiile LC (Fig. 8d; cu două cozi t Test; t48 = 2.3, P = 0.026, medie = 0.50, n = 49 pentru maimuța P; t85 = 2.2, P = 0.034, medie = 0.25, n = 86 pentru maimuța S) în timp ce parametrul β nu a prezentat nicio diferență (Fig. 8e; cu două cozi t Test; t48 = 0.77, P = 0.44, medie = 0.0097, n = 49 pentru maimuța P; t85 = 0.64, P = 0.52, medie = 0.038, n = 86 pentru maimuța S). Aici am estimat parametrii ratei de învățare pentru fiecare condiție de cost (αHC și αLC) separat pentru a explica viteze mai mari de învățare în starea HC. Cu toate acestea, dacă ratele de învățare sunt identice între condițiile de cost, raportul dintre parametrii ratei de învățare estimate (αHC/αLC) poate fi considerat ca o valoare de amplificare pentru RPE în condiția HC. Prin urmare, aceste rezultate sugerează că o amplificare a RPE-urilor poate explica viteze mai mari de învățare în starea HC.

Fig. 8
figure8

Test de viteză de învățare. a Procesul mediu de învățare al maimuțelor P și S. Proporția alegerilor R + este reprezentată grafic în funcție de proces. Punctele verzi și violet indică date din probele cu costuri ridicate și, respectiv, cu costuri reduse. Liniile punctate reprezintă un proces de învățare neted. Funcțiile exponențiale cumulative au fost adaptate punctelor de date și reprezentate ca linii solide. b Raportul jurnalului dintre parametrii de montare a în condițiile de cost ridicat și scăzut atunci când datele se potrivesc cu o funcție exponențială cumulativă (*P <0.05; testul de rang semnat al lui Wilcoxon cu două cozi). Cercurile negre și barele de eroare indică media și SEM. c Raportul jurnalului dintre parametrii de montare b în condițiile de cost ridicat și scăzut atunci când datele se potrivesc cu o funcție exponențială cumulativă. d Raportul jurnalului dintre parametrul ratei de învățare α în condițiile de cost ridicat și scăzut atunci când datele se potriveau cu un model de învățare de consolidare. e Raportul jurnalului dintre parametrul de montare β în condițiile de cost ridicat și scăzut, atunci când datele se potriveau cu un model de învățare de consolidare

De asemenea, am încercat să explicăm procesul de învățare cu modele alternative RL, care iau în considerare posibilitatea ca maimuțele să cunoască anticorelația dintre stimuli și recompensă la fiecare proces. În acele modele, valoarea opțiunii nealese este actualizată alături de cea aleasă (Fig. Suplimentară. 12). Chiar și atunci când se aplică astfel de modele alternative datelor, parametrul ratei de învățare a fost semnificativ mai mare în HC în comparație cu condiția LC (Fig. Suplimentară. 12b, f) în timp ce parametrul β nu a prezentat nicio diferență (Fig. suplimentar. 12d, h). Astfel, descoperirea noastră cu privire la o amplificare a semnalului RPE în condiția HC este robustă la forma modelului RL potrivit cu datele.

Discuție

Am investigat efectul costului plătit asupra valorii indicilor de predicție a recompenselor și asupra răspunsurilor fazice ale neuronilor de dopamină din creierul mediu. Maimuțele au prezentat o evaluare crescută pentru indicii de predicție a recompensei în urma efectuării unei acțiuni care a suportat un cost mai mare. Neuronii dopaminici au prezentat răspunsuri crescute atât la indicii de predicție a recompensei, cât și la livrarea recompensei, după ce a fost suportat un cost mai mare. Mai mult, maimuțele au prezentat viteze mai mari de învățare atunci când a fost necesar un cost mai mare pentru a obține recompensa.

Mai multe studii au arătat că un cost plătit îmbunătățește preferințele pentru un indiciu de predicție a recompenselor1,2,3. În prezentul studiu, maimuțele au prezentat RT mai rapide la indicii de predicție a recompensei în starea HC comparativ cu cei din starea LC, în concordanță cu posibilitatea ca valoarea indicelui recompensei să fie îmbunătățită de costul plătit.27. O posibilitate alternativă este ca timpul de fixare mai lung asociat cu o atenție sporită la ținta de sacadare în starea HC, prin urmare, reducând RT-urile după o fixare mai lungă în studiul HC. Cu toate acestea, nu am găsit nicio diferență între RT-urile cu indicii R în studiile HC și LC în sarcina incertă HLC. Mai mult, în prima jumătate a sesiunii de explorare HLC. RT-urile pentru indicii R nu au fost semnificativ diferite între studiile HC și LC. Aceste descoperiri indică astfel că o fixare mai lungă nu este o explicație probabilă pentru RT-urile mai scurte observate la indicii de predicție a recompensei. În plus față de efectul costului plătit asupra RT-urilor de recompensă, costul a afectat și RT-urile la indicii care nu prevăd recompense, în ciuda faptului că nu a fost livrată nicio recompensă după prezentările de tac. Un studiu anterior a raportat un fenomen similar, în care subiecții maimuței au prezentat RT mai scurte în studiile nerecompensate, atunci când au fost folosite recompense mai preferate în studiile alternative din cadrul fiecărui bloc.30. O posibilă interpretare a efectului în acest studiu este că o motivație generală mai mare de a răspunde în bloc cu recompensă mai preferată a afectat RT-urile, de asemenea, la indicii fără recompensă în cadrul blocului. În mod similar, în studiul de față, așteptarea unei recompense mai valoroase în studiile HC ar fi putut modula RT-urile până la indicii fără recompensă în studiile HC în sarcina noastră. În plus, efectul costului plătit asupra RT-urilor pentru indicii de recompensă a fost mai mic decât cel pentru indicii care nu prevăd recompense. Acesta este probabil un artefact al faptului că, pentru că maimuțele au făcut o sacadă mai rapid către RLC+ indiciu, în primul rând, există un scop redus pentru a detecta o scurtare a RT-urilor la RHC+ tac. Prin urmare, diferența în RT între indicii R + ar fi mică în consecință.

Maimuțele au efectuat și teste de alegere între RHC și RLC indicii în sarcina HLC. Cu toate acestea, în timp ce maimuța S a arătat o preferință pentru RHC+ indiciu pentru RLC+ tac, maimuța P nu a arătat o astfel de preferință. Această discrepanță ar putea fi explicată printr-o diferență contextuală între sacada HLC și testele de alegere. În studiile de alegere, au fost prezentate două indicii de predicție a recompensei în loc de un indiciu de predicție a recompensei. Mai mult, maimuțele nu au obținut nici o recompensă după alegerea lor, chiar dacă au ales indicii care prevestesc recompensa, astfel testul de alegere a fost făcut în dispariție. Procedura de extincție a fost implementată pentru a se asigura că alegerea maimuței a fost determinată de ceea ce se învățase în încercările de efort, spre deosebire de a fi confundat cu o nouă învățare în încercările de alegere. Cu toate acestea, această procedură poate avea efectul secundar că maimuța ar putea învăța rapid să recunoască procedura de dispariție în contextul alegerii și că nu există niciun motiv pentru a alege stimulii mai preferați. Cu toate acestea, una dintre maimuțe a arătat de fapt o preferință pentru indicii de recompensă în starea HC.

La momentul prezentării unui indiciu care a prezis o cerință ulterioară de a plăti un cost, activitatea neuronilor dopaminari a fost redusă, în concordanță cu studiile anterioare.22,23. În studiul nostru, nu am observat o scădere globală a neuronului dopaminergic care răspunde atât la indicii HC, cât și la LC față de valoarea inițială. Acest lucru sugerează că un semnal RPE negativ nu apare în acel moment, în ciuda costului următor. Absența RPE negativ reflectă probabil integrarea unei previziuni a recompensei viitoare așteptate mai târziu în proces. Neuronii dopaminici au arătat o activare semnificativă în studiul LC și activitatea a fost mai mare comparativ cu studiul HC. Acest lucru sugerează că informațiile despre costuri sunt încorporate în semnalul RPE transportat de neuronii dopaminergici. Astfel, neuronii dopaminici codifică atât informațiile despre recompensă cât și despre cost, iar răspunsul RPE reflectă suma costului și recompensei.

Am demonstrat că semnalul RPE reprezentat de neuronii dopaminici este îmbunătățit de costul plătit la punctul de prezentare a indicelui de recompensă (în sarcina de sacadă HLC) și livrarea recompensei (în sarcina incertă a HLC). Valoarea obiectivă a recompensei livrate în studiile HC și LC a fost egală; prin urmare, modificarea semnalelor RPE ar trebui să fie cauzată de un proces fără sens. Această posibilitate este susținută de mai multe studii care indică un efect contextual asupra semnalelor RPE de dopamină, în concordanță cu procesarea valorii subiective și / sau a utilității în neuronii dopaminei.11,19,20,21,31,32,33,34. Dacă semnalul RPE este mai mare, acest lucru ar trebui să producă o actualizare mai rapidă a valorii tacului, care ar avea în consecință un impact asupra vitezei de învățare a asociațiilor stimul-recompensă. Studiile anterioare au arătat o modificare a vitezei de învățare prin factori fără sens24,35. În conformitate cu aceasta, maimuțele au prezentat viteze de învățare mai mari în HC în raport cu starea LC. Am constatat că viteza de învățare îmbunătățită prin costul plătit poate fi explicată de un model RL cu un RPE amplificat. A fost dificil să separăm efectele RPE amplificat și de rata crescută de învățare în experimentele noastre; cu toate acestea, am găsit un semnal RPE dopaminergic amplificat în starea HC. Mai mult, un studiu anterior fMRI a arătat că parametrul ratei de învățare este reprezentat în cortexul cingulat anterior și că activitatea VTA nu este legată de parametrul ratei de învățare în medii volatile.36. Prin urmare, susținem că semnalul RPE codificat de neuronii dopaminergici este amplificat de costul plătit și că semnalul RPE crescut îmbunătățește viteza de învățare.

Când semnalul RPE a fost generat în momentul prezentării recompensei și al livrării recompensei, maimuțele plătiseră deja costul. Prin urmare, un posibil mecanism pentru semnalul RPE îmbunătățit este că o recompensă obținută după un HC ar putea fi mai plină de satisfacții. O așteptare crescută a unei recompense mai valoroase după HC ar putea spori motivația de a termina procesul, scurtând astfel RT la indicii de recompensă în studiile HC.

O altă posibilă interpretare a rezultatelor noastre este că scutirea experimentată de la încheierea acțiunii costisitoare poate acționa ca o recompensă pentru maimuțe. Studiile de imagistică prin rezonanță magnetică funcțională (RMN) au arătat că ameliorarea durerii poate fi o recompensă pentru participanții umani37,38; prin urmare, costul ar putea juca un rol similar ca un stimul aversiv față de durere. Dacă scutirea de cost este plină de satisfacții și dacă acest lucru se reflectă în activitatea dopaminergică, ne-am aștepta ca neuronii dopaminei să răspundă la sfârșitul fixării lungi, care este momentul prezentării indicelui de recompensă. Cu toate acestea, nu am observat nicio diferență în activitatea dopaminergică la momentul prezentărilor de indicii de recompensă și nici o diferență în RT-urile cu indicii R între studiile HC și LC în sarcina incertă HLC. Prin urmare, sugerăm că scutirea de cost nu oferă o explicație adecvată pentru efectul pe care l-am observat în neuronii dopaminergici.

Mai mult, neuronii dopaminergici au prezentat răspunsuri calitativ diferite la stimulul aversiv în comparație cu indicele de estimare a costurilor. O posibilă explicație pentru aceasta este că costul efortului a fost mai puțin important decât aerul sau recompensa, deoarece costul efortului a fost extins temporar pe parcursul a câteva secunde, pe măsură ce maimuțele au efectuat fixarea și nu au punctat. Prin urmare, este posibil ca neuronii dopaminergici să nu fi fost activați la indicii de cost mai puțin salienti. O altă posibilitate este că neuronii dopaminici de tip salience răspund la evenimente după care au fost induse unele mișcări. Când recompensa sau puful de aer a fost livrat maimuțelor, acestea fac unele mișcări, cum ar fi linsul sau ochiul clipesc. Cu toate acestea, în sarcina de sacadare HLC, maimuțele au trebuit să-și păstreze privirea asupra țintei de fixare fără nici o mișcare ca cost. De fapt, un studiu recent a arătat că eliberarea de dopamină în nucleul accumbens în urma unui indiciu de predicție a recompenselor este atenuată, cu excepția cazului în care mișcarea este inițiată corect39. Deoarece costul din experimentele noastre nu a implicat inițierea mișcării, acest lucru ar putea duce la un răspuns inconsecvent al neuronilor dopaminici de tip salience. În orice caz, putem concluziona că informațiile despre costuri sunt procesate diferit față de informațiile aversive.

În concluzie, sugerăm că costul plătit crește valoarea indicilor de predicție a recompensei și că, la rândul său, crește semnalul RPE codificat în neuronii dopaminei din creierul mediu. Acest efect a condus la o predicție comportamentală conform căreia rata de învățare a animalelor ar fi îmbunătățită pentru indicii de predicție a recompensei în urma experienței unui HC. Aceasta este într-adevăr ceea ce am observat. Astfel, observațiile noastre asupra activității neuronilor dopamineri ne-au determinat să presupunem existența unui efect comportamental, precum și a unui mecanism de calcul supus care stă la baza acestui efect, pe care ulterior l-am confirmat. Prin urmare, descoperirile noastre reprezintă un exemplu al modului în care se poate întâmpla triangularea între măsurătorile datelor neuronale, teoria computațională și comportamentul: dezvoltarea unei înțelegeri mai profunde a procesării neuronale din creier poate oferi informații despre comportament și baza sa de calcul.

Metode

animale

Am folosit două maimuțe japoneze masculine (Macaca fuscata; greutatea corporală, 6.5 kg = Monkey P; greutate corporală, 9.0 kg = Monkey S). Am implantat un stâlp de cap pe vârful craniului maimuței, astfel încât să poată fi fixat pe un scaun la o dată ulterioară. O cameră de înregistrare a fost, de asemenea, implantată pentru a permite montarea unui micromanipulator de electrod. Camera de înregistrare a fost înclinată 45 ° lateral în planul coronar și poziționată la coordonatele stereotaxice: 15 mm anterior canalului extern. După o perioadă de recuperare, maimuțele au fost antrenate să îndeplinească sarcina de sacadă. După finalizarea antrenamentului, am făcut o gaură prin craniu în interiorul camerei de înregistrare pentru introducerea electrodului. Toate protocoalele de îngrijire a animalelor au fost aprobate de Comitetul de Experimentare a Animalelor de la Universitatea Tamagawa și au fost conforme cu Ghidul Institutelor Naționale de Sănătate pentru Îngrijirea și Utilizarea Animalelor de Laborator.

Povara comportamentală

Maimuțele au fost instruite pentru a efectua sarcina de sacadare HLC (Fig. 1a), Sarcină incertă HLC (Fig. 5a) și sarcina de explorare HLC (Fig. 7a). Toate sarcinile au fost efectuate într-o cameră întunecată. Maimuțele erau așezate pe un scaun în fața unui 22-inch. Monitor LCD (S2232W, Eizo) cu stâlpii de cap implantați fixați pe scaun. Distanța dintre ochi și ecran era de 70 cm. Atunci când un tac de start (cerc alb, 0.3 ° diametru) a fost prezentat în centrul afișajului, maimuței i s-a cerut să-și mențină privirea asupra tacului. Indicatorul de start a dispărut după 750 ms și apoi a fost prezentat un indiciu de cost (stea și moară de vânt pentru testele HC și respectiv LC). Maimuțelor li s-a cerut să facă o sacadare până la costul în timpul celor 750 ms de prezentare. Dacă aceștia nu s-au împiedicat să dea curs, procesul a fost întrerupt și același proces a început din nou. În timpul studiilor HC, ținta de fixare (0.3 ° × 0.3 ° pătrat alb) a fost prezentată imediat după dispariția indicelui de cost pentru 2000 ms (sarcină HLC saccade și HLC incertă) sau 1500 ms (sarcină de explorare HLC) și maimuțele au fost necesare pentru a-și face sacada și a-și păstra privirile asupra ei. Dacă maimuțele și-au mutat privirea dincolo de o fereastră de fixare de 4 ° × 4 °, sarcina a fost întreruptă. Fereastra de fixare a fost activată la 400 ms după prezentarea punctului de fixare, deoarece maimuțele au avut nevoie de timp pentru a se pregăti pentru sacadă și pentru ajustarea fixării lor. Prin urmare, maimuțele au trebuit să se fixeze timp de cel puțin 1600 ms (sarcină HLC saccade și HLC incerte) sau 1100 ms (sarcină de explorare HLC) în studiile HC. În studiile LC, a fost afișat un ecran gol pentru 1500 ms (sarcină HLC saccade și HLC incerte) sau 1000 ms (sarcină de explorare HLC), iar apoi ținta de fixare a apărut timp de 500 ms. Deoarece fereastra de fixare a fost activată la 400 ms după prezentarea punctului de fixare, maimuțelor li s-a cerut să se fixeze pe țintă timp de cel puțin 100 ms în studiile LC. Maimuțele au prezentat mai multe erori în procesul HC; prin urmare, un avort forțat a fost inserat aleatoriu cu 100 ms înainte de prezentarea indicelui de recompensă (400 ms după prezentarea țintei de fixare, care este momentul apariției ferestrei de fixare) în studiul LC pentru a egaliza rata de succes. După fixarea asupra țintei, au fost prezentate una sau două indicii de recompensă, iar maimuțelor li s-a cerut să se împiedice la tac. Dacă au reușit să facă o sacadare la tacul de recompensă, un sunet sonor a fost emis la 750 ms după prezentarea tacului de recompensă. Când maimuțele au făcut o sacadă la tacul R +, s-au livrat 0.3 ml de apă în același timp cu bipul. Nicio recompensă nu a fost acordată atunci când au făcut o sacadă la R-cue.

În sarcina de sacare HLC, patru cercuri colorate au fost folosite ca indicii de recompensă (RHC+: galben; RHC-: verde; RLC+: roz; RLC-: albastru; Fig. 1a). O sesiune experimentală a constat din 80 de studii de sacadare, 20 de teste de recompensă imprevizibile, 20 de teste imprevizibile cu aer-puf și 5 teste de alegere. Testele de sacadă, au inclus 40 de teste HC și 40 de teste LC, ambele incluzând 20 de teste de recompensă și 20 de teste fără recompensă. În studiile imprevizibile cu recompensă sau puf de aer, 0.3 ml de recompensă cu apă sau 0.2 MPa de puf de aer (150 ms pentru maimuța P; 200 ms pentru maimuța S) au fost livrate pe fața maimuțelor fără a fi însoțite. Testele de alegere au inclus un studiu în care maimuțele au ales între indicii R + (RHC+ vs. RLC+) în studiul HC, între indicii R (RHC- vs. RLC-) în procesul HC, între R + (RHC+ vs. RLC+) indicii în studiul LC, între R− (RHC- vs. RLC-) indicii în studiul LC și între indicii de cost (Fig. Suplimentar. 1). În încercările cu alegerea între indicii de recompensă, structura sarcinii a fost identică cu sarcina de sacadare înainte de prezentarea indicelui de recompensă. Apoi, în loc să prezinte un indiciu de recompensă, au fost prezentate două indicii de recompensă în testele de alegere și nu a fost livrată nicio recompensă după prezentarea indiciului de recompensă, chiar dacă maimuțele au ales între indicii R +.

Pentru a testa răspunsul neuronilor dopaminergici pentru a recompensa livrarea, maimuțele au îndeplinit sarcina incertă a HLC (Fig. 5a). Această sarcină a fost similară cu sarcina de sacrare HLC, cu excepția indicilor de recompensă. În această sarcină, am folosit două indicii de recompensă (în locul celor patru indicii de recompensă utilizate în sarcina de sacare HLC), una pentru procesul HC și cealaltă pentru procesul LC. Recompensa a fost livrată în jumătate din încercări după prezentarea indicelui de recompensă. O sesiune experimentală a constat din 80 de studii de sacadare, 20 de teste de recompensă imprevizibile și 20 de teste imprevizibile cu aer-puf. Testele de sacadare au inclus 40 de teste HC și 40 de teste LC, ambele incluzând 20 de teste de recompensă și 20 de teste fără recompensă. În studiile imprevizibile, o recompensă sau o puf de aer a fost livrată fără niciun indiciu.

În sarcina de explorare HLC, două indicii de recompensare (RHC+, RHC- sau RLC+, RLC-) au fost prezentate simultan, iar maimuțelor li s-a cerut să sacadeze la unul dintre indicii de recompensă (Fig. 7a). Dacă au ales tacul R +, li s-a acordat o recompensă pentru apă. Patru indicii de recompensă (RHC +, RHC-, RLC +, RLC-) au fost generate pentru fiecare sesiune de explorare și maimuțelor li s-a cerut să învețe asocierea dintre indicii și să recompenseze proces cu proces. O sesiune experimentală a constat din 100 de studii HC și 100 de studii LC. Am constatat că pentru sarcina de explorare, dacă stabilim durata de fixare la 2000 ms în condiția HC, astfel încât să corespundă duratei condiției HC în celelalte sarcini, maimuțele au îndeplinit sarcina cu o rată de succes foarte mică, probabil din cauza dificultatea sarcinii și / sau rata de recompensă scăzută. Prin urmare, pentru a reduce dificultățile sarcinii și a crește rata de succes, am folosit o durată de fixare de 1500 ms ca cost pentru sarcina de explorare HLC.

Sarcinile au fost controlate folosind un pachet software disponibil comercial (TEMPO, Reflective Computing, St. Louis, MO, SUA). Pentru prezentarea stimulului vizual a fost folosit un program personalizat care utilizează o interfață de programare a aplicației (OpenGL). Stimulii vizuali pentru cost și indicii de recompensă au fost creați de către autori.

Înregistrare și achiziție de date

Localizarea substanței negre a fost estimată utilizând imagini MR. Un electrod de tungsten acoperit cu epoxi (diametrul tijei, 0.25 mm, 0.5-1.5 MΩ măsurat la 1000 Hz, FHC) a fost introdus în substanța nigra folosind un micromanipulator (MO-972, Narishige, Tokyo, Japonia) montat pe camera de înregistrare cu un tub de ghidare inoxidabil. Semnalele de tensiune au fost amplificate (× 10,000) și filtrate (0.5-2 kHz). Potențialele de acțiune dintr-un singur neuron au fost izolate cu un algoritm de potrivire a șabloanelor (OmniPlex, Plexon, Dallas, TX, SUA). Mișcarea ochilor a fost monitorizată de un sistem de camere cu infraroșu la o rată de eșantionare de 500 Hz (iView X Hi-Speed ​​Primate, SMI, Teltow, Germania). Momentul potențialelor de acțiune și evenimentelor comportamentale au fost înregistrate cu o rezoluție de timp de 1 kHz.

Analiza datelor

Pentru a analiza comportamentul maimuțelor, RT-urile au fost determinate ca intervalul de timp dintre debutul stimulului și timpul în care maimuțele au inițiat sacada. Inițierea sacadei a fost determinată prin calcularea momentului în care poziția privirii a depășit 5 abateri standard de la poziția medie a privirii înainte de prezentarea tacului.

În sarcina de explorare HLC, comportamentul de alegere al maimuțelor a fost cuantificat prin montarea unei funcții exponențiale cumulative. Functia (P) descrie proporția alegerii corecte după cum urmează:

P=12+(12-12exp(-at))b,
(1)

Unde t înseamnă proces, a și b indicați panta și platoul curbei, respectiv. Această funcție se potrivea independent de datele pentru cele două condiții de cost. Parametrii funcției au fost căutați pentru a maximiza probabilitatea de a observa datele dintr-o singură sesiune și datele medii. A fost aplicată o metodă bootstrap pentru a estima intervalele de încredere atunci când se potrivesc cu datele medii. Un model standard RL a fost, de asemenea, utilizat pentru a cuantifica datele comportamentale. Valorile stimulului Vj(t) pentru alegerea selectată j (j = 1 pentru starea HC; j = 2 pentru starea LC) au fost actualizate după cum urmează:

Vj(t+1)=Vj(t)+αj(R(t)-Vj(t)),
(2)

Unde αj indicați ratele de învățare, care au fost limitate la valori cuprinse între 0 și 1. R(t) indică suma recompensei (1: recompensat, 0: fără recompensă) la încercare t.

Probabilitatea Pj(t) a alegerii stimulului j din cei doi stimuli la încercare t este dat de regula softmax

Pj(t)=exp(Vj(t)βj)/Σ2i=1exp(Vi(t)βi),
(3)

Unde βj indică amploarea explorării.

Am înregistrat activitate neuronală în timpul sacadei HLC și sarcinii incerte HLC, dar nu sarcinii de explorare HLC. Sarcina de explorare HLC a fost implementată ca un studiu pur comportamental. Neuronii dopaminici au fost identificați dacă prezentau fiecare dintre următoarele proprietăți: o rată de tragere tonică scăzută (<6 Hz), o durată lungă a formei de undă de vârf (> 300 μs) și un răspuns fazic la recompensa imprevizibilă (Fig. 2a). Am analizat testele în care maimuțele ar putea finaliza procesul fără erori (fixarea frânării, fără sacadă sau avort artificial). Rata medie de tragere a neuronilor a fost calculată cu coșuri de 1 ms și netezită cu un nucleu gaussian (σ = 30 ms, lățime = 4σ) pentru a produce funcții de densitate a vârfurilor. Răspunsurile neuronilor dopaminergici la fiecare eveniment de sarcină au fost calculate ca rata normală de tragere în raport cu activitatea spontană (rata medie de tragere în timpul celor 500 ms înainte de debutul tacului). Ratele de tragere au fost calculate în intervalele de timp determinate pentru fiecare eveniment de activitate și subiect. Aceste ferestre de timp au fost determinate din activitatea medie a populației. Am definit punctele de început și sfârșit ale ferestrelor de timp determinate pe baza timpului de creștere și scădere a răspunsului mediat al populației folosind ca referințe studii anterioare de dopamină de maimuță (Fig. Suplimentară. 3). Fereastra de timp pentru tacul de pornire a fost definită ca 200-400 ms după debutul tacului de pornire pentru neuronii înregistrați de la maimuțele P și S. Fereastra de timp pentru tacul de stare a fost definită ca 150-300 ms după apariția tacului de stare pentru maimuța P și 200-400 ms pentru maimuța S. Fereastra de timp pentru indicarea recompensei a fost definită ca 140-350 ms după apariția indicelui de recompensă pentru maimuța P și 220-420 ms pentru maimuța S. Fereastra de timp pentru livrarea recompensei a fost definită ca 225– 475 ms după debutul sonor pentru maimuța P și 200-450 ms pentru maimuța S. Fereastra de timp pentru livrarea imprevizibilă a recompensei a fost definită ca 100-300 ms după livrarea recompensei pentru maimuța P și 150-300 ms pentru maimuța S. fereastra de timp pentru puful de aer imprevizibil a fost definită ca 30-230 ms după livrarea pufului de aer pentru maimuța P și 50-200 ms pentru maimuța S.

Am clasificat toți neuronii dopaminei înregistrați în două categorii distincte, valoarea motivațională și tipurile de evidență. Dacă răspunsul unui neuron la stimulii aerului-puf a fost mai mic decât activitatea spontană, neuronul a fost clasificat ca fiind de tipul valorii motivaționale (Fig. 3d, e). În schimb, dacă răspunsul unui neuron la stimulii aer-puf a fost mai mare decât activitatea spontană, neuronul a fost clasificat ca fiind de tipul salientului (Fig. 3g, h).

Pentru a cuantifica activitatea neuronală diferențială între condițiile sarcinii, a fost efectuată o analiză ROC. Am calculat auROC pentru fiecare neuron. AuROC mai mic sau mai mare de 0.5 indică un răspuns mai mic sau mai mare în studiul HC, respectiv. Deoarece numărul de neuroni din unele seturi de date neuronale a fost mic, am folosit testul de rang semnat Wilcoxon pentru a reduce efectul valorilor aberante pentru cuantificarea distribuției părtinitoare a auROC-urilor.

Software-ul disponibil comercial, MATLAB (MathWorks, Natick, MA, SUA), a fost utilizat pentru a efectua toate analiza datelor.

Examen histologic

După experimentul de înregistrare, ambele maimuțe au fost eutanasiate și s-a efectuat o analiză histologică pentru a verifica poziția de înregistrare (Fig. 2b). Maimuțele au fost eutanasiate prin administrarea unei doze letale de pentobarbital sodic (70 mg kg-1) și perfuzat cu 4% formaldehidă în tampon fosfat. Secțiunile coronale seriale (grosime, 10 μm) au fost tăiate și imunomarcate cu anticorp anti-tirozin hidroxilază (TH) (la fiecare 25 de secțiuni; anticorp anti-TH, 1: 500; Merck, Darmstadt, Germania) sau colorare Nissl (la fiecare 25 de secțiuni) .

Sinteza de raportare

Informații suplimentare privind designul de cercetare sunt disponibile în Rezumatul rapoartelor de cercetare pe natură legată de acest articol.

Disponibilitatea datelor

Datele utilizate în analiza acestui studiu sunt disponibile de la autorul corespunzător, la cerere rezonabilă. Un rezumat de raportare pentru acest articol este disponibil ca fișier de informații suplimentare. Datele sursă care stau la baza Fig. 1, 3-8 și Figuri Suplimentare. 1, 4-12 sunt furnizate ca fișier de date sursă.

Disponibilitatea codului

Codurile Matlab utilizate în analiza acestui studiu sunt disponibile de la autorul corespunzător, la cerere rezonabilă.

Referinte

  1. 1.

    Clement, TS, Feltus, JR, Kaiser, DH & Zentall, TR „Etica muncii” la porumbei: valoarea recompensei este direct legată de efortul sau timpul necesar pentru a obține recompensa. Psychon. Taur. Rev. 7, 100-106 (2000).

  2. 2.

    Klein, ED, Bhatt, RS & Zentall, TR Contrast și justificarea efortului. Psychon. Taur. Rev. 12, 335-339 (2005).

  3. 3.

    Zentall, TR & Singer, RA Contrast în cadrul procesului: porumbeii preferă armăturile condiționate care urmează un eveniment relativ mai degrabă decât un eveniment mai puțin aversiv. J. Exp. Anal. Behav. 88, 131-149 (2007).

  4. 4.

    Aronson, E. & Mills, J. Efectul severității inițierii asupra plăcerii pentru un grup. J. Abnorm. Soc. Psychol. 59, 177-181 (1959).

  5. 5.

    Festinger, L. O teorie a disonanței cognitive. (Stanford University Press, California, 1957).

  6. 6.

    Alessandri, J., Darcheville, JC, Delevoye-Turrell, Y. & Zentall, TR Preferință pentru recompense care urmează efort mai mare și întârziere mai mare. Învață Comportă-te. 36, 352-358 (2008).

  7. 7.

    Schultz, W., Carelli, RM & Wightman, RM Semnalele dopaminei fazice: de la valoarea subiectivă a recompensei la utilitatea economică formală. Curr. Opin. Behav. Sci. 5, 147-154 (2015).

  8. 8.

    Schultz, W., Dayan, P. & Montague, PR Un substrat neuronal de predicție și recompensă. Ştiinţă 275, 1593-1599 (1997).

  9. 9.

    Bromberg-Martin, ES, Matsumoto, M. și Hikosaka, O. Dopamina în controlul motivațional: recompensant, aversiv și alertant. Neuron 68, 815-834 (2010).

  10. 10.

    Bayer, HM & Glimcher, PW Neuronii dopaminari din creierul mediu codifică un semnal de eroare de predicție cantitativă a recompensei. Neuron 47, 129-141 (2005).

  11. 11.

    Nakahara, H., Itoh, H., Kawagoe, R., Takikawa, Y. & Hikosaka, O. Neuronii dopaminergici pot reprezenta o eroare de predicție dependentă de context. Neuron 41, 269-280 (2004).

  12. 12.

    Tobler, PN, Fiorillo, CD & Schultz, W. Codificare adaptivă a valorii recompensei de către neuronii dopaminergici. Ştiinţă 307, 1642-1645 (2005).

  13. 13.

    Nomoto, K., Schultz, W., Watanabe, T. și Sakagami, M. Răspunsurile dopaminei extinse temporar la stimuli cu predicție de recompensă care solicită percepțional. J. Neurosci. 30, 10692-10702 (2010).

  14. 14.

    Watabe-Uchida, M., Zhu, L., Ogawa, SK, Vamanrao, A. & Uchida, N. Cartografierea creierului întreg al intrărilor directe la neuronii dopaminei midbrain. Neuron 74, 858-873 (2012).

  15. 15.

    Tanaka, SC și colab. Predicția recompenselor imediate și viitoare recrutează în mod diferit bucle de ganglioni cortico-bazali. Nat. Neurosci. 7, 887-893 (2004).

  16. 16.

    Haber, SN, Kim, KS, Mailly, P. & Calzavara, R. Intrările corticale legate de recompensă definesc o regiune striatală mare în primate care interacționează cu conexiunile corticale asociative, oferind un substrat pentru învățarea bazată pe stimulente. J. Neurosci. 26, 8368-8376 (2006).

  17. 17.

    Doya, K. Modulatori ai luării deciziilor. Nat. Neurosci. 11, 410-416 (2008).

  18. 18.

    Roesch, MR, Calu, DJ & Schoenbaum, G. Neuronii dopaminici codifică cea mai bună opțiune la șobolani care decid între recompense diferit întârziate sau de dimensiuni. Nat. Neurosci. 10, 1615-1624 (2007).

  19. 19.

    Lak, A., Stauffer, WR & Schultz, W. Răspunsurile la erori de predicție Dopamine integrează valoarea subiectivă din diferite dimensiuni ale recompensei. Proc. Natl Acad. Sci. Statele Unite ale Americii 111, 2343-2348 (2014).

  20. 20.

    Stauffer, WR, Lak, A. și Schultz, W. Răspunsurile la erori de predicție pentru recompensa dopaminică reflectă utilitatea marginală. Curr. Biol. 24, 2491-2500 (2014).

  21. 21.

    Noritake, A., Ninomiya, T. & Isoda, M. Monitorizarea și evaluarea recompenselor sociale în creierul macacului. Nat. Neurosci. 21, 1452-1462 (2018).

  22. 22.

    Pasquereau, B. & Turner, RS Codificare limitată a efortului de către neuronii dopaminergici într-o sarcină de compromis cost-beneficiu. J. Neurosci. 33, 8288-8300 (2013).

  23. 23.

    Varazzani, C., San-Galli, A., Gilardeau, S. & Bouret, S. Neuronii noradrenalinei și dopaminei în compensarea recompensei / efortului: o comparație directă electrofiziologică la maimuțele comportante. J. Neurosci. 20, 7866-7877 (2015).

  24. 24.

    Watanabe, N., Sakagami, M. și Haruno, M. Semnalul de eroare de predicție recompensă îmbunătățit prin interacțiunea striat-amigdală explică accelerarea învățării recompensei probabiliste prin emoție. J. Neurosci. 33, 4487-4493 (2013).

  25. 25.

    Di Ciano, P., Cardinal, RN, Cowell, RA, Little, SJ și Everitt, B. Implicarea diferențială a receptorilor NMDA, AMPA / kainat și dopamină în nucleul nucleului accumbens în achiziționarea și performanța comportamentului de abordare pavloviană. J. Neurosci. 21, 9471-9477 (2001).

  26. 26.

    Flagel, SB și colab. Un rol selectiv pentru dopamină în învățarea stimul-recompensă. Natură 469, 53-57 (2011).

  27. 27.

    Blough, DS Efectele amorsării, discriminabilității și întăririi asupra componentelor în timp de reacție ale căutării vizuale a porumbeilor. J. Exp. Psychol. Anim. Behav. Proces. 26, 50-63 (2000).

  28. 28.

    Matsumoto, M. și Hikosaka, O. Două tipuri de neuroni dopaminici transmit în mod distinct semnale motivaționale pozitive și negative. Natură 459, 837-841 (2009).

  29. 29.

    Matsumoto, M. și Takada, M. Reprezentări distincte ale semnalelor cognitive și motivaționale în neuronii dopaminei midbrain. Neuron 79, 1011-1024 (2013).

  30. 30.

    Watanabe, M. și colab. Reacțiile comportamentale care reflectă așteptările diferențiale de recompensă la maimuțe. Exp. Brain Res. 140, 511-518 (2001).

  31. 31.

    Takikawa, Y., Kawagoe, R. & Hikosaka, O. Un posibil rol al neuronilor dopaminei din creierul mediu în adaptarea pe termen scurt și lung a sacadelor la cartografierea poziției-recompensă. J. Neurophysiol. 92, 2520-2529 (2004).

  32. 32.

    Kobayashi, S. & Schultz, W. Influența întârzierilor de recompensă asupra răspunsurilor neuronilor dopaminergici. J. Neurosci. 28, 7837-7846 (2008).

  33. 33.

    Enomoto, K. și colab. Neuronii dopaminergici învață să codifice valoarea pe termen lung a mai multor recompense viitoare. Proc. Natl Acad. Sci. Statele Unite ale Americii 108, 15462-15467 (2011).

  34. 34.

    Lak, A., Nomoto, K., Keramati, M., Sakagami, M. și Kepecs, A. Neuronii dopaminei Midbrain semnalează credința în acuratețea alegerii în timpul unei decizii perceptive. Curr. Biol. 27, 821-832 (2017).

  35. 35.

    Williams, BA & McDevitt, MA Inhibiție și supracondiționare. Psychol. Sci. 13, 454-459 (2002).

  36. 36.

    Behrens, TE, Woolrich, MW, Walton, ME și Rushworth, MF Învățarea valorii informațiilor într-o lume incertă. Nat. Neurosci. 10, 1214-1221 (2007).

  37. 37.

    Seymour, B. și colab. Procesele neuronale opozitive-aversive oponente stau la baza învățării predictive a ameliorării durerii. Nat. Neurosci. 8, 1234-1240 (2005).

  38. 38.

    Kim, H., Shimojo, S. și O'Doherty, JP Evitarea unui rezultat aversiv este plină de satisfacții? Substraturi neuronale ale învățării de evitare în creierul uman. PLoS Biol. 4, e233 (2006).

  39. 39.

    Syed, EC și colab. Acțiunea de inițiere formează codificarea mezolimbică a dopaminei a recompenselor viitoare. Nat. Neurosci. 19, 34-36 (2016).

Descărcați referințe

Mulţumiri

Această lucrare a fost susținută de subvențiile MEXT / JSPS pentru cercetare științifică (Kakenhi) Numerele de subvenții JP16H06571 și JP18H03662 către MS Această cercetare a fost parțial susținută de Programul de cercetare strategică pentru științe ale creierului, susținut de Agenția japoneză pentru cercetare și dezvoltare medicală (AMED) ) și programul de cooperare în domeniul cercetării creierului Japonia-SUA. Această cercetare a fost susținută de Proiectul Național de Resurse Bio de la Institutul Național de Științe Fiziologice (NBRP la NIPS) de la Agenția Japoneză pentru Cercetare și Dezvoltare Medicală, AMED. Mulțumim lui Bernard W. Balleine și Andrew R. Delamater pentru ajutorul acordat la scrierea lucrării.

informaţii autor

ST, JPO și MS au conceput experimentele. ST a efectuat experimentele și a analizat datele. JPO și MS au rafinat experimentele și analizele de date. ST, JPO și MS au scris manuscrisul.

Corespondența cu Masamichi Sakagami.