Incertitudinea dopaminei și învățarea TD (2005)

COMENTARII: Incertitudinea înseamnă noutate. Acest studiu complex confirmă faptul că noutatea crește dopamina. De asemenea, explică faptul că, cu cât recompensa este mai incertă, cu atât învățarea este mai puternică. Pornografia pe internet este diferită de porno-ul din trecut datorită noutății nesfârșite - ceea ce înseamnă nesfârșite stropi de dopamină. Dependența de bază este învățarea și memoria. Trecerea la un gen nou de porno activează dopamina și învățarea - datorită incertitudinii a ceea ce urmează să experimentați. Incertitudinea apare, de asemenea, atunci când utilizatorii de porno pornesc pentru pornografie. Nu știi ce ești pe cale să vezi și asta captează dopamina.
Noutatea, incertitudinea și căutarea tuturor activează dopamina

Studiu complet: Incertitudine de dopamină și învățare TD

Funcții comportamentale și ale creierului 2005, 1:6doi:10.1186/1744-9081-1-6

Yael Niv1,2, Michael O Duff2 și Peter Dayan2
Centrul interdisciplinar 1 pentru calcul neuronal, Universitatea ebraică, Ierusalim, Israel
Unitatea 2 Gatsby Computational Neuroscience, University College London, Londra, Marea Britanie
Versiunea electronică a acestui articol este completă și poate fi găsită online la adresa: http://www.behavioralandbrainfunctions.com/content/1/1/6
© 2005 Niv și colab. licențiat BioMed Central Ltd.

Abstract

Dovada substanțială sugerează că activitățile fazice ale neuronilor dopaminergici din creierul primar reprezintă o eroare de diferență temporală (TD) în predicțiile recompensei viitoare, cu creșteri peste și scăderi sub nivelul de bază, urmare a erorilor de predicție pozitive și negative. Cu toate acestea, celulele dopaminei au activitate de bază foarte scăzută, ceea ce presupune că reprezentarea acestor două tipuri de eroare este asimetrică. Explorăm implicațiile acestei asimetrii aparent inofensive pentru interpretarea tiparelor de ardere dopaminergice în experimente cu recompense probabilistice care determină erori de predicție persistente. În special, arătăm că atunci când se realizează o medie a erorilor de predicție non-staționare în cadrul încercărilor, ar trebui să fie evidentă o amplificare a activității neuronilor dopaminici, a căror amploare depinde de rata de învățare. Acest fenomen exact a fost observat într-un experiment recent, deși a fost interpretat acolo în termeni antipodali ca o codificare în interior a procesului de incertitudine.

Introducere

Există un corp impresionant de date fiziologice, imagistice și psihofarmacologice cu privire la activitatea fazică a celulelor dopaminergice (DA) în mijlocele de maimuțe, șobolani și oameni în sarcini clasice și instrumentale de condiționare care implică predicții ale recompenselor viitoare [1-5]. Aceste date au fost luate pentru a sugera [6,7] că activitatea neuronilor DA reprezintă erori de diferență temporală (TD) în predicțiile recompensei viitoare [8,9]. Această teorie TD a dopaminei oferă o bază precisă de calcul pentru a înțelege o serie de date comportamentale și neuronale. Mai mult, sugerează că DA oferă un semnal adecvat teoretic pentru controlul învățării atât a predicțiilor, cât și a acțiunilor de optimizare a recompenselor.

Unele dintre cele mai convingătoare dovezi în favoarea teoriei TD provin din studii care investighează activarea fazică a celulelor dopaminice ca răspuns la stimuli arbitrari (cum ar fi modelele fractale de pe un monitor) care prezic disponibilitatea apropiată a recompenselor (cum ar fi picăturile de suc) . În multe variante, acestea au arătat că, odată cu antrenamentul, semnalele DA fazice se transferă de la momentul recompensei inițial imprevizibile, până la cel mai timpuriu cuce care prezice o recompensă. Acesta este exact rezultatul scontat pentru o eroare de predicție bazată pe diferențe temporale (de ex. [1,2,10-13]). Constatarea de bază [7] este că atunci când o recompensă este neașteptată (ceea ce este inevitabil în studiile timpurii), celulele dopaminei răspund puternic la ea. Cu toate acestea, atunci când este prevăzută o recompensă, celulele răspund la predictor și nu la recompensa acum așteptată.

Dacă o recompensă prevăzută este omisă în mod neașteptat, atunci celulele sunt inhibate treptat la momentul normal al recompensei, o inhibiție care dezvăluie momentul precis al predicției recompensei [10] și ale cărei valori temporale sunt în prezent sub lumina reflectoarelor [14]. Trecerea activității de la momentul recompensei la timpul predictorului seamănă cu trecerea reacției comportamentale apetisive a animalului de la momentul recompensei (stimulul necondiționat) la cel al stimulului condiționat în experimentele de condiționare clasică [7,10] .

Într-un studiu recent cel mai interesant, Fiorillo și colab. [15] a examinat cazul unei armături parțiale, în care există o eroare de predicție persistentă, ineluctabilă, la fiecare proces. O interpretare simplă a ipotezei erorii de predicție TD ar sugera că, în acest caz, (a) activitatea dopaminei la momentul stimulilor predictivi s-ar scala cu probabilitatea de recompensă și (b) în medie peste studii, răspunsul dopaminergic după stimul și până la momentul răsplătirii, ar trebui să fie zero. Deși prima ipoteză a fost confirmată în experimente, a doua nu a fost. Răspunsurile medii între proces au arătat o intensitate clară a activității în timpul întârzierii între debutul stimulului și recompensă, care păreau incompatibile cu contul TD. Fiorillo și colab. ipoteza că această activitate reprezintă incertitudinea în livrarea recompenselor, mai degrabă decât o eroare de predicție.

În această lucrare, vizităm problema erorii de predicție persistentă. Arătăm că o asimetrie crucială în codificarea erorilor de predicție pozitive și negative duce la așteptarea acumulării în semnalul intermediar de dopamină între proces, și, de asemenea, explică bine două caracteristici suplimentare ale semnalului DA - activitate aparentă persistentă la momentul recompensei (potențiale) și dispariția (sau cel puțin slăbirea) semnalului de rampare, dar nu semnalul în momentul recompensei, în fața urmelor mai degrabă decât întârzierea condiționării. Ambele fenomene au fost observate și în experimentele de condiționare instrumentală aferente Morris și colab. [16]. În cele din urmă, interpretăm semnalul de rampare ca fiind cea mai bună dovadă disponibilă în prezent pentru natura mecanismului de învățare prin care se produce trecerea activității dopaminei la timpul stimulilor predictivi.

Incertitudine în apariția recompenselor: rampa DA

Fiorillo și colab. [15] a asociat prezentarea a cinci stimuli vizuali diferiți la macaci cu livrarea întârziată, probabilistică (pr = 0, 0.25, 0.5, 0.75, 1) a recompenselor de suc. Au folosit o paradigmă de condiționare a întârzierii, în care stimulul persistă pentru un interval fix de 2 secunde, recompensa fiind livrată atunci când stimulul dispare. După antrenament, comportamentul de lins anticipativ al maimuțelor a indicat că erau conștienți de diferitele probabilități de recompensă asociate cu fiecare stimul.

Figura 1a prezintă histogramele populației de activitate a celulelor DA înregistrate extracelular pentru fiecare pr. Teoria TD prezice că activarea fazică a celulelor DA la momentul stimulilor vizuali ar trebui să corespundă cu recompensa medie așteptată și deci ar trebui să crească odată cu pr. Figura 1a arată exact acest lucru - într-adevăr, la nivelul întregii populații, creșterea este destul de liniară. Morris și colab. [16] raportează un rezultat similar într-o sarcină instrumentală (de urmărire) care implică și o întărire probabilistică.

Figura 1. Erori de predicție medii într-o sarcină de recompensă probabilistică
(a) Răspunsul DA în probe cu probabilități diferite de recompensare. Histogramele timpului peri-stimul al populației (PSTH-uri) arată activitatea sumară de creștere a mai multor neuroni DA pe mai multe studii, pentru fiecare pr, combinate cu studii recompensate și nerecompensate la probabilități intermediare. (b) Eroare de predicție TD cu scalare asimetrică. În sarcina simulată, în fiecare test, unul din cinci stimuli a fost ales aleatoriu și afișat la momentul t = 5. Stimulul a fost oprit la t = 25, moment în care s-a dat o recompensă cu o probabilitate de pr specificată de stimul. Am folosit o reprezentare prin linie de întârziere a stimulilor (vezi textul), fiecare stimul reprezentat de un set diferit de unități („neuroni”). Eroarea TD a fost δ (t) = r (t) + w (t - 1) • x (t) - w (t - 1) • x (t - 1), cu r (t) recompensa la momentul t și x (t) și w (t) vectorii de stare și greutate pentru unitate. O regulă standard de învățare TD online a fost utilizată cu o rată de învățare fixă α, w (t) = w (t - 1) + αδ (t) x (t - 1), astfel încât fiecare greutate a reprezentat o valoare a recompensei viitoare așteptată. Similar cu Fiorillo și colab., Prezentăm eroarea de predicție δ (t) mediată pe mai multe încercări, după ce sarcina a fost învățată. Asimetria reprezentativă apare ca valori negative ale lui δ (t) au fost scalate cu d = 1/6 înainte de însumarea PSTH simulat, deși învățarea se desfășoară în conformitate cu erori nescalate. În cele din urmă, pentru a ține cont de răspunsurile pozitive mici la momentul stimulului pentru pr = 0 și în momentul recompensei (prezise) pentru pr = 1 observată în (a), am presupus o șansă mică (8%) ca un stimulul predictiv este identificat greșit. (c) Răspunsul DA în pr = 0.5 studii, separate în studii recompensate (stânga) și nerecompensate (dreapta). (d) Modelul TD al (c). (a, c) Reimprimat cu permisiunea de la [15] © 2003 AAAS. Permisiunea de la AAAS este necesară pentru toate celelalte utilizări.

În schimb, la momentul livrării potențiale a recompenselor, teoria TD prezice că, în medie, nu ar trebui să existe nicio activitate, deoarece, în medie, nu există nicio eroare de predicție la acel moment. Desigur, în proiectarea de armare probabilistică (cel puțin pentru pr ≠ 0, 1) există, de fapt, o eroare de predicție la momentul livrării sau neprezentării recompensei la fiecare încercare. În cazul încercărilor în care este livrată o recompensă, eroarea de predicție ar trebui să fie pozitivă (deoarece recompensa obținută este mai mare decât recompensa medie preconizată). Dimpotrivă, în cazul încercărilor fără recompensă, ar trebui să fie negativ (a se vedea figura 1c). În mod crucial, sub TD, media acestor diferențe, ponderată de probabilitățile lor de apariție, ar trebui să fie zero. Dacă nu este zero, atunci această eroare de predicție ar trebui să acționeze ca un semnal de plasticitate, schimbând predicțiile până când nu există nicio eroare de predicție. În concordanță cu această așteptare, datele din figura 1a, care este în medie atât în cazul încercărilor recompensate cât și a celor nerecomandate, arată că există o activitate medie pozitivă în acest moment. Acest lucru este evident și în datele lui Morris și colab. [16] (vezi Figura 3c). Răspunsurile pozitive ale DA nu arată semne de dispariție chiar și cu o pregătire substanțială (de-a lungul lunilor).

Mai rău decât acest lucru pentru modelul TD și, într-adevăr, în centrul atenției Fiorillo și colab. [15], reprezintă acumularea aparentă a activității DA către timpul scontat al recompensei. Întrucât amploarea rampei este cea mai mare pentru pr = 0.5, Fiorillo și colab. a sugerat să raporteze incertitudinea în livrarea recompenselor, mai degrabă decât o eroare de predicție și a speculat că acest semnal ar putea explica proprietățile aparent apetisante ale incertitudinii (așa cum se vede în jocurile de noroc).

Atât activitatea de rampare, cât și activitatea la momentul prevăzut de recompensă reprezintă provocări critice pentru teoria TD. Învățarea TD funcționează prin aranjarea activității de DA la un moment dat într-un proces care să fie prevăzut de acțiunile disponibile mai devreme în acel proces. Astfel, nu este clar modul în care orice activitate aparent previzibilă, fie că la momentul recompensei sau la rampă înainte, poate persista fără a fi prezisă departe de debutul stimulului vizual. La urma urmei, activitatea dependentă de pr, ca răspuns la stimul, își confirmă statutul de predictor valid. Mai mult, un aspect cheie al TD [17] este acela că acesta cuplă predicția la alegerea acțiunii folosind valoarea unui stat ca o indicație a recompenselor viitoare disponibile din acel stat și, prin urmare, atractivitatea sa ca țintă pentru acțiune. Din această perspectivă, întrucât activitatea de rampare nu este prevăzută explicit de indicatorul anterior, nu poate influența acțiuni timpurii, cum ar fi decizia de a juca. De exemplu, luați în considerare o competiție între două acțiuni: una care duce în cele din urmă la un stat cu o recompensă deterministă și, prin urmare, fără rampa, iar cealaltă care duce la un stat urmată de o recompensă probabilistică cu aceeași medie, și o ramă. Deoarece rampa nu afectează activitatea în momentul stimulului condiționat, nu poate fi utilizată pentru a evalua sau a favoriza a doua acțiune (jocuri de noroc) peste prima, în ciuda incertitudinii suplimentare.

Vă sugerăm ipoteza alternativă conform căreia ambele modele de ardere anomale rezultă direct din constrângerile implicate de rata scăzută de bază a activității neuronilor DA (2 – 4 Hz) pe codarea erorii de predicție semnată. După cum remarcă Fiorillo și colab. [15], erorile de predicție pozitivă sunt reprezentate de rate de tragere de ~ 270% peste linia de bază, în timp ce erorile negative sunt reprezentate de o scădere de numai ~ 55% sub nivelul de bază (a se vedea, de asemenea, [14,18]). Această asimetrie este o consecință simplă a codificării unei cantități semnate prin tragere care are o linie de bază scăzută, însă, evident, poate fi doar pozitivă. Vitezele de tragere peste linia de bază pot codifica erorile de predicție pozitivă folosind o gamă dinamică mare, cu toate acestea, sub ratele de tragere de bază pot scădea doar la zero, impunând o restricție la codarea erorilor de predicție negative.

În consecință, trebuie să fiți atenți la interpretarea sumelor (sau mediilor) histogramelor peri-stimul-timp (PSTH) de activitate pe diferite studii, așa cum sa făcut în Figura 1a. Semnalele de eroare pozitive și negative codificate asimetric în momentul primirii sau nerecepționării recompensei nu ar trebui într-adevăr să însumeze zero, chiar dacă reprezintă erori de predicție TD corecte. Când este însumat, tragerea redusă care reprezintă erorile negative în studiile nerecompensate nu va „anula” tragerea rapidă care codifică erorile pozitive în încercările recompensate și, în general, media va arăta un răspuns pozitiv. Bineînțeles, în creier, deoarece răspunsurile nu sunt mediate în urma studiilor (recompensate și nerecompensate), ci în ceea ce privește neuronii din cadrul unui proces, acest lucru nu trebuie să pună o problemă.

Aceasta explică activitatea pozitivă persistentă (în medie) în momentul livrării sau neprezentării recompensei. Dar despre rampa anterioară acestei perioade? Cel puțin în anumite reprezentări neuronale ale timpului dintre stimul și recompensă, atunci când studiile sunt mediate, această aceeași asimetrie determină ca TD să rezulte exact într-o ramificare a activității spre timpul recompensei. Mecanismul de învățare TD are ca efect propagarea, de la un proces la altul, a erorilor de predicție care apar la un moment dat într-un proces (cum ar fi la momentul recompensării) către potențiali predictori (cum ar fi CS) care apar la orele anterioare din fiecare proces. Sub reprezentarea asimetrică a erorilor de predicție pozitive și negative despre care tocmai am discutat, media acestor erori de propagare pe mai multe încercări (ca în figura 1a) va duce la mijloace pozitive pentru epoci în cadrul unui proces înainte de recompensă. Forma precisă a rampei de activitate rezultate depinde de modul în care sunt reprezentați stimulii în timp, precum și de viteza de învățare, după cum vom discuta mai jos.

Figura 2 ilustrează această vedere a provenienței activității de rampă. Aici, o reprezentare a timpului de la momentul stimulării este folosită. Pentru aceasta, fiecare unitate („neuron”) devine activă (adică își asumă valoarea 1) la un anumit decalaj după ce stimulul a fost prezentat, astfel încât fiecare pas de timp după declanșarea stimulului este reprezentat în mod constant de tragerea unei unități. Învățarea se bazează pe eroarea TD (raportată dopaminergic), formalizată ca δ (t) = r (t) + V (t) - V (t - 1), cu V (t) intrarea ponderată de la unitatea activă la timpul t și r (t) recompensa obținută la momentul t. Actualizarea ponderilor unităților în conformitate cu regula standard de actualizare TD cu o rată de învățare fixă, permite ca V (t) să reprezinte, în medie, recompensele viitoare așteptate (vezi Figura 1 subtitrare). Deoarece fiecare etapă de timp ulterioară este reprezentată separat, pot apărea erori de predicție TD în orice moment în cadrul procesului. Figura 2a prezintă aceste erori în șase studii consecutive simulate în care pr = 0.5. În fiecare încercare, apare o nouă eroare pozitivă sau negativă în momentul recompensei, ca urmare a primirii sau neprimirii recompensei, iar pas cu pas erorile din încercările anterioare se propagă înapoi la momentul stimulului, prin actualizarea constantă a greutăților (de exemplu, eroarea evidențiată cu roșu). Când faceți o medie (sau, la fel ca în PSTH, însumând) în urma testelor, aceste erori se anulează reciproc în medie, rezultând o histogramă plană generală în intervalul de la debutul stimulului și conducând la momentul recompensei (linia neagră din Figura 2b, însumat peste cele 10 probe prezentate în albastru subțire). Cu toate acestea, atunci când este însumat după scalarea asimetrică a erorilor negative cu un factor de d = 1/6 (care simulează codarea asimetrică a erorilor de predicție pozitive și negative de către neuronii DA), apare o rampă pozitivă de activitate, așa cum este ilustrat de linia neagră în Figura 2c. Rețineți că această redimensionare este doar o problemă reprezentativă, rezultată din constrângerile codificării unei valori negative despre o rată de tragere de bază scăzută și nu ar trebui să afecteze învățarea greutăților, pentru a nu învăța valori greșite (vezi discuția). Cu toate acestea, întrucât PSTH-urile sunt în mod direct sume de vârfuri neuronale, această problemă de reprezentare se referă la histograma rezultată.

Figura 2. Backpropagarea erorilor de predicție explică activitatea de rampare.
(a) Eroarea de predicție TD în fiecare din cele șase încercări consecutive (de sus în jos) de la simularea din figura 1b, cu pr = 0.5. Evidențiată în roșu este eroarea de la momentul recompensei în primele încercări și propagarea sa treptată înapoi spre timpul stimulului în studiile ulterioare. Scrisorile bloc indică rezultatul fiecărui proces specific (R = recompensat; N = necompensat). Secvența de recompense anterioare acestor încercări este dată în partea dreaptă sus. (b) Eroarea TD din aceste șase studii și alte patru urmări, suprapuse. Liniile roșii și verzi ilustrează plicul erorilor din aceste încercări. Rezumând aceste studii nu rezultă în medie o activitate peste linia de referință (linie neagră), deoarece erori pozitive și negative apar la 50% aleatoriu din timp, deci se anulează reciproc. (c) Cu toate acestea, atunci când erorile de predicție sunt reprezentate asimetric deasupra și sub rata de tragere de bază (aici erorile negative au fost scalate asimetric de d = 1 / 6 pentru a simula codificarea asimetrică a erorilor de predicție de către neuronii DA), o ramificare medie a activității apare atunci când se face o medie peste încercări, așa cum este ilustrat de linia neagră. Toți parametrii de simulare sunt identici ca în figura 1b, d.

Figurile 1b, d prezintă rampa care rezultă din această combinație de codare asimetrică și mediere inter-încercare, pentru comparație cu datele experimentale. Figura 1b arată PSTH calculat din datele noastre simulate prin medierea semnalului δ (t) reprezentat asimetric în studiile ~ 50 pentru fiecare tip de stimul. Figura 1d arată rezultatele pentru cazul pr = 0.5, împărțit în încercări recompensate și nerecomandate pentru comparație cu Figura 1c. Rezultatele simulate seamănă cu datele experimentale îndeaproape prin faptul că reproduc răspunsul pozitiv net la recompensele incerte, precum și efectul de rampare, care este cel mai mare în cazul pr = 0.5.

Este simplu să obținem răspunsul mediu la momentul recompensei (t = N) în procesul T, adică eroarea medie TD δT (N), din regula învățării TD cu reprezentarea simplificată a timpului de întârziere tapetat și rata fixă de învățare α. Valoarea la următoarea oră de timp dintr-un proces, în funcție de numărul de încercare (cu valorile inițiale considerate zero), este

unde r (t) este recompensa la sfârșitul procesului t. Semnalul de eroare la ultimul moment al încercării T este pur și simplu diferența dintre recompensa obținută r (T) și valoarea care prezice recompensa VT-1 (N-1). Această eroare este pozitivă cu probabilitatea pr și negativă cu probabilitatea (1 - pr). Scalând erorile negative cu un factor de d ∈ (0, 1], obținem astfel

Pentru codificarea simetrică a erorilor pozitive și negative (d = 1), răspunsul mediu este 0. Pentru codificare asimetrică (0) Condiționarea urmelor: un caz de testare

Un caz de testare important pentru interpretarea noastră apare într-o variantă a sarcinii [15] a lui Fiorillo și colab., Precum și în sarcina instrumentală analogică a lui Morris și colab. [16], ambele implicând condiționarea urmelor. Spre deosebire de condiționarea întârziată (Figura 3a), în care recompensa coincide cu compensarea stimulului predictiv, aici există un decalaj substanțial între compensarea stimulului predictiv și livrarea recompensei (Figura 3b). În mod clar, în acest caz, incertitudinea cu privire la recompensă ar putea crește doar, datorită zgomotului în timpul intervalului dintre stimul și recompensă [19], astfel încât, în contul incertitudinii, ar trebui să existe rampe comparabile sau chiar mai mari. Cu toate acestea, rezultatele experimentale arată că activitatea de rampă este mai mică sau chiar neglijabilă (Figura 3c; d). Rețineți, totuși, că magnitudinea activității medii de încercare la momentul așteptat al recompensei este menținută, indicând o disociere între înălțimea rampei și cantitatea de activitate pozitivă la momentul așteptat al recompensei.

Figura 3. Urmărirea condiționării cu recompense probabilistice.
(a) O ilustrare a unui proces al sarcinii de condiționare a întârzierii a lui Fiorillo și colab. [15]. Un proces constă într-un stimul vizual de 2 secunde, a cărui compensare coincide cu livrarea recompensei de suc, dacă o astfel de recompensă este programată în funcție de probabilitatea asociată cu indicativul vizual. În încercările neremunerate stimulul s-a încheiat fără recompensă. În ambele cazuri, un interval inter-proces de 9 secunde, în medie, separă studiile. (b) O ilustrare a unui proces al sarcinii de condiționare a urmelor de Morris și colab. [16]. Diferența crucială este că există acum o întârziere temporală substanțială între compensarea stimulului și debutul recompensei (perioada „urmelor”) și niciun stimul extern nu indică timpul așteptat al recompensei. Acest lucru conferă incertitudine suplimentară, deoarece calendarul precis al recompensei prezise trebuie rezolvat intern, în special în încercările neremunerate. În această sarcină, ca și în [15], unul dintre mai mulți stimuli vizuali (neprezentați) a fost prezentat în fiecare studiu și fiecare stimul a fost asociat cu o probabilitate de recompensă. Aici, de asemenea, maimuței i s-a cerut să efectueze un răspuns instrumental (apăsând tasta corespunzătoare laturii în care a fost prezentat stimulul), eșecul căruia a încheiat procesul fără recompensă. Testele au fost separate prin intervale variabile între procese. (c, d) Rata de tragere DA (netezită) în raport cu momentul inițial, în jurul timpului așteptat al recompensei, în încercările recompensate (c) și în probele nerecompensate (d). (c, d) Retipărit din [16] © 2004 cu permisiunea Elsevier. Urmele implică un răspuns general pozitiv la momentul așteptat al recompensei, dar cu o rampă foarte mică sau fără o precedentă. Rezultate similare au fost obținute într-o sarcină de condiționare clasică descrisă pe scurt în [15], care a folosit o procedură de condiționare a urmelor, confirmând că perioada de urmărire și nu natura instrumentală a sarcinii descrise în (b) a fost diferența crucială față de (a) .

Modelul TD al DA explică cu ușurință aceste date nedumerite. După cum se arată în figura 4, forma rampei, deși nu înălțimea vârfului ei, este afectată de rata de învățare. Mărimea erorilor de predicție propagată înapoi este determinată, în parte, de rata de învățare, deoarece aceste erori apar ca parte a învățării online a noilor predicții. Într-adevăr, există o actualizare continuă a predicțiilor, astfel încât, după un proces recompensat, există o așteptare mai mare de recompensă (și, astfel, următoarea recompensă suportă o eroare de predicție mai mică) și, invers, după un proces necompensat [18] (vezi Figura 2a). Această actualizare a predicțiilor este direct legată de rata de învățare - cu cât rata de învățare este mai mare, cu atât actualizarea predicțiilor este mai mare în funcție de eroarea de predicție curentă și cu cât fracția din eroarea de predicție este propagată înapoi. În acest fel, cu rate de învățare mai mari, diferența de așteptări după o recompensă comparativ cu un proces nerecomandat va fi mai mare și, astfel, erorile de predicție când următoarea recompensă este sau nu disponibilă va fi mai mare - de aici rampa mai mare și mai graduală.

Figura 4. Dependența rampei de rata de învățare.
Forma rampei, dar nu și înălțimea vârfului său, depinde de rata de învățare. Graficul arată activitatea simulată pentru cazul pr = 0.5 în apropierea momentului recompensei preconizate, pentru diferite rate de învățare, în medie atât la încercările recompensate cât și la cele nerecomandate. Conform învățării TD cu erori de predicție codificate asimetric persistente, medierea activității în studiile răsplătite și nerecomandate are ca rezultat o rampă până la momentul recompensei. Înălțimea vârfului rampei este determinată de raportul dintre încercările recompensate și nerecomandate, cu toate acestea, lățimea rampei este determinată de rata de propagare înapoi a acestor semnale de eroare de la momentul recompensei (așteptate) până la timpul stimulului predictiv. O rată de învățare mai mare duce la o fracțiune mai mare a erorii care se propagă înapoi, și astfel la o ramă mai mare. Cu rate de învățare mai mici, rampa devine neglijabilă, deși activitatea pozitivă (în medie) la momentul recompensării este încă menținută. Rețineți că, deși rata de învățare folosită în simulările descrise în figura 1b, d a fost 0.8, aceasta nu ar trebui să fie considerată ca rata literală de învățare sinaptică a substratului neural, având în vedere reprezentarea noastră schematică a stimulului. Într-o reprezentare mai realistă în care o populație de neuroni este activă în fiecare moment, o rată de învățare mult mai mică ar produce rezultate similare.

Într-adevăr, în comparație cu condiționarea cu întârziere, condiționarea urmelor este notoriu lent, ceea ce sugerează că rata de învățare este scăzută și, prin urmare, ar trebui să existe o ramă mai mică, în concordanță cu rezultatele experimentale. O examinare directă a ratei de învățare în datele lui Morris și colab. [16], a cărei sarcină a necesitat o pregătire excesivă, deoarece nu numai că a fost urmărită, ci și o acțiune instrumentală, a confirmat-o într-adevăr a fi foarte scăzută (Genela Morris - comunicare personală, 2004).

Discuție

Codificarea diferențială a valorilor pozitive și negative de către neuronii DA este evidentă în toate studiile semnalului DA fazic și poate fi privită ca o consecință inevitabilă a activității de bază scăzute a acestor neuroni. Într-adevăr, acesta din urmă a inspirat în mod direct sugestii ca un neurotransmițător adversar, putativ serotonină, să fie implicat în reprezentarea și, prin urmare, să învețe erorile de predicție negativă [20], astfel încât să aibă și un sfert complet. Totuși, aici, ne-am limitat să luăm în considerare efectele asimetriei asupra analizei medii de încercare a activității dopaminei și am arătat că activitatea de ramificare a DA, precum și un răspuns mediu pozitiv în momentul recompensei, rezultă direct din codificarea asimetrică a erorilor de predicție.

În afară de o perspectivă mai clară a semnalului de eroare, cea mai importantă consecință a noii interpretări este că rampele pot fi văzute ca o semnătură a unui fenomen TD care până acum a fost extrem de evaziv. Aceasta este propagarea înapoi progresivă a semnalului de eroare reprezentat de activitatea DA, de la momentul recompensei până la momentul previzibilului (Figura 2a). Majoritatea studiilor anterioare ale activității dopaminergice au folosit pr = 1, astfel încât această propagare înapoi în cel mai bun caz este un fenomen tranzitoriu aparent doar la începutul antrenamentului (când, de obicei, înregistrările nu au început încă) și pot fi greu de discernit în mod lent. tragerea neuronilor DA. Mai mult, după cum am menționat, propagarea înapoi depinde de modul în care este reprezentat timpul dintre stimulul predictiv și recompensă - este prezent pentru o reprezentare în linie de întârziere ca în [6], dar nu pentru reprezentări care acoperă întregul întârziere, cum ar fi în [21]. Rețineți că forma rampei depinde, de asemenea, de utilizarea urmelor de eligibilitate și a așa-numitei reguli de învățare TD (λ) (simularea nu este arătată), care oferă un mecanism suplimentar pentru punerea timpului între evenimente în timpul învățării. Din păcate, deoarece formele rampelor din date sunt destul de variabile (figura 1) și zgomotoase, ele nu pot oferi constrângeri puternice asupra mecanismului TD precis folosit de creier.
Studii mai recente care implică erori de predicție persistente arată, de asemenea, o activitate sugestivă de propagare înapoi, în special Figura 4 din [13]. În acest studiu, erorile de predicție au rezultat din modificări periodice ale sarcinii, iar înregistrările DA au fost făcute de la debutul antrenamentului, astfel activitatea de propagare înapoi este direct aparentă, deși această activitate nu a fost cuantificată.

Ne așteptăm ca rampele să persiste pe parcursul antrenamentului numai dacă rata de învățare nu scade la zero pe măsură ce învățarea progresează. Teoria lui Pearce & Hall [22] a controlului învățării prin incertitudine sugerează exact această persistență a învățării - și există dovezi din programele de consolidare parțiale că rata de învățare poate fi mai mare atunci când există mai multă incertitudine asociată recompensei. Într-adevăr, dintr-un punct de vedere statistic „rațional”, învățarea ar trebui să persiste atunci când există o incertitudine substanțială cu privire la relația dintre predictori și rezultate, așa cum poate apărea din posibilitatea mereu prezentă a unei schimbări în relațiile predictive. Această formă de incertitudine persistentă, împreună cu incertitudinea din cauza ignoranței inițiale cu privire la sarcină, au fost folosite pentru a oficializa teoria lui Pearce & Hall a modului în care incertitudinea conduce învățarea [23]. Astfel, afirmația noastră că incertitudinea poate să nu fie reprezentată direct de rampe, cu siguranță nu ar trebui considerată că reprezentarea și manipularea acesteia nu sunt importante. Dimpotrivă, am sugerat că incertitudinea influențează inferența corticală și învățarea prin alte sisteme neuromodulatoare [24] și că poate determina, de asemenea, aspecte ale selecției acțiunilor [25].

Trebuie remarcate diferite caracteristici ale asimetriei. Cel mai critic este efectul asimetriei pe învățarea dependentă de DA [26], dacă activitatea de bază de mai jos DA este responsabilă de la sine pentru scăderea predicțiilor care sunt prea mari. Pentru a ne asigura că predicțiile învățate rămân corecte, ar trebui să presupunem că reprezentarea asimetrică nu afectează învățarea, adică faptul că un mecanism precum scalarea diferită pentru potențarea și deprimarea punctelor forte sinaptice compensează semnalul de eroare asimetric. Bineînțeles, acest lucru ar fi transformat în caz că un neurotransmițător adversar este implicat în învățarea din erori negative de predicție. Această problemă este complicată de sugestia lui Bayer [14] conform căreia ratele de tragere DA sunt de fapt similare pentru toate erorile de predicție sub un prag negativ, poate datorită efectului de podea al ratei scăzute de tragere. O astfel de codificare cu pierderi nu afectează imaginea calitativă a efectelor mediei inter-încercări asupra apariției rampelor, dar consolidează necesitatea unui semnal advers pentru învățarea neapărat simetrică.

În cele din urmă, cel mai direct test al interpretării noastre ar fi o comparație a mediilor intra și inter-proces ale semnalului DA. Ar fi important să faceți acest lucru într-o manieră sofisticată din punct de vedere temporal, pentru a evita problemele de mediere a semnalelor nestacionare. Pentru a depăși zgomotul din declanșarea neuronală și pentru a determina dacă într-adevăr a existat o rampă treptată în cadrul unui studiu sau, așa cum am prezice - erori de predicție pozitive și negative intermitente, ar fi necesar să se facă media peste mai mulți neuroni înregistrați simultan în un studiu și, în plus, neuronii asociați cu rate de învățare similare. Alternativ, urmele unui singur neuron ar putea fi regresate împotriva răspunsului de propagare inversă prezis de studiile lor anterioare și învățarea TD. O comparație a cantității de variabilitate explicată de un astfel de model, comparativ cu cea dintr-o regresie față de o rampă de activitate monotonă, ar putea indica cel mai potrivit model. O predicție mai puțin simplă, dar mai testabilă, este că forma rampei ar trebui să depindă de rata de învățare. Ratele de învățare pot fi evaluate din răspunsul la recompensele probabilistice, independent de forma rampei (Nakahara și colab. [18] au arătat în așa fel, încât în sarcina lor de condiționare a urmelor parțiale de întărire, rata de învățare a fost 0.3), și potențial manipulat prin variația cantității de antrenament sau a frecvenței cu care contingențele sarcinii sunt schimbate și reînvățate. Într-adevăr, cuantificarea existenței și formei unei rampe în activitatea DA înregistrată de Nakahara și colab., Ar putea arunca o lumină asupra propunerii actuale.

Interese concurente
Autorul (i) declară că nu au interese concurente.

Contribuțiile autorilor
YN, MD și PD au conceput și executat în comun acest studiu și au ajutat la redactarea manuscrisului. Toți autorii au citit și au aprobat manuscrisul final.

Mulţumiri
Suntem foarte recunoscători lui H. Bergman, C. Fiorillo, N. Daw, D. Joel, P. Tobler, P. Shizgal și W. Schultz pentru discuții și comentarii, în unele cazuri, în ciuda interpretării variate a datelor. Suntem deosebit de recunoscători pentru Genela Morris pentru analizarea propriilor date publicate și nepublicate în legătură cu rampingul. Această lucrare a fost finanțată de rețea tematică CE (YN), Gatsby Charitable Foundation și proiectul EU BIBA.

Referinte

1. Ljungberg T, Apicella P, Schultz W: Răspunsurile neuronilor dopaminergici de maimuță în timpul învățării reacțiilor comportamentale.
Jurnal Neurofiziol 1992, 67: 145-163.
Reveniți la text
2. Schultz W: Semnal predictiv de recompensă al neuronilor dopaminergici. [http://jn.physiology.org/cgi/content/full/80/1/1] webcite
Jurnalul de neurofiziologie 1998, 80: 1-27. PubMed Abstract
Reveniți la text
3. O'Doherty J, Dayan P, Friston K, Critchley H, Dolan R: Modele de diferență temporală și învățare legată de recompensă în creierul uman.
Neuron 2003, 38: 329-337. PubMed Abstract | Textul complet al editorului
Reveniți la text
4. Seymour B, O'Doherty J, Dayan P, Koltzenburg M, Jones A, Dolan R, Friston K, Frackowiak R: Modelele de diferență temporală descriu învățarea de ordin superior la oameni.
Natura 2004, 429: 664-667. PubMed Abstract | Textul complet al editorului
Reveniți la text
5. Montague PR, Hyman SE, Cohan JD: Roluri computaționale pentru dopamină în controlul comportamental.
Natura 2004, 431: 760-767. PubMed Abstract | Textul complet al editorului
Reveniți la text
6. Montague PR, Dayan P, Sejnowski TJ: Un cadru pentru sistemele dopaminergice mezencefalice bazate pe învățarea predictivă Hebbian.
Journal of Neuroscience 1996, 16: 1936-1947. PubMed Abstract | Textul complet al editorului
Reveniți la text
7. Schultz W, Dayan P, Montague PR: Un substrat neural de predicție și recompensă.
Știință 1997, 275: 1593-1599. PubMed Abstract | Textul complet al editorului
Reveniți la text
8. Sutton RS: Învățarea de a prezice prin metoda diferenței temporale.
Învățare automată 1988, 3: 9-44.
Reveniți la text
9. Sutton RS, Barto AG: [http://www.cs.ualberta.ca/~sutton/book/ebook/the-book.html] webcite
Învățare de consolidare: o introducere. MIT Press; 1998.
Reveniți la text
10. Hollerman J, Schultz W: Neuronii dopaminergici raportează o eroare în predicția temporală a recompensei în timpul învățării.
Natura Neuroștiință 1998, 1: 304-309. PubMed Abstract | Textul complet al editorului
Reveniți la text
11. Schultz W, Apicella P, Ljungberg T: Răspunsurile neuronilor dopaminergici de maimuță la stimuli de recompensă și condiționați în timpul etapelor succesive de învățare a unei sarcini de răspuns întârziat.
Journal of Neuroscience 1993, 13: 900-913. PubMed Abstract | Textul complet al editorului
Reveniți la text
12. Tobler P, Dickinson A, Schultz W: Codificarea Omisiunii de recompense prezise de către neuronii dopaminergici într-un paradigm de inhibare condiționat.
Journal of Neuroscience 2003, 23 (32): 10402-10410. PubMed Abstract | Textul complet al editorului
Reveniți la text
13. Takikawa Y, Kawagoe R, Hikosaka O: Un posibil rol al neuronilor dopaminergici din creierul mijlociu în adaptarea pe termen scurt și lung a saccadelor la cartografierea poziției-recompense.
Jurnalul de neurofiziologie 2004, 92: 2520-2529. PubMed Abstract | Textul complet al editorului
Reveniți la text
14. Bayer H: Un rol pentru substanța nigra în învățare și control motor.
Teză de doctorat, Universitatea New York 2004.
Reveniți la text
15. Fiorillo C, Tobler P, Schultz W: Codificarea discretă a probabilității și incertitudinii recompensei de către neuronii dopaminergici.
Știință 2003, 299 (5614): 1898-1902. PubMed Abstract | Textul complet al editorului
Reveniți la text
16. Morris G, Arkadir D, Nevet A, Vaadia E, Bergman H: Mesaje coincidente, dar distincte ale dopaminei midbrain și neuronilor activi tonic striatali.
Neuron 2004, 43: 133-143. PubMed Abstract | Textul complet al editorului
Reveniți la text
17. Barto A, Sutton R, Watkins C: Învățare și luarea deciziilor secvențiale. În Învățare și neuroștiință computațională: Fundamentele rețelelor adaptive. Editat de Gabriel M, Moore J. Cambridge, MA: MIT Press; 1990:539-602.
Reveniți la text
18. Nakahara H, Itoh H, Kawagoe R, Takikawa Y, Hikosaka O: Neuronii dopaminergici pot reprezenta o eroare de predicție dependentă de context.
Neuron 2004, 41: 269-280. PubMed Abstract | Textul complet al editorului
Reveniți la text
19. Gallistel CR, Gibbon J: Time, rate and conditioning.
Revizuire psihologică 2000, 107: 289-344. PubMed Abstract | Textul complet al editorului
Reveniți la text
20. Daw ND, Kakade S, Dayan P: Interacțiuni adverse între serotonină și dopamină.
Rețele neurale 2002, 15 (4 – 6): 603-616. PubMed Abstract | Textul complet al editorului
Reveniți la text
21. Suri RE, Schultz W: Un model de rețea neuronală cu semnal de întărire asemănător dopaminei care învață o sarcină spațială de răspuns întârziat.
Neuroștiință 1999, 91: 871-890. PubMed Abstract | Textul complet al editorului
Reveniți la text
22. Pearce JM, Hall G: A model for Pavlovian learning: Variations in the effectiveness of conditioned but not of unconditioned stimuli.
Revizuire psihologică 1980, 87: 532-552. PubMed Abstract | Textul complet al editorului
Reveniți la text
23. Dayan P, Kakade S, Montague PR: Învățare și atenție selectivă.
Natura Neuroștiință 2000, 3: 1218-1223. PubMed Abstract | Textul complet al editorului
Reveniți la text
24. Dayan P, Yu A: Incertitudine așteptată și neașteptată: Ach și NE în neocortex. [http://books.nips.ce/papers/files/nips15/NS08.pdf] webcite
În Progrese în Sysytems de prelucrare a informațiilor neuronale editate de Dietterich T, Becker S, Ghahramani Z. Cambridge, MA: Presa MIT; 2002, 14: 189-196.
Reveniți la text
25. Daw N, Niv Y, Dayan P: Acțiuni, politici, valori și ganglionii bazali. În Recent Breakthroughs in Basal Ganglia Research. Editat de Bezard E. New York, SUA: Nova Science Publishers, Inc; in presa.
Reveniți la text
26. Wickens J, Kötter R: Modele celulare de întărire. În Modele de procesare a informațiilor în ganglionii bazali. Editat de Houk JC, Davis JL, Beiser DG. MIT Press; 1995:187-214.
Reveniți la text