Apariția răspunsurilor de saliență și de noutate din principiile de învățare a armelor (2008)

COMENTARII: Un alt studiu care demonstrează că noutatea este propria recompensă. Unul dintre aspectele dependente ale pornografiei pe internet este noutatea și varietatea nesfârșite, capacitatea de a face clic rapid de la o scenă la alta și căutarea doar a imaginii / videoclipului potrivit. Toate acestea cresc dopamina. Acesta este ceea ce face ca pornografia pe internet să fie diferită de reviste sau DVD-uri închiriate.

Studiu complet: Apariția răspunderii novității și a principiilor de învățare la consolidare

Rețea Neurală. 2008 decembrie; 21 (10): 1493 – 1499.

Publicat online 2008 septembrie 25. doi: 10.1016 / j.neunet.2008.09.004

Patryk A. Laurent, Universitatea din Pittsburgh;

Adresați toate corespondențele către: Patryk Laurent, Universitatea din Pittsburgh, 623 LRDC, 3939 O'Hara St., Pittsburgh, PA 15260 SUA, E-mail: [e-mail protejat], Office: (412) 624-3191, Fax: (412) 624-9149

Abstract

Încercările recente de a cartografia modelele de învățare bazate pe recompense, cum ar fi Învățarea de armament [17], către creier se bazează pe observația că creșterea și scăderea fazică a creșterii neuronilor care eliberează dopamina semnalează diferențele dintre recompensa anticipată și primită [16,5]. Totuși, această eroare de predicție a recompenselor este doar unul dintre mai multe semnale comunicate de acea activitate fazică; un altul implică o creștere a spinningului dopaminergic, reflectând apariția unor stimuli fără recompensă salienti, dar imprevizibili [4,6,13], în special atunci când un organism se orientează ulterior către stimul [16]. Pentru a explica aceste descoperiri, Kakade și Dayan [7] și alții au susținut acel roman, stimulii neașteptate sunt intrinsec satisfăcătoare. Simularea raportată în acest articol demonstrează că această presupunere nu este necesară, deoarece efectul pe care este destinat să-l capteze rezultă din mecanismele de învățare cu predicție a recompensei a învățării de consolidare. Astfel, principiile de învățare la consolidare pot fi utilizate pentru a înțelege nu doar activitatea legată de recompensă a neuronilor dopaminergici ai ganglionilor bazali, ci și o parte din activitatea lor aparent necompensată.

Învățarea de consolidare (RL) devine din ce în ce mai importantă în dezvoltarea modelelor de calcul ale învățării bazate pe recompense în creier. RL este o clasă de algoritmi de calcul care specifică modul în care un „agent” artificial (de exemplu, un robot real sau simulat) poate învăța să selecteze acțiuni pentru a maximiza recompensa totală așteptată [17]. În acești algoritmi, un agent își bazează acțiunile pe valori pe care învață să le asocieze cu diverse stări (de exemplu, indicii perceptive asociate cu un stimul). Aceste valori pot fi învățate treptat prin învățarea prin diferență temporală, care ajustează valorile de stat pe baza diferenței dintre predicția de recompensă existentă a agentului pentru stat și recompensa reală care este obținută ulterior din mediul înconjurător. S-a dovedit că această diferență calculată, denumită eroare de predicție a recompenselor, se corelează foarte bine cu activitatea fazică a neuronilor care eliberează dopamina proiecând din substantia nigra în primatele non-umane [16]. Mai mult, la om, striatul, care este o țintă importantă a dopaminei, prezintă un semnal fMRI BOLD care pare să reflecte eroarea de predicție a recompenselor în timpul sarcinilor de învățare a recompenselor [10,12,18]. Această constatare fMRI completează datele fiziologice, deoarece se presupune că striatul BOLD reflectă, cel puțin parțial, activitatea sinaptică aferentă [9] și neuronii dopaminici proiectează foarte mult la striatum.

Deși răspunsurile fiziologice menționate mai sus par a fi legate de calculele de recompensare a RL, există, de asemenea, o creștere a activității fazice dopaminergice ca răspuns la stimularea și / sau la stimuli noi, care aparent nu are legătură cu recompensarea [4,6,14,3]. Un fenomen similar a fost observat recent la om folosind fMRI [2]. Există mai multe motive pentru care se spune că acest „noutate” sau „răspunsul„ scăzut ”nu are legătură cu eroarea de predicție a recompenselor: (1) apare foarte devreme, înainte ca identitatea stimulului să fie evaluată, astfel încât o predicție exactă a recompensei nu poate să fie generat; (2) corespunde unei creșteri a activității neuronale (adică este pozitivă) atât pentru stimuli aversivi, cât și pentru apetit; și (3) se obișnuiește cu [13]. Într-adevăr, aceste răspunsuri de inegalitate / noutate ale neuronilor care eliberează dopamina sunt cele mai fiabile atunci când stimulii sunt neprevăzuți și au ca rezultat orientarea și / sau abordarea comportamentului [16], indiferent de rezultatul final, subliniind faptul că sunt diferiți calitativ de recompensă învățată. predicție. Prin urmare, provocarea a fost aceea de a explica acest aparent paradox (adică modul în care noutatea afectează eroarea de predicție a recompenselor) în cadrul teoretic al RL.

Kakade și Dayan [7] au încercat să facă exact acest lucru; în articolul lor, acestea postulează două moduri în care răspunsurile inedite ar putea fi încorporate în modelele RL ale funcției dopaminergice - ambele implicând includerea de noi ipoteze teoretice. Prima presupunere, denumită bonusuri de noutate, implică introducerea unei recompense suplimentare atunci când sunt prezenți stimuli noi, peste și dincolo de recompensa obișnuită primită de agent. Această recompensă suplimentară intră în calcul, astfel încât învățarea se bazează pe diferența dintre predicția de recompensă existentă a agentului și suma atât a recompensei obișnuite din mediul înconjurător, cât și a bonusului de noutate. Astfel, noutatea devine o parte din recompensa pe care agentul încearcă să o maximizeze. A doua presupunere, denumită bonusuri de modelare, poate fi pusă în aplicare prin creșterea artificială a valorilor stărilor asociate cu stimulii noi. Deoarece regula învățării prin diferență temporală utilizată în RL se bazează pe diferența de predicție a recompenselor între stările succesive, adăugarea unui bonus de modelare constantă la statele în cauză cu stimulii noi nu are efect asupra comportamentului final al agentului. Cu toate acestea, un răspuns de noutate apare încă atunci când agentul intră în partea din spațiul de stare care a fost „conturat” (adică, este asociat cu noutatea).

Deși adăugarea fiecăreia dintre aceste presupuneri este suficientă pentru a explica multe efecte observate ale noutății, ipotezele interferează și cu progresia învățării. Așa cum subliniază Kakade și Dayan [7], bonusurile de noutate pot denatura funcția valorică (adică valorile asociate cu fiecare stat de către agent) și pot afecta ceea ce se învață în cele din urmă, deoarece sunt implementate ca o recompensă suplimentară care este asociată intrinsec cu romanul. state. Problema este că agentul învață să prezice atât componentele principale, cât și cele inedite ale recompensei. Deși Kakade și Dayan subliniază faptul că bonusurile de modelare nu provoacă acest tip de probleme, deoarece acestea sunt încorporate în previziunile de recompensă din statele precedente, adăugarea lor este încă problematică, deoarece bonusurile de modelare introduc prejudecăți în modul în care un agent își va explora spațiul de stare. Astfel, deși aceste ipoteze suplimentare pot explica modul în care noutatea afectează eroarea de predicție a recompensei în RL, acestea sunt problematice. Mai mult, explicațiile vin cu costul reducerii parimoniei lucrărilor de modelare care încearcă să utilizeze RL pentru a înțelege comportamentul organismelor biologice reale.

Simularea raportată mai jos a fost realizată pentru a testa ipoteza conform căreia un agent RL simplu, fără alte presupuneri suplimentare, va dezvolta un răspuns de eroare de predicție a recompensei, care este similar cu răspunsurile de dopamină care nu sunt răsplătite, observate în organismele biologice . Un agent RL a primit sarcina de a interacționa cu două tipuri de obiecte - unul pozitiv și celălalt negativ - care au apărut în locații aleatorii din mediul său. Pentru a-și maximiza recompensa, agentul a trebuit să învețe să abordeze și să „consume” obiectul pozitiv și să evite (adică să nu „consume”) obiectul negativ. Au existat trei predicții principale pentru simulare.

Prima prezicere a fost pur și simplu că, pentru a-și maximiza recompensa, agentul va învăța, de fapt, să se apropie și să „consume” obiectele pozitive, răsplătitoare, în același timp învățând să evite obiectele negative, pedepsitoare. A doua predicție a fost ceva mai puțin evidentă: faptul că agentul va prezenta un răspuns orientativ (adică, va învăța să-și schimbe orientarea) atât către obiecte negative, cât și pozitive. Această predicție a fost făcută, deși agentul ar putea „sesiza” aspectul unui obiect și locația acestuia, identitatea pozitivă sau negativă a obiectului (adică, indicatorul pe care agentul l-ar învăța în cele din urmă să se asocieze cu valoarea de recompensă a obiectului) nu a putut fi determinat de agent decât după ce agentul s-a orientat efectiv către obiect. În cele din urmă, a treia (și cea mai importantă) predicție a fost legată de răspunsul fazic dopaminergic simulat în model; această predicție a fost aceea că, atunci când a apărut obiectul, agentul va prezenta o eroare de predicție a recompensei, care a fost calculată analog cu răspunsul fazic de dopamină observat în organismele biologice, fiind pozitiv atât pentru obiecte pozitive, cât și pentru obiecte negative. De asemenea, s-a prevăzut că acest răspuns variază în funcție de distanța dintre agent și stimul, ceea ce în contextul simulării era o măsură proxy pentru „intensitatea” sau scăderea stimulului. Așa cum se va demonstra mai jos, aceste predicții au fost confirmate de rezultatele simulării, demonstrând că răspunsurile aparent non-răsplătite ale dopaminei pot, în principiu, să iasă din principiile de bază ale RL. Implicațiile teoretice ale acestor rezultate pentru utilizarea RL pentru a înțelege activitatea non-răsplătită în organismele biologice vor fi discutate în secțiunea finală a acestui articol.

Metodă

Așa cum am menționat deja, algoritmii RL specifică modul în care un agent poate utiliza recompense numerice moment-la-moment pentru a afla ce acțiuni ar trebui să ia pentru a maximiza suma totală de recompensă pe care o primește. În majoritatea formulărilor, această învățare se realizează prin utilizarea erorilor de predicție a recompensei (adică, diferența dintre predicția de recompensă curentă a unui agent și recompensa reală obținută) pentru a actualiza predicțiile de recompensă ale agentului. Pe măsură ce predicțiile de recompensă sunt învățate, previziunile pot fi folosite și de un agent pentru a selecta acțiunea următoare. Politica obișnuită (definită în Ecuația 2) este ca agentul să selecteze acțiunea care se prevede că va avea drept rezultat cea mai mare recompensă. Recompensa efectivă care este oferită agentului la un moment dat este suma recompensei imediate, plus o parte din valoarea stării pe care agentul o introduce la finalizarea acțiunii. Astfel, dacă în cele din urmă agentul experimentează recompense pozitive după ce a fost într-o anumită stare, agentul va selecta în viitor acțiuni care pot avea ca rezultat acele state recompensate; dimpotrivă, dacă agentul are recompense negative (adică pedepse), va evita acțiuni în viitor care duc la acele state „pedepsite”.

Algoritmul specific care determină predicțiile de recompensă care se învață pentru diferitele stări (adică funcția de valoare V) se numește iterație de valoare [nota de subsol 1] și poate fi descris formal ca:

Pentru toate statele posibile,

(Ecuația 1)

unde s corespunde stării curente, V (s) este predicția de recompensă curentă pentru starea s-a învățat de agent, maxaction∈M {} este un operator pentru valoarea maximă a cantității între paranteze peste setul tuturor acțiunilor. M disponibil pentru agent, V (s ′) este predicția de recompensă curentă a agentului pentru starea următoare ′, α este o anumită rată de învățare (între 0 și 1) și γ este un factor de reducere care reflectă modul în care trebuie cântărite recompensele viitoare. în raport cu recompensele imediate. Funcția valorii inițiale a fost setată astfel încât V (s) să fie 0 pentru toate stările s.

Funcția de valoare V (s) a fost implementată ca un tabel de căutare, care este formal echivalent cu asumarea memoriei perfecte. Deși aproximatorii de funcții, cum ar fi rețelele neuronale, au fost folosite cu un anumit succes pentru a reprezenta funcții de valoare [1], un tabel de căutare a fost utilizat pentru a se asigura că rezultatele nu depind de tipurile de mecanism de generalizare care sunt furnizate de diverși aproximatori de funcții. Agentul a fost instruit pentru iterații de învățare 1,500 în spațiul său de stare. Din cauza imprevizibilității identității obiectelor, a fost utilizat un parametru de actualizare a funcției de valoare mai mic de unu (α = 0.01) în timpul învățării pentru a permite medierea rezultatelor diferite. În cele din urmă, factorul de reducere a fost stabilit la γ = 0.99 pentru a încuraja agentul să caute recompensă mai devreme decât să întârzie comportamentul de abordare până la sfârșitul procesului (deși schimbarea acesteia dintr-o valoare implicită a 1 nu a avut efect asupra rezultatelor raportate aici. ) Pentru a determina în mod independent dacă iterațiile de învățare 1,500 au fost suficiente pentru a învăța să fie completate, cantitatea medie de schimbare a celor învățați a fost monitorizată și s-a constatat că au convergut înainte de acest număr de iterații.

După instruire, algoritmul specific care guvernează comportamentul agentului (adică politica acțiunilor pe care le întreprinde din fiecare stare dată) este:

(Ecuația 2)

unde π (s) este acțiunea pe care agentul o va selecta din starea s, iar partea dreaptă a ecuației returnează acțiunea (de exemplu, schimbarea de orientare, mișcare sau nicio acțiune) care maximizează suma recompensei și valoarea actualizată din starea rezultată s ′.

În simularea prezentată mai jos, toate stările care au fost vizitate de agent au fost codate ca vectori dimensionali 7 care reprezentau informații atât despre starea „fizică” externă a agentului, cât și despre starea sa internă de „cunoaștere”. Informațiile fizice includeau atât poziția actuală a agentului în spațiu, cât și orientarea acestuia. Informațiile despre cunoștințe includeau poziția obiectului (dacă unul era prezent) și identitatea acelui obiect (dacă acesta a fost determinat de agent). Tipurile specifice de informații reprezentate de agent sunt prezentate în tabelul 1.

Tabelul 1

Dimensiunile utilizate în simulările RL și valorile posibile ale acestor dimensiuni.

În simulare au existat un total de stări 21,120 [Nota de subsol 2]. Cu toate acestea, stările în care a existat un obiect negativ pozitiv și neidentificat sunt identice, din perspectiva agentului, identice, deci există doar stări 16,280 distincte. Astfel, în timpul fiecărei iterații de învățare, a fost necesară vizitarea de două ori a acestor stări „identice” pentru a permite faptul că jumătate din timp pot fi urmate cu descoperirea unui obiect pozitiv și jumătate din timp. urmează descoperirea unui obiect negativ [Nota de subsol 3].

La începutul fiecărui test de testare simulat, agentul a fost plasat în centrul unei linii 11 × 1 liniară simulată cu cinci spații la „est” (adică la dreapta) agentului și cinci spații spre „vest. ”(Adică la stânga) agentului. După cum arată tabelul 1, vectorul de stare al agentului a inclus un element care indică locația sa curentă pe track (adică un număr întreg de la 0 la 10), precum și un element (adică, un caracter „n”, „s”, „ e ”, sau„ w ”) reprezentând orientarea sa curentă (respectiv nord, sud, est, respectiv vest). Orientarea inițială a agentului a fost întotdeauna setată ca fiind „nord” și niciun alt obiect nu a fost prezent în mediu (adică, valoarea „OBJECT” din vectorul de stare al agentului a fost stabilită la „0”).

În fiecare etapă a simulării, agentul ar putea efectua una dintre următoarele acțiuni: (1) nu face nimic și rămâne în locația și orientarea curentă; (2) orientați spre nord, sud, est sau vest; sau (3) muta un spațiu în mediu (est sau vest). Rezultatul fiecărei acțiuni a avut loc pe pasul ulterior simulat. Toate modificările locației și / sau orientării agentului în spațiu au avut loc prin selectarea acțiunilor de către agent. Cu toate acestea, în fiecare etapă a simulării, chiar și atunci când a fost selectată o acțiune „a nu face nimic”, timpul a fost incrementat de 1 până la sfârșitul procesului (adică 20 pas cu pas).

Mediul agentului a fost configurat astfel încât jumătate din timp, un obiect a apărut într-o locație aleatorie (dar nu în aceeași locație cu agentul) după zece pași de timp; 50% dintre obiecte au fost pozitive (reprezentate de un „+”; vezi Tabelul 1) și 50% dintre obiecte au fost negative (reprezentate de un „-”). Întârzierea înainte de apariția obiectului a fost introdusă pentru a permite observarea oricărui comportament pe care agentul l-ar fi putut expune înainte de apariția obiectului. Dacă agentul nu a fost orientat către obiect atunci când a apărut, atunci elementul reprezentând identitatea „OBJECT” din vectorul de stare al agentului a fost schimbat din „0” în „?” Pentru a reflecta faptul că identitatea obiectului care era acum prezentul era în prezent necunoscut. Cu toate acestea, dacă agentul a fost orientat către obiect, atunci în etapa ulterioară, elementul „OBJECT” a fost setat la egal cu identitatea obiectului, astfel încât „0” a devenit „+” sau „-” pentru pozitiv. respectiv obiecte negative.

Dacă agentul s-a mutat în locația unui obiect, atunci în următoarea etapă obiectul s-a stins. Dacă obiectul a fost pozitiv, atunci steagul „CONSUMAT” al agentului a fost setat egal cu adevărat și agentul a fost recompensat (recompensă = + 10); cu toate acestea, dacă obiectul a fost negativ, atunci steagul „SHOCKED” a fost setat pe true și agentul a fost pedepsit (recompensa = −10). (Rețineți că steagurile au fost setate în acest mod indiferent dacă agentul a identificat sau nu a identificat obiectul; de exemplu, agentul ar putea consuma un obiect fără a se orienta vreodată spre el.) În etapa ulterioară, „SHOCKED” sau Steagul „CONSUMAT” a ​​fost șters. Agentul a primit, de asemenea, o mică pedeapsă (armare = −1) pentru fiecare mișcare sau acțiune de orientare și nu a primit nicio recompensă sau pedeapsă (întărire = 0) dacă nu a efectuat nicio acțiune.

Atât comportamentele excesive (adică orientarea și mișcarea), cât și o măsură a erorii de predicție a recompensei au fost cuantificate pentru agent. Comportamentul excesiv (adică, lista acțiunilor selectate de agent) a fost utilizat ca o indicație a faptului că sarcina a fost învățată. Măsura erorii de predicție a recompensei a fost utilizată pentru a testa ipoteza cu privire la apariția semnalului fazic dopaminergic fără recompensă. Eroarea de predicție a recompensei, δ, a fost măsurată la momentul apariției unui obiect scăzând predicția de recompensă la etapa anterioară, adică V (e) la pasul de timp t − 1, din predicția de recompensă atunci când obiectul a apărut, adică V (s) la momentul t, obținând cantitatea δ = V (st) - V (st − 1).

REZULTATE
Comportament simulat

Comportamentul excesiv al agenților a fost cuantificat pentru prima dată. Rezultatele acestei analize au arătat că, după antrenament, agentul s-a apropiat și a obținut întărire pozitivă din toate obiectele pozitive și nu s-a apropiat niciodată de niciunul dintre obiectele negative. Împreună, aceste rezultate oferă o confirmare comportamentală că agenții au învățat să îndeplinească sarcina corect. Această concluzie este susținută de observația suplimentară că, în timpul încercărilor când nu a apărut niciun obiect, agentul a rămas nemișcat. După cum s-a prevăzut, agentul s-a orientat atât către obiecte pozitive, cât și negative.

Eroare de predicție simulată de recompensă

Ipoteza centrală a acestei lucrări este că apariția unui stimul imprevizibil va genera în mod constant o eroare pozitivă de predicție a recompenselor, chiar dacă acel obiect se întâmplă să fie un obiect „negativ” care este întotdeauna pedepsitor. În sprijinul acestei ipoteze, agentul a prezentat o eroare pozitivă de predicție a recompensei ori de câte ori a apărut un obiect (neidentificat), dar nu atunci când nu a apărut nimic. De asemenea, în concordanță cu ipoteza centrală este și faptul că amploarea răspunsului fazic al agentului (δ, măsurat așa cum este descris în secțiunea Metodă) a fost sensibilă la „intensitatea” simulată a stimulului, definită utilizând distanța dintre agent și obiect (vezi Figura 1). O analiză de regresie a indicat faptul că magnitudinea lui δ a fost invers legată de distanța față de obiect, astfel încât obiectele mai apropiate au provocat un răspuns mai puternic (r = -0.999, p <0.001; β = 0.82). Această corelație negativă a fost cauzată de pedeapsa mică (întărire = -1) care a fost impusă pentru fiecare mișcare pe care agentul trebuia să o facă pentru a trece la obiectul pozitiv, a-l consuma și, astfel, a obține recompensă.

Figura 1

Această figură arată eroarea recompensă-predicție (adică, δ) atunci când obiectul a apărut ca o funcție a locației obiectului în raport cu locația agentului. Răspunsurile sunt identice atât pentru obiectele pozitive, cât și pentru cele negative. Când niciun obiect (mai multe ...)

Având în vedere că în această simulare au apărut obiecte pozitive și negative (p = .25), se pune întrebarea: De ce a fost pozitiv semnalul de eroare de predicție a recompensei la momentul apariției obiectului? Argumentarea de-a lungul liniilor lui Kakade și Dayan [7], se poate prezice că semnalul ar trebui să reflecte media tuturor recompenselor învățate din astfel de situații și, prin urmare, să fie egal cu zero. Cheia înțelegerii acestui rezultat constă în faptul că nu numai RL face ca un agent să aibă mai puțin șanse să aleagă acțiuni care să conducă la o consolidare negativă, ci face și un agent mai puțin probabil să intre în state care, în cele din urmă, să conducă la o consolidare negativă. Aceasta rezultă într-un fel de formă de învățare „de ordin superior” care este descris în figura 2 și descrisă în continuare.

Figura 2

Ilustrație care arată cum un agent RL dezvoltă o eroare pozitivă de recompensă-predicție atunci când este antrenat atât cu stimuli recompensați, cât și cu pedepsi în mediul său și este capabil să aleagă dacă îi abordează și îi consumă. (A) Situația înainte de învățare: (mai mult ...)

La începutul învățării (a se vedea figura 2A), agentul este orientat atât către obiecte „+” cât și „-”, se apropie de ele și este atât răsplătit cât și pedepsit consumând fiecare tip de obiect. Dacă valorile învățate ale agentului nu au putut influența acțiunile agentului (a se vedea figura 2B), atunci agentul va continua să se apropie și să consume obiectele. Apariția indicelui ar putea prezice apoi o recompensă medie a 0 și ar exista o creștere bruscă a erorii de predicție a recompenselor. Cu toate acestea, agentul din această simulare folosește valorile de stare învățate pentru a influența acțiunile sale (a se vedea figura 2C) și, deși agentul trebuie să se orienteze către obiectul necunoscut pentru a-i determina identitatea, acesta nu va mai consuma un obiect negativ dacă s-ar apropia it (așa cum s-ar putea dacă este instruit cu un algoritm de explorare aleatorie, precum eșantionarea traiectoriei [Nota de subsol 1]). Mai mult, deoarece învățarea prin diferențe temporale permite predicției recompensei negative să se „propage” înapoi la stările precedente și, deoarece există un cost mic pentru deplasarea în spațiu, agentul învață să evite abordarea în totalitate a obiectului negativ. Astfel, după aflarea acestor informații, valoarea stării când apare primul obiect (indicat ca „V” în primul cerc din fiecare secvență) nu se bazează pe media valorilor pozitive și negative ale rezultatului, ci este în schimb, se bazează pe media rezultatului pozitiv și „neutru” care este atins odată ce agentul învață să evite obiectele negative. Acesta este motivul pentru care media tuturor recompenselor obținute efectiv de agentul instruit a fost mai mare decât zero și explică de ce predicția de recompensă a agentului (și, prin urmare, eroarea de predicție a recompensei când obiectul apare brusc) a fost o netă pozitivă. Acest lucru este ilustrat în figura 3. De fapt, atâta timp cât agentul poate învăța să-și schimbe comportamentul și să evite obiectul negativ, valoarea obiectului negativ este în cele din urmă irelevantă pentru comportamentul final al agentului și pentru amploarea răspunsului noutății / salentei.

Figura 3

(A) Demonstră modificările în predicția recompensei care ar fi avut loc dacă RL nu ar avea ca rezultat o învățare de nivel superior (adică, dacă agentul nu ar putea lua măsuri pentru a evita rezultatul negativ), astfel încât agentul a fost obligat să consume toate obiecte (mai multe ...)

Rezultatele simulării depind în mod critic de trei presupuneri. În primul rând, stimulii trebuiau să fie „salienti” prin faptul că amploarea armăturii prevăzută de indicatorul inițial era suficient de mare (de exemplu, + 10) în raport cu costurile orientării și apropierii (de exemplu, -1). Dacă amploarea ar fi fost relativ mică, agentul nu ar fi învățat să se orienteze și nici nu ar fi generat răspunsul pozitiv de eroare-predicție a erorii. În al doilea rând, o întârziere înainte de recunoașterea stimulilor a fost, de asemenea, necesară. (Întârzierea este un reprezentant al „noutății”, motivând că un stimulent familiar ar fi recunoscut rapid.) Fără întârziere, agentul ar fi generat pur și simplu eroarea de predicție a recompensei pozitive sau negative adecvate pentru obiectul perceput efectiv. În cele din urmă, comportamentul agentului trebuia să fie determinat de valorile pe care le-a învățat. Dacă agentul nu și-ar putea controla propriul comportament (adică dacă se apropie de stimuli), atunci predicția lui de recompensă atunci când a apărut un obiect ar fi egalat cu 0, media rezultatelor pozitive și negative echipabile.

discutie generala

Simularea raportată în acest articol a demonstrat că o eroare pozitivă de predicție a recompensei apare atunci când apare un stimul imprevizibil, fie recompensator, fie pedepsitor, dar nu poate fi identificat imediat. Mai mult decât atât, simularea a indicat că dimensiunea erorii de predicție a recompensei crește odată cu apropierea stimulului de agent, care în contextul simulării este o măsură proxy pentru intensitatea stimulului și, prin urmare, este legat de scădere. În cadrul teoretic al RL, predicțiile despre recompense sunt în mod normal înțelese să reflecte valoarea învățată a stimulilor recunoscuți sau a stărilor fizice și / sau cognitive ale unui agent [15]. Cu toate acestea, eroarea de predicție a recompensei raportată aici are o interpretare calitativă diferită, deoarece este generată înainte ca agentul să recunoască obiectul. Împreună, aceste rezultate susțin ipoteza conform căreia principiile RL sunt suficiente pentru a produce un răspuns care aparent nu are legătură cu recompensarea, dar, în schimb, este legat de proprietățile noutății și ale sărăciei. Această concluzie are câteva ramificări importante pentru înțelegerea noastră generală a RL și pentru interpretarea noastră a RL ca un cont de învățare a recompenselor în organisme biologice reale.

În primul rând, predicția de recompensă generată de un agent RL atunci când apare un stimul neidentificat nu este neapărat o medie strictă a recompenselor obținute, așa cum sugerează Kakade și Dayan [7], dar poate fi, de fapt, mai mare ca mărime. Kakade și Dayan ar putea prezice că predicția medie a recompenselor ar trebui să fie egală cu zero deoarece, deoarece procesele au fost răsplătite și pedepsite la fel de des. Acest rezultat surprinzător a apărut deoarece agentul a învățat într-o manieră „on-policy”; adică agentul a aflat nu numai despre rezultatele negative, ci și despre capacitatea sa de a evita aceste rezultate. Această capacitate a sistemului de recompensă de a determina un agent să evite rezultatele negative ar trebui să fie luate în considerare cu atenție în traducerea înțelegerii noastre despre RL în organisme reale. Acest fapt este potențial și mai important, având în vedere asimetria aparentă în capacitatea răspunsului fazic dopaminergic de a reprezenta o eroare de predicție pozitivă a recompensei, mai bună decât eroarea de predicție a recompenselor negative [11]. Poate fi suficient pentru a indica faptul că o anumită secvență de evenimente duce la un rezultat negativ, dar că, în scopul selecției acțiunilor, amploarea rezultatului este lipsită de importanță.

O a doua ramificare a simulării actuale este că răspunsul noutății poate apărea dintr-o interacțiune între sistemele de procesare perceptivă și sistemele de predicție a recompenselor. Mai exact, răspunsul inedit se poate datora unei forme de asemănare între obiectele și obiectele inedite care nu au fost încă supuse procesării perceptive complete [Nota de subsol 4]. În această simulare, noutatea a fost implementată prin introducerea unei întârzieri înainte ca identitatea obiectului (și, în consecință, natura sa răsplătitoare sau pedepsitoare) să devină evidentă pentru agent. Acest lucru s-a făcut sub presupunerea că obiectele inedite durează mai mult pentru a fi identificate, dar această presupunere a dus și la perceperea obiectelor pozitive și negative la fel ca atunci când au apărut (adică, ambele au fost codate ca „?”). În schimb, Kakade și Dayan [7] sugerează că răspunsurile inedite și răspunsurile „generalizării” sunt esențial diferite, în ciuda faptului că se manifestă în mod similar în datele de neurofiziologie.

O a treia ramificare a rezultatelor actuale ale simulării este că acestea arată că ipotezele suplimentare de noutate și bonusuri de modelare propuse de Kakade și Dayan [7] nu sunt necesare. În schimb, răspunsuri asemănătoare noutății pot ieși din limitările de procesare perceptuală realistă și din cunoștințele de a putea evita rezultatele negative. Acest lucru este norocos deoarece, după cum au subliniat Kakade și Dayan, bonusurile inedite distorsionează funcția valorică pe care o învață un agent, iar bonusurile de modelare afectează modul în care agenții își explorează spațiile de stat. Includerea oricăreia dintre aceste presupuneri reduce astfel parsimonia modelelor bazate pe teoria RL. Interesant, rezultatele prezentate aici ajută, de asemenea, să explice de ce răspunsul noutății biologice nu poate fi perturbator pentru învățarea bazată pe recompense în organisme reale: răspunsul noutății este de fapt prevăzut deja de RL. Adică răspunsul inedit reflectă comportamente și predicții de recompensă care sunt inerente unui agent care a aflat deja ceva despre mediul său.

O interpretare alternativă (dar nu exclusiv reciprocă) a rezultatelor simulării prezente este faptul că există într-adevăr o recompensă abstractă (poate cognitivă) pe care agenții o obțin prin orientarea către și identificarea obiectelor. În studiile activității dopaminergice, răspunsuri fazice pozitive pot apărea la indicii neanticipate despre care se știe că prezic o recompensă. Totuși, această simulare demonstrează modul în care aceste tipuri de răspunsuri pot apărea și ca răspuns la un indiciu care ar putea prezice în cele din urmă fie recompensă, fie pedeapsă. Singurul beneficiu consistent care este prevăzut de indiciu este câștigul de informații obținute atunci când agentul determină identitatea obiectului. Astfel, dacă există o „predicție de recompensă” valabilă, învățată atunci când apare obiectul neidentificat, acesta este satisfăcut după ce agentul obține cunoștințele despre abordarea sau evitarea stimulului. Valoarea acestor informații nu se bazează pe media rezultatelor obținute, ci se bazează în schimb pe cunoașterea rezultatelor eficiente - că agentul poate consuma recompensa pozitivă sau poate evita recompensa negativă (vezi figura 2).

În cele din urmă, este important de menționat că oportunitățile de a lua acțiuni particulare (de exemplu, de orientare) pot înșiși să își însușească proprietăți răsplătite printr-o generalizare sau un mecanism de învățare care nu este inclus în această simulare. De exemplu, însăși actul de orientare și determinare a „ceea ce este acolo” ar putea deveni recompensant pentru un organism bazat pe asocierea dintre acea acțiune și eroarea de predicție a recompensei, întotdeauna pozitivă, demonstrată mai sus, când apar noi stimuli. O idee similară a fost recent avansată de Redgrave și Gurney [13] care susțin că un scop important al răspunsului fazic al dopaminei este de a consolida acțiunile care apar înainte de evenimentele nebănuite. Rezultatele de aici nu sunt incompatibile cu acea ipoteză, cu toate acestea, trebuie menționat faptul că ipoteza Redgrave și Gurney nu este testată direct în această simulare, deoarece nu au fost necesare acțiuni (adică, explorare) ale agentului pentru evenimentul primordial (apariția obiectul) a se produce. Cu toate acestea, semnalul fazic simulat a coincis cu timpul răspunsului orientativ care sugerează că cele două pot fi puternic legate.

În încheiere, acest articol a demonstrat că principiile RL pot fi utilizate pentru a explica un tip de activitate aparent necompensată a neuronilor dopaminergici. Acest rezultat a rezultat din faptul că regula de învățare a diferenței temporale (cum ar fi cea folosită de Kakade și Dayan [7]) a fost încorporată într-o simulare în care agentul putea selecta acțiuni care au efect asupra rezultatului final. În simulare, agentul a aflat că rezultatul orientării către un obiect care a apărut brusc poate fi întotdeauna satisfăcător sau neutru, deoarece rezultatul negativ ar putea fi evitat. Prin urmare, atunci când agentul a avut oportunitatea de a se orienta, eroarea sa de predicție a recompenselor a fost întotdeauna pozitivă, analogic calculativ la noutățile și răspunsurile de inexistență observate în organismele biologice.

recunoasteri

Lucrarea descrisă în acest articol a fost susținută de NIH R01 HD053639 și de NSF Training Grant DGE-9987588. Aș dori să îi mulțumesc lui Erik Reichle, Tessa Warren și unui recenzor anonim pentru comentariile utile despre o versiune anterioară a acestui articol.

Algoritmul 1Another Reinforcement Learning, numit Trajectory Sampling [17], este frecvent utilizat în loc de Value Iteration atunci când spațiul de stare devine atât de mare încât nu poate fi iterativ exhaustiv sau ușor stocat în memoria unui computer. În loc să itereze peste fiecare stat din spațiul de stat și să aplice ecuația de actualizare a funcției valorice, bazată pe acțiunile care par să conducă la cea mai mare recompensă, Eșantionarea de traiectorii funcționează urmând căi prin spațiul de stare. În mod similar cu valorizarea valorii, acțiunile care duc la cea mai mare recompensă sunt de obicei selectate din fiecare stare, dar ocazional este aleasă o acțiune exploratorie aleatorie cu o mică probabilitate. Astfel, algoritmul este: Din unele stări de pornire, selectați o acțiune care să conducă la cea mai mare recompensă [de exemplu, recompense + γV (s ′)] cu probabilitate ε, sau selectați o acțiune exploratorie aleatorie cu probabilitatea 1 - ε. Aplicați V (e) → V (s) + α [recompensa + γV (s ′) - V (s)] în timpul acțiunilor non-exploratorii din partea statului.

Pe lângă depășirea limitărilor tehnice ale timpului și memoriei de calcul, Eșantionarea prin traiectorie poate fi atrăgătoare, deoarece poate reflecta mai bine modul în care învăță organismele biologice reale: prin explorarea căilor într-un spațiu de stare. Pe sarcina descrisă în acest articol, eșantionarea de traiectori dă rezultate care sunt identice calitativ cu cele obținute cu valorizarea valorii. Cu toate acestea, pentru concizie, aceste rezultate nu sunt raportate aici în detaliu. Valoarea Ierării a fost selectată pentru simularea din această lucrare din două motive principale. În primul rând, pentru că Trajectory Sampling implică stocasticitate în selectarea traiectoriilor, cantitatea mare de ramificare care se datorează numeroaselor secvențe posibile de acțiuni în această sarcină poate duce la agenți care nu au experiență cu unele state, cu excepția parametrului explorare-exploatare (adică, ε-lacomia [17]) este selectată cu atenție. Această lipsă de experiență cu anumite stări poate perturba performanța unui agent atunci când se folosește o structură de memorie a tabelului de căutare din cauza lipsei generalizării valorii la stări similare (dar posibil nevăzute). Astfel, s-a preferat să se profite de explorarea exhaustivă a spațiului de stare care este garantat cu valorizarea valorii. În al doilea rând, utilizarea valorii de valorificare a evitat necesitatea specificării acelui parametru suplimentar de explorare-exploatare, simplificând astfel simularea. Rețineți că eșantionarea traiectoriala poate în cele din urmă iperarea valorii, deoarece numărul de traiectorii se apropie de infinit [17].

2Numărul de stări 21,120 poate fi calculat după cum urmează: 11 poziții posibile ale agentului × Orientări posibile ale agentului 4 × (pași de timp 10 înainte să apară un obiect + pași de timp 10 în care nu a apărut niciun obiect + pași de timp 10 în care agentul fusese consolidat pozitiv + pași de timp 10 în care obiectul a fost consolidat negativ + 11 posibile posibile obiecte * (pași de timp 10 cu un obiect identificat pozitiv + pași de timp 10 cu un obiect identificat negativ + pași de timp 10 cu un obiect pozitiv neidentificat + Pași de timp 10 cu un obiect negativ neidentificat))].

3 Existența acestor stări „ascunse” trebuie luată în considerare în timpul antrenamentului, deoarece Iterarea valorică arată doar „cu un pas înainte” din fiecare stat din spațiul stării. Faptul că statele cu obiecte neidentificate negative și pozitive sunt în mod efectiv identice ar împiedica aflarea și medierea valorilor în cele două stări ulterioare diferite în care obiectul pozitiv sau negativ devine identificat. O abordare de eșantionare a traiectoriilor, pe de altă parte, menține informațiile de stare ascunse (adică, identitatea stimulului neidentificat) pe parcursul procesului și astfel, cu acea variantă de RL, stările ascunse nu sunt o preocupare.

4Oneea obiecție potențială față de lucrarea de față este că răspunsul orientativ pare a fi cablat la nivelul creierului de mamifer, de exemplu, în proiecții din coliculul superior [3,14]. În prezentul simulare, agenții nu aveau cabluri să se orienteze spre obiecte, ci au învățat în schimb un comportament de orientare care a permis selecția eventuală a unei acțiuni (de exemplu, abordare sau evitare) care să maximizeze recompensa. La fel ca răspunsurile cu fir, aceste comportamente orientative au avut loc foarte repede, înainte de identificarea obiectelor și au fost direcționate către toate obiectele. Scopul acestei lucrări nu a fost de a susține că toate aceste răspunsuri sunt învățate, ci mai degrabă că pot coexista în cadrul RL. Cu toate acestea, ar fi interesant de investigat dacă ar putea fi implicate mecanisme legate de recompensă în crearea conectivității în zonele trunchiului creierului, pentru a genera acest răspuns dopaminic fazic.

Acesta este un fișier PDF al unui manuscris needitat care a fost acceptat pentru publicare. Ca serviciu pentru clienții noștri oferim această versiune timpurie a manuscrisului. Manuscrisul va fi supus copierii, tipăririi și revizuirii probelor rezultate înainte de a fi publicat în forma sa finală. Rețineți că în timpul procesului de producție pot fi descoperite erori care ar putea afecta conținutul și toate denunțările legale care se referă la jurnal.

Referinte

1. Baird LC. Algoritmi reziduali: învățare de consolidare cu aproximare a funcției. În: Priedetis A, Russell S, editori. Învățarea automată: lucrările celei de-a 12-a Conferințe internaționale; 9 – 12 iulie.1995.

2. Bunzeck N, Düzel E. Codificarea absolută a noutății stimulilor în substanța umană nigra / VTA. Neuron. 2006; 51 (3): 369-379. [PubMed]

3. Dommett E, Coizet V, Blaha CD, Martindale J, Lefebvre V, Walton N, Mayhew JEW, Overton PG, Redgrave P. Cum stimulează vederea stimulează neuronii dopaminergici cu latență scurtă. Ştiinţă. 2005; 307 (5714): 1476-1479. [PubMed]

4. Doya K. Metalearning și neuromodulare. Rețele neuronale. 2002 iunie-iul; 15 (4 – 6): 495 – 506. [PubMed]

5. Gillies A, Arbuthnott G. Modele computationale ale ganglionilor bazali. Tulburări de mișcare. 2000; 15 (5): 762-770. [PubMed]

6. Horvitz JC. Răspunsuri de dopamină mezolimbocorticală și nigrostriatală la evenimentele care nu sunt răsplătite. Neuroscience. 2000; 96 (4): 651-656. [PubMed]

7. Kakade S, Dayan P. Dopamina: generalizare și bonusuri. Rețele neuronale. 2002; 15 (4-6): 549-559. [PubMed]

8. Knutson B, Cooper JC. Ademenirea necunoscutului. Neuron. 2006; 51 (3): 280-282. [PubMed]

9. Logothetis NK, Pauls J, Augath M, Trinath T, Oeltermann A. Investigarea neurofiziologică a bazei semnalului fMRI. Natură. 2001; 412 (6843): 150-157. [PubMed]

10. McClure SM, Berns GS, Montague PR. Erorile de predicție temporală într-o sarcină de învățare pasivă activează striatul uman. Neuron. 2003; 38 (2): 339-346. [PubMed]

11. Niv Y, Duff MO, Dayan P. Dopamine, incertitudine și învățare TD. Funcțiile comportamentale și ale creierului. 2005 Poate 4; 1: 6. [Articol gratuit PMC] [PubMed]

12. O'Doherty JP, Dayan P, Friston K, Critchley H, Dolan RJ. Modele de diferență temporală și învățare legată de recompense în creierul uman. Neuron. 2003; 38 (2): 329-337. [PubMed]

13. Redgrave P, Gurney K. Semnalul de dopamină cu latență scurtă: un rol în descoperirea acțiunilor noi? Recenzii ale naturii Neuroștiință. 2006 Dec; 7 (12): 967 – 975.

14. Redgrave P, Prescott TJ, Gurney K. Răspunsul de dopamină cu latență scurtă este prea scurt pentru a semnala eroarea de recompensă? Tendințe în neuroștiințe. 1999 Apr; 22 (4): 146 – 151. [PubMed]

15. Reichle ED, Laurent PA. Folosind învățarea de consolidare pentru a înțelege apariția unui comportament „inteligent” de mișcare a ochilor în timpul lecturii. Revizuirea psihologică. 2006; 113 (2): 390-408. [PubMed]

16. Schultz W. Semnal de recompensă predictivă a neuronilor dopaminici. Jurnalul de neurofiziologie. 1998; 80 (1): 1-27. [PubMed]

17. Sutton RS, Barto AG. Învățare de consolidare: o introducere. MIT Press; Cambridge: 1998.

18. Tanaka SC, Doya K, Okada G, Ueda K, Okamoto Y, Yamawaki S. Prezicerea recompenselor imediate și viitoare recrutează în mod diferit buclele ganglionilor cortico-bazali. Neuroștiința naturii. 2004; 7 (8): 887-893.