Die opkoms van toegewydheid en nuwigheidsresponse van versterkingsleerbeginsels (2008)

KOMMENTAAR: Nog 'n studie wat aantoon dat nuwigheid sy eie beloning is. Een van die verslawende aspekte van internetpornografie is die eindelose nuwigheid en verskeidenheid, die vermoë om vinnig van een toneel na 'n ander te klik, en die soeke na net die regte beeld/video. Al hierdie verhoog dopamien. Dit is wat internetporno anders maak as tydskrifte of gehuurde DVD's.

Volledige studie: Die opkoms van opvallende en nuwigheidsreaksies van versterkingsleerbeginsels

Neurale Netw. 2008 Desember; 21(10): 1493–1499.

Aanlyn gepubliseer 2008 25 September. doi: 10.1016/j.neunet.2008.09.004

Patryk A. Laurent, Universiteit van Pittsburgh;

Rig alle korrespondensie aan: Patryk Laurent, Universiteit van Pittsburgh, 623 LRDC, 3939 O'Hara St., Pittsburgh, PA 15260 VSA, E-pos: [e-pos beskerm], Kantoor: (412) 624-3191, Faks: (412) 624-9149

Abstract

Onlangse pogings om beloningsgebaseerde leermodelle, soos Reinforcement Learning [17], aan die brein te karteer, is gebaseer op die waarneming dat fasiese toenames en afnames in die spiking van dopamien-vrystellende neurone seinverskille tussen voorspelde en ontvangde beloning [16,5] . Hierdie beloning-voorspellingsfout is egter slegs een van verskeie seine wat deur daardie fasiese aktiwiteit gekommunikeer word; 'n ander behels 'n toename in dopaminerge spiking, wat die voorkoms van opvallende maar onvoorspelbare nie-beloning stimuli weerspieël [4,6,13], veral wanneer 'n organisme daarna oriënteer na die stimulus [16]. Om hierdie bevindinge te verduidelik, het Kakade en Dayan [7] en ander beweer dat nuwe, onverwagte stimuli intrinsiek lonend is. Die simulasie wat in hierdie artikel gerapporteer word, toon dat hierdie aanname nie nodig is nie, want die effek wat dit bedoel is om vas te vang, kom uit die beloning-voorspelling leermeganismes van Versterkingsleer. Versterkingsleerbeginsels kan dus gebruik word om nie net beloningsverwante aktiwiteit van die dopaminerge neurone van die basale ganglia te verstaan ​​nie, maar ook sommige van hul oënskynlik nie-beloningverwante aktiwiteit.

Versterkingsleer (RL) word toenemend belangrik in die ontwikkeling van berekeningsmodelle van beloningsgebaseerde leer in die brein. RL is 'n klas berekeningsalgoritmes wat spesifiseer hoe 'n kunsmatige "agent" (bv. 'n regte of gesimuleerde robot) kan leer om aksies te kies om die totale verwagte beloning te maksimeer [17]. In hierdie algoritmes baseer 'n agent sy optrede op waardes wat hy leer om te assosieer met verskeie toestande (bv. die perseptuele leidrade wat met 'n stimulus geassosieer word). Hierdie waardes kan geleidelik aangeleer word deur temporele-verskil-leer, wat staatswaardes aanpas op grond van die verskil tussen die agent se bestaande beloningsvoorspelling vir die staat en die werklike beloning wat daarna uit die omgewing verkry word. Daar is getoon dat hierdie berekende verskil, genoem beloning-voorspellingsfout, baie goed korreleer met die fasiese aktiwiteit van dopamien-vrystellende neurone wat uit die substantia nigra in nie-menslike primate uitsteek [16]. Verder, by mense, vertoon die striatum, wat 'n belangrike teiken van dopamien is, 'n fMRI BOLD-sein wat blykbaar beloningsvoorspellingsfout tydens beloningleertake weerspieël [10,12,18]. Hierdie fMRI-bevinding komplementeer die fisiologiedata omdat daar aanvaar word dat striatale BOLD ten minste gedeeltelik afferente sinaptiese aktiwiteit weerspieël [9] en die dopamienneurone projekteer swaar na die striatum.

Alhoewel die voorgenoemde fisiologiese reaksies blykbaar verband hou met die beloning-voorspellingsberekeninge van RL, daar is ook 'n toename in dopaminergiese fasiese aktiwiteit in reaksie op opwindende en/of nuwe stimuli wat skynbaar nie verband hou met beloning nie [4,6,14,3]. 'n Soortgelyke verskynsel is onlangs waargeneem by mense wat fMRI gebruik [2]. Daar is verskeie redes waarom daar gesê word dat hierdie "nuwigheid" of "siliency"-reaksie nie verband hou met beloning-voorspellingsfout nie: (1) dit verskyn baie vroeg, voordat die identiteit van die stimulus geassesseer is, sodat 'n akkurate beloningsvoorspelling nie kan nie. gegenereer word; (2) dit stem ooreen met 'n toename in neurale aktiwiteit (dws dit is positief) vir beide aversiewe en eetlusstimuli; en (3) dit gewoond [13]. Inderdaad, hierdie opvallende/nuwigheidsreaksies van die dopamien-vrystellende neurone is die betroubaarste wanneer die stimuli onvoorspelbaar is en lei tot oriënterings- en/of benaderingsgedrag [16] ongeag die uiteindelike uitkoms, wat die feit beklemtoon dat hulle kwalitatief verskil van aangeleerde beloning voorspelling. Die uitdaging was dus om hierdie oënskynlike paradoks (dws hoe nuwigheid die beloning-voorspellingsfout beïnvloed) te verduidelik binne die teoretiese raamwerk van RL.

Kakade en Dayan [7] het gepoog om presies dit te doen; in hul artikel postuleer hulle twee maniere waarop nuwigheidsreaksies in RL-modelle van dopaminerge funksie geïnkorporeer kan word - beide het die insluiting van nuwe teoretiese aannames behels. Die eerste aanname, waarna verwys word as nuwigheidsbonusse, behels die bekendstelling van 'n bykomende beloning wanneer nuwe stimuli teenwoordig is, bo en behalwe die gewone beloning wat die agent ontvang. Hierdie bykomende beloning kom in die berekening in sodat leer gebaseer is op die verskil tussen die agent se bestaande beloningsvoorspelling en die som van beide die gewone beloning uit die omgewing en die nuwigheidsbonus. Die nuwigheid word dus deel van die beloning wat die agent probeer maksimeer. Die tweede aanname, genaamd vormingsbonusse, kan geïmplementeer word deur die waardes van toestande wat met nuwe stimuli geassosieer word, kunsmatig te verhoog. Omdat die temporele-verskil-leerreël wat in RL gebruik word, gebaseer is op die verskil in beloning-voorspelling tussen opeenvolgende state, het die byvoeging van 'n konstante vormingsbonus aan state wat betrokke is by die nuwe stimuli geen effek op die finale gedrag van die agent nie. 'n Nuwigheidsreaksie kom egter steeds na vore wanneer die agent die deel van die staatsruimte betree wat “gevorm” is (dws wat met nuwigheid geassosieer word).

Alhoewel die byvoeging van elk van hierdie aannames voldoende is om baie waargenome effekte van nuwigheid te verduidelik, meng die aannames ook in met die vordering van leer. Soos Kakade en Dayan [7] uitwys, kan nuwigheidsbonusse die waardefunksie (dws die waardes wat deur die agent met elke staat geassosieer word) verwring en beïnvloed wat uiteindelik geleer word omdat dit geïmplementeer word as 'n bykomende beloning wat intrinsiek met roman geassosieer word. state. Die probleem is dat die agent leer om beide die primêre en nuwigheidskomponente van die beloning te voorspel. Alhoewel Kakade en Dayan daarop wys dat vormingsbonusse nie hierdie tipe probleem veroorsaak nie omdat dit in die beloningsvoorspellings van vorige state opgeneem word, is die byvoeging daarvan steeds problematies omdat vormingsbonusse vooroordele inbring in die manier waarop 'n agent sy staatsruimte sal verken. Dus, alhoewel hierdie bykomende aannames kan verduidelik hoe nuwigheid die beloning-voorspellingsfout in RL beïnvloed, is dit problematies. Verder kom die verduidelikings ten koste van die vermindering van die spaarsaamheid van modelleringswerk wat poog om RL te gebruik om die gedrag van werklike biologiese organismes te verstaan.

Die simulasie wat hieronder gerapporteer word, is uitgevoer om die hipotese te toets dat 'n eenvoudige RL-middel, sonder enige bykomende aannames, 'n beloning-voorspellingsfoutreaksie sal ontwikkel wat soortgelyk is aan die nie-beloningverwante dopamienreaksies wat in biologiese organismes waargeneem word. . 'n RL-agent het die taak gekry om met twee tipes voorwerpe te werk - een positief en die ander negatief - wat op willekeurige plekke in sy omgewing verskyn het. Ten einde sy beloning te maksimeer, moes die agent leer om die positiewe voorwerp te benader en te "verbruik", en om die negatiewe voorwerp te vermy (dws nie "verbruik"). Daar was drie hoofvoorspellings vir die simulasie.

Die eerste voorspelling was bloot dat, om sy beloning te maksimeer, die agent in werklikheid sou leer om die positiewe, lonende voorwerpe te benader en te "verbruik", terwyl hy terselfdertyd leer om die negatiewe, strafende voorwerpe te vermy. Die tweede voorspelling was effens minder voor die hand liggend: dat die agent 'n oriënterende reaksie sou toon (dws leer om sy oriëntasie te verskuif) na beide negatiewe en positiewe objekte. Hierdie voorspelling is gemaak omdat, alhoewel die agent die voorkoms van 'n voorwerp en sy ligging kon "aanvoel", die positiewe of negatiewe identiteit van die voorwerp (dws die aanduiding dat die agent uiteindelik sou leer om te assosieer met die beloningswaarde van die voorwerp) kon eers deur die agent bepaal word nadat die agent werklik na die voorwerp georiënteer het. Laastens was die derde (en belangrikste) voorspelling verwant aan die gesimuleerde dopaminergiese fasiese respons in die model; hierdie voorspelling was dat, wanneer die voorwerp verskyn, die agent 'n beloning-voorspellingsfout sou vertoon wat berekeningsgewys analoog was aan die fasiese dopamienreaksie wat in biologiese organismes waargeneem word, wat positief is vir beide positiewe en negatiewe voorwerpe. Daar is ook voorspel dat hierdie reaksie sou verskil as 'n funksie van die afstand tussen die middel en die stimulus, wat in die konteks van die simulasie 'n instaanmaatstaf was vir stimulus "intensiteit" of opvallendheid. Soos hieronder gedemonstreer sal word, is hierdie voorspellings bevestig deur die simulasieresultate, wat toon dat die oënskynlik nie-beloningverwante dopamienreaksies in beginsel uit die basiese beginsels van RL kan voortspruit. Die teoretiese implikasies van hierdie resultate vir die gebruik van RL om nie-beloningverwante aktiwiteit in biologiese organismes te verstaan, sal in die laaste afdeling van hierdie artikel bespreek word.

Metode

Soos reeds genoem, spesifiseer RL-algoritmes hoe 'n agent oomblik-tot-oomblik numeriese belonings kan gebruik om te leer watter aksies dit moet neem om die totale hoeveelheid beloning wat hy ontvang, te maksimeer. In die meeste formulerings word hierdie leer bewerkstellig deur beloningsvoorspellingsfoute (dws die verskil tussen 'n agent se huidige beloningsvoorspelling en die werklike beloning wat verkry word) te gebruik om die agent se beloningvoorspellings op te dateer. Soos die beloningsvoorspellings aangeleer word, kan die voorspellings ook deur 'n agent gebruik word om sy volgende aksie te kies. Die gewone beleid (gedefinieer in Vergelyking 2) is dat die agent die aksie kies wat voorspel word om die grootste beloning tot gevolg te hê. Die werklike beloning wat op enige gegewe tydstip aan die agent verskaf word, is die som van die onmiddellike beloning plus 'n gedeelte van die waarde van die staat wat die agent betree wanneer die aksie voltooi is. Dus, as die agent uiteindelik positiewe belonings ervaar nadat hy in 'n bepaalde toestand was, sal die agent aksies in die toekoms kies wat waarskynlik tot daardie beloonde state sal lei; omgekeerd, as die agent negatiewe belonings (dws straf) ervaar, sal dit aksies in die toekoms vermy wat lei tot daardie “gestraf” state.

Die spesifieke algoritme wat die beloningsvoorspellings bepaal wat vir die verskillende state geleer word (dws die waardefunksie V), word Waarde Iterasie genoem [Voetnoot 1] en kan formeel beskryf word as:

Vir alle moontlike state,

(Vergelyking 1)

waar s ooreenstem met die huidige toestand, V(s) is die huidige beloningsvoorspelling vir toestande wat deur die agent geleer is, maxaction∈M{} is 'n operateur vir die maksimum waarde van die hoeveelheid tussen hakies oor die stel van alle aksies M beskikbaar vir die agent, V(s′) is die agent se huidige beloningsvoorspelling vir die volgende toestand s′, α is een of ander leerkoers (tussen 0 en 1), en γ is 'n afslagfaktor wat weerspieël hoe toekomstige belonings geweeg moet word relatief tot onmiddellike belonings. Die aanvanklike waardefunksie is so gestel dat V(s) 0 was vir alle toestande.

Die waardefunksie V(s) is geïmplementeer as 'n opsoektabel, wat formeel gelykstaande is aan die aanname van perfekte geheue. Alhoewel funksiebenaderaars soos neurale netwerke met 'n mate van sukses gebruik is om waardefunksies voor te stel [1], is 'n opsoektabel gebruik om te verseker dat die resultate nie afhanklik was van die tipes veralgemeningsmeganismes wat deur verskeie funksiebenaderaars verskaf word nie. Die agent is opgelei vir 1,500 0.01 leeriterasies oor sy staatsruimte. As gevolg van die onvoorspelbaarheid van die identiteit van die objekte, is 'n waardefunksie-opdateringsparameter van minder as een (α = 0.99) tydens die leer gebruik om voorsiening te maak vir die gemiddelde van verskillende uitkomste. Laastens is die afslagfaktor op γ = 1 gestel om die agent aan te moedig om gouer beloning te soek eerder as om sy benaderingsgedrag tot die einde van die proef te vertraag (hoewel die verandering daarvan van 'n verstekwaarde van 1,500 geen effek gehad het op die resultate wat hier gerapporteer word nie. ) Ten einde onafhanklik te bepaal of XNUMX XNUMX leeriterasies voldoende was vir leer om te voltooi, is die gemiddelde hoeveelheid verandering in die geleerde gemonitor en gevind dat dit voor hierdie aantal iterasies saamgevloei het.

Na opleiding is die spesifieke algoritme wat die agent se gedrag beheer (dws die beleid van aksies wat dit van elke gegewe staat neem):

(Vergelyking 2)

waar π(s) die aksie is wat die agent uit toestande sal kies, en die regterkant van die vergelyking gee die aksie terug (bv. verandering van oriëntasie, beweging of geen aksie) wat die som van die beloning en die afslagwaarde maksimeer van die gevolglike toestand s′.

In die simulasie wat hieronder gerapporteer word, is al die state wat deur die agent besoek is, geënkodeer as 7-dimensionele vektore wat inligting verteenwoordig oor beide die eksterne "fisiese" toestand van die agent en sy interne "kennis" toestand. Die fisiese inligting het beide die agent se huidige posisie in die ruimte en sy oriëntasie ingesluit. Die kennisinligting het die posisie van die voorwerp ingesluit (indien een teenwoordig was) en die identiteit van daardie voorwerp (indien dit deur die agent bepaal is). Die spesifieke tipes inligting wat deur die agent verteenwoordig is, word in Tabel 1 getoon.

Tabel 1

Die afmetings wat in die RL-simulasies gebruik word en die moontlike waardes van daardie afmetings.

Daar was 'n totaal van 21,120 2 toestande in die simulasie [Voetnoot 16,280]. Die toestande waarin daar 'n ongeïdentifiseerde positiewe en ongeïdentifiseerde negatiewe objek was, is egter, vanuit die perspektief van die agent, identies, dus is daar dus slegs 3 XNUMX verskillende state. Dus, tydens elke herhaling van leer, was dit nodig om sommige van daardie "identiese" state twee keer te besoek om voorsiening te maak vir die feit dat hulle die helfte van die tyd gevolg kan word met die ontdekking van 'n positiewe voorwerp, en die helfte van die tyd gevolg word met die ontdekking van 'n negatiewe voorwerp [Voetnoot XNUMX].

Aan die begin van elke gesimuleerde toetsproef is die middel in die middel van 'n gesimuleerde lineêre 11 × 1 eenheidsbaan geplaas met vyf spasies na die "ooste" (dws regs) van die agent en vyf spasies na die "wes". ” (dws links) van die agent. Soos tabel 1 toon, het die agent se toestandsvektor 'n element ingesluit wat sy huidige ligging op die baan aandui (dws 'n heelgetal van 0 tot 10), sowel as 'n element (dws 'n karakter "n", "s", " e”, of “w”) wat sy huidige oriëntasie verteenwoordig (dws, onderskeidelik noord, suid, oos of wes). Die agent se aanvanklike oriëntasie was altyd gestel om "noord" te wees en geen ander voorwerp was teenwoordig in die omgewing nie (dws die waarde van "OBJEK" in die agent se toestand-vektor is gestel op gelyk aan "0").

Gedurende elke tydstap van die simulasie kan die agent een van die volgende aksies uitvoer: (1) niks doen nie, en in die huidige ligging en oriëntasie bly; (2) oriënteer na die noorde, suide, ooste of wes; of (3) skuif een spasie in die omgewing (oos of wes). Die resultaat van elke aksie het op die daaropvolgende gesimuleerde tydstap plaasgevind. Alle veranderinge in die ligging en/of oriëntasie van die agent in die ruimte het plaasgevind deur die keuse van aksies deur die agent. Gedurende elke tydstap van die simulasie, selfs wanneer 'n "niks doen"-aksie gekies is, is tyd egter met 1 verhoog tot aan die einde van die proef (dws tydstap 20).

Die agent se omgewing is so ingestel dat die helfte van die tyd 'n voorwerp na tien tydstappe op 'n ewekansige plek (maar nie op dieselfde plek as die agent nie) verskyn het; 50% van die voorwerpe was positief (verteenwoordig deur 'n "+"; sien Tabel 1) en 50% van die voorwerpe was negatief (verteenwoordig deur 'n "-"). Die vertraging voordat die voorwerp verskyn het, is ingestel om die waarneming van enige gedrag moontlik te maak wat die agent voor die verskyning van die voorwerp getoon het. As die agent nie op die voorwerp gerig was toe dit verskyn het nie, dan is die element wat die "OBJEK"-identiteit in die agent se toestandsvektor verteenwoordig van "0" na "?" om die feit te weerspieël dat die identiteit van die voorwerp wat nou teenwoordig was tans onbekend was. As die agent egter op die objek gerig was, dan is die "OBJECT" element in die daaropvolgende tydstap op gelyk aan die identiteit van die objek gestel, sodat "0" óf "+" of "−" geword het vir positief en negatiewe voorwerpe, onderskeidelik.

As die agent na 'n voorwerp se ligging beweeg het, dan het die voorwerp tydens die volgende tydstap verdwyn. As die voorwerp positief was, dan is die agent se “VERBRUIK” vlag gelyk aan waar gestel en die agent is beloon (beloning = +10); as die voorwerp egter negatief was, dan is die “GESKOK” vlag op waar gestel en die agent is gestraf (beloning = -10). (Let daarop dat die vlae op hierdie manier gestel is, ongeag of die agent die voorwerp geïdentifiseer het of nie; bv., die agent kon 'n voorwerp verbruik sonder om ooit daarheen te oriënteer.) Op die daaropvolgende tydstap, die "SHOCKED" of "VERBRUIK" vlag is skoongemaak. Die agent het ook 'n klein boete (versterking = −1) vir elke beweging of oriënterende aksie gekry, en het geen beloning of straf (versterking = 0) ontvang as hy geen aksie uitgevoer het nie.

Beide die openlike gedrag (dws oriëntering en beweging) en 'n mate van beloning-voorspellingsfout is vir die agent gekwantifiseer. Die openlike gedrag (dws die lys van aksies wat deur die agent gekies is) is gebruik as 'n aanduiding of die taak aangeleer is. Die maatstaf van beloning-voorspellingsfout is gebruik om die hipotese oor die opkoms van die nie-beloning dopaminergiese fasiese sein te toets. Die beloning-voorspellingsfout, δ, is gemeet op die tydstip t van die verskyning van 'n voorwerp deur die beloningsvoorspelling by die vorige tydstap, dws V(s) by tydstap t−1, af te trek van die beloningsvoorspelling wanneer die voorwerp het verskyn, dws V(s) op tyd t, wat die hoeveelheid δ = V(st) − V(st−1) oplewer.

Results
Gesimuleerde gedrag

Die openlike gedrag van die agente is eers gekwantifiseer. Die resultate van hierdie analise het getoon dat, na opleiding, die agent positiewe versterking van al die positiewe voorwerpe genader en verkry het en nooit enige van die negatiewe voorwerpe genader het nie. Saam verskaf hierdie resultate gedragsbevestiging dat die agente geleer het om die taak korrek uit te voer. Hierdie gevolgtrekking word versterk deur die bykomende waarneming dat, tydens die proewe toe geen voorwerp verskyn het nie, die agent roerloos gebly het. Soos voorspel, het die agent op beide positiewe en negatiewe voorwerpe georiënteer.

Gesimuleerde beloning-voorspellingsfout

Die sentrale hipotese van hierdie vraestel is dat die voorkoms van 'n onvoorspelbare stimulus konsekwent 'n positiewe beloning-voorspellingsfout sal genereer, selfs al is daardie voorwerp toevallig 'n "negatiewe" voorwerp wat altyd straf. Ter ondersteuning van hierdie hipotese het die agent 'n positiewe beloning-voorspellingsfout getoon wanneer 'n (ongeïdentifiseerde) voorwerp verskyn, maar nie wanneer niks verskyn het nie. Ook in ooreenstemming met die sentrale hipotese is die feit dat die grootte van die agent se fasiese respons (δ, gemeet soos beskryf in die Metode-afdeling) sensitief was vir die gesimuleerde “intensiteit” van die stimulus, gedefinieer deur die afstand tussen die agent en die voorwerp te gebruik (sien Figuur 1). 'n Regressie-analise het aangedui dat die grootte van δ omgekeerd verwant was aan die afstand vanaf die voorwerp, sodat nader voorwerpe 'n sterker reaksie veroorsaak het (r = -0.999, p < 0.001; β = 0.82). Hierdie negatiewe korrelasie is veroorsaak deur die klein boete (versterking = −1) wat opgelê is vir elke beweging wat die agent moes maak om na die positiewe voorwerp te beweeg, dit te verteer en daardeur beloning te verkry.

Figuur 1

Hierdie figuur toon die beloning-voorspellingsfout (dws,δ) wanneer die voorwerp verskyn het as 'n funksie van die ligging van die voorwerp relatief tot die ligging van die agent. Die response is identies vir beide positiewe en negatiewe voorwerpe. Wanneer geen voorwerp (meer …)

Gegewe dat positiewe en negatiewe voorwerpe met gelyke waarskynlikheid in hierdie simulasie verskyn het (p = .25), ontstaan ​​die vraag: Waarom was die agent se beloning-voorspellingsfoutsein positief ten tyde van die voorwerp se verskyning? Deur te redeneer volgens die lyne van Kakade en Dayan [7], kan 'n mens voorspel dat die sein die gemiddelde van al die aangeleerde belonings uit sulke situasies moet weerspieël, en dus gelyk aan nul moet wees. Die sleutel tot die begrip van hierdie resultaat is om daarop te let dat RL nie net 'n agent minder geneig maak om aksies te kies wat negatiewe versterking tot gevolg het nie, dit maak ook 'n agent minder geneig om state te betree wat uiteindelik tot negatiewe versterking lei. Dit lei tot 'n soort "hoër-orde" vorm van leer wat in Figuur 2 uitgebeeld en vervolgens beskryf word.

Figuur 2

Illustrasie wat wys hoe 'n RL-agent positiewe beloning-voorspellingsfout ontwikkel wanneer dit opgelei word met beide lonende en strafende stimuli in sy omgewing en in staat is om te kies of om dit te benader en te verbruik. (A) Die situasie voor leer: (meer …)

Aan die begin van leer (sien Figuur 2A), oriënteer die agent na beide "+" en "−" voorwerpe, nader hulle, en word beide beloon en gestraf deur elke tipe voorwerp te verbruik. As die agent se aangeleerde toestandwaardes nie die agent se optrede kon beïnvloed nie (sien Figuur 2B), sou die agent voortgaan om die voorwerpe te nader en te verbruik. Die voorkoms van die leidraad sal dan 'n gemiddelde beloning van 0 voorspel en daar sal 'n skielike toename in beloning-voorspellingsfout wees. Die agent in hierdie simulasie gebruik egter wel aangeleerde toestandwaardes om sy aksies te beïnvloed (sien Figuur 2C), en alhoewel die agent steeds na die onbekende voorwerp moet oriënteer om sy identiteit te bepaal, sal dit nie meer 'n negatiewe voorwerp verbruik as dit naderkom nie. dit (soos dit sou wees as dit opgelei is met 'n ewekansige verkenningsalgoritme soos trajeksteekproefneming [Voetnoot 1]). Verder, omdat temporele verskilleer die negatiewe beloningsvoorspelling toelaat om terug te "propageer" na voorafgaande toestande, en omdat daar 'n geringe koste is om in die ruimte te beweeg, leer die agent om die negatiewe voorwerp heeltemal te vermy. Dus, nadat hierdie inligting geleer is, is die waarde van die toestand wanneer die voorwerp die eerste keer verskyn (aangedui as "V" in die eerste sirkel in elke ry) nie gebaseer op die gemiddelde van die positiewe en negatiewe uitkomstoestandwaardes nie, maar is eerder gebaseer op die gemiddelde van positiewe en die "neutrale" uitkoms wat bereik word sodra die agent leer om die negatiewe voorwerpe te vermy. Dit is hoekom die gemiddelde van alle belonings wat werklik deur die opgeleide agent verkry is groter as nul was, en verduidelik hoekom die agent se beloningsvoorspelling (en dus beloningsvoorspellingsfout wanneer die voorwerp skielik verskyn) 'n netto positief was. Dit word geïllustreer in Figuur 3. Trouens, solank die agent kan leer om sy gedrag te verander en die negatiewe voorwerp te vermy, is die waarde van die negatiewe voorwerp uiteindelik irrelevant vir die finale gedrag van die agent en die omvang van die nuwigheid/ opvallende reaksie.

Figuur 3

(A) Demonstreer die veranderinge in beloningsvoorspelling wat sou plaasgevind het as RL nie tot hoër-orde leer gelei het nie (dws as die agent nie maatreëls kon tref om die negatiewe uitkoms te vermy nie), sodat die agent gedwing was om al die voorwerpe (meer …)

Die simulasieresultate is krities afhanklik van drie aannames. Eerstens moes die stimuli "opvallend" wees deurdat die grootte van die versterking wat deur die aanvanklike leidraad voorspel is, voldoende groot was (bv. +10) relatief tot die koste van oriëntering en nadering (bv. -1). As die grootte relatief klein was, sou die agent nie geleer het om te oriënteer nie, en sou dit ook nie die positiewe beloning-voorspellingsfoutreaksie gegenereer het nie. Tweedens was 'n vertraging voor die herkenning van die stimuli ook nodig. (Vertraging is 'n proxy vir "nuwigheid" onder die redenasie dat 'n bekende stimulus vinnig herken sal word.) Sonder 'n vertraging sou die agent eenvoudig die toepaslike positiewe of negatiewe beloningsvoorspellingsfout gegenereer het wat geskik is vir die werklike waargenome voorwerp. Laastens moes die agent se gedrag bepaal word deur die waardes wat hy geleer het. As die agent nie sy eie gedrag kon beheer nie (dws of hy die stimuli moet benader), dan sou sy beloningsvoorspelling wanneer 'n voorwerp verskyn gelyk gewees het aan 0, die gemiddelde van die ewewaarskynlike positiewe en negatiewe uitkomste.

Algemene Bespreking

Die simulasie wat in hierdie artikel gerapporteer word, het getoon dat 'n positiewe beloning-voorspellingsfout voorkom wanneer 'n onvoorspelbare stimulus, hetsy lonend of straf, verskyn, maar nie onmiddellik geïdentifiseer kan word nie. Verder het die simulasie aangedui dat die grootte van die beloning-voorspellingsfout toeneem met die nabyheid van die stimulus aan die agent, wat in die konteks van die simulasie 'n instaanmaatstaf vir stimulusintensiteit is en dus verband hou met opvallendheid. In die teoretiese raamwerk van RL word beloningsvoorspellings normaalweg verstaan ​​om die aangeleerde waarde van erkende stimuli, of van die fisiese en/of kognitiewe toestande van 'n agent te weerspieël [15]. Die beloning-voorspellingsfout wat hier gerapporteer word, het egter 'n kwalitatief verskillende interpretasie omdat dit gegenereer word voordat die agent die voorwerp herken het. Saam ondersteun hierdie resultate die hipotese dat RL-beginsels voldoende is om 'n reaksie te produseer wat oënskynlik nie verband hou met beloning nie, maar eerder verband hou met die eienskappe van nuutheid en opvallendheid. Hierdie gevolgtrekking het verskeie belangrike gevolge vir ons algemene begrip van RL en vir ons interpretasie van RL as 'n weergawe van beloningsleer in werklike biologiese organismes.

Eerstens, die beloningsvoorspelling wat deur 'n RL-agent gegenereer word wanneer 'n ongeïdentifiseerde stimulus verskyn, is nie noodwendig 'n streng gemiddelde van die verkrygbare belonings soos voorgestel deur Kakade en Dayan [7], maar kan in werklikheid groter wees in omvang as daardie spesifieke gemiddelde. Kakade en Dayan sou voorspel dat die gemiddelde beloningsvoorspelling gelyk aan nul moet wees omdat, omdat die proewe ewe gereeld beloon en gestraf is. Hierdie verrassende resultaat het na vore gekom omdat die agent op 'n "op-polis" wyse geleer het; dit wil sê, die agent het nie net van negatiewe uitkomste geleer nie, maar ook oor sy vermoë om daardie uitkomste te vermy. Hierdie vermoë van die beloningstelsel om 'n agent negatiewe uitkomste te vermy, moet noukeurig oorweeg word in die vertaling van ons begrip van RL na werklike organismes. Hierdie feit is moontlik selfs belangriker gegewe die oënskynlike asimmetrie in die kapasiteit van die dopaminergiese fasiese reaksie om positiewe beloningsvoorspellingsfout beter te verteenwoordig as negatiewe beloningsvoorspellingsfout [11]. Dit kan voldoende wees om aan te dui dat 'n bepaalde volgorde van gebeure tot 'n negatiewe uitkoms lei, maar dat die omvang van daardie uitkoms vir die doeleindes van aksiekeuse onbelangrik is.

'n Tweede vertakking van die huidige simulasie is dat die nuwigheidsreaksie kan ontstaan ​​uit 'n interaksie tussen perseptuele verwerkingstelsels en beloning-voorspellingstelsels. Spesifiek, die nuwigheidsreaksie kan te wyte wees aan 'n vorm van ooreenkoms tussen nuwe objekte en objekte wat nog nie volledige perseptuele verwerking ondergaan het nie [Voetnoot 4]. In hierdie simulasie is nuwigheid geïmplementeer deur 'n vertraging in te stel voordat die voorwerp se identiteit (en gevolglik die lonende of strafende aard daarvan) aan die agent duidelik geword het. Dit is gedoen onder die aanname dat nuwe objekte langer neem om te identifiseer, maar hierdie aanname het ook daartoe gelei dat die positiewe en negatiewe objekte op soortgelyke wyse waargeneem is toe hulle die eerste keer verskyn het (dws hulle is albei geënkodeer as “?”). In teenstelling hiermee stel Kakade en Dayan [7] voor dat nuwigheidsreaksies en "veralgemenings"-reaksies wesenlik verskil, ten spyte daarvan dat dit soortgelyk in die neurofisiologiedata gemanifesteer word.

’n Derde vertakking van die huidige simulasieresultate is dat dit toon dat die bykomende aannames van nuwigheid en vormsbonusse wat deur Kakade en Dayan [7] voorgestel is, nie nodig is nie. In plaas daarvan kan nuwigheid-agtige reaksies ontstaan ​​uit realistiese perseptuele verwerkingsbeperkings en die kennis om negatiewe uitkomste te vermy. Dit is gelukkig want, soos deur Kakade en Dayan uitgewys, verdraai nuwigheidsbonusse die waardefunksie wat deur 'n agent aangeleer word, en vorming van bonusse beïnvloed die wyse waarop agente hul staatsruimtes verken. Die insluiting van enige van hierdie aannames verminder dus die spaarsaamheid van modelle wat op RL-teorie gebaseer is. Interessant genoeg, die resultate wat hier aangebied word, help ook om te verduidelik waarom die biologiese nuwigheidsreaksie dalk nie ontwrigtend is vir beloningsgebaseerde leer in werklike organismes nie: die nuwigheidsreaksie word in werklikheid reeds deur RL voorspel. Dit wil sê, die nuwigheidsreaksie weerspieël gedrag en beloningsvoorspellings wat inherent is aan 'n agent wat reeds iets oor sy omgewing geleer het.

'n Alternatiewe (maar nie wedersyds uitsluitende) interpretasie van die huidige simulasieresultate is dat daar inderdaad 'n abstrakte (miskien kognitiewe) beloning is wat agente verkry deur te oriënteer na en te identifiseer objekte. In studies van dopaminerge aktiwiteit kan positiewe fasiese reaksies voorkom op onverwagte leidrade wat bekend is om 'n beloning te voorspel. Hierdie simulasie demonstreer egter hoe hierdie soort reaksies ook kan plaasvind in reaksie op 'n leidraad wat uiteindelik óf beloning óf straf kan voorspel. Die enigste konsekwente voordeel wat deur die leidraad voorspel word, is die wins in inligting wat verkry word wanneer die agent dit die identiteit van die voorwerp bepaal. Dus, as daar 'n geldige, aangeleerde "beloningvoorspelling" is wanneer die ongeïdentifiseerde voorwerp verskyn, is dit een wat tevrede is nadat die agent die kennis verkry het of die stimulus moet benader of vermy word. Die waarde van hierdie inligting is nie gebaseer op die gemiddelde van die verkrygbare uitkomste nie, maar is eerder gebaseer op die kennis van die effektiewe uitkomste - dat die agent óf die positiewe beloning kan verbruik óf die negatiewe beloning kan vermy (sien Figuur 2).

Ten slotte is dit belangrik om daarop te let dat die geleenthede om spesifieke aksies te neem (bv. om te oriënteer) self lonende eienskappe kan aanneem deur een of ander veralgemening of leermeganisme wat nie in hierdie simulasie ingesluit is nie. Die einste daad van oriëntering en bepaling van “wat daar buite is” kan byvoorbeeld lonend word vir 'n organisme op grond van die assosiasie tussen daardie aksie en die bo-gedemonstreerde opkomende, altyd positiewe beloning-voorspellingsfout wanneer nuwe stimuli verskyn. 'n Soortgelyke idee is onlangs bevorder deur Redgrave en Gurney [13] wat veronderstel dat 'n belangrike doel van die fasiese dopamienreaksie is om aksies te versterk wat plaasvind voor onvoorspelbare opvallende gebeure. Die resultate hier is nie onverenigbaar met daardie hipotese nie, maar dit moet daarop gelet word dat Redgrave en Gurney se hipotese nie direk in hierdie simulasie getoets word nie omdat geen aksies (dws eksplorasie) van die agent vereis is om die opvallende gebeurtenis (die verskyning van) die voorwerp) om te voorkom. Die gesimuleerde fasiese sein het egter saamgeval met die tyd van die oriënterende reaksie wat daarop dui dat die twee sterk verwant kan wees.

Ten slotte het hierdie artikel getoon dat RL-beginsels gebruik kan word om 'n tipe skynbaar nie-beloningverwante aktiwiteit van die dopaminerge neurone te verduidelik. Hierdie resultaat het ontstaan ​​uit die feit dat die temporele-verskil leerreël (soos dié wat deur Kakade en Dayan [7] gebruik word) ingebed is in 'n simulasie waarin die agent aksies kon kies wat 'n effek op die uiteindelike uitkoms gehad het. In die simulasie het die agent geleer dat die uitkoms van oriëntering na 'n voorwerp wat skielik verskyn, altyd óf lonend óf neutraal kan wees omdat die negatiewe uitkoms vermy kan word. Wanneer die agent dus 'n geleentheid gehad het om te oriënteer, was sy beloning-voorspellingsfout altyd positief, rekenkundig analoog aan die nuwigheid en opvallende reaksies wat in biologiese organismes waargeneem is.

Erkennings

Die werk wat in hierdie artikel beskryf word, is ondersteun deur NIH R01 HD053639 en deur NSF Training Grant DGE-9987588. Ek wil graag vir Erik Reichle, Tessa Warren en 'n anonieme resensent bedank vir nuttige kommentaar op 'n vroeëre weergawe van hierdie artikel.

1Nog 'n versterkingsleeralgoritme, genaamd Trajeksteekproefneming [17], word gereeld gebruik in plaas van Waarde Iterasie wanneer die toestandspasie so groot word dat dit nie volledig herhaal of maklik in 'n rekenaar se geheue gestoor kan word nie. Eerder as om oor elke toestand in die staatsruimte te herhaal en die waardefunksie-opdateringsvergelyking toe te pas op grond van die aksies wat blykbaar tot die meeste beloning lei, werk Trajeksteekproefneming deur paaie deur die toestandruimte te volg. Net soos Value Iteration, word die aksies wat tot die meeste beloning lei gewoonlik uit elke staat gekies, maar soms word 'n ewekansige verkennende aksie met 'n klein waarskynlikheid gekies. Die algoritme is dus: Van sommige begintoestande, kies 'n aksie wat lei tot die meeste beloning [bv. beloning + γV(s′)] met waarskynlikheid ε, of kies 'n ewekansige verkennende aksie met waarskynlikheid 1 − ε. Pas V(s) → V(s) + α[beloning + γV(s′) − V(s)] toe tydens nie-verkennende aksies vanaf staat s.

Behalwe om die tegniese beperkings van berekeningstyd en geheue te oorkom, kan Trajeksteekproefneming aantreklik wees omdat dit die manier waarop werklike biologiese organismes leer beter weerspieël: deur paaie in 'n staatsruimte te verken. Op die taak wat in hierdie vraestel beskryf word, lewer Trajeksteekproefneming resultate wat kwalitatief identies is aan dié wat met Waarde Iterasie verkry is. Ter wille van bondigheid word hierdie resultate egter nie hier in detail gerapporteer nie. Waarde Iterasie is om twee hoofredes vir die simulasie in hierdie vraestel gekies. Eerstens, omdat trajeksteekproefneming stogastisiteit in die seleksie van trajekte behels, kan die groot hoeveelheid vertakkings wat te wyte is aan die baie moontlike reekse van aksies in hierdie taak lei tot agente wat nie ervaring met sommige state het nie, tensy die eksplorasie-ontginning parameter (bv. ε-gierigheid [17]) word noukeurig gekies. Hierdie gebrek aan ervaring met spesifieke toestande kan 'n agent se prestasie ontwrig wanneer 'n opsoektabelgeheuestruktuur gebruik word as gevolg van die gebrek aan veralgemening van waarde na soortgelyke (maar moontlik onbesoekte) state. Dit is dus verkies om voordeel te trek uit die uitputtende verkenning van staatsruimte wat met Waarde Iterasie gewaarborg word. Tweedens het die gebruik van Waarde Iterasie die behoefte om daardie addisionele eksplorasie-ontginning parameter te spesifiseer uit die weg geruim, en sodoende die simulasie vereenvoudig. Let daarop dat Trajeksteekproefneming uiteindelik Waarde Iterasie kan benader namate die aantal trajekte oneindig nader [17].

2Die aantal 21,120 11 toestande kan soos volg bereken word: 4 moontlike agentliggings × 10 moontlike agentoriëntasies × (10 tydstappe voor 'n voorwerp kan verskyn + 10 tydstappe waar geen voorwerp verskyn het nie + 10 tydstappe waar die agent was positief versterk + 11 tydstappe waar die voorwerp negatief versterk is + 10 moontlike voorwerpliggings * (10 tydstappe met 'n positiewe geïdentifiseerde voorwerp + 10 tydstappe met 'n negatief geïdentifiseerde voorwerp + 10 tydstappe met 'n ongeïdentifiseerde positiewe voorwerp + XNUMX tydstappe met 'n ongeïdentifiseerde negatiewe voorwerp))].

3Die bestaan ​​van hierdie "versteekte" toestande moet tydens opleiding oorweeg word omdat Waarde Iterasie slegs "een stap vooruit" van elke staat in die staatsruimte lyk. Die feit dat toestande met negatiewe en positiewe ongeïdentifiseerde voorwerpe effektief identies is, sal verhoed dat die waardes in die twee verskillende opvolgende toestande waarin óf die positiewe óf negatiewe voorwerp geïdentifiseer word, geleer word en gemiddeld word. 'n Trajeksteekproefbenadering aan die ander kant handhaaf die verborge toestandinligting (dws die identiteit van die ongeïdentifiseerde stimulus) regdeur die proef en dus met daardie variant van RL is die verborge toestande nie 'n bekommernis nie.

4Een potensiële beswaar teen die huidige werk is dat die oriënterende reaksie blykbaar in die soogdierbrein vasgebind is, byvoorbeeld in projeksies vanaf die superior colliculus [3,14]. In die huidige simulasie was die agente nie vasgestel om na voorwerpe te oriënteer nie, maar het eerder 'n oriënterende gedrag aangeleer wat die uiteindelike keuse van 'n aksie moontlik gemaak het (bv. óf benadering óf vermyding) wat beloning gemaksimeer het. Soortgelyk aan hard-wired response, het hierdie oriënteringsgedrag baie vinnig plaasgevind, voordat die voorwerpe geïdentifiseer is, en was gerig op alle voorwerpe. Die doel van hierdie werk was nie om die bewering te maak dat al sulke response aangeleer word nie, maar eerder dat hulle saam kan bestaan ​​binne die RL-raamwerk. Dit sal nietemin interessant wees om te ondersoek of beloningsverwante meganismes betrokke kan wees by die opstel van konnektiwiteit in breinstamareas om hierdie fasiese dopamienreaksie te genereer.

Hierdie is 'n PDF-lêer van 'n ongeredigeerde manuskrip wat aanvaar is vir publikasie. As 'n diens aan ons kliënte voorsien ons hierdie vroeë weergawe van die manuskrip. Die manuskrip sal kopieëring, tikwerk en hersiening van die gevolglike bewys ondergaan voordat dit in sy finale citable vorm gepubliseer word. Let asseblief daarop dat tydens die produksieproses foute ontdek kan word wat die inhoud kan beïnvloed, en alle wettige disklaimers wat van toepassing is op die tydskrif betrekking het.

Verwysings

1. Baird LC. Residuele Algoritmes: Versterkingsleer met funksiebenadering. In: Priedetis A, Russell S, redakteurs. Masjienleer: Verrigtinge van die twaalfde internasionale konferensie; 9–12 Julie.1995.

2. Bunzeck N, Düzel E. Absolute kodering van stimulusnuutheid in die menslike substantia nigra/VTA. Neuron. 2006;51(3):369–379. [PubMed]

3. Dommett E, Coizet V, Blaha CD, Martindale J, Lefebvre V, Walton N, Mayhew JEW, Overton PG, Redgrave P. Hoe visuele stimuli dopaminerge neurone met kort latensie aktiveer. Wetenskap. 2005;307(5714):1476–1479. [PubMed]

4. Doya K. Metaalleer en neuromodulasie. Neurale netwerke. 2002 Jun–Jul;15(4–6):495–506. [PubMed]

5. Gillies A, Arbuthnott G. Berekeningsmodelle van die basale ganglia. Bewegingsversteurings. 2000;15(5):762–770. [PubMed]

6. Horvitz JC. Mesolimbokortikale en nigrostriatale dopamienreaksies op opvallende nie-beloning gebeure. Neurowetenskap. 2000;96(4):651–656. [PubMed]

7. Kakade S, Dayan P. Dopamien: veralgemening en bonusse. Neurale netwerke. 2002;15(4–6):549–559. [PubMed]

8. Knutson B, Cooper JC. Die lok van die onbekende. Neuron. 2006;51(3):280–282. [PubMed]

9. Logothetis NK, Pauls J, Augath M, Trinath T, Oeltermann A. Neurofisiologiese ondersoek van die basis van die fMRI-sein. Aard. 2001;412(6843):150–157. [PubMed]

10. McClure SM, Berns GS, Montague PR. Temporele voorspellingsfoute in 'n passiewe leertaak aktiveer menslike striatum. Neuron. 2003;38(2):339–346. [PubMed]

11. Niv Y, Duff MO, Dayan P. Dopamien, onsekerheid en TD-leer. Gedrags- en breinfunksies. 2005 Mei 4;1:6. [PMC gratis artikel] [PubMed]

12. O'Doherty JP, Dayan P, Friston K, Critchley H, Dolan RJ. Temporele verskilmodelle en beloningsverwante leer in die menslike brein. Neuron. 2003;38(2):329–337. [PubMed]

13. Redgrave P, Gurney K. Die kort-latency dopamien sein: 'n rol in die ontdekking van nuwe aksies? Natuur Resensies Neurowetenskap. 2006 Des;7(12):967–975.

14. Redgrave P, Prescott TJ, Gurney K. Is die kort-latency dopamien reaksie te kort om beloning fout aan te dui? Tendense in Neurowetenskappe. 1999 Apr;22(4):146–151. [PubMed]

15. Reichle ED, Laurent PA. Die gebruik van versterkingsleer om die ontstaan ​​van "intelligente" oogbewegingsgedrag tydens lees te verstaan. Sielkundige oorsig. 2006;113(2):390–408. [PubMed]

16. Schultz W. Voorspellende beloningsein van dopamienneurone. Tydskrif vir Neurofisiologie. 1998;80(1):1–27. [PubMed]

17. Sutton RS, Barto AG. Versterkingsleer: 'n Inleiding. MIT Press; Cambridge: 1998.

18. Tanaka SC, Doya K, Okada G, Ueda K, Okamoto Y, Yamawaki S. Voorspelling van onmiddellike en toekomstige belonings werf differensieel kortiko-basale ganglia-lusse. Natuur Neurowetenskap. 2004;7(8):887–893.