Pojavnost in odzivnost novosti z načeli okrepitve učenja (2008)

PRIPOMBE: Druga študija, ki dokazuje, da je novost lastna nagrada. Eden od zasvojenostnih vidikov internetne pornografije je neskončna novost in raznolikost, zmožnost hitrega klikanja z ene scene na drugo in iskanje prave slike / videoposnetka. Vse to poveča dopamin. Po tem se internetna pornografija razlikuje od revij ali najetih DVD-jev.

Celotna študija: Pojav pomirjenosti in novosti iz načel ojačanja učencev

Nevronska mreža. 2008 december; 21 (10): 1493 – 1499.

Objavljeno v spletu 2008 september 25. doi: 10.1016 / j.neunet.2008.09.004

Patryk A. Laurent, Univerza v Pittsburghu;

Vso dopisovanje naslovite na: Patryk Laurent, Univerza v Pittsburghu, 623 LRDC, 3939 O'Hara St., Pittsburgh, PA 15260 ZDA, e-pošta: [e-pošta zaščitena], Office: (412) 624-3191, Fax: (412) 624-9149

Minimalizem

Nedavni poskusi prikazovanja možganskih učnih modelov, kot je Reinforcement Learning [17], v možgane temeljijo na opazovanju, da se fazično poveča in zmanjša v konicah med nevroni, ki sproščajo dopamin, signalne razlike med napovedano in prejeto nagrado [16,5]. Vendar je ta napaka napovedovanja nagrade le eden od več signalov, ki jih sporoča ta fazna aktivnost; drugo vključuje povečanje dopaminergičnega spikinga, kar odraža pojav vidnih, a nepredvidljivih ne-nagrajevalnih dražljajev [4,6,13], zlasti kadar se organizem pozneje usmeri proti dražljaju [16]. Za razlago teh ugotovitev sta Kakade in Dayan [7] in drugi navedla ta roman, da se nepričakovani dražljaji sami po sebi obrestujejo. Simulacija, poročena v tem članku, kaže, da ta predpostavka ni potrebna, saj učinek, ki naj bi ga dosegel, izhaja iz mehanizmov učenja za napovedovanje nagrad za učenje okrepitve. Tako lahko načela okrepljenega učenja uporabimo za razumevanje ne le aktivnosti, povezane z nagradami dopaminergičnih nevronov bazalnih ganglijev, temveč tudi nekaterih njihovih očitno ne-nagrajevalnih dejavnosti.

Reinforcement Learning (RL) postaja vse pomembnejši pri razvoju računskih modelov učenja, ki temelji na nagradi v možganih. RL je razred računskih algoritmov, ki določa, kako se lahko umetni "agent" (npr. Resnični ali simulirani robot) nauči izbrati dejanja, da maksimira skupno pričakovano nagrado [17]. V teh algoritmih sredstvo svoje delovanje temelji na vrednostih, ki se jih nauči povezovati z različnimi stanji (npr. Zaznavne povezave, povezane s dražljajem). Te vrednosti je mogoče postopoma naučiti s časovnim razliknim učenjem, ki prilagodi vrednosti države na podlagi razlike med napovedjo obstoječe nagrade za zastopnika za državo in dejansko nagrado, ki jo kasneje dobijo iz okolja. Pokazalo se je, da je ta izračunana razlika, imenovana napaka napovedovanja nagrad, zelo korektna s fazno aktivnostjo nevronov, ki sproščajo dopamin, ki izhajajo iz substancije nigra pri primatih, razen človeka [16]. Poleg tega pri ljudeh striatum, ki je pomembna tarča dopamina, kaže fMRI BOLD signal, ki kaže, da odraža napako napovedovanja nagrade med nalogami učenja nagrad [10,12,18]. Ta ugotovitev fMRI dopolnjuje podatke o fiziologiji, ker se domneva, da strijatalni BOLD vsaj deloma odraža aferentno sinaptično aktivnost [9] in dopaminski nevroni močno projicirajo v striatum.

Čeprav se zdi, da so omenjeni fiziološki odzivi povezani z izračuni napovedi nagrade za nagrado, povečano je tudi fazno delovanje dopaminergične reakcije kot odziv na vzbujajoče in / ali nove dražljaje, ki na videz ni povezano z nagrajevanjem [4,6,14,3]. Podoben pojav so pred kratkim opazili pri ljudeh, ki uporabljajo fMRI [2]. Obstaja več razlogov, zaradi katerih naj bi bil ta odgovor "novosti" ali "pomembnosti" povezan z napako napovedovanja nagrade: (1) se pojavi zelo zgodaj, preden se oceni identiteta spodbude, tako da natančna napoved nagrade ne more biti ustvarjen; (2) ustreza povečanju nevronske aktivnosti (tj. Pozitivno je) tako za averzivne kot za apetitne dražljaje; in (3) nastaja [13]. Dejansko so ti odzivnosti / novosti nevronov, ki sproščajo dopamin, najbolj zanesljivi, kadar so dražljaji nepredvidljivi in ​​vodijo k orientacijskemu in / ali vedenjskemu obnašanju [16] ne glede na morebitni izid, kar poudarja dejstvo, da se kakovostno razlikujejo od naučene nagrade napoved. Izziv je bil torej razložiti ta navidezni paradoks (tj. Kako novost vpliva na napako napovedovanja nagrad) v teoretičnem okviru RL.

Kakade in Dayan [7] sta poskušala storiti točno to; v svojem članku predstavljata dva načina, s katerimi bi lahko odzive na novosti vključili v modele RL dopaminergične funkcije - oba sta vključevala nove teoretične predpostavke. Prva predpostavka, ki jo imenujemo bonusi za novosti, vključuje uvedbo dodatne nagrade, če so prisotni novi dražljaji, in sicer nad običajno nagrado, ki jo prejme agent. Ta dodatna nagrada se vključi v računanje, tako da učenje temelji na razliki med napovedjo obstoječega nagrajevanja agenta in vsoto običajne nagrade iz okolja in bonusa novosti. Tako postane novost del nagrade, ki jo poskuša agent čim bolj izkoristiti. Drugo predpostavko, imenovano bonuse za oblikovanje, je mogoče izvajati z umetnim povečevanjem vrednosti stanj, povezanih z novimi dražljaji. Ker pravilo za učenje časovne razlike, ki se uporablja v RL, temelji na razliki v napovedovanju nagrad med zaporednimi stanji, dodajanje stalnega bonusa za oblikovanje stanj, povezanih z novimi dražljaji, ne vpliva na končno vedenje povzročitelja. Vendar se odziv na novost še vedno pojavi, ko agent vstopi v del državnega prostora, ki je bil "oblikovan" (tj. To je povezano z novostjo).

Čeprav dodajanje vsake od teh predpostavk zadostuje za razlago številnih opaženih učinkov novosti, predpostavke vplivajo tudi na napredek učenja. Kot izpostavljata Kakade in Dayan [7], lahko bonusi za novosti izkrivljajo vrednostno funkcijo (tj. Vrednosti, ki jih agent za vsako državo poveže) in vplivajo na tisto, kar se na koncu nauči, saj se izvajajo kot dodatna nagrada, ki je sama po sebi povezana z novostjo stanj. Težava je v tem, da se agent nauči napovedovati tako primarne kot novosti komponente nagrade. Čeprav Kakade in Dayan poudarjata, da oblikovanje bonusa ne povzroča tovrstnih težav, ker se vključijo v napovedi nagrajevanja iz prejšnjih stanj, je njihovo dodajanje še vedno problematično, saj oblikovanje bonitet uvaja pristranskost v način, kako bo agent raziskal njegov državni prostor. Čeprav lahko te dodatne predpostavke pojasnijo, kako novost vpliva na napako napovedovanja nagrade v RL, so problematične. Razlage so še dodatno posledica zmanjšanja parsimnosti manekenskih del, ki skušajo RL razumeti vedenje resničnih bioloških organizmov.

Spodaj navedena simulacija je bila izvedena z namenom preizkušanja hipoteze, da bi preprosto sredstvo RL brez dodatnih predpostavk razvilo odziv na napako pri napovedovanju napak, podobno neodzivnim odzivom na dopamin, ki jih opazimo v bioloških organizmih . Agent RL je dobil nalogo, da deluje z dvema vrstama predmetov - enim pozitivnim in drugim negativnim -, ki so se pojavili na naključnih lokacijah v njegovem okolju. Da bi povečal svojo nagrado, se je moral agent naučiti približati in "porabiti" pozitiven predmet in se izogibati (tj. Ne "porabiti") negativnega predmeta. Obstajale so tri glavne napovedi za simulacijo.

Prvo napovedovanje je bilo preprosto, da se bo agent za čim večjo nagrado v resnici naučil približati in "porabiti" pozitivne, nagrajujoče predmete, hkrati pa se učiti izogibati se negativnim, kaznovalnim predmetom. Druga napoved je bila nekoliko manj očitna: da bo agent pokazal orientacijski odziv (tj. Naučil se bo premikati svojo usmerjenost) proti negativnim in pozitivnim objektom. To napoved je bilo narejeno, ker čeprav bi agent lahko "čutil" videz predmeta in njegovo lokacijo, pozitivno ali negativno identiteto predmeta (tj. Iztočnico, ki bi se ga agent sčasoma naučil povezati z vrednostjo nagrade predmeta) agent ga ni mogel določiti, šele ko se je agent dejansko usmeril k predmetu. Nazadnje je bila tretja (in najpomembnejša) napoved povezana s simuliranim dopaminergičnim faznim odzivom v modelu; ta napoved je bila, da bo agent, ko se bo pojavil objekt, pokazal napako napovedovanja, ki je bila računsko analogna faznemu odzivu na dopamin, ki so ga opazili pri bioloških organizmih, in je pozitiven tako za pozitivne kot negativne predmete. Za ta odziv je bilo predvideno, da se bo spreminjal tudi kot odvisnost od razdalje med povzročiteljem in dražljajem, kar je bilo v okviru simulacije proxy ukrep za "intenzivnost" ali izrazitost dražljaja. Kot bo prikazano spodaj, so bila ta predvidevanja potrjena z rezultati simulacije, ki kažejo, da očitno nepovratni odzivi na dopamin načeloma lahko izhajajo iz osnovnih načel RL. Teoretične posledice teh rezultatov za uporabo RL za razumevanje dejavnosti, ki ni povezana z nagradami, v bioloških organizmih bodo obravnavane v zadnjem delu tega članka.

Metoda

Kot smo že omenili, algoritmi RL določajo, kako lahko agent uporabi trenutne numerične nagrade, da se nauči, katera dejanja naj izvede, da poveča celoten znesek nagrade, ki jo prejme. V večini formulacij je to učenje doseženo z uporabo napak pri napovedovanju nagrad (tj. Razlike med napovedjo trenutne nagrade za zastopnika in dejansko nagrado, ki jo dobimo) za posodobitev napovedi agenta o nagradi. Ko se napovedi nagrade nagradijo, lahko napovedi uporabi tudi agent, da izbere svoje naslednje dejanje. Običajni pravilnik (opredeljen v enačbi 2) je, da agent izbere dejanje, za katero se pričakuje, da bo prineslo največjo nagrado. Dejanska nagrada, ki je bila posredovana agentu v določenem času, je vsota takojšnje nagrade in nekaj dela vrednosti stanja, ki ga agent vstopi, ko je akcija končana. Torej, če agent sčasoma dobi pozitivne nagrade po tem, ko je bil v določenem stanju, bo agent v prihodnosti izbral ukrepe, ki bodo verjetno privedli do teh nagrajenih stanj; nasprotno, če agent doživi negativne nagrade (tj. kazen), se bo v prihodnosti izognil dejanjem, ki vodijo v ta "kaznovana" stanja.

Specifični algoritem, ki določa napovedi nagrajevanja, ki se jih naučimo za različna stanja (tj. Vrednostno funkcijo V), imenujemo vrednostno ponavljanje [opomba 1] in jo lahko uradno opišemo kot:

Za vsa možna stanja

(Enačba 1)

kjer s ustreza trenutnemu stanju, je V (s) trenutna napoved nagrade za stanje s, ki ga je izvedel agent, maxaction∈M {} je operator za največjo vrednost oklepane količine v množici vseh dejanj M, ki je na voljo agentu, je V (s ′) trenutna napoved agenta za naslednje stanje s ′, α je neka stopnja učenja (med 0 in 1), γ pa je faktor diskonta, ki odraža, kako bodo bodoče nagrade tehtale glede na takojšnje nagrade. Začetna vrednost vrednosti je bila nastavljena tako, da je bilo V (s) 0 za vsa stanja s.

Vrednostna funkcija V (s) je bila izvedena kot iskalna tabela, ki je formalno enakovredna domnevi popolnega pomnilnika. Čeprav so se približevalniki funkcij, kot so nevronske mreže, z nekaj uspeha uporabljali za prikaz vrednosti vrednosti [1], je bila uporabljena pregledna tabela, ki zagotavlja, da rezultati niso bili odvisni od vrst mehanizma posploševanja, ki jih nudijo različni funkcijski približevalci. Agent je bil usposobljen za učne iteracije 1,500 v njegovem državnem prostoru. Zaradi nepredvidljivosti identitete predmetov je bil med učenjem uporabljen parameter za posodobitev funkcijske vrednosti, ki je manjši od enega (α = 0.01), da se omogoči povprečje različnih rezultatov. Končno je bil diskontni faktor nastavljen na γ = 0.99, da bi spodbudil agenta k iskanju nagrade prej, kot pa da bi odložil svoje vedenje pristopa do konca preskušanja (čeprav spreminjanje iz privzete vrednosti 1 ni vplivalo na rezultate, poročene tukaj. ) Da bi neodvisno ugotovili, ali so itneracije učenja 1,500 zadostne za dokončanje učenja, smo spremljali povprečno količino sprememb v učenju in ugotovili, da se je pred tem številom iteracij zbližalo.

Po usposabljanju je poseben algoritem, ki ureja vedenje agenta (tj. Politika dejanj, ki jih izvaja iz vsake države):

(Enačba 2)

kjer je π (s) dejanje, ki ga bo agent izbral iz stanja s, desna stran enačbe pa vrne dejanje (npr. sprememba orientacije, gibanje ali brez ukrepanja), ki maksimira vsoto nagrade in diskontirane vrednosti izhajajočega stanja s '.

V simulaciji, ki je navedena v nadaljevanju, so bila vsa stanja, ki jih je obiskal agent, kodirana kot vektorji 7, ki predstavljajo informacije o zunanjem "fizičnem" stanju agenta in o njegovem notranjem stanju "znanja". Fizične informacije so vključevale trenutni položaj agenta v prostoru in njegovo usmeritev. Podatki o znanju so vključevali položaj predmeta (če je bil prisoten) in identiteto predmeta (če ga je določil agent). Specifične vrste informacij, ki jih je zastopal agent, so prikazane v tabeli 1.

Tabela 1

Dimenzije, uporabljene v simulacijah RL, in možne vrednosti teh dimenzij.

V simulaciji je bilo skupno stanje 21,120 [opomba 2]. Vendar so stanja, v katerih je obstajal neidentificirani pozitivni in neidentificirani negativni objekt, z vidika povzročitelja identična, zato obstajajo samo različna stanja 16,280. Tako je bilo treba med vsako ponovitvijo učenja dvakrat obiskati nekaj tistih "identičnih" stanj, da bi ugotovili, da lahko polovica časa spremlja odkritje pozitivnega predmeta, polovico časa pa sledite z odkritjem negativnega predmeta [opomba 3].

Na začetku vsakega simuliranega preskusnega preskusa je bil agent nameščen na sredino simuliranega linearnega tira 11 × 1 s petimi presledki proti vzhodu (tj. Na desni strani) agenta in petimi presledki proti zahodu "(Tj. Na levi strani) agenta. Kot kaže tabela 1, je vektor stanja agenta vključeval element, ki kaže njegovo trenutno lokacijo na posnetku (tj. Celo število od 0 do 10), pa tudi element (tj. Znak „n“, „s“, „ e "ali" w "), ki predstavlja njegovo trenutno usmeritev (tj. sever, jug, vzhod ali zahod). Začetna orientacija agenta je bila vedno nastavljena na "sever", v okolju pa ni bil prisoten noben drug objekt (tj. Vrednost "OBJECT" v vektorju stanja agenta je bila enaka "0").

Med vsakim časovnim korakom simulacije lahko agent izvede eno od naslednjih dejanj: (1) ne naredi ničesar in ostane na trenutni lokaciji in orientaciji; (2) se orientirajo na sever, jug, vzhod ali zahod; ali (3) premaknete en prostor v okolju (vzhod ali zahod). Rezultat vsake akcije je potekal na naslednjem simuliranem časovnem koraku. Vse spremembe lokacije in / ali usmeritve agenta v prostoru so se zgodile z izbiro agenta. Vendar pa je bil med vsakim časovnim korakom simulacije, tudi ko je bilo izbrano dejanje "ne naredi nič", 1 čas do konca preskusa (tj. Časovni korak 20) povečal.

Okolje agenta je bilo postavljeno tako, da se je polovica časa po desetih časovnih korakih pojavil predmet na naključni lokaciji (vendar ne na isti lokaciji kot agent); 50% predmetov je bilo pozitivnih (predstavljenih z "+"; glej tabelo 1) in 50% predmetov je bilo negativnih (predstavljenih z "-"). Zamuda, preden se je objekt predstavil, je omogočila opazovanje kakršnega koli vedenja, ki ga je lahko agent pokazal pred pojavom predmeta. Če agent ni bil usmerjen v objekt, ko se je pojavil, je bil element, ki predstavlja identiteto »OBJECT« v vektorju stanja agenta, spremenjen iz »0« v »?«, Da odraža dejstvo, da je bila identiteta predmeta, ki je bil zdaj prisotnost trenutno ni bila znana. Če pa je bil agent usmerjen v objekt, je bil element "OBJECT" v naslednjem časovnem koraku nastavljen na istovetnost predmeta, tako da je "0" postal pozitiven kot "+" ali "-" negativni predmeti oz.

Če se je agent preselil na lokacijo predmeta, je med naslednjim korakom objekt izginil. Če je bil objekt pozitiven, je bila zastava "CONSUMED" agenta nastavljena na vrednost true in agent je bil nagrajen (nagrada = + 10); če pa je bil objekt negativen, je bila zastava "SHOCKED" nastavljena na true in agent je bil kaznovan (nagrada = −10). (Upoštevajte, da so bile zastavice postavljene na ta način, ne glede na to, ali je agent predmet ali ni identificiral; npr. Agent lahko zaužije predmet, ne da bi se kdaj orientiral nanj.) V naslednjem časovnem koraku je "SHOCKED" oz. Označena oznaka "POTROŠEN" je bila izbrisana. Zastopnik je dobil tudi majhno kazen (okrepitev = −1) za vsako gibanje ali usmerjanje in ni prejel nobene nagrade ali kazni (okrepitev = 0), če ni izvedel nobenega dejanja.

Za agenta sta bila količinsko določena tako očitna vedenja (tj. Orientacija in gibanje) kot tudi merilo napake napovedovanja nagrad. Odkrito vedenje (tj. Seznam dejanj, ki jih je izbral agent) je bil uporabljen kot pokazatelj, ali se je naloga naučila. Ukrep napake napovedi napovedi je bil uporabljen za preizkušanje hipoteze o pojavu ne-nagrajenega dopaminergičnega faznega signala. Napaka napovedi nagrade, δ, je bila izmerjena v času t pojava predmeta, tako da se odšteje napoved nagrade v prejšnjem časovnem koraku, tj. V (s) v časovnem koraku t − 1, od napovedi nagrade, ko pojavil se je objekt, to je V (s) v času t, pri čemer je nastala količina δ = V (st) - V (st − 1).

Rezultati
Simulirano vedenje

Odkrito vedenje agentov je bilo najprej količinsko opredeljeno. Rezultati te analize so pokazali, da je po treningu agent pristopil in dobil pozitivno okrepitev iz vseh pozitivnih predmetov in se nikoli ni približal nobenemu od negativnih predmetov. Ti rezultati skupaj zagotavljajo vedenjsko potrditev, da so se agenti naučili pravilno opravljati nalogo. Ta ugotovitev je podkrepljeno z dodatnim opazovanjem, da je med preskušanji, ko se ni pojavil noben predmet, sredstvo ostalo negibno. Kot je bilo napovedano, se je agent usmeril tako v pozitivne kot negativne predmete.

Simulirana napaka napovedi napovedi

Osrednja hipoteza tega prispevka je, da bo pojav nepredvidljivega dražljaja dosledno povzročil pozitivno napako napovedovanja nagrad, tudi če se zgodi, da gre za "negativni" predmet, ki ga vedno kaznujejo. V podporo tej hipotezi je agent pokazal pozitivno napako napovedovanja nagrad vsakič, ko se pojavi (neidentificirani) predmet, ne pa tudi, ko se nič ne pojavi. Skladno z osrednjo hipotezo je tudi dejstvo, da je bila veličina faznega odziva povzročitelja (δ, izmerjena kot je opisano v oddelku o metodi) občutljiva na simulirano "intenzivnost" dražljaja, definirana z uporabo razdalje med agentom in predmetom (glej sliko 1). Regresijska analiza je pokazala, da je bila velikost δ obratno povezana z razdaljo od predmeta, tako da so bližji predmeti povzročili močnejši odziv (r = -0.999, p <0.001; β = 0.82). To negativno korelacijo je povzročila majhna kazen (okrepitev = -1), ki je bila naložena za vsako gibanje, ki ga je agent moral narediti, da se je premaknil do pozitivnega predmeta, ga porabil in s tem pridobil nagrado.

Slika 1

Ta slika prikazuje napako pri napovedovanju nagrade (tj. Δ), ko se je objekt pojavil kot funkcija lokacije predmeta glede na lokacijo agenta. Odzivi so enaki tako za pozitivne kot negativne predmete. Ko ni predmeta (več…)

Glede na to, da so se v tej simulaciji z enako verjetnostjo pojavili pozitivni in negativni predmeti (p = .25), se postavlja vprašanje: Zakaj je bil signal napak napovedi napake napoved pozitiven v času pojava predmeta? Če sklepamo po vzoru Kakade in Dayan [7], bi lahko napovedali, da mora signal odražati povprečje vseh izvedenih nagrad iz takšnih situacij in je torej enako nič. Ključnega pomena za razumevanje tega rezultata je opozoriti, da ne le, da RL agent manj verjetno izbere dejanja, ki imajo za posledico negativno okrepitev, ampak tudi manj verjetno, da agent vstopi v stanja, ki na koncu vodijo v negativno okrepitev. Tako nastane nekakšna oblika učenja višjega reda, ki je prikazana na sliki 2 in opisana naprej.

Slika 2

Ilustracija prikazuje, kako agent RL razvije pozitivno napako pri napovedovanju nagrad, ko je usposobljen z nagrajevalnimi in kaznujočimi dražljaji v svojem okolju in se lahko odloči, ali jim bo pristopil in jih porabil. (A) Stanje pred učenjem: (več ...)

Na začetku učenja (glej sliko 2A) se agent usmeri v predmete "+" in "-", se jim približa in je nagrajen in kaznovan s porabo vsake vrste predmetov. Če vrednosti naučenih stanj agenta ne bi mogle vplivati ​​na delovanje agenta (glej sliko 2B), bi se agent še naprej približeval in porabil predmete. Videz iztočnice bi nato napovedoval povprečno nagrado 0 in nenadno povečanje napake pri napovedovanju nagrad. Vendar pa agent v tej simulaciji uporablja naučene vrednosti stanja, da vpliva na svoja dejanja (glej sliko 2C), in čeprav se mora agent še vedno usmeriti v neznani predmet, da ugotovi svojo identiteto, ne bo več porabil negativnega predmeta, če bi se mu približal to (kot morda, če se usposobi z algoritmom naključnega raziskovanja, kot je vzorčenje trajektorije [opomba 1]). Poleg tega, ker učenje časovne razlike omogoča, da se napoved negativne nagrade "razširi" nazaj v prejšnja stanja in ker so stroški gibanja v vesolju majhni, se agent nauči, da se izogiba negativnemu predmetu v celoti. Potem ko se te informacije naučijo, vrednost stanja, ko se predmet prvič pojavi (v prvem krogu v vsakem zaporedju označen kot "V"), ne temelji na povprečju vrednosti pozitivnega in negativnega stanja izida, ampak je namesto na podlagi povprečja pozitivnih in "nevtralnih" izidov, doseženih, ko se agent nauči izogibati negativnim predmetom. Zato je bilo povprečje vseh nagrad, ki jih je dejansko pridobil usposobljeni agent, večje od nič, in pojasnjuje, zakaj je bilo napovedovanje nagrade (in torej napaka napovedovanja nagrade, ko se predmet nenadoma pojavi) neto pozitivno. To je prikazano na sliki 3. Dejansko je, dokler se lahko agent nauči spreminjati svoje vedenje in se izogibati negativnemu objektu, vrednost negativnega predmeta na koncu ni pomembna za končno vedenje agenta in velikost odziva novosti / strmosti.

Slika 3

(A) Prikazuje spremembe napovedovanja nagrad, ki bi se zgodile, če RL ne bi privedel do učenja višjega reda (tj. Če agent ne bi mogel sprejeti ukrepov, da bi se izognil negativnemu izidu), tako da je bil agent prisiljen zaužiti vse predmeti (več…)

Rezultati simulacije so kritično odvisni od treh predpostavk. Prvič, dražljaji so morali biti „vidni“, ker je bila velikost armature, ki jo je predvidel začetni izvod, dovolj velika (npr. + 10) glede na stroške orientacije in približevanja (npr. −1). Če bi bil obseg sorazmerno majhen, se agent ne bi naučil orientirati, niti ne bi ustvaril pozitivnega odziva na napako napovedovanja. Drugič, potrebna je bila tudi zamuda pred prepoznavanjem dražljajev. (Zamuda je proxy za „novost“, pod pogojem, da bi bila znana spodbuda hitro prepoznana.) Brez odlašanja bi agent preprosto ustvaril ustrezno pozitivno ali negativno napako napovedovanja nagrade, primerno za dejansko zaznani objekt. Končno je bilo treba vedenje agenta določiti na podlagi vrednosti, ki se jih je naučil. Če agent ne bi mogel nadzorovati svojega vedenja (tj. Ali se približati dražljajem), bi bila njegova napoved nagrade, ko se je pojavil predmet, enaka 0, povprečju izenačenih pozitivnih in negativnih rezultatov.

Splošna razprava

Simulacija, poročana v tem članku, je pokazala, da se pozitivna napaka napovedovanja nagrade pojavi, ko se pojavi nepredvidljiv spodbud, bodisi nagrajevanje bodisi kaznovanje, vendar ga ni mogoče takoj prepoznati. Poleg tega je simulacija pokazala, da se velikost napake napovedovanja nagrade poveča z bližino dražljaja do povzročitelja, kar je v okviru simulacije proxy merilo intenzivnosti dražljaja in je zato povezano s strpnostjo. V teoretičnem okviru RL napovedi nagrade nagrajujejo običajno tako, da odražajo naučeno vrednost prepoznanih dražljajev ali fizičnih in / ali kognitivnih stanj agenta [15]. Vendar pa je tu prikazana napaka napovedovanja nagrad kvalitativno drugačna interpretacija, ker nastane, preden je agent objekt prepoznal. Ti rezultati skupaj podpirajo hipotezo, da načela RL zadostujejo za odziv, ki na videz ni povezan z nagrajevanjem, temveč je povezan z lastnostmi novosti in vidnosti. Ta zaključek ima več pomembnih posledic za naše splošno razumevanje RL in za našo interpretacijo RL kot račun učenja nagrad pri resničnih bioloških organizmih.

Prvič, napoved nagrade, ki jo ustvari agent RL, ko se pojavi neznana spodbuda, ni nujno strogo povprečje dosegljivih nagrad, kot sta predlagala Kakade in Dayan [7], ampak je v resnici lahko večja od tega določenega povprečja. Kakade in Dayan bi predvideval, da mora biti povprečna napoved nagrad enaka nič, ker so bile preizkušnje nagrajene in kaznovane enako pogosto. Ta presenetljiv rezultat se je pojavil zato, ker se je agent naučil na podlagi „politike“; to je, da je agent izvedel ne samo o negativnih izidih, ampak tudi o svoji sposobnosti, da se tem rezultatom izogne. To sposobnost sistema nagrajevanja, da povzroči povzročitelju, da se izogne ​​negativnim izidom, je treba skrbno upoštevati pri prenašanju našega razumevanja RL na prave organizme. To dejstvo je potencialno še pomembnejše, saj je navidezna asimetrija zmožnosti dopaminergičnega faznega odziva, da predstavlja pozitivno napako napovedovanja nagrade boljše od negativne napake napovedovanja nagrade [11]. Morda bo dovolj, če nakažemo, da določeno zaporedje dogodkov vodi do negativnega izida, vendar da je za izbiro ukrepov obseg tega izida nepomemben.

Druga odraz trenutne simulacije je, da se odziv na novost lahko pojavi zaradi interakcije med zaznavnimi procesi za obdelavo in sistemi za napovedovanje nagrad. Odziv na novost je morda posledica podobnosti med novimi predmeti in predmeti, ki še niso bili podvrženi popolni percepcijski obdelavi [opomba 4]. V tej simulaciji je bila novost izvedena z uvedbo zamude, preden je identiteta predmeta (posledično njegova nagradna ali kaznovalna narava) postala agentu očitna. To je bilo storjeno pod predpostavko, da nove predmete traja dlje časa za identifikacijo, vendar je tudi ta domneva povzročila, da so bili pozitivni in negativni predmeti podobno zaznani, ko so se prvič pojavili (tj. Oba sta bila kodirana kot "?"). V nasprotju s tem Kakade in Dayan [7] navajata, da sta odziva na novosti in "posploševalni" odzivi v bistvu različna, čeprav se podobno kažejo v nevrofizioloških podatkih.

Tretja razjasnitev trenutnih rezultatov simulacije je, da kažejo, da dodatne predpostavke o novostih in oblikovanju bonusov, ki sta jih predlagala Kakade in Dayan [7], niso potrebne. Namesto tega lahko novost podobni odzivi izhajajo iz realnih omejitev zaznavne obdelave in vedenja, da se je mogoče izogniti negativnim rezultatom. To je sreča, ker, kot sta poudarila Kakade in Dayan, novostni bonusi izkrivljajo vrednostno funkcijo, ki se je nauči s pomočjo agenta, oblikovanje bonusov pa vpliva na način, kako agenti raziskujejo svoje državne prostore. Vključitev katere koli od teh predpostavk tako zmanjšuje pristranskost modelov, ki temeljijo na teoriji RL. Zanimivo je, da predstavljeni rezultati pomagajo tudi razložiti, zakaj odziv biološke novosti morda ne bo moteč za nagrajevanje učenja v resničnih organizmih: odziv na novost v resnici že napoveduje RL. To pomeni, da odziv na novost odraža vedenja in napovedi nagrade, ki so lastna agentu, ki se je že naučil o svojem okolju.

Drugačna (a ne medsebojno izključujoča) interpretacija sedanjih rezultatov simulacije je, da resnično obstaja abstraktna (morda kognitivna) nagrada, ki jo agenti pridobijo z orientacijo in prepoznavanjem predmetov. V študijah dopaminergične aktivnosti lahko pride do pozitivnih faznih odzivov na nepričakovane napotke, za katere je znano, da napovedujejo nagrado. Ta simulacija pa kaže, kako se lahko pojavijo takšni odgovori kot odgovor na iztočnico, ki bi lahko na koncu napovedala bodisi nagrado bodisi kazen. Edina konsistentna korist, ki jo napoveduje iztočnica, je pridobitev informacij, pridobljenih, ko agent, s katerim ugotovi identiteto predmeta. Če obstaja veljavna, naučena "napoved nagrad", ko se pojavi neidentificirani predmet, je tisti, ki je zadovoljen, potem ko agent pridobi znanje o tem, ali se spodbudi približati ali se ji izogniti. Vrednost teh informacij ne temelji na povprečju dosegljivih rezultatov, temveč temelji na poznavanju učinkovitih rezultatov - da lahko agent porabi pozitivno nagrado ali se izogne ​​negativni nagradi (glej sliko 2).

Nazadnje je pomembno opozoriti, da lahko nekatere možnosti (npr. Za orientacijo) same izkoristijo nagrajevalne lastnosti z nekim posploševalnim ali učnim mehanizmom, ki ni vključen v to simulacijo. Na primer, že samo dejanje usmerjanja in določanja "kaj je tam" lahko postane organizem nagrajujoč, ki temelji na povezavi med tem dejanjem in zgoraj prikazano, vedno pozitivno napako napovedovanja nagrade, ko se pojavijo novi dražljaji. Podobno zamisel sta pred kratkim izpostavila Redgrave in Gurney [13], ki domnevata, da je pomemben namen faznega odziva na dopamin okrepitev ukrepov, ki se pojavijo pred nepredvidljivimi vidnimi dogodki. Rezultati v tem primeru niso združljivi s to hipotezo, vendar je treba opozoriti, da Redgravejeva in Gurneyjeva hipoteza v tej simulaciji ni neposredno preizkušena, ker ni bilo potrebno nobeno ukrepanje (tj. Raziskovanje) povzročitelja, da bi bil viden dogodek (pojav objekta), ki se bo zgodil. Vendar pa je simulirani fazni signal sovpadal s časom orientacijskega odziva, kar nakazuje, da sta oba lahko močno povezana.

Ta članek je na koncu pokazal, da je mogoče načela RL uporabiti za razlago vrste na videz nepovratnih dejavnosti dopaminergičnih nevronov. Ta rezultat je izhajal iz dejstva, da je bilo pravilo učenja časovne razlike (kakršno uporabljata Kakade in Dayan [7]) vgrajeno v simulacijo, v kateri je agent lahko izbiral dejanja, ki so vplivala na morebitni rezultat. V simulaciji je agent izvedel, da je rezultat orientacije na predmet, ki se je nenadoma pojavil, vedno bodisi koristen bodisi nevtralen, ker se je mogoče izogniti negativnemu izidu. Torej, ko se je agent lahko orientiral, je bila napaka napovedovanja nagrade vedno pozitivna, računsko podobna novostim in odzivnosti, ki so jih opazili pri bioloških organizmih.

Priznanja

Delo, opisano v tem članku, sta podprla NIH R01 HD053639 in NSF Training Grant DGE-9987588. Rad bi se zahvalil Eriku Reichleu, Tessi Warren in anonimnemu recenzentu za koristne komentarje na prejšnjo različico tega članka.

1Na drugi algoritem učenja okrepitve, imenovan Trajectory Sampling [17], se pogosto uporablja namesto Iteracije vrednosti, ko je stanje stanja tako veliko, da ga ni mogoče izčrpno iteratirati ali ga enostavno shraniti v računalniški pomnilnik. Namesto ponavljanja nad vsakim stanjem v prostoru stanja in uporabe enačbe posodobitve funkcije vrednosti na podlagi dejanj, za katere se zdi, da prinašajo največjo nagrado, vzorčenje usmeritve deluje tako, da sledi potam skozi stanje stanja. Podobno kot Iteracija vrednosti se tudi akcije, ki vodijo do največje nagrade, izberejo iz vsake države, včasih pa se z majhno verjetnostjo izbere naključno raziskovalno dejanje. Tako je algoritem: Iz nekega izhodiščnega stanja s izberite dejanje, ki vodi k največji nagradi [npr. Nagrada + γV (s ′)] z verjetnostjo ε ali pa izberite naključno raziskovalno dejanje z verjetnostjo 1 - ε. Uporabite V (s) → V (s) + α [nagrado + γV (s ′) - V (s)] med neraziskovalnimi dejanji iz stanja s.

Poleg premagovanja tehničnih omejitev časa računanja in spomina je vzorčno usmerjanje morda privlačno, ker lahko bolje odraža način učenja resničnih bioloških organizmov: z raziskovanjem poti v vesoljskem prostoru. Naloga, opisana v tem prispevku, daje vzorčno usmeritev rezultate, ki so kakovostno enaki tistim, ki jih dobimo z vrednostjo Iteration. Vendar pa o jedrnatosti ti rezultati niso podrobno navedeni tukaj. Za simulacijo v tem prispevku je bila izbrana vrednost Iteracija iz dveh glavnih razlogov. Prvič, ker vzorčenje trajektorije vključuje stohastičnost pri izbiri usmeritev, lahko velika količina razvejevanja, ki je posledica številnih možnih zaporedij dejanj v tej nalogi, povzroči povzročitelje, ki nimajo izkušenj z nekaterimi stanji, razen če je parameter raziskovanja in izkoriščanja (tj. ε požrešnost [17]) je skrbno izbrana. Pomanjkanje izkušenj z določenimi stanji lahko moti delovanje agenta, kadar se uporablja pomnilniška struktura pregledne tabele zaradi pomanjkanja posploševanja vrednosti za podobna (vendar morda neobiskana) stanja. Tako je bilo raje izkoristiti izčrpno raziskovanje državnega prostora, ki je zagotovljeno z vrednostno Iteracijo. Drugič, uporaba Iteracije vrednosti je odpravila potrebo po določitvi dodatnega parametra raziskovanja in izkoriščanja in s tem poenostavila simulacijo. Upoštevajte, da lahko vzorčenje trajektorije na koncu približa vrednost ponovitvi, ko se število poti usmeri v neskončnost [17].

2 Število stanj 21,120 je mogoče izračunati na naslednji način: 11 možne lokacije agenta × 4 možne usmeritve agenta × (časovni koraki 10, preden se lahko objekt pojavi) + časovni koraki 10, kjer se ni pojavil noben predmet + 10 časovni koraki, kjer je bil agent pozitivno okrepljeni + časovni koraki 10, pri katerih je bil objekt negativno okrepljen + možne lokacije objektov 11 * (časovni koraki 10 s pozitivno identificiranim objektom + časovni koraki 10 z negativnim identificiranim objektom + časovni koraki 10 z neidentificiranim pozitivnim objektom + Časovni koraki 10 z neznanim negativnim objektom)]].

3 Obstoj teh "skritih" stanj je treba upoštevati med usposabljanjem, ker vrednost Iteration z vidika stanja v prostoru držav izgleda le "korak naprej". Dejstvo, da so stanja z negativnimi in pozitivnimi neidentificiranimi predmeti dejansko identična, bi preprečilo spoznavanje in povprečenje vrednosti v dveh različnih naslednjih stanjih, v katerih bodisi identificiran bodisi pozitivni bodisi negativni objekt. Pristop vzorčenja trajektorije na drugi strani ohranja informacije o skritem stanju (tj. Identiteto neidentificiranega dražljaja) v celotnem preskusu, zato pri tej različici RL skrita stanja ne skrbijo.

4Eno potencialno nasprotovanje pričujočemu delu je, da se zdi, da je orientacijski odziv trdo spojen v možganih sesalcev, na primer v projekcijah iz vrhunskega kolikulusa [3,14]. V sedanji simulaciji agentov ni bilo težko žično orientirati na predmete, temveč so se naučili orientacijskega vedenja, ki je omogočilo morebitno izbiro dejanja (npr. Pristop ali izogibanje), kar je povečalo nagrado. Podobno kot pri trdoživih odzivih se je tudi ta usmerjevalna vedenja zgodila zelo hitro, preden so bili predmeti identificirani, in so bila usmerjena proti vsem objektom. Cilj tega dela ni bil uveljaviti trditve, da se vsi taki odzivi naučijo, temveč da lahko obstajajo v okviru RL. Kljub temu pa bi bilo zanimivo raziskati, ali bi pri vzpostavljanju povezljivosti na območjih možganskega debla lahko sodelovali mehanizmi, povezani z nagrajevanjem, da bi ustvarili ta fazični odziv na dopamin.

To je PDF datoteka neurejenega rokopisa, ki je bil sprejet za objavo. Kot storitev za naše stranke nudimo to zgodnjo različico rokopisa. Rokopis bo podvržen kopiranju, stavljanju in pregledu dobljenega dokaza, preden bo objavljen v končni obliki. Upoštevajte, da se med proizvodnim procesom lahko odkrijejo napake, ki bi lahko vplivale na vsebino, in vse pravne omejitve, ki veljajo za revijo.

Reference

1. Baird LC. Preostali algoritmi: ojačitveno učenje s približevanjem funkcije. V: Priedetis A, Russell S, uredniki. Strojno učenje: Zborniki dvanajste mednarodne konference; 9 – 12 julij.1995.

2. Bunzeck N, Düzel E. Absolutno kodiranje novosti dražljaja v človeški substanci nigra / VTA. Neuron. 2006; 51 (3): 369 – 379. [PubMed]

3. Dommett E, Coizet V, CD Blaha, Martindale J, Lefebvre V, Walton N, Mayhew JEW, Overton PG, Redgrave P. Kako vizualni dražljaji aktivirajo dopaminergične nevrone ob kratki zakasnitvi. Znanost. 2005; 307 (5714): 1476 – 1479. [PubMed]

4. Doya K. Metalearning in nevromodulacija. Nevronske mreže. 2002 junij – julij; 15 (4 – 6): 495 – 506. [PubMed]

5. Gillies A, Arbuthnott G. Računalniški modeli bazalnih ganglij. Motnje gibanja. 2000; 15 (5): 762 – 770. [PubMed]

6. Horvitz JC. Mezolimbokortikalni in nigrostriatalni odziv na dopamin na vidne dogodke, ki niso nagrajeni. Nevroznanost. 2000; 96 (4): 651 – 656. [PubMed]

7. Kakade S, Dayan P. Dopamin: posplošitev in bonusi. Nevronske mreže. 2002; 15 (4 – 6): 549 – 559. [PubMed]

8. Knutson B, Cooper JC. Zvabi neznano. Neuron. 2006; 51 (3): 280 – 282. [PubMed]

9. Logothetis NK, Pauls J, Augath M, Trinath T, Oeltermann A. Nevrofiziološka preiskava osnove fMRI signala. Narava. 2001; 412 (6843): 150 – 157. [PubMed]

10. McClure SM, Berns GS, Montague PR. Časovne napake napovedi v pasivni učni nalogi aktivirajo človeški striatum. Neuron. 2003; 38 (2): 339 – 346. [PubMed]

11. Niv Y, Duff MO, Dayan P. Dopamin, negotovost in učenje TD. Vedenjske in možganske funkcije. 2005 maj 4; 1: 6. [PMC brezplačni članek] [PubMed]

12. O'Doherty JP, Dayan P, Friston K, Critchley H, Dolan RJ. Modeli časovne razlike in učenja v zvezi z nagradami v človeških možganih. Neuron. 2003; 38 (2): 329 – 337. [PubMed]

13. Redgrave P, Gurney K. Signal dopamina s kratko zamudo: vloga pri odkrivanju novih dejanj? Narava Nevroznanost. 2006 dec; 7 (12): 967 – 975.

14. Redgrave P, Prescott TJ, Gurney K. Je odziv na dopamin s kratkim latenco prekratek, da bi nakazal napako pri nagrajevanju? Trendi v nevroznanosti. 1999 apr; 22 (4): 146 – 151. [PubMed]

15. Reichle ED, Laurent PA. Uporaba okrepitvenega učenja za razumevanje pojava "inteligentnega" vedenja gibanja oči med branjem. Psihološki pregled. 2006; 113 (2): 390 – 408. [PubMed]

16. Schultz W. Napovedni nagradni signal dopaminskih nevronov. Časopis za nevrofiziologijo. 1998; 80 (1): 1 – 27. [PubMed]

17. Sutton RS, Barto AG. Okrepitveno učenje: uvod. MIT Press; Cambridge: 1998.

18. Tanaka SC, Doya K, Okada G, Ueda K, Okamoto Y, Yamawaki S. Napovedovanje takojšnjih in prihodnjih nagrad diferencialno novači zanke kortiko-bazalnih ganglijev. Naravna nevroznanost. 2004; 7 (8): 887 – 893.