Uppkoman á hæfileikum og nýjungarsvörum frá meginreglum um styrktaraðferðir (2008)

Athugasemdir: Önnur rannsókn sem sýnir fram á að nýjung eru eigin verðlaun. Einn af ávanabindandi þáttum netklám er endalaus nýjung og fjölbreytni, hæfileikinn til að smella hratt frá einni senu til annarrar og leit að réttri mynd / myndbandi. Öll þessi auka dópamín. Þetta er það sem gerir klám á netinu frábrugðið tímaritum eða leigu DVD.

Heil rannsókn: Tilkoma hæfileika og nýjungarsvör frá styrkingu námsreglna

Neural Netw. 2008 desember; 21 (10): 1493 – 1499.

Birt á netinu 2008 september 25. doi: 10.1016 / j.neunet.2008.09.004

Patryk A. Laurent, háskólinn í Pittsburgh;

Takið á öll bréfaskipti til: Patryk Laurent, háskólinn í Pittsburgh, 623 LRDC, 3939 O'Hara St., Pittsburgh, PA 15260 Bandaríkjunum, tölvupóstur: [netvarið], Skrifstofa: (412) 624-3191, Fax: (412) 624-9149

Abstract

Nýlegar tilraunir til að kortleggja verðlaunatengd námslíkön, eins og styrkingarnám [17], til heilans eru byggð á þeirri athugun að fasískur eykst og minnkar í toppi dópamínlosandi taugafrumna gefur til kynna mun á spáðri og fenginni umbun [16,5]. En þessi umbunarspávilla er aðeins eitt af nokkrum merkjum sem hafa verið send með þeirri fasískri virkni; annað felur í sér aukningu á dópamínvirkum toppa, sem endurspeglar áberandi áberandi en ófyrirséð áreynsla án ávinnings [4,6,13], sérstaklega þegar lífvera beinist síðan að áreiti [16]. Til að skýra þessar niðurstöður hafa Kakade og Dayan [7] og aðrir sett fram þá skáldsögu, óvænt áreiti eru í eðli sínu gefandi. Eftirlíkingin, sem greint er frá í þessari grein, sýnir fram á að þessi forsenda er ekki nauðsynleg vegna þess að áhrifin sem henni er ætlað að fanga koma fram úr umbunarspá námsaðferðum styrkingarnáms. Þannig er hægt að nota reglurnar um styrkingu náms til að skilja ekki bara launatengda virkni dópamínvirku taugafrumna í basli ganglia, heldur einnig sumum þeirra sem virðast ekki vera launatengd virkni.

Styrkingarnám (RL) styrkist sífellt mikilvægara við þróun reiknilíkana um launatengd nám í heila. RL er flokkur reiknireglna sem tilgreina hvernig gervi „umboðsmaður“ (td raunverulegur eða hermaður vélmenni) getur lært að velja aðgerðir til að hámarka heildar væntanleg umbun [17]. Í þessum reikniritum byggir umboðsmaður aðgerðir sínar á gildum sem hann lærir að tengja við ýmis ástand (td skynjunartölur sem tengjast örvun). Hægt er að læra þessi gildi smám saman með tímabundinni mismun, sem aðlagar gildismat miðað við mismuninn á fyrirliggjandi umbunarspá umboðsmanns fyrir ríkið og raunveruleg umbun sem fæst síðan í umhverfinu. Sýnt hefur verið fram á að þessi reiknaði munur, sem kallast umbunarspá villa, samsvarar mjög vel fasískri virkni taugafrumna sem losa dópamín út frá substantia nigra hjá prímítum sem ekki eru menn [16]. Ennfremur, hjá mönnum, sýnir striatum, sem er mikilvægt skotmark dópamíns, fMRI BOLD merki sem virðist endurspegla villu um spá umbunar við umbun til að læra verkefni [10,12,18]. Þessi fMRI niðurstaða er viðbót við lífeðlisfræðigögnin vegna þess að gert er ráð fyrir að fósturlát BOLD endurspegli, að minnsta kosti að hluta, afferent synaptic virkni [9] og dópamín taugafrumurnar verja þungt á striatum.

Þótt framangreind lífeðlisfræðileg svör virðist virðast tengjast útreikningum á umbunarspá RL það er einnig aukning á dópamínvirkri fasískri virkni til að bregðast við því að vekja og / eða ný áreiti sem virðist ekki tengjast því að umbuna [4,6,14,3]. Svipað fyrirbæri hefur nýlega komið fram hjá mönnum sem nota fMRI [2]. Það eru nokkrar ástæður fyrir því að þetta „nýjung“ eða „söluhæfni“ svar er ekki í tengslum við villur um spá umbun: (1) það virðist mjög snemma, áður en búið er að meta hver áreiti er, svo að nákvæm umbunarspá geti ekki verið vera myndaður; (2) það samsvarar aukningu á taugastarfsemi (þ.e. það er jákvætt) fyrir bæði hvetjandi og lystandi áreiti; og (3) það venur [13]. Reyndar, þessi skilvirkni / nýjungarsvörun taugafrumna sem losa sig við dópamín eru áreiðanlegust þegar áreiti er óútreiknað og skilar sér í stefnumörkun og / eða nálgun hegðunar [16] óháð niðurstöðu loksins og undirstrikar þá staðreynd að þau eru eðlislæg frábrugðin lærðri umbun spá. Áskorunin hefur því verið að skýra þessa augljósu þversögn (þ.e. hvernig nýjung hefur áhrif á umbun-spávilluna) innan fræðilegs ramma RL.

Kakade og Dayan [7] reyndu að gera nákvæmlega þetta; í grein sinni segja þau fram á tvo vegu sem hægt væri að fella svör við nýjungum í RL líkön af dópamínvirkri virkni - bæði fólst í því að nýjar fræðilegar forsendur væru teknar upp. Fyrsta forsendan, sem vísað er til sem nýjunaruppbótar, felur í sér að innleiða viðbótarlaun þegar skyndileg áreiti eru til staðar, umfram venjuleg umbun sem umboðsmaðurinn fær. Þessi viðbótarlaun fara inn í útreikninginn þannig að nám byggist á mismuninum á núverandi umbunarspá umboðsmanns og summan af bæði venjulegum umbun frá umhverfinu og nýjungarbónus. Þannig verður nýjungin hluti af umbuninni sem umboðsmaðurinn reynir að hámarka. Önnur forsendan, sem kallast mótunarbónus, er hægt að innleiða með því að auka gervi ríkja sem tengjast nýjum áreiti með tilbúnu hætti. Vegna þess að tímabundinn námsmunarregla, sem notuð er í RL, er byggð á mismuninum á umbunarspá milli ríkja í röð, hefur stöðugur mótandi bónus til ríkja sem fjalla um skáldsöguörvunin engin áhrif á endanlega hegðun umboðsmanns. Hins vegar kemur enn fram nýjungarsvörun þegar umboðsmaðurinn fer inn í þann hluta ríkisrýmisins sem hefur verið „lagaður“ (þ.e. það er tengt nýjung).

Þrátt fyrir að viðbót þessara forsendna dugi til að skýra mörg áberandi áhrif nýjunga, þá trufla forsendurnar einnig framvindu námsins. Eins og Kakade og Dayan [7] benda á, geta nýjunarbónus raskað gildi fallsins (þ.e. gildin sem umboðsmaðurinn tengist hverju ríki) og haft áhrif á það sem að lokum er lært vegna þess að þeir eru útfærðir sem viðbótarlaun sem eru í eðli sínu tengd skáldsögu ríki. Vandinn er sá að umboðsmaðurinn lærir að spá fyrir um bæði frum- og nýjunarþætti umbunarins. Þrátt fyrir að Kakade og Dayan benda á að mótun bónusa valdi ekki þessari tegund vandamála vegna þess að þeir verða felldir inn í umbunarspár frá fyrri ríkjum, er viðbót þeirra enn vandasöm vegna þess að mótun bónusar setja hlutdrægni í því hvernig umboðsmaður kannar ríkisrými þess. Þannig að þrátt fyrir að þessar viðbótarforsendur gætu skýrt hvernig nýjung hefur áhrif á villu-spávilluna í RL, þá eru þær vandkvæðum bundnar. Ennfremur koma skýringarnar á kostnað þess að draga úr sögunni um líkanavinnu sem reynir að nota RL til að skilja hegðun raunverulegra líffræðilegra lífvera.

Eftirlíkingin, sem greint er frá hér að neðan, var gerð til að prófa tilgátuna um að einfalt RL-umboðsmaður, án frekari forsendna, myndi þróa svari við svari umbunarspár sem er svipuð dópamínsvörun sem ekki er umbunuð sem sést í líffræðilegum lífverum. . Umboðsmaður RL fékk það verkefni að hafa samskipti við tvenns konar hlut - annan jákvætt og hinn neikvæða - sem birtust á handahófi stöðum í umhverfi sínu. Til að hámarka umbun sína þurfti umboðsmaðurinn að læra að nálgast og „neyta“ jákvæða hlutarins og forðast (þ.e. ekki „neyta“) neikvæða hlutarins. Það voru þrjár meginspár fyrir uppgerðina.

Fyrsta spáin var einfaldlega sú að til þess að hámarka umbun sína myndi umboðsmaðurinn í raun læra að nálgast og „neyta“ jákvæðu, gefandi hlutanna en samtímis læra að forðast neikvæða, refsa hluti. Önnur spáin var aðeins minna augljós: að umboðsmaðurinn myndi sýna stefnumörkun (þ.e. læra að færa stefnu sína) í átt að bæði neikvæðum og jákvæðum hlutum. Þessi spá var sett fram vegna þess að þó að umboðsmaðurinn gæti „skynjað“ útlit hlutar og staðsetningu hans, þá er jákvæða eða neikvæða auðkenni hlutarins (þ.e. vísbendingin sem umboðsmaðurinn myndi að lokum læra að tengja við umbunargildi hlutarins) umboðsmaður gat ekki ákvarðað fyrr en eftir að umboðsmaðurinn hafði raunverulega stefnt hlutnum. Að lokum var þriðja (og mikilvægasta) spáin tengd herminni, dópamínvirkri fasískri svörun í líkaninu; þessi spá var sú að þegar hluturinn birtist myndi umboðsmaðurinn sýna umbunarspávillu sem var reiknilega hliðstætt fasískum dópamínsvörun sem sést í líffræðilegum lífverum og var jákvæður fyrir bæði jákvæða og neikvæða hluti. Þessu svari var einnig spáð að væri breytilegt sem fall af fjarlægðinni á milli umboðsmanns og áreitis, sem í tengslum við uppgerðina var umboðsmál fyrir „álag“ eða áreiti áreiti. Eins og sýnt verður hér á eftir voru þessar spár staðfestar með niðurstöðum eftirlíkingar, sem sýna fram á að dópamínsvörin, sem virðast ekki vera launuð, geta í meginatriðum komið út frá grundvallarreglum RL. Fjallað verður um fræðilegar afleiðingar þessara niðurstaðna fyrir notkun RL til að skilja virkni sem ekki er launuð í líffræðilegum lífverum í lokahluta þessarar greinar.

Aðferð

Eins og áður hefur verið getið tilgreina RL reiknirit hvernig umboðsmaður getur notað töluleg umbun augnablik til að læra hvaða aðgerðir hann ætti að gera til að hámarka heildarlaun sem hann fær. Í flestum lyfjaformum er þessu námi náð með því að nota umbunarspávillur (þ.e. muninn á núverandi umbunarspá umboðsmanns og raunveruleg umbun sem fæst) til að uppfæra umbunarspár umboðsmanns. Þegar umbunarspárnar eru lærðar geta umboðsmenn líka notað spámanninn til að velja næstu aðgerð. Venjuleg stefna (skilgreind í jöfnu 2) er að umboðsmaðurinn velji aðgerðina sem spáð er að muni leiða til mesta umbunar. Raunveruleg umbun sem veitt er umboðsmanni á hverjum tíma er summan af strax umbun auk nokkurra hluta af verðmæti ríkisins sem umboðsmaður fer í þegar aðgerðinni er lokið. Þannig að ef umboðsmaðurinn upplifir að lokum jákvæð umbun eftir að hafa verið í tilteknu ástandi, mun umboðsmaðurinn velja aðgerðir í framtíðinni sem líklegt er að muni leiða til þessara umbunaðra ríkja; öfugt, ef umboðsmaðurinn upplifir neikvæð umbun (þ.e. refsingu) mun hann forðast aðgerðir í framtíðinni sem leiða til þessara „refsaðra“ ríkja.

Sértæki reikniritið sem ákvarðar umbunarspár sem eru lært fyrir hin ýmsu ríki (þ.e. gildi fallsins V) er kallað Value Iteration [Neðanmálsgrein 1] og er hægt að lýsa formlega sem:

Fyrir öll möguleg ríki,

(Jafna 1)

þar sem s samsvarar núverandi ástandi, V (s) er núverandi umbunarspá fyrir ástand s sem hefur verið lært af umboðsmanni, maxaction∈M {} er stjórnandi fyrir hámarksgildi bracket magns yfir mengi allra aðgerða M í boði fyrir umboðsmanninn, V (s ′) er núverandi umbunarspá umboðsmanns fyrir næsta ástand s ′, α er einhver námshraði (á milli 0 og 1) og γ er afsláttarstuðull sem endurspeglar hvernig framtíðar umbun er að vega miðað við tafarlaus umbun. Upphafsgildisaðgerðin var stillt þannig að V (s) var 0 fyrir öll ríki.

Gildisaðgerðin V (s) var útfærð sem uppflettistafla sem jafnast formlega á við forsenduna um fullkomið minni. Þrátt fyrir að aðlögunaraðgerðir eins og taugakerfi hafi verið notaðir með nokkrum árangri til að tákna gildi virka [1], var uppflettitafla notuð til að tryggja að niðurstöðurnar væru ekki háðar þeim tegundum alhæfingaraðferða sem eru til staðar af ýmsum aðgerðum. Umboðsmaðurinn var þjálfaður í 1,500 að læra endurtekningar yfir ríki sínu. Vegna ófyrirsjáanlegrar sjálfsmyndar hlutanna var gildi uppfærsluviðmiðs minna en einn (α = 0.01) notaður við námið til að gera ráð fyrir meðaltali mismunandi niðurstaðna. Að lokum var afsláttarstuðullinn stilltur á γ = 0.99 til að hvetja umboðsmanninn til að leita sér umbóta fyrr en að fresta nálgunahegðun sinni þar til loka rannsóknarinnar (þó að breyta því úr sjálfgefnu gildi 1 hafi engin áhrif haft á niðurstöðurnar sem hér er greint frá). ) Til að geta sjálfstætt ákvarðað hvort 1,500-endurtekningar í námi nægðu til að læra að ljúka var fylgst með meðaltali breytinga á lærdómi og reyndist hafa farið saman áður en þessi fjöldi endurtekninga fór fram.

Eftir þjálfun er sértæki reikniritið sem stjórnar hegðun umboðsmanns (þ.e. stefnu aðgerða sem það tekur frá hverju ríki):

(Jafna 2)

þar sem π (s) er aðgerðin sem umboðsmaðurinn mun velja úr ríki s og hægri hlið jöfnunnar skilar aðgerðinni (td breyting á stefnumörkun, hreyfingu eða engri aðgerð) sem hámarkar summan af umbuninni og afsláttargildinu af ríkinu sem myndast s ′.

Í eftirlíkingunni sem greint er frá hér að neðan voru öll ríkin sem umboðsmaður heimsótti umrita í dulmál sem 7 víddar vigrar sem táknuðu upplýsingar um ytri „líkamlega“ stöðu umboðsmanns og innra „þekkingar“ ástand þess. Líkamlegar upplýsingar innihéldu bæði núverandi stöðu umboðsmanns í rými og stefnumörkun þess. Þekkingarupplýsingarnar innihéldu staðsetningu hlutarins (ef einn var til staðar) og hver hann var (ef hann hafði verið ákvörðuð af umboðsmanni). Sértækar tegundir upplýsinga sem umboðsmaðurinn var fulltrúi fyrir er sýndur í töflu 1.

Tafla 1

Málin sem notuð eru í RL-eftirlíkingunum og möguleg gildi þessara víddar.

Alls voru 21,120 ríki í uppgerðinni [Neðanmálsgrein 2]. Hins vegar eru ríkin þar sem um var að ræða óákveðinn jákvæðan og ógreindan neikvæðan hlut, frá sjónarhóli umboðsmanns, eins, svo það eru því aðeins 16,280 sérstök ríki. Þannig var það, við hverja endurtekningu náms, nauðsynlegt að heimsækja sum þessara „eins“ ríkja tvisvar til að gera ráð fyrir því að helmingi tímans gæti fylgt þeim með uppgötvun jákvæðs hlutar og helmingi tímans sem þeir gætu fylgt eftir með uppgötvun neikvæðs hlutar [Neðanmálsgrein 3].

Í upphafi hverrar eftirlíkingarprófs var umboðsmaðurinn settur í miðju hermaðrar línulegu 11 × 1 einingarbrautar með fimm rými að „austur“ (þ.e. hægra megin) umboðsmanns og fimm rými að „vestri “(Þ.e. vinstra megin) umboðsmanns. Eins og Tafla 1 sýnir, fylgir fylkisvektor þáttarins frumefni sem gefur til kynna núverandi staðsetningu hans á brautinni (þ.e. heiltala frá 0 til 10), auk frumefnis (þ.e. staf „n“, „s“, “ e “, eða„ w “) sem táknar núverandi stefnu þess (þ.e. norður, suður, austur eða vestur, í sömu röð). Upprunaleg stefna umboðsmanns var alltaf stillt á að vera „norður“, og enginn annar hlutur var til staðar í umhverfinu (þ.e. gildi „OBJECT“ í ríki-vigri umboðsmanns var stillt á jafnt og „0“).

Í hverju tímaskrefi eftirlíkingarinnar gæti umboðsmaðurinn framkvæmt eina af eftirfarandi aðgerðum: (1) ekki gert neitt og verið áfram á núverandi staðsetningu og stefnumörkun; (2) stefna til norðurs, suðurs, austurs eða vesturs; eða (3) færa eitt rými í umhverfinu (austur eða vestur). Niðurstaðan af hverri aðgerð átti sér stað á síðari tímaskrefinu. Allar breytingar á staðsetningu og / eða stefnumörkun umboðsmanns í rými áttu sér stað með vali á aðgerðum umboðsmanns. Samt sem áður, á hverju tímaskrefi eftirlíkingarinnar, jafnvel þegar „gera ekkert“ aðgerð var valin, var 1 aukinn tími til loka prufunnar (þ.e. tímaskref 20).

Umhverfi umboðsmanns var sett upp þannig að helmingur tímans birtist hlutur á handahófi stað (en ekki á sama stað og umboðsmaðurinn) eftir tíu tímaskref; 50% hlutanna voru jákvæðir (táknað með „+“; sjá töflu 1) og 50% hlutanna voru neikvæðir (táknaðir með „-“). Seinkunin áður en hluturinn birtist var kynnt til að leyfa athugun á hvaða hegðun sem umboðsmaðurinn kann að hafa sýnt áður en hlutur birtist. Ef umboðsmaðurinn hafði ekki beinast að hlutnum þegar hann birtist, þá var þættinum sem táknar „OBJECT“ sjálfsmynd í ríkisvektara umboðsmanns breytt úr „0“ í „?“ Til að endurspegla þá staðreynd að hver hlutur sem nú var til staðar var sem stendur óþekkt. Hins vegar, ef umboðsmaðurinn stefndi að hlutnum, þá var „OBJECT“ þátturinn á næsta tímaskrefi stilltur á að vera jafnt hlutnum þannig að „0“ varð annaðhvort „+“ eða „-“ til jákvæðni og neikvæðir hlutir, hver um sig.

Ef umboðsmaðurinn færðist á staðsetningu hlutar, þá hvarf hluturinn á næsta tíma þrepi. Ef hluturinn hafði verið jákvæður, þá var „CONSUMED“ fáni umboðsmannsins stilltur jafnt og satt og umboðsmaðurinn var verðlaunaður (umbun = + 10); Hins vegar, ef hluturinn hafði verið neikvæður, þá var „HJÁTT“ fáninn stilltur á satt og umboðsmanni var refsað (umbun = −10). (Athugið að fánarnir voru stilltir á þennan hátt án tillits til þess hvort umboðsmaðurinn hafði eða hafði ekki borið kennsl á hlutinn; td umboðsmaðurinn gat neytt hlutar án þess að hafa nokkurn tímann stefnt að því.) Í næsta tímaskrefi, „SHOCKED“ eða "TILGÖNGUR" fáni var hreinsaður. Umboðsmaðurinn fékk einnig litla vítaspyrnu (styrking = −1) fyrir hverja hreyfingu eða stefnumörkun og fékk engin laun eða refsingu (styrking = 0) ef hann framkvæmdi enga aðgerð.

Bæði framhjáhegðun (þ.e. stefnumörkun og hreyfing) og mælikvarði á umbun-spávillu voru metin fyrir umboðsmanninn. Hin opinbera hegðun (þ.e. listi yfir aðgerðir sem umboðsmaðurinn valdi) var notaður sem vísbending um hvort verkefnið hefði verið lært. Mælikvarðinn á villu um spá fyrir umbun var notaður til að prófa tilgátuna um tilkomu dópamínvirkra fasískra merkja. Villa um spá fyrir umbun, δ, var mæld á tímanum þegar útlit hlutarins var dregið með því að draga umbunarspá í fyrra tímaskrefi, þ.e. V (s) á tímaskrefi t − 1, frá umbunarspá þegar hluturinn birtist, þ.e. V (s) á tímanum, sem gaf magnið = V (st) - V (st − 1).

Niðurstöður
Hermt hegðun

Fyrst var magnað hegðun lyfjanna. Niðurstöður þessarar greiningar sýndu að eftir þjálfun nálgaðist umboðsmaðurinn og fékk jákvæða styrkingu frá öllum jákvæðu hlutunum og nálgaðist aldrei neinn neikvæða hlut. Saman veita þessar niðurstöður hegðunarvottorð um að umboðsmennirnir hafi lært að framkvæma verkefnið rétt. Þessi niðurstaða er styrkt af viðbótarathuguninni á því að í tilraununum þegar enginn hlutur birtist, var umboðsmaðurinn hreyfingarlaus. Eins og spáð var, miðaði umboðsmaðurinn bæði jákvæðum og neikvæðum hlutum.

Hermun um verðlaunaspá

Megin tilgáta þessarar greinar er að útlit ófyrirsjáanlegra áreitis muni stöðugt skila jákvæðum umbun-spávillu, jafnvel þó að hluturinn sé „neikvæður“ hlutur sem er alltaf að refsa. Til stuðnings þessari tilgátu sýndi umboðsmaður jákvæða villu um spá umbun í hvert skipti sem (ógreindur) hlutur birtist, en ekki þegar ekkert birtist. Samræmi við miðlæga tilgátuna er sú staðreynd að umfang fasískrar svörunar miðilsins (δ, mælt eins og lýst er í Aðferðinni) var næmur fyrir eftirlíkingu „styrkleika“ örvunarinnar, skilgreind með því að nota fjarlægðina milli umboðsmanns og hlutar (sjá mynd 1). Aðhvarfsgreining gaf til kynna að stærð δ tengdist öfugt fjarlægðinni frá hlutnum, þannig að nærtækir hlutir ollu sterkari svörun (r = -0.999, p <0.001; β = 0.82). Þessi neikvæða fylgni stafaði af lítilli refsingu (styrking = -1) sem var lögð fyrir hverja hreyfingu sem umboðsmanninum var gert að gera til að fara að jákvæða hlutnum, neyta þess og þar með fá umbun.

Mynd 1

Þessi mynd sýnir villu um umbunarspá (þ.e. δ) þegar hluturinn birtist sem fall af staðsetningu hlutarins miðað við staðsetningu umboðsmannsins. Svörin eru eins fyrir bæði jákvæða og neikvæða hluti. Þegar enginn hlutur (meira ...)

Í ljósi þess að jákvæðir og neikvæðir hlutir birtust í þessari uppgerð með jöfnum líkum (p =. 25) vaknar spurningin: Hvers vegna var umbun-spávillu umboðsmanns jákvæð þegar útlit hlutarins var? Með því að rökstyðja í samræmi við Kakade og Dayan [7] mætti ​​spá því að merkið ætti að endurspegla meðaltal allra lærðra umbóta frá slíkum aðstæðum og því vera jafnt og núll. Lykillinn að því að skilja þessa niðurstöðu er að hafa í huga að ekki aðeins gerir RL umboðsmann ólíklegri til að velja aðgerðir sem leiða til neikvæðrar styrkingar, heldur gerir það umboðsmanni ólíklegri til að komast inn í ríki sem að lokum leiða til neikvæðrar styrkingar. Þetta skilar sér í eins konar „æðri röð“ námsforms sem lýst er á mynd 2 og lýst er næst.

Mynd 2

Mynd sem sýnir hvernig RL umboðsmaður þróar jákvæða villu um umbun um verðlaun þegar það er þjálfað með bæði gefandi og refsandi áreiti í umhverfi sínu og er fær um að velja hvort hann nálgist og neyti þeirra. (A) Staðan áður en þú lærir: (meira ...)

Í upphafi námsins (sjá mynd 2A), miðar umboðsmaður bæði „+“ og „-“ hlutum, nálgast þá og er bæði verðlaunaður og refsað með því að neyta hvers konar hlutar. Ef lærdómsgildi umboðsmanns gátu ekki haft áhrif á aðgerðir umboðsmanns (sjá mynd 2B), þá myndi umboðsmaðurinn halda áfram að nálgast og neyta hlutanna. Útlit bendinganna myndi þá spá fyrir um meðaltal umbunar 0 og skyndileg aukning yrði á umbun-spávillu. Umboðsmaðurinn í þessari uppgerð notar hins vegar lært gildisgildi til að hafa áhrif á aðgerðir sínar (sjá mynd 2C), og þó að umboðsmaðurinn verði enn að stefna að óþekkta hlutnum til að ákvarða hver hann er, mun hann ekki lengur neyta neikvæðs hlutar ef hann nálgaðist það (eins og það gæti verið ef þjálfað er með handahófi könnunaralgrím eins og sýnatöku í braut [Neðanmálsgrein 1]). Ennfremur, vegna þess að stundamismunun gerir kleift að neikvæð umbunarspá geti „breiðst út“ aftur til fyrri ríkja og vegna þess að það er lítill kostnaður fyrir að hreyfa sig í geimnum, lærir umboðsmaður að forðast að nálgast neikvæða hlutinn. Eftir að þessar upplýsingar hafa verið fengnar er gildi ríkisins þegar hluturinn birtist fyrst (tilgreint sem „V“ í fyrsta hringnum í hverri röð) ekki byggt á meðaltali jákvæðra og neikvæðra útkomuástandsgilda, heldur er í staðinn miðað við meðaltal jákvæðrar og „hlutlausu“ niðurstöðu sem næst þegar umboðsmaðurinn lærir að forðast neikvæðu hluti. Þetta er ástæðan fyrir að meðaltal allra umbóta sem reyndur var fenginn af þjálfuðum umboðsmanni var hærra en núll og skýrir hvers vegna umbunarspá umboðsmanns (og því umbunarspávillu þegar hluturinn birtist skyndilega) var nettó jákvæður. Þetta er sýnt á mynd 3. Reyndar, svo framarlega sem umboðsmaðurinn getur lært að breyta hegðun sinni og forðast neikvæðan hlut, er gildi neikvæðs hlutar að lokum óviðkomandi endanlegri hegðun umboðsmanns og umfang nýbreytni / sölusvörunar.

Mynd 3

(A) Sýnir fram á breytingar á umbunarspá sem hefði átt sér stað ef RL hefði ekki í för með sér hærra nám (þ.e. ef umboðsmaðurinn gæti ekki gert ráðstafanir til að forðast neikvæða niðurstöðu), þannig að umboðsmaðurinn neyddist til að neyta allra hlutir (meira ...)

Niðurstöður uppgerðanna eru gagnrýnin háðar þremur forsendum. Í fyrsta lagi þurfti áreiti að vera „áberandi“ að því leyti að styrkleiki styrkingarinnar sem spáð var í upphafssporinu var nægilega stór (td + 10) miðað við kostnaðinn við að stefna og nálgast (td −1). Ef stærðargráðan hefði verið tiltölulega lítil hefði umboðsmaðurinn ekki lært að stefna og það hefði ekki skilað jákvæðu svari við umbun-spá. Í öðru lagi var seinkun áður en að viðurkenna áreiti var nauðsynleg. (Seinkun er umboð fyrir „nýjung“ með þeim rökum að kunnuglegt áreiti yrði fljótt viðurkennt.) Án tafar hefði umboðsmaðurinn einfaldlega búið til viðeigandi jákvæða eða neikvæða umbunarspá sem hentar fyrir raunverulegan hlut. Að lokum, hegðun umboðsmanns þurfti að ráðast af gildum sem það hafði lært. Ef umboðsmaðurinn gat ekki stjórnað eigin hegðun (þ.e. hvort hann ætti að nálgast áreiti), þá hefði umbunarspá hans þegar hlutur birtist verið jafn 0, meðaltal tæknilegra og neikvæðra niðurstaðna.

Almenn umræða

Eftirlíkingin sem greint er frá í þessari grein sýndi fram á að jákvæð umbunarspá kemur upp þegar ófyrirsjáanlegt áreiti, annað hvort gefandi eða refsing, birtist en ekki er hægt að greina það strax. Ennfremur benti uppgerðin til þess að stærð ábata-spávillunnar eykst með nálægð áreitis við umboðsmanninn, sem í samhengi við uppgerðina er umboðsmælikvarði fyrir áreiti styrkleiki og tengist því velmegun. Í fræðilegum ramma RL eru umbunarspár venjulega skilin til að endurspegla lært gildi viðurkennds áreitis eða líkamlegra og / eða vitsmunalegra aðstæðna umboðsmanns [15]. Hins vegar hefur umbunaspávillan sem hér er greint frá eðlislægri túlkun vegna þess að hún er búin til áður en umboðsmaðurinn hefur viðurkennt hlutinn. Saman styðja þessar niðurstöður þá tilgátu að meginreglur RL séu nægar til að framleiða svör sem virðist vera ótengd umbun en tengjast þess í stað eiginleikum nýjungar og sölu. Þessi niðurstaða hefur nokkrar mikilvægar afleiðingar fyrir almenna skilning okkar á RL og fyrir túlkun okkar á RL sem frásögn af verðlaunanámi í raunverulegum líffræðilegum lífverum.

Í fyrsta lagi er umbunarspáin sem myndast af RL umboðsmanni þegar óþekkt áreiti birtist ekki endilega strangt meðaltal af þeim verðmætum sem fást eins og Kakade og Dayan [7] bentu til, en getur í raun verið meiri að stærð en það sérstaka meðaltal. Kakade og Dayan myndu spá því að meðallaunaspáin ætti að vera jöfn núlli vegna þess að prófraunum var umbunað og refsað jafn oft. Þessi furðulega niðurstaða kom fram vegna þess að umboðsmaðurinn lærði á „stefnu“ hátt; það er að segja að umboðsmaðurinn lærði ekki aðeins um neikvæðar niðurstöður, heldur einnig um getu hans til að forðast þessar niðurstöður. Þessa getu verðlaunakerfisins til að valda umboðsmanni forðast neikvæðar niðurstöður ætti að íhuga vandlega við að þýða skilning okkar á RL yfir í raunverulegar lífverur. Þessi staðreynd er hugsanlega enn mikilvægari í ljósi augljósrar ósamhverfu í getu dópamínvirkra fasískra svara til að tákna jákvæða umbunarspávillu betri en neikvæð umbunarspávillu [11]. Það getur verið nægjanlegt að gefa til kynna að tiltekin atburðarás leiði til neikvæðrar niðurstöðu en að því er varðar val á aðgerðum er umfang þeirrar niðurstöðu ekki mikilvæg.

Önnur afleiðing núverandi eftirlíkingar er sú að nýjunarviðbrögðin geta komið til vegna samspils skynjunarvinnslukerfa og umbunarspákerfa. Nánar tiltekið, viðbrögð við nýjungunum geta verið af því að líkindi eru milli skáldsöguhluta og hlutar sem enn hafa ekki gengið í gegnum fullkomna skynjunarvinnslu [Neðanmálsgrein 4]. Í þessari uppgerð var nýjung útfærð með því að setja seinkun áður en sjálfsmynd hlutarins (og þar af leiðandi, gefandi eða refsandi eðli hans) varð umboðsmanni ljós. Þetta var gert undir þeirri forsendu að nýjar hlutir tæki lengri tíma að bera kennsl á, en þessi forsenda leiddi einnig til þess að jákvæðu og neikvæðu hlutirnir urðu á svipaðan hátt þegar þeir birtust fyrst (þ.e. þeir voru báðir umritaðir í kóðann „?“). Aftur á móti benda Kakade og Dayan [7] til þess að viðbrögð við nýjungum og „alhæfingar“ svör séu í meginatriðum ólík þrátt fyrir að fram komi með svipuðum hætti í gögnum um taugalífeðlisfræði.

Þriðja afleiðing núverandi niðurstaðna eftirlíkingar er að þær sýna að viðbótarforsendur nýjungar og mótun bónusar sem Kakade og Dayan [7] lögðu til eru ekki nauðsynlegar. Þess í stað geta nýjungalík viðbrögð komið fram frá raunhæfri skynjunarvinnslu takmörkun og þekkingu á því að geta forðast neikvæðar niðurstöður. Þetta er heppilegt vegna þess, eins og Kakade og Dayan benti á, skekkja nýjungabónus gildi virka sem umboðsmaður lærir og mótun bónusa hefur áhrif á það hvernig umboðsmenn kanna ríkisrými sín. Ef önnur af þessum forsendum er tekin upp dregur það úr sögunni um líkön sem byggjast á kenningu RL. Athyglisvert er að niðurstöðurnar, sem kynntar eru hér, hjálpa einnig til við að útskýra hvers vegna líffræðilega nýnæmissvörunin gæti ekki verið truflandi fyrir umbunarmiðað nám í raunverulegum lífverum. Það er, viðbrögð nýjunganna endurspegla hegðun og umbuna spá sem felst í umboðsmanni sem hefur þegar lært eitthvað um umhverfi sitt.

Önnur (en ekki gagnkvæmt útilokun) túlkun núverandi niðurstaðna eftirlíkingar er að það er örugglega abstrakt (kannski vitrænt) umbun sem umboðsmenn fá með því að stefna að og greina hluti. Í rannsóknum á dópamínvirkni geta jákvæð fasísk svör komið fram við óvæntar vísbendingar sem vitað er að spá um umbun. Þessi uppgerð sýnir hins vegar hvernig svör af þessu tagi geta einnig komið fram sem svar við vísbendingu sem gæti að lokum sagt fyrir um annað hvort umbun eða refsingu. Eini stöðugi ávinningurinn sem vísbendingin spáir um er ávinningur af upplýsingum sem fást þegar umboðsmaðurinn ákveður hver hlutur hann er. Þannig að ef til er gild, lærdómur „umbunarspá“ þegar hinn óþekkti hlutur birtist, þá er það sá sem er ánægður eftir að umboðsmaðurinn fær vitneskju um hvort hann eigi að nálgast eða forðast áreiti. Verðmæti þessara upplýsinga byggist ekki á meðaltali þeirra niðurstaðna sem unnt er að fá, heldur byggist þess í stað á vitneskju um árangursríkar niðurstöður - að umboðsmaðurinn geti annað hvort neytt jákvæðu umbunanna eða forðast neikvæð umbun (sjá mynd 2).

Að lokum er mikilvægt að hafa í huga að tækifærin til að grípa til sérstakra aðgerða (td til að stilla af) geta sjálfir grætt á gefandi eiginleikum með einhverjum alhæfingar- eða námsaðferðum sem ekki eru í þessari uppgerð. Til dæmis gæti mjög athöfnin við að stefna og ákvarða „hvað er þarna úti“ orðið lífveru fyrir lífveru sem byggist á tengslum þessarar aðgerðar og framangreindrar framkomins, alltaf jákvæðrar umbunar-spávillu þegar nýtt áreiti birtist. Svipuð hugmynd hefur nýlega komið fram af Redgrave og Gurney [13] sem ímynda sér að mikilvægur tilgangur fasísks dópamínviðbragða sé að styrkja aðgerðir sem eiga sér stað áður en ófyrirsjáanlegir atburðir koma fram. Niðurstöðurnar hér eru ekki ósamrýmanlegar þeirri tilgátu, en þó skal tekið fram að tilgáta Redgrave og Gurney er ekki beint prófuð í þessari uppgerð vegna þess að engar aðgerðir (þ.e. rannsóknir) voru nauðsynlegar af umboðsmanni til þess að fram komi atburðurinn (útlit hlut) að eiga sér stað. Hins vegar hermdi fasískt merki saman við tíma stefnumörkunarsvörunar sem bendir til þess að þau tvö gætu verið sterk tengd.

Að lokum hefur þessi grein sýnt fram á að nota megi meginreglur RL til að skýra hvers konar virkni dópamínvirkra taugafrumna virðist vera án umbunar. Þessi niðurstaða kom fram af því að tímabundin námsregla (eins og sú sem notuð var af Kakade og Dayan [7]) var felld inn í uppgerð þar sem umboðsmaðurinn gat valið aðgerðir sem höfðu áhrif á niðurstöðuna. Í eftirlíkingunni komst umboðsmaðurinn að því að niðurstaða þess að stefna að hlut sem birtist skyndilega gæti alltaf annað hvort verið gefandi eða hlutlaus vegna þess að hægt væri að forðast neikvæðu útkomuna. Þess vegna var umboðsmaðurinn tækifæri til að stefna að því að umbun-spávillur hans var alltaf jákvæður, reiknivæddur hliðstæður nýjungar og sölusvörun sem sést í líffræðilegum lífverum.

Acknowledgments

Verkið sem lýst er í þessari grein var stutt af NIH R01 HD053639 og af NSF Training Grant DGE-9987588. Ég vil þakka Erik Reichle, Tessa Warren og ónefndum gagnrýnanda fyrir gagnlegar athugasemdir við fyrri útgáfu þessarar greinar.

1An annar styrkingarmenntunaralgrími, kallaður brautasýnataka [17], er oft notaður í stað Value Iteration þegar ríkisrýmið verður svo stórt að það er ekki hægt að endurtaka það tæmandi eða auðveldlega geymt í minni tölvu. Frekar en að endurtaka yfir hvert ástand í ríki rýminu og beita uppfærslujöfnunni fyrir virka virka miðað við aðgerðir sem virðast leiða til mestra umbóta, fer brautasýnataka með því að fylgja slóðir í gegnum ríkissvæðið. Á svipaðan hátt og Value Iteration eru aðgerðirnar sem leiða til mestra umbóta venjulega valdar úr hverju ríki, en stundum er valið af handahófi könnunaraðgerða með smá líkum. Þannig er reikniritið: Frá sumum upphafsstigum, veldu aðgerð sem leiðir til mestra umbóta [td umbunar + γV (s ′)] með líkum ε, eða veldu handahófsrannsóknaraðgerð með líkum 1 - ε. Notaðu V (s) → V (s) + α [umbun + γV (s ′) - V (s)] við aðgerðir án rannsóknar frá ríki s.

Fyrir utan að vinna bug á tæknilegum takmörkunum reikningstíma og minni, má taka brautasýni aðlaðandi vegna þess að það endurspeglar betur hvernig raunverulegar líffræðilegar lífverur læra: með því að kanna slóðir í ríki. Í verkefninu sem lýst er í þessari grein gefur brautasýnataka niðurstöður sem eru eðlislægar eins og þær sem fengust með Value Iteration. Hins vegar er ekki greint frá þessum niðurstöðum í smáatriðum af áreiðanleika. Value Iteration var valin fyrir uppgerð í þessari grein af tveimur meginástæðum. Í fyrsta lagi vegna þess að sýnatöku af brautum felur í sér stochasticity við val á brautum, þá getur mikið magn af greininni sem stafar af mörgum mögulegum röð aðgerða í þessu verkefni leitt til áhrifa sem skortir reynslu í sumum ríkjum nema rannsóknar-hagnýtingarstuðullinn (þ.e. ε-græðgi [17]) er vandlega valinn. Þessi skortur á reynslu af tilteknum ríkjum getur truflað frammistöðu umboðsmanns þegar minni uppbyggingar uppflettistöflu er notað vegna skorts á alhæfingu á gildi til svipaðra (en hugsanlega óráðinna) ríkja. Þannig var ákjósanlegt að nýta sér tæmandi könnun ríkisrýmis sem er tryggð með Value Iteration. Í öðru lagi, að nota Value Iteration afneitaði þörfinni á að tilgreina þann viðbótar-rannsóknar-hagnýtingarstærð og einfaldaði þar með uppgerðina. Athugaðu að sýnatöku af braut getur að lokum áætlað gildi ímyndunar þegar fjöldi brauta nálgast óendanleikann [17].

2Hægt er að reikna fjölda 21,120 ríkja á eftirfarandi hátt: 11 mögulegar staðsetningar umboðsmanna × 4 mögulegar stefnur umboðs × (10 tímaskref áður en hlutur gæti birst + 10 tímaskref þar sem enginn hlutur birtist + 10 tímaskref þar sem umboðsmaðurinn hafði verið jákvætt styrkt + 10 tímaskref þar sem hluturinn hafði verið neikvætt styrktur + 11 möguleg staðsetning mótmæla * (10 tímaskref með jákvæðum auðkenndum hlut + 10 tímaskrefum með neikvæðum greindum hlut + 10 tímaskref með óþekktum jákvæðum hlut + 10 tímaskref með óþekktum neikvæðum hlut))].

3 Tilvist þessara „falinna“ ríkja verður að huga að meðan á þjálfun stendur vegna þess að Value Iteration lítur aðeins „einu skrefi á undan“ frá hverju ríki í ríkjasvæðinu. Sú staðreynd að ríki með neikvæða og jákvæða óþekktu hluti eru í raun eins myndu koma í veg fyrir að læra um og meðaltal gildanna í tveimur mismunandi síðari ríkjum þar sem annað hvort jákvæðni eða neikvæði hluturinn verður greindur. A aðferð til sýnatöku á braut heldur hins vegar falnum upplýsingum um ástandið (þ.e. hver er óþekkt áreiti) í gegnum réttarhöldin og svo að það afbrigði af RL eru falin ríki ekki áhyggjuefni.

4Möguleiki á mótmælum við núverandi verkum er að stefnumörkunin virðist vera hlerunarbúnað í heila spendýra, til dæmis í spám frá superior colliculus [3,14]. Í þessari uppgerð voru umboðsmennirnir ekki búnir að snúa hlutum að sér heldur lærðu í staðinn atferli sem gerði kleift að velja aðgerð (td annað hvort nálgun eða forðast) sem háði umbunina. Á svipaðan hátt og svör við snúru, kom þessi framkomuhegðun mjög hratt fram áður en hlutirnir voru greindir og beindust að öllum hlutum. Markmið þessarar vinnu var ekki að gera þá fullyrðingu að öll slík viðbrögð séu lærð, heldur að þau geti verið saman innan ramma RL. Engu að síður væri fróðlegt að kanna hvort umbunatengd fyrirkomulag gæti verið þátttakandi í því að koma upp tengingu á heilastimnasvæðum til að fá fram fasísk dópamín svörun.

Þetta er PDF skjal af óskráðri handriti sem hefur verið samþykkt til birtingar. Sem þjónustu við viðskiptavini okkar erum við að veita þessa snemma útgáfu handritsins. Handritið verður undirritað afrita, gerð og endurskoðun sönnunargagna áður en hún er gefin út í endanlegri bönnuð formi. Vinsamlegast athugaðu að á framleiðsluferlinu má finna villur sem gætu haft áhrif á efnið og öll lögboðin frávik sem gilda um dagbókina eiga við.

Meðmæli

1. Baird LC. Reiknirit sem eftir er: Styrkingarnám með aðlögun aðgerða. Í: Priedetis A, Russell S, ritstjórar. Vélarnám: Málsmeðferð tólfta alþjóðaráðstefnunnar; 9 – 12 júlí.1995.

2. Bunzeck N, Düzel E. Algjör kóðun á áreiti nýjungar í mönnum substantia nigra / VTA. Neuron. 2006; 51 (3): 369 – 379. [PubMed]

3. Dommett E, Coizet V, Blaha CD, Martindale J, Lefebvre V, Walton N, Mayhew JEW, Overton PG, Redgrave P. Hvernig sjónræn áreiti virkjar dópamínvirka taugafrumur við stuttan tíma. Vísindi. 2005; 307 (5714): 1476 – 1479. [PubMed]

4. Doya K. Metalearning og taugamótun. Taugakerfi. 2002 júní – júlí; 15 (4 – 6): 495 – 506. [PubMed]

5. Gillies A, Arbuthnott G. Reiknilíkön af grunngöngum. Hreyfingartruflanir. 2000; 15 (5): 762 – 770. [PubMed]

6. Horvitz JC. Mesólimbocortical og nigrostriatal dópamín svör við áberandi atburðum án umbunar. Taugavísindi. 2000; 96 (4): 651 – 656. [PubMed]

7. Kakade S, Dayan P. Dopamine: alhæfing og bónus. Taugakerfi. 2002; 15 (4 – 6): 549 – 559. [PubMed]

8. Knutson B, Cooper JC. Tálbeita hins óþekkta. Neuron. 2006; 51 (3): 280 – 282. [PubMed]

9. Logothetis NK, Pauls J, Augath M, Trinath T, Oeltermann A. Taugalífeðlisfræðileg rannsókn á grundvelli fMRI merkisins. Náttúran. 2001; 412 (6843): 150 – 157. [PubMed]

10. McClure SM, Berns GS, Montague PR. Tímabundnar spávillur í óbeinu námsverkefnum virkja mannslíkamann. Neuron. 2003; 38 (2): 339 – 346. [PubMed]

11. Niv Y, Duff MO, Dayan P. Dopamine, óvissa og TD nám. Hegðunar- og heilaaðgerðir. 2005 Maí 4; 1: 6. [Ókeypis grein PMC] [PubMed]

12. O'Doherty JP, Dayan P, Friston K, Critchley H, Dolan RJ. Tímabundin mismunarmódel og umbunartengt nám í heila manna. Neuron. 2003; 38 (2): 329 – 337. [PubMed]

13. Redgrave P, Gurney K. Skammtímaskilaboð dópamíns: hlutverk í að uppgötva skáldsöguaðgerðir? Náttúra Umsagnir Neuroscience. 2006 des. 7 (12): 967 – 975.

14. Redgrave P, Prescott TJ, Gurney K. Er svörun dópamíns með stutt leynd of stutt til að gefa merki um umbun? Þróun í taugavísindum. 1999 Apríl; 22 (4): 146 – 151. [PubMed]

15. Reichle ED, Laurent PA. Notaðu styrktarnám til að skilja tilkomu „greindrar“ auguhreyfingar meðan á lestri stendur. Sálfræðileg endurskoðun. 2006; 113 (2): 390 – 408. [PubMed]

16. Schultz W. Spá fyrir umbun fyrir dópamín taugafrumum. Journal of Neurophysiology. 1998; 80 (1): 1 – 27. [PubMed]

17. Sutton RS, Barto AG. Styrkingarnám: kynning. MIT Press; Cambridge: 1998.

18. Tanaka SC, Doya K, Okada G, Ueda K, Okamoto Y, Yamawaki S. Spá um tafarlausa og framtíðar umbun ræður misjafnlega á barkalyfjum með barksterum. Náttúrur taugavísindi. 2004; 7 (8): 887 – 893.