Atvirumo ir naujovių atsako atsiradimas iš stiprinimo mokymosi principų (2008)

PASTABOS: Kitas tyrimas, parodantis, kad naujumas yra jo paties atlygis. Vienas iš priklausomybės sukeliančių interneto pornografijos aspektų yra begalinis naujumas ir įvairovė, galimybė greitai spustelėti iš vienos scenos į kitą ir ieškoma tik tinkamo vaizdo / vaizdo įrašo. Visa tai padidina dopaminą. Tuo internetinis pornografija skiriasi nuo žurnalų ar nuomojamų DVD.

Išsamus tyrimas: stiprybės ir naujovių atsako atsiradimas iš mokymosi principų

Neuroninis tinklas. 2008 gruodis; 21 (10): 1493 – 1499.

Paskelbta internete 2008 rugsėjo 25. doi: 10.1016 / j.neunet.2008.09.004

Patryk A. Laurent, Pitsburgo universitetas;

Adresas susirašinėti adresu: Patryk Laurent, Pitsburgo universitetas, 623 LRDC, 3939 O'Hara St., Pittsburgh, PA 15260 USA, el. [apsaugotas el. paštu], Biuras: (412) 624-3191, faksas: (412) 624-9149

Abstraktus

Naujausi bandymai susieti mokymosi modelius, kaip antai sustiprinimo mokymasis [17], į smegenis yra pagrįsti stebėjimu, kad fazinis padidėjimas ir sumažėjimas dopamino atpalaiduojančių neuronų signalo skirtumų tarp prognozuojamo ir gauto atlygio [16,5]. Tačiau ši atlygio prognozavimo klaida yra tik vienas iš kelių fazinio aktyvumo perduotų signalų; kitas susijęs su dopaminerginio spikso padidėjimu, atspindinčiu išryškėjusių, tačiau nenuspėjamų ne pelno stimulų [4,6,13] atsiradimą, ypač kai organizmas nukreipiamas į stimulą [16]. Šiems rezultatams paaiškinti Kakade ir Dayan [7] ir kiti nurodė, kad nauji, netikėti stimulai yra iš esmės naudingi. Šiame straipsnyje aprašytas modeliavimas parodo, kad ši prielaida nėra būtina, nes poveikis, kurį jis ketina užfiksuoti, atsiranda dėl mokymosi už atlygį prognozavimo mokymosi mechanizmų. Taigi, sustiprinimo mokymosi principai gali būti naudojami siekiant suprasti ne tik atlygį, susijusį su bazinių ganglijų dopaminerginių neuronų veikla, bet ir kai kuriais jų akivaizdžiai nesusijusiais su veikla.

Sustiprinimo mokymasis (RL) tampa vis svarbesnis ugdomojo mokymosi smegenyse skaičiavimo modelių kūrime. RL yra skaičiavimo algoritmų klasė, kuri nurodo, kaip dirbtinis „agentas“ (pvz., Realus ar imituotas robotas) gali išmokti pasirinkti veiksmus, kad būtų maksimaliai padidintas bendras tikėtinas atlygis [17]. Šiuose algoritmuose agentas savo veiksmus grindžia vertybėmis, kurias jis išmoksta susieti su įvairiomis būsenomis (pvz., Su stimuliu susijusiais suvokimo ženklais). Šios vertybės gali būti palaipsniui išmoktos per mokymosi pagal laiko skirtumus metodą, kuris reguliuoja valstybės vertes, pagrįstas skirtumu tarp agento esamos atlygio prognozės valstybei ir faktinio atlygio, kuris vėliau gaunamas iš aplinkos. Nustatyta, kad šis apskaičiuotas skirtumas, vadinamas atlygio prognozavimo klaida, labai gerai siejasi su fopiniu dopamino atpalaiduojančių neuronų aktyvumu, kuris išsiskiria iš pagrindinės nigros nežmoginių primatų [16]. Be to, žmogui striatumas, kuris yra svarbus dopamino tikslas, turi fMRI BOLD signalą, kuris, atrodo, atspindi atlyginimų prognozavimo klaidą atlygio mokymosi užduočių metu [10,12,18]. Šis fMRI nustatymas papildo fiziologinius duomenis, nes manoma, kad striatų BOLD bent jau iš dalies atspindi afferentinį sinaptinį aktyvumą [9] ir dopamino neuronus smarkiai sukelia striatumą.

Nors minėti fiziologiniai atsakymai atrodo susiję su RL atlyginimų prognozavimo skaičiavimais, taip pat padidėja dopaminerginis fazinis aktyvumas, reaguojant į sužadinančius ir (arba) naujus stimulus, kurie, regis, nesusiję su atlygiu [4,6,14,3]. Panašus reiškinys neseniai pastebėtas žmonėms, naudojant fMRI [2]. Yra keletas priežasčių, kodėl šis „naujumo“ ar „atsipalaidavimo“ atsakymas yra nesusijęs su atlyginimų prognozavimo klaida: (1) jis pasirodo labai anksti, prieš įvertinant stimulo tapatybę, kad tiksli premijų prognozė negali būti būti sukurta; (2) jis atitinka nervų aktyvumo padidėjimą (ty jis yra teigiamas) tiek aversyviems, tiek apetitiniams stimulams; ir (3) jis pritaiko [13]. Iš tiesų, šie dopamino atpalaiduojančių neuronų atsako / naujumo atsakymai yra patikimiausi, kai dirgikliai yra nenuspėjami ir dėl jų atsiranda orientacija ir (arba) požiūris į elgesį [16], neatsižvelgiant į galimą rezultatą, pabrėžiant, kad jie kokybiškai skiriasi nuo išmokto atlygio prognozavimas. Todėl iššūkis buvo paaiškinti šį akivaizdų paradoksą (ty, kaip naujovė daro įtaką premijų prognozavimo klaidai) teorinėje RL sistemoje.

Kakade ir Dayan [7] bandė tai padaryti; savo straipsnyje jie nurodo du būdus, kaip naujoviškus atsakymus galima įtraukti į dopaminerginės funkcijos RL modelius - abu buvo įtrauktos naujos teorinės prielaidos. Pirmoji prielaida, vadinama naujumo premijomis, apima papildomo atlygio įvedimą, kai yra naujų stimulų, viršijant įprastą atlygį, kurį gauna agentas. Šis papildomas atlygis įtraukiamas į skaičiavimą, kad mokymasis būtų grindžiamas skirtumu tarp agento esamo atlygio prognozės ir tiek įprastinio atlygio iš aplinkos sumos, tiek ir naujovės premijos. Taigi naujovė tampa dalimi atlygio, kurį agentas bando padidinti. Antroji prielaida, vadinama formavimo priemokomis, gali būti įgyvendinama dirbtinai didinant su naujomis dirgikliais susijusių valstybių vertybes. Kadangi RL naudojama laikinojo skirtumo mokymosi taisyklė yra pagrįsta atlyginimų prognozavimo skirtumu tarp skirtingų būsenų, pastovaus formavimo premijos pridėjimas valstybėms, susijusioms su naujovėmis, neturi jokio poveikio galutiniam agento elgesiui. Tačiau naujumo atsakas vis dar atsiranda, kai agentas patenka į valstybės erdvės dalį, kuri buvo „suformuota“ (ty yra susijusi su naujumu).

Nors kiekvienos iš šių prielaidų pridėjimas yra pakankamas, kad būtų galima paaiškinti daugelį pastebėtų naujovių pasekmių, prielaidos taip pat trukdo mokytis. Kaip nurodo Kakade ir Dayan [7], naujumo premijos gali iškreipti vertės funkciją (ty agento susijusias vertes, susijusias su kiekviena valstybe) ir daryti įtaką tai, kas galiausiai išmokta, nes jie yra įgyvendinami kaip papildomas atlygis, kuris yra iš esmės susijęs su romanu narių. Problema ta, kad agentas išmoksta prognozuoti tiek premijos, tiek naujovės komponentus. Nors Kakade ir Dayan nurodo, kad premijų formavimas nesukelia tokios problemos, nes jos įtraukiamos į ankstesnių valstybių atlyginimų prognozes, jų pridėjimas vis dar yra problemiškas, nes premijų formavimas įveda šališkumą, kaip agentas tirs savo valstybės erdvę. Taigi, nors šios papildomos prielaidos gali paaiškinti, kaip naujumas daro įtaką atlygio prognozavimo klaidai, jie yra problemiški. Be to, paaiškinimai patiria išlaidas, susijusias su modeliavimo darbo, kuris bando naudoti RL, suprasti realių biologinių organizmų elgesį, sumažinimą.

Toliau aprašytas modeliavimas buvo atliktas siekiant išbandyti hipotezę, kad paprastas RL agentas, be jokių papildomų prielaidų, sukurtų atlyginimų prognozavimo klaidos atsaką, kuris yra panašus į su atlyginimu nesusijusius dopamino atsakus, kurie yra pastebimi biologiniuose organizmuose. . RL agentui buvo pavesta bendrauti su dviejų tipų objektais - vienu teigiamu ir kitu neigiamu -, kurie atsitiko atsitiktinėse vietose savo aplinkoje. Norėdamas maksimaliai padidinti savo atlygį, agentas turėjo išmokti požiūrį ir „vartoti“ teigiamą objektą ir išvengti (ty „ne vartoti“) neigiamą objektą. Buvo trys pagrindinės modeliavimo prognozės.

Pirmoji prognozė buvo tik tai, kad norėdamas maksimaliai padidinti savo atlygį, agentas iš tiesų išmoktų požiūrį ir „vartoti“ teigiamus, naudingus objektus, tuo pačiu metu mokydamasis išvengti neigiamų, bausmių objektų. Antrasis prognozavimas buvo šiek tiek mažiau akivaizdus: kad agentas parodytų orientacinį atsaką (ty išmoktų nukreipti savo orientaciją) į neigiamus ir teigiamus objektus. Ši prognozė buvo padaryta, nes nors agentas galėjo „jausti“ objekto išvaizdą ir jos vietą, teigiamą ar neigiamą objekto tapatybę (ty, kad agentas galiausiai išmoktų susieti su objekto atlygio verte) agentas negalėjo nustatyti, kol agentas faktiškai nukreipė į objektą. Galiausiai, trečioji (ir svarbiausia) prognozė buvo susijusi su modeliuojamu dopaminerginiu faziniu atsaku; ši prognozė buvo ta, kad atsiradus objektui, agentui atsirastų atlyginimų prognozavimo klaida, kuri buvo apskaičiuota analogiškai faziniam dopamino atsakui, pastebėtam biologiniuose organizmuose, teigiamai veikiant tiek teigiamus, tiek neigiamus objektus. Taip pat buvo prognozuojama, kad šis atsakas kinta priklausomai nuo atstumo tarp agento ir stimulo, kuris modeliavimo kontekste buvo tarpinis matas stimului „intensyvumui“ ar atributui. Kaip bus parodyta žemiau, šios prognozės buvo patvirtintos modeliavimo rezultatais, įrodančiais, kad akivaizdžiai nesusiję dopamino atsakai iš esmės gali atsirasti iš pagrindinių LR principų. Teorinės šių rezultatų pasekmės, naudojant RL, siekiant suprasti su pelnu nesusijusį aktyvumą biologiniuose organizmuose, bus aptartos šio straipsnio paskutiniame skyriuje.

Siuntimas

Kaip jau minėta, RL algoritmai nurodo, kaip agentas gali naudoti momentinius-momentinius skaitinius atlyginimus, kad sužinotų, kokių veiksmų ji turėtų imtis, kad maksimaliai gautų visą gautą atlygį. Daugumoje formuluočių šis mokymasis pasiekiamas naudojant atlyginimų prognozavimo klaidas (ty skirtumą tarp agento dabartinio atlygio prognozės ir faktinio gauto atlygio), kad būtų galima atnaujinti agento atlygio prognozes. Kai išmokamos atlyginimų prognozės, agentas taip pat gali naudoti prognozes, kad pasirinktų kitą veiksmą. Įprasta politika (apibrėžta 2 lygtyje) yra tai, kad agentas pasirenka veiksmą, kuris, kaip prognozuojama, sukels didžiausią atlygį. Faktinis atlygis, kuris agentui suteikiamas bet kuriuo metu, yra tiesioginio atlygio suma, pridėjus tam tikrą valstybės, į kurią agentas įeina, kai veiksmas užbaigiamas, vertės. Taigi, jei agentas galiausiai patiria teigiamą naudą po to, kai jis buvo tam tikroje valstybėje, agentas ateityje pasirinks veiksmus, kurie gali sukelti šias apdovanotas valstybes; atvirkščiai, jei agentas patiria neigiamą naudą (ty bausmę), jis vengs ateityje imtis veiksmų, kurie nulems tas „nubaustas“ valstybes.

Konkretus algoritmas, kuris nustato atlygio prognozes, išmoktas skirtingoms būsenoms (pvz., Vertės funkcija V), vadinamas vertės keitimu [1 išnaša] ir gali būti oficialiai apibūdintas kaip:

Visoms galimoms valstybėms s,

(1 lygtis)

kur s atitinka dabartinę būseną, V (s) yra dabartinė atlygio prognozė valstybės s, kurią sužinojo agentas, maxaction∈M {} yra operatorius už didžiausią užfiksuoto kiekio vertę per visų veiksmų rinkinį M agentui prieinama, V (s ′) yra agento dabartinė atlyginimų prognozė kitai būsenai s ′, α yra tam tikras mokymosi greitis (tarp 0 ir 1), o γ yra diskontavimo veiksnys, atspindintis, kaip ateityje turi būti įvertintas atlygis palyginti su tiesioginiais atlygiais. Pradinė reikšmės funkcija buvo nustatyta taip, kad V (s) būtų 0 visoms valstybėms s.

Vertės funkcija V (s) buvo įgyvendinta kaip paieškos lentelė, kuri formaliai prilygsta tobulos atminties prielaidai. Nors funkcijų aproksimatoriai, tokie kaip nerviniai tinklai, buvo naudojami sėkmingai atstovaujant vertės funkcijas [1], buvo naudojama paieškos lentelė, siekiant užtikrinti, kad rezultatai nebūtų priklausomi nuo tipų apibendrinimo mechanizmų, kuriuos teikia įvairūs funkcijų derinimo įtaisai. Agentas buvo apmokytas 1,500 mokymosi iteracijoms per savo valstybės erdvę. Dėl objektų tapatybės nenuspėjamumo mokymosi metu buvo naudojamas mažesnis nei vieno (α = 0.01) vertės funkcijų atnaujinimo parametras, leidžiantis nustatyti skirtingų rezultatų vidurkį. Galiausiai, diskonto koeficientas buvo nustatytas γ = 0.99, siekiant paskatinti agentą greičiau ieškoti atlygio, o ne atidėti savo požiūrio elgesį iki tyrimo pabaigos (nors pakeitus jį iš numatytosios 1 reikšmės, čia nebuvo jokių rezultatų. ) Norint savarankiškai nustatyti, ar 1,500 mokymosi iteracijos buvo pakankamos mokymuisi užbaigti, buvo stebėtas vidutinis pasikeitusių išmokų skaičius ir buvo nustatyta, kad jis konvergavo prieš šį iteracijų skaičių.

Po treniruotės specifinis algoritmas, kuris reguliuoja agento elgesį (ty veiksmų, kurių imasi iš kiekvienos konkrečios valstybės), yra:

(2 lygtis)

kur π (s) yra veiksmas, kurį agentas pasirinks iš valstybės s, o lygtis dešinėje pusėje grąžina veiksmą (pvz., orientacijos, judėjimo ar neveikimo pasikeitimą), kuris maksimaliai padidina atlygio ir diskontuotos vertės sumą gautos būsenos s ′.

Toliau pateiktame modeliavime visos valstybės, kurias aplankė agentas, buvo užkoduotos kaip 7 dimensijos vektoriai, vaizduojantys tiek išorinę „fizinę“ agento būklę, tiek jos vidinę „žinių“ būseną. Fizinė informacija apėmė tiek agento dabartinę vietą erdvėje, tiek jos orientaciją. Žinių informacija apėmė objekto padėtį (jei ji buvo) ir šio objekto tapatybę (jei ją nustatė agentas). Konkrečios informacijos rūšys, kurias atstovavo agentas, pateiktos 1 lentelėje.

Lentelė 1

LL modeliuose naudojami matmenys ir galimos šių matmenų vertės.

Simuliacijoje [21,120 išnaša] buvo iš viso 2. Tačiau valstybės, kuriose buvo nenustatytas teigiamas ir nenustatytas neigiamas objektas, yra agento požiūriu identiškos, todėl yra tik 16,280 skirtingos būsenos. Taigi, kiekvieno mokymosi iteracijos metu buvo būtina du kartus aplankyti kai kurias iš tų „identiškų“ valstybių, kad pusė laiko galėtų būti stebima, kai rastų teigiamą objektą, o pusė laiko gali būti stebėti neigiamą objektą [3 išnaša].

Kiekvieno bandomojo bandymo pradžioje agentas buvo patalpintas į simuliuojamo linijinio 11 × 1 vieneto kelio centrą su penkiais tarpais į agento „rytus“ (ty į dešinę) ir penkias erdves iki „vakarų“ “(Ty kairėje) tarpininko. Kaip rodo 1 lentelė, agento būsenos vektoriuje buvo elementas, nurodantis jo dabartinę vietą trasoje (ty sveikas skaičius nuo 0 iki 10), taip pat elementas (ty simbolis „n“, „s“, “ e “, arba„ w “), atitinkantis dabartinę orientaciją (ty, šiaurę, pietus, rytus ar vakarus). Agento pradinė orientacija visada buvo nustatyta kaip „šiaurė“, o aplinkoje nebuvo jokio kito objekto (ty „OBJECT“ reikšmė agento būsenos vektoriuje buvo lygi „0“).

Kiekvienu modeliavimo etapu agentas gali atlikti vieną iš šių veiksmų: (1) nieko nedaryti ir likti dabartinėje vietoje ir orientacijoje; (2) orientuojasi į šiaurę, pietus, rytus ar vakarus; arba (3) perkelkite vieną erdvę aplinkoje (rytuose ar vakare). Kiekvieno veiksmo rezultatas įvyko vėliau imituojamame laiko žingsnyje. Visi agento vietos ir (arba) orientacijos pokyčiai erdvėje įvyko, kai agentas pasirinko veiksmus. Tačiau kiekvienu modeliavimo etapu, net jei buvo pasirinktas „nieko nedaryti“ veiksmas, 1 laikas buvo padidintas iki bandymo pabaigos (ty 20 laiko žingsnis).

Agentūros aplinka buvo sukurta taip, kad pusė laiko, objektas pasirodė atsitiktinėje vietoje (bet ne toje pačioje vietoje kaip agentas) po dešimties laiko pakopų; 50% objektų buvo teigiami (atstovaujami „+“; žr. Lentelę 1) ir 50% objektų buvo neigiami (atstovaujami „-“). Vėlavimas prieš objektą atsirado, kad būtų galima stebėti bet kokį elgesį, kurį agentas galėjo eksponuoti prieš objekto išvaizdą. Jei agentas nebuvo orientuotas į objektą, kai jis pasirodė, tuomet elementas, vaizduojantis „OBJECT“ tapatybę agento būsenos vektoriuje, buvo pakeistas iš „0“ į „?“, Kad atspindėtų faktą, kad objekto, kuris buvo dabar šiuo metu nežinoma. Tačiau, jei agentas buvo nukreiptas į objektą, tuomet paskesniame etape elementas „OBJEKTAS“ buvo nustatytas kaip objekto tapatybė, kad „0“ taptų „+“ arba „-“ teigiamu ir neigiamus objektus.

Jei agentas persikėlė į objekto vietą, tada kito laiko pakopos metu objektas dingo. Jei objektas buvo teigiamas, agento „CONSUMED“ vėliavėlė buvo nustatyta lygiai tiesa ir agentas buvo apdovanotas (atlygis = + 10); tačiau, jei objektas buvo neigiamas, „SHOCKED“ vėliavėlė buvo nustatyta tiesai ir agentas buvo nubaustas (atlygis = −10). (Atkreipkite dėmesį, kad vėliavos buvo nustatytos tokiu būdu, neatsižvelgiant į tai, ar agentas identifikavo objektą, ar ne, pvz., Agentas galėjo suvartoti objektą nesikreipdamas į jį.) Vėliau, „SHOCKED“ arba „SHOCKED“ „CONSUMED“ vėliavėlė buvo išvalyta. Agentas taip pat gavo nedidelę bausmę (sustiprinimas = −1) už kiekvieną judėjimą ar orientavimo veiksmą ir negavo jokio atlygio ar bausmės (sustiprinimas = 0), jei jis nesiėmė jokių veiksmų.

Agentui buvo kiekybiškai įvertintas tiek atviras elgesys (ty orientavimas ir judėjimas), tiek atlygio prognozavimo klaidos matas. Akivaizdus elgesys (ty agento pasirinktų veiksmų sąrašas) buvo naudojamas kaip rodiklis, ar užduotis buvo išmokta. Atlygio-prognozavimo klaidos matas buvo naudojamas hipotezei apie nedopingo dopaminerginio fazinio signalo atsiradimą. Atlygio prognozavimo klaida δ buvo matuojama objekto išvaizdos metu t, atimant atlygio prognozę ankstesniame laiko etape, ty V (s) laiko pakopoje t − 1, nuo atlygio prognozės, kai pasirodė objektas, ty, V (s) metu t, gaunant δ = V (st) - V (st − 1) kiekį.

rezultatai
Imituotas elgesys

Pirmiausia buvo nustatytas kiekybinis agentų elgesys. Šios analizės rezultatai parodė, kad po treniravimo agentas artėja prie visų teigiamų objektų ir pasiekė teigiamą sustiprinimą ir niekada nepasiekė nė vieno neigiamo objekto. Kartu šie rezultatai patvirtina elgesio patvirtinimą, kad agentai išmoko atlikti užduotį teisingai. Šią išvadą patvirtina papildoma pastaba, kad bandymų metu, kai nebuvo jokių objektų, agentas išliko nejudantis. Kaip prognozuojama, agentas orientuotas į teigiamus ir neigiamus objektus.

Imituota atlyginimų prognozavimo klaida

Pagrindinė šio dokumento hipotezė yra ta, kad nenuspėjamų paskatų atsiradimas nuosekliai generuos teigiamą atlyginimų prognozavimo klaidą, net jei šis objektas yra „neigiamas“ objektas, kuris visada baudžiamas. Palaikydama šią hipotezę, agentas parodė teigiamą atlygio prognozavimo klaidą, kai atsirado (nenustatytas) objektas, bet ne tada, kai nieko neatsirado. Taip pat atitinka pagrindinę hipotezę, kad agento fazinio atsako dydis (δ, išmatuotas taip, kaip aprašyta metodo skyriuje) buvo jautrus imituojamam stimulo intensyvumui, apibrėžtas naudojant atstumą tarp agento ir objekto (žr. 1 pav.). Regresijos analizė parodė, kad δ dydis buvo atvirkščiai susijęs su atstumu nuo objekto, todėl artimesni objektai sukėlė stipresnį atsaką (r = −0.999, p <0.001; β = 0.82). Šią neigiamą koreliaciją sukėlė maža bauda (sutvirtinimas = -1), kuri buvo paskirta už kiekvieną judesį, kurį agentas privalėjo atlikti, norėdamas pereiti prie teigiamo objekto, jį suvartoti ir taip gauti atlygį.

1 pav

Šiame paveikslėlyje parodyta atlygio prognozavimo klaida (ty δ), kai objektas pasirodė kaip objekto vietos funkcija, palyginti su agento vieta. Tiek teigiamų, tiek neigiamų objektų atsakymai yra vienodi. Kai nėra objekto (daugiau ...)

Atsižvelgiant į tai, kad šioje simuliacijoje su lygiaverte tikimybe atsirado teigiamų ir neigiamų objektų (p = .25), kyla klausimas: kodėl agento atlygio prognozavimo klaidos signalas objekto išvaizdos metu buvo teigiamas? Remdamasis Kakade ir Dayan [7] linijomis, galima prognozuoti, kad signalas turėtų atspindėti visų iš tokių situacijų gautų išmokų vidurkį ir todėl turi būti lygus nuliui. Svarbiausia suprasti šį rezultatą yra tai, kad ne tik RL daro agentą mažiau tikėtina, kad pasirinktų veiksmus, dėl kurių atsiranda neigiamas stiprinimas, bet ir agentas mažiau patenka į valstybes, kurios galiausiai sukelia neigiamą sustiprinimą. Tai lemia tam tikrą „aukštesnio lygio“ mokymosi formą, kuri pavaizduota 2 paveiksle ir aprašyta toliau.

2 pav

Iliustracija, rodanti, kaip RL agentas sukuria teigiamą atlygio ir prognozavimo klaidą, kai jis mokomas tiek naudingais, tiek baudžiančiais dirgikliais savo aplinkoje ir gali pasirinkti, ar kreiptis į juos, ar juos vartoti. A) Situacija prieš mokantis: (daugiau ...)

Mokymosi pradžioje (žr. 2A pav.) Agentas nukreipia į „+“ ir „-“ objektus, artėja prie jų ir yra apdovanotas ir nubaustas vartojant kiekvieno tipo objektą. Jei agento išmoktos būsenos reikšmės negalėjo daryti įtakos agento veiksmams (žr. 2B pav.), Agentas ir toliau artėtų prie šio objekto. Tuomet išvaizda galėtų numatyti vidutinį 0 atlygį ir staiga padidėtų atlyginimų prognozavimo klaida. Tačiau šiame simuliatoriuje veikiantis agentas naudojasi išmatuotomis valstybės reikšmėmis, kad paveiktų jos veiksmus (žr. 2C pav.), Ir nors agentas vis dar turi orientuotis į nežinomą objektą, kad nustatytų jo tapatybę, jis nebebus vartoja neigiamo objekto, jei jis artėja prie jis (jei jis būtų apmokytas atsitiktinių tyrimų algoritmu, kaip trajektorijos atranka [1 išnaša]). Be to, kadangi laiko skirtumų mokymasis leidžia neigiamo atlygio prognozei „propaguoti“ atgal į ankstesnes būsenas, ir kadangi yra nedidelės išlaidos, susijusios su judėjimu erdvėje, agentas išmoksta išvengti artėjimo prie neigiamo objekto. Taigi po to, kai ši informacija buvo išmokta, būsenos vertė, kai objektas pirmą kartą pasirodo (nurodomas kaip „V“ pirmame apskritime kiekvienoje sekoje), nėra pagrįstas teigiamų ir neigiamų rezultatų valstybės verčių vidurkiu, bet yra vietoj to, remiantis teigiamo ir „neutralaus“ rezultato vidurkiu, kuris pasiekiamas, kai agentas išmoksta išvengti neigiamų objektų. Štai kodėl visų išmokų, gautų iš apmokytų agentų, vidurkis buvo didesnis nei nulis, ir paaiškina, kodėl agento atlygio prognozė (ir todėl atlygio prognozavimo klaida, kai objektas staiga atsiranda) buvo grynasis teigiamas. Tai iliustruojama 3 paveiksle. Tiesą sakant, tol, kol agentas gali išmokti keisti savo elgesį ir išvengti neigiamo objekto, neigiamo objekto vertė galiausiai neturi reikšmės galutiniam agento elgesiui ir naujumo / sotumo atsako dydžiui.

3 pav

(A) Parodo atlygio prognozavimo pokyčius, kurie būtų įvykę, jei RL nesukeltų aukštesnio lygio mokymosi (ty jei agentas negalėtų imtis priemonių, kad išvengtų neigiamo rezultato), todėl agentas buvo priverstas suvartoti visus objektai (daugiau ...)

Modeliavimo rezultatai labai priklauso nuo trijų prielaidų. Pirma, stimulai turėjo būti „ryškūs“, nes pradinio atspalvio numatytas armatūros dydis buvo pakankamai didelis (pvz., + 10), palyginti su orientavimo ir artėjimo (pvz., –1) sąnaudomis. Jei dydis būtų buvęs palyginti mažas, agentas nebūtų išmokęs orientuotis, o taip pat nebūtų gautas teigiamas atlygio prognozavimo klaidos atsakas. Antra, taip pat reikėjo vėluoti prieš atpažįstant stimulus. (Vėlavimas yra „naujovės“ proxy pagal argumentus, kad gerai žinomas stimulas būtų greitai atpažįstamas.) Be delsimo, agentas būtų tiesiog generavęs atitinkamą teigiamą arba neigiamą atlygio prognozavimo klaidą, atitinkančią faktinį suvokiamą objektą. Galiausiai, agento elgesį turėjo nulemti jos išmoktos vertybės. Jei agentas negalėtų kontroliuoti savo elgesio (ty, ar kreiptis į dirgiklius), tada jo atlygio prognozė, kai atsirado objektas, būtų lygiavertis 0, lygiavertės teigiamų ir neigiamų rezultatų vidurkis.

Bendra diskusija

Šiame straipsnyje aprašytas modeliavimas parodė, kad teigiama atlyginimų prognozavimo klaida atsiranda tada, kai atsiranda nenuspėjamas stimulas, kuris yra naudingas arba nubaustas, bet negali būti nedelsiant identifikuojamas. Be to, imitacija parodė, kad atlyginimų prognozavimo klaidos dydis didėja, kai stimulas yra artimas agentui, kuris imitacijos kontekste yra stimulo intensyvumo tarpinis matas ir todėl yra susijęs su svarbumu. Teorinėje RL sistemoje atlygio prognozės paprastai suprantamos kaip atspindėtos pripažintų stimulų vertės arba agento [15] fizinių ir / arba pažintinių būsenų vertės. Tačiau čia pranešta atlygio prognozavimo klaida yra kokybiškai skirtinga, nes ji sukuriama prieš agentui atpažįstant objektą. Kartu šie rezultatai patvirtina hipotezę, kad LR principai yra pakankami, kad būtų sukurtas atsakas, kuris, regis, nesusijęs su atlygiu, bet yra susijęs su naujumo ir drąsos savybėmis. Ši išvada turi keletą svarbių pasekmių mūsų bendram supratimui apie RL ir mūsų interpretavimui, kaip atsiskaitymo už realius biologinius organizmus ataskaita.

Pirma, atlygio prognozė, kurią generuoja RL agentas, kai atsiranda nenustatytas stimulas, nebūtinai yra griežtas gautų atlygių vidurkis, kaip siūlo Kakade ir Dayan [7], bet iš tiesų gali būti didesnis už tą konkretų vidurkį. Kakade ir Dayan prognozavo, kad vidutinė atlygio prognozė turėtų būti lygi nuliui, nes, nes bandymai buvo apdovanoti ir vienodai dažnai nubausti. Šis stebėtinas rezultatas atsirado dėl to, kad agentas išmoko „politikos“ būdu; tai yra, agentas sužinojo ne tik apie neigiamus rezultatus, bet ir apie gebėjimą išvengti šių rezultatų. Šis atlygio sistemos gebėjimas sukelti agentą, kad būtų išvengta neigiamų rezultatų, turėtų būti kruopščiai apsvarstytas verčiant mūsų supratimą apie RL į realius organizmus. Šis faktas gali būti dar svarbesnis, atsižvelgiant į tai, kad dopaminerginio fazinio atsako gebėjimas atvaizduoti teigiamą atlyginimų prognozavimo klaidą yra geresnė už neigiamą atlygio prognozavimo klaidą [11]. Gali būti pakanka nurodyti, kad tam tikra įvykių seka lemia neigiamą rezultatą, tačiau veiksmų atrankos tikslais šio rezultato dydis nėra svarbus.

Antrasis dabartinio modeliavimo brūkšnys yra tai, kad naujovių atsakas gali atsirasti dėl suvokimo apdorojimo sistemų ir atlygio prognozavimo sistemų sąveikos. Konkrečiai, naujovių atsakas gali būti dėl panašumo tarp naujų objektų ir objektų, kurie dar nebuvo visiškai supratę [4 išnaša]. Šiame modeliavime naujovė buvo įgyvendinta įvedant vėlavimą prieš objekto tapatybę (ir todėl jo atlygį ar bausmę) tapo akivaizdu agentui. Tai buvo daroma darant prielaidą, kad nauji objektai atpažįsta ilgiau, tačiau ši prielaida taip pat paskatino teigiamus ir neigiamus objektus suvokti panašiai, kai jie pirmą kartą pasirodė (ty jie abu buvo koduojami kaip „?“). Priešingai, Kakade ir Dayan [7] rodo, kad naujovių atsakymai ir „apibendrinimo“ atsakymai iš esmės skiriasi, nepaisant to, kad jie pasireiškia panašiai neurofiziologijos duomenyse.

Trečiasis dabartinio modeliavimo rezultatas yra tas, kad jie rodo, kad papildomos prielaidos dėl naujoviškumo ir formavimo premijų, kurias pasiūlė Kakade ir Dayan [7], nėra būtinos. Vietoj to, naujoviški atsakymai gali atsirasti iš realistinių suvokimo apdorojimo apribojimų ir žinių apie galimybę išvengti neigiamų rezultatų. Tai pasisekė, nes, kaip nurodė Kakade ir Dayan, naujumo premijos iškreipia vertybės funkciją, kurią išmoko agentas, ir premijų formavimas įtakoja būdą, kuriuo agentai tiria savo valstybės erdves. Įtraukus vieną iš šių prielaidų, sumažėja RL teorijos modelių parsimonija. Įdomu tai, kad čia pateikti rezultatai taip pat padeda paaiškinti, kodėl biologinis naujovių atsakas gali būti nesukeliantis atlygio pagrindu mokymosi realiuose organizmuose: naujumo atsakas iš tikrųjų jau yra prognozuojamas LR. Tai reiškia, kad naujumo atsakas atspindi elgesį ir atlygio prognozes, kurios būdingos agentui, kuris jau kažką sužinojo apie savo aplinką.

Alternatyvus (bet ne tarpusavyje nesuderinamas) dabartinių modeliavimo rezultatų aiškinimas yra tas, kad iš tiesų yra abstraktus (galbūt pažinimo) atlygis, kurį agentai gauna orientuodamiesi į objektus ir juos identifikuodami. Dopaminerginio aktyvumo tyrimuose teigiami faziniai atsakai gali pasireikšti nenumatytoms žymėms, kurios, kaip žinoma, prognozuoja atlygį. Tačiau šis modeliavimas parodo, kaip šie atsakymai taip pat gali atsirasti reaguojant į cue, galiausiai galbūt numatantį atlygį ar bausmę. Vienintelis nuoseklus pranašumas, kurį prognozuoja lazda, yra informacijos, gautos, kai agentas nustato objekto tapatybę, padidėjimas. Taigi, jei atsiranda galiojantis, išmoktas „atlygio prognozavimas“, kai atsiranda neidentifikuotas objektas, jis yra patenkintas po to, kai agentas gauna žinių apie tai, ar kreiptis ar išvengti stimulo. Šios informacijos vertė grindžiama ne gaunamų rezultatų vidurkiu, bet yra pagrįsta žiniomis apie efektyvius rezultatus - kad agentas gali vartoti teigiamą atlygį arba išvengti neigiamo atlygio (žr. 2 pav.).

Galiausiai svarbu pažymėti, kad galimybės imtis tam tikrų veiksmų (pvz., Orientuotis) gali būti naudingos savybės per tam tikrą apibendrinimo ar mokymosi mechanizmą, kuris nėra įtrauktas į šį modeliavimą. Pvz., Pats „orientavimo ir nustatymo“ veiksmas gali būti naudingas organizmui, atsižvelgiant į ryšį tarp šio veiksmo ir anksčiau parodyto, visada teigiamo atlygio prognozavimo klaidos, kai atsiranda naujų stimulų. Panašią idėją neseniai iškėlė Redgrave ir Gurney [13], kurie, manydami, kad svarbus fazinio dopamino atsako tikslas yra sustiprinti veiksmus, kurie atsiranda prieš nenuspėjamus svarbius įvykius. Čia pateikti rezultatai nėra nesuderinami su šia hipoteze, tačiau reikia pažymėti, kad Redgrave ir Gurney hipotezė nėra tiesiogiai išbandyta šioje simuliacijoje, nes agentui nebuvo reikalingi veiksmai (ty tyrinėjimas), kad įvyktų svarbiausias įvykis ( objekto). Tačiau imituotas fazinis signalas sutapo su orientavimo atsako laiku, o tai rodo, kad abu gali būti stipriai susiję.

Baigiant, šis straipsnis parodė, kad RL principai gali būti naudojami paaiškinant dopaminerginių neuronų veikimą, kuris, regis, nėra atlygio. Šis rezultatas atsirado dėl to, kad laikinojo skirtumo mokymosi taisyklė (pvz., Kakade ir Dayan [7]) buvo įterpta į modeliavimą, kuriame agentas galėjo pasirinkti veiksmus, turėjusius įtakos galimai rezultatui. Simuliacijoje agentas sužinojo, kad nukreipimo į staiga atsiradusį objektą rezultatas visada gali būti naudingas arba neutralus, nes būtų galima išvengti neigiamo rezultato. Todėl, kai agentas turėjo galimybę orientuotis, jo atlyginimų prognozavimo klaida visuomet buvo teigiama, skaičiuojant analogiška biologinių organizmų naujumo ir sotumo atsakams.

Padėka

Šiame straipsnyje aprašytas darbas buvo paremtas NIH R01 HD053639 ir NSF Training Grant DGE-9987588. Norėčiau padėkoti Erikui Reichle'ui, Tessa Warrenui ir anonimiškam recenzentui už naudingas pastabas dėl ankstesnės šio straipsnio versijos.

1Kitas stiprinimo mokymosi algoritmas, vadinamas trajektorijos atranka [17], dažnai naudojamas vietoj „Value Iteration“, kai būsenos erdvė tampa tokia didelė, kad ji negali būti išsamiai kartojama ar lengvai saugoma kompiuterio atmintyje. Vietoj to, kad kiekvienoje būsenos būsenoje būtų kartojama, o vertės funkcijų atnaujinimo lygtis būtų taikoma remiantis veiksmais, kurie, atrodo, lemia labiausiai atlygį, trajektorijos mėginių ėmimas atlieka kelius per valstybės erdvę. Panašiai kaip ir „Value Iteration“, veiksmai, lemiantys didžiausią atlygį, paprastai pasirenkami iš kiekvienos valstybės, tačiau kartais pasirenkamas atsitiktinis tiriamasis veiksmas su maža tikimybe. Taigi algoritmas yra: Iš kai kurių pradinių būsenų s pasirinkite veiksmą, vedantį į labiausiai atlygį [pvz., Premiją + γV (s ′)] su tikimybe ε, arba pasirinkite atsitiktinį tiriamąjį veiksmą su tikimybe 1 - ε. Taikant V-ą (-us) → V (s) + α [atlygį + γV (s ′) - V (-ius)], iš valstybinių s nepageidaujamų veiksmų.

Be techninių skaičiavimo laiko ir atminties apribojimų įveikimo, trajektorijos atranka gali būti patraukli, nes ji gali geriau atspindėti būdą, kuriuo mokosi tikri biologiniai organizmai: tyrinėdami kelias valstybės erdvėje. Šiame darbe aprašytoje užduotyje trajektorijos atranka duoda rezultatų, kurie yra kokybiškai identiški rezultatams, gautiems naudojant „Value Iteration“. Tačiau, siekiant glaustumo, šie rezultatai čia nėra išsamiai aprašyti. Šiame dokumente simuliacijai buvo pasirinkta reikšmė Iteracija dėl dviejų pagrindinių priežasčių. Pirma, kadangi trajektorijos atranka apima stochastiškumą atrenkant trajektorijas, dėl daugybės galimų šios užduoties sekų atsirandančios šakos gali sukelti agentų, kurie neturi patirties su kai kuriomis valstybėmis, išskyrus atvejus, kai žvalgymo ir išnaudojimo parametras (ty ε-gobšumas [17]) yra kruopščiai parinktas. Tai, kad trūksta patirties su tam tikromis valstybėmis, gali sutrikdyti agento veiklą, kai naudojama paieškos lentelės atminties struktūra dėl to, kad nėra panašios (bet galbūt nenumatytos) vertės vertės. Taigi, buvo pageidautina pasinaudoti išsamiu valstybės erdvės tyrimu, kurį garantuoja „Value Iteration“. Antra, naudojant „Value Iteration“ reikšmę, nereikėjo nurodyti papildomo žvalgymo ir išnaudojimo parametro, taip supaprastinant modeliavimą. Atkreipkite dėmesį, kad trajektorijos mėginių ėmimas galiausiai gali apytiksliai padidinti vertės pakitimą, nes trajektorijų skaičius artėja prie begalybės [17].

2Są 21,120 būsenų skaičius galima apskaičiuoti taip: 11 galimų agento vietų x 4 galimų agento orientacijų × (10 laiko žingsniai prieš pasirodant objektui + 10 laiko pakopos, kai objektas nebuvo rodomas + 10 laiko žingsniai, kai agentas buvo teigiamai sustiprinti + 10 laiko žingsniai, kai objektas buvo neigiamai sustiprintas + galimi objekto vietos 11 * (10 laiko žingsniai su teigiamu identifikuotu objektu + 10 laiko žingsniai su neigiamu identifikuotu objektu + 10 laiko žingsniai su nenustatytu teigiamu objektu + 10 laiko žingsniai su nenustatytu neigiamu objektu))].

3Šių „paslėptų“ būsenų egzistavimas turi būti laikomas treniruočių metu, nes „Value Iteration“ tik kiekvienam būsenos erdvės režimui atrodo „vienas žingsnis į priekį“. Tai, kad valstybės, turinčios neigiamų ir teigiamų neidentifikuotų objektų, yra identiškos, užkirstų kelią dviejų skirtingų vėlesnių būsenų, kuriose nustatomas teigiamas arba neigiamas objektas, vertėms ir jų vidurkiui. Kita vertus, trajektorijos atrankos metodas išlaiko paslėptą informaciją apie valstybę (ty nenustatyto stimulo tapatybę) per visą bandymą, taigi ir su tuo RL variantu paslėptos valstybės nėra problemos.

4One potencialus prieštaravimas šiam darbui yra tai, kad orientavimo atsakas žinduolių smegenyse, pavyzdžiui, yra viršutinio koliko (3,14) projekcijose. Dabartiniame modeliavime agentai nebuvo pririšti prie orientacijos į objektus, bet išmoko orientacinį elgesį, kuris leido galimą atrankos veiksmą (pvz., Požiūrį ar vengimą) pasirinkti. Panašiai kaip ir laidiniai atsakymai, šie orientavimo veiksmai įvyko labai greitai, prieš nustatant objektus, ir nukreipti į visus objektus. Šio darbo tikslas buvo ne pareikšti, kad visi tokie atsakymai yra išmokti, bet kad jie gali egzistuoti kartu su LR sistema. Nepaisant to, būtų įdomu ištirti, ar su premija susijusių mechanizmų kūrimas gali būti susijęs su ryšiais su smegenų kamieno zonomis, kad būtų sukurtas šis fazinis dopamino atsakas.

Tai PDF failas iš neregistruoto rankraščio, kuris buvo priimtas paskelbti. Kaip paslauga mūsų klientams teikiame šią ankstyvą rankraščio versiją. Rankraštis bus kopijuojamas, užrašomas ir peržiūrimas gautas įrodymas, kol jis bus paskelbtas galutinėje cituotojoje formoje. Atkreipkite dėmesį, kad gamybos proceso metu gali būti aptiktos klaidos, kurios gali turėti įtakos turiniui, ir visi su žurnalu susiję teisiniai atsakymai.

Nuorodos

1. Baird LC. Liekamieji algoritmai: stiprinimas Mokymasis su funkcijų priartinimu. In: Priedetis A, Russell S, redaktoriai. Mašinų mokymasis: dvyliktosios tarptautinės konferencijos procesas; 9 – 12 July.1995.

2. Bunzeck N, Düzel E. Absoliutus stimulo naujovės kodavimas žmogaus materia nigra / VTA. Neuronas. 2006; 51 (3): 369 – 379. [PubMed]

3. Dommett E, Coizet V, Blaha CD, Martindale J, Lefebvre V, Walton N, Mayhew JEW, Overton PG, Redgrave P. Kaip vizualiniai stimulai trumpais latentais aktyvuoja dopaminerginius neuronus. Mokslas. 2005; 307 (5714): 1476 – 1479. [PubMed]

4. Doya K. Metalo mokymasis ir neuromoduliacija. Neuroniniai tinklai. 2002 birželis – liepa, 15 (4 – 6): 495 – 506. [PubMed]

5. Gillies A, Arbuthnott G. Bazinio ganglio skaičiavimo modeliai. Judėjimo sutrikimai. 2000; 15 (5): 762 – 770. [PubMed]

6. Horvitz JC. Mesolimbokortikiniai ir nigrostriatyvūs dopamino atsakai į svarbiausius neatlygintinus įvykius. Neurologija. 2000; 96 (4): 651 – 656. [PubMed]

7. Kakade S, Dayan P. Dopamine: apibendrinimas ir premijos. Neuroniniai tinklai. 2002; 15 (4 – 6): 549 – 559. [PubMed]

8. Knutson B, Cooper JC. Nežinomo. Neuronas. 2006; 51 (3): 280 – 282. [PubMed]

9. Logothetis NK, Pauls J, Augath M, Trinath T, Oeltermann A. FMRI signalo pagrindo neurofiziologinis tyrimas. Gamta. 2001; 412 (6843): 150 – 157. [PubMed]

10. McClure SM, Berns GS, Montague PR. Laiko prognozavimo klaidos pasyvaus mokymosi užduotyje aktyvina žmogaus striatumą. Neuronas. 2003; 38 (2): 339 – 346. [PubMed]

11. Niv Y, Duff MO, Dayan P. Dopamine, netikrumas ir TD mokymasis. Elgesio ir smegenų funkcijos. 2005 gegužės 4; 1: 6. [PMC free article] [PubMed]

12. O'Doherty JP, Dayan P, Friston K, Critchley H, Dolan RJ. Laiko skirtumų modeliai ir su mokymu susijęs mokymas žmogaus smegenyse. Neuronas. 2003; 38 (2): 329 – 337. [PubMed]

13. Redgrave P, Gurney K. Trumpojo latentinio dopamino signalas: vaidmuo atrandant naujus veiksmus? Gamtos apžvalgos Neurologija. 2006 Dec; 7 (12): 967 – 975.

14. Redgrave P, Prescott TJ, Gurney K. Ar trumpojo latentinio dopamino atsakas per trumpas, kad signalizuotų atlygio klaidą? Neurologijos tendencijos. 1999 Balandis, 22 (4): 146 – 151. [PubMed]

15. Reichle ED, Laurent PA. Naudojant sutvirtinimą mokantis suprasti „protingo“ akių judėjimo elgesį skaitymo metu. Psichologinė apžvalga. 2006; 113 (2): 390 – 408. [PubMed]

16. Schultz W. Nuspėjamasis dopamino neuronų atlygio signalas. Neurofiziologijos žurnalas. 1998; 80 (1): 1 – 27. [PubMed]

17. Sutton RS, Barto AG. Sustiprinimas Mokymasis: Įvadas. MIT Press; Kembridžas: ​​1998.

18. „Tanaka SC“, „Doya K“, „Okada G“, „Ueda K“, „Okamoto Y“, „Yamawaki S.“. Tiesioginių ir būsimų apdovanojimų prognozavimas skirtingai įdarbina kortikos bazinių ganglijų kilpas. Gamtos neurologija. 2004; 7 (8): 887 – 893.