Zrodenie výziev a novosť odpovedí z posilnenia vzdelávacích princípov (2008)

KOMENTÁRE: Ďalšia štúdia dokazujúca, že novinkou je vlastná odmena. Jedným z návykových aspektov internetového porna je nekonečná novosť a rozmanitosť, schopnosť rýchleho preklikávania z jednej scény na druhú a hľadanie správneho obrázka / videa. Všetky tieto látky zvyšujú dopamín. Vďaka tomu sa internetové porno líši od časopisov alebo požičaných DVD.

Úplná štúdia: Vznik slabostí a novátorských odpovedí z princípov posilňovania učenia

Neural Netw. 2008 December; 21 (10): 1493 – 1499.

Publikované online 2008 September 25. doi: 10.1016 / j.neunet.2008.09.004

Patryk A. Laurent, University of Pittsburgh;

Všetka korešpondencia adresujte: Patrykovi Laurentovi, University of Pittsburgh, 623 LRDC, 3939 O'Hara St., Pittsburgh, PA 15260 USA, E-mail: [chránené e-mailom], Office: (412) 624-3191, Fax: (412) 624-9149

abstraktné

Nedávne pokusy o mapovanie modelov učenia založených na odmeňovaní, ako je napríklad Reinforcement Learning [17] do mozgu, sú založené na pozorovaní, že fázové zvyšovanie a znižovanie rozdielov medzi neurónmi uvoľňujúcimi dopamín medzi predpovedanými a prijatými odmenami [16,5]. Táto chyba predikcie odmeňovania je však iba jedným z niekoľkých signálov, ktoré táto fázová aktivita komunikuje; iná zahŕňa zvýšenie dopaminergného spikingu, čo odráža výskyt výrazných, ale nepredvídaných stimulov bez odmeny [4,6,13], najmä keď organizmus následne smeruje k stimulu [16]. Na vysvetlenie týchto zistení Kakade a Dayan [7] a iní navrhli, že nové, neočakávané podnety sú skutočne odmeňujúce. Simulácia uvedená v tomto článku demonštruje, že tento predpoklad nie je potrebný, pretože účinok, ktorý má zachytiť, vychádza z mechanizmov výučby predikcie výučby. Princípy posilňovania učenia sa teda môžu použiť na pochopenie nielen aktivity dopamínergných neurónov bazálnych ganglií súvisiacich s odmenou, ale aj niektorých z nich, ktoré zjavne nie sú odmeňované.

Výskum posilňovania (RL) sa stáva čoraz dôležitejším pri vývoji výpočtových modelov učenia založeného na odmeňovaní v mozgu. RL je trieda výpočtových algoritmov, ktorá špecifikuje, ako sa umelé „agent“ (napr. Reálny alebo simulovaný robot) môže naučiť vybrať akcie s cieľom maximalizovať celkovú očakávanú odmenu [17]. V týchto algoritmoch agent zakladá svoje činnosti na hodnotách, ktoré sa učí spájať s rôznymi stavmi (napr. Percepčné podnety spojené so stimulom). Tieto hodnoty sa môžu postupne naučiť prostredníctvom učenia časových rozdielov, ktoré upravujú stavové hodnoty na základe rozdielu medzi existujúcim odhadom odmeny agenta pre stav a skutočnou odmenou, ktorá sa následne získa z prostredia. Ukázalo sa, že tento vypočítaný rozdiel, nazývaný chyba predikcie predikcie, koreluje veľmi dobre s fázovou aktivitou neurónov uvoľňujúcich dopamín, ktoré vychádzajú z substantia nigra u primátov (16). Okrem toho u ľudí striatum, ktoré je dôležitým cieľom dopamínu, vykazuje fMRI BOLD signál, ktorý sa javí ako odrážajúci chybu predikcie odmeňovania počas úloh odmeňovania učenia [10,12,18]. Toto zistenie fMRI dopĺňa údaje o fyziológii, pretože sa predpokladá, že striatálne BOLD odráža aspoň čiastočne aferentnú synaptickú aktivitu [9] a dopamínové neuróny silne premietajú do striata.

Hoci sa zdá, že vyššie uvedené fyziologické odpovede súvisia s výpočtami predikcie odmeňovania RL, existuje tiež zvýšenie dopaminergnej fázovej aktivity ako odozva na vzrušujúce a / alebo nové stimuly, ktoré zdanlivo nesúvisia s odmenou [4,6,14,3]. Podobný jav bol nedávno pozorovaný u ľudí s použitím fMRI [2]. Existuje niekoľko dôvodov, prečo táto „novinka“ alebo „saliálnosť“ odpovedá, že nesúvisí s chybou predikcie odmeny: (1) sa zdá byť veľmi skoro, predtým, ako bola vyhodnotená identita stimulu, takže presná predpoveď odmien nemôže byť generované; (2) korešponduje so zvýšením neurálnej aktivity (tj je pozitívna) ako pre averzívne, tak aj pre apetitívne stimuly; a (3) si zvykne [13]. Tieto odozvy na neurčitosť dopamínu / novosti sú najspoľahlivejšie vtedy, keď sú podnety nepredvídané a vedú k orientačnému a / alebo prístupovému správaniu [16] bez ohľadu na konečný výsledok, čo poukazuje na skutočnosť, že sú kvalitatívne odlišné od získaných odmien. predikcie. Výzvou preto bolo vysvetliť tento zdanlivý paradox (tj ako novosť ovplyvňuje chybu predikcie odmeny) v rámci teoretického rámca RL.

Kakade a Dayan [7] sa pokúsili urobiť presne toto; vo svojom článku postulujú dva spôsoby, ktorými by mohli byť novátorské odpovede začlenené do RL modelov dopaminergnej funkcie - obe zahŕňali zahrnutie nových teoretických predpokladov. Prvý predpoklad, označovaný ako novátorské bonusy, zahŕňa zavedenie dodatočnej odmeny, ak sú prítomné nové podnety, nad rámec obvyklej odmeny, ktorú dostane agent. Táto dodatočná odmena vstupuje do výpočtu tak, že učenie je založené na rozdiele medzi predikciou existujúcej odmeny agenta a súčtom obvyklej odmeny z prostredia a bonusu za novosť. Novosť sa tak stáva súčasťou odmeny, ktorú sa agent snaží maximalizovať. Druhý predpoklad, nazývaný tvarovanie bonusov, možno realizovať umelým zvyšovaním hodnôt stavov spojených s novými stimulmi. Pretože pravidlo učenia časového rozlíšenia, ktoré sa používa v RL, je založené na rozdiele v predikcii odmeňovania medzi postupnými stavmi, pridanie konštantného tvarovacieho bonusu do stavov, ktoré sa týkajú nových stimulov, nemá žiadny vplyv na konečné správanie agenta. Avšak novinka sa objaví, keď agent vstúpi do časti stavového priestoru, ktorý bol „tvarovaný“ (tj. Spojený s novinkou).

Hoci pridanie každého z týchto predpokladov postačuje na vysvetlenie mnohých pozorovaných účinkov novosti, predpoklady tiež narúšajú postup učenia. Ako poukazujú Kakade a Dayan [7], novátorské bonusy môžu skresliť hodnotovú funkciu (tj hodnoty spojené s každým stavom agentom) a ovplyvniť to, čo sa nakoniec naučilo, pretože sú implementované ako dodatočná odmena, ktorá je vlastne spojená s románom. stavy. Problém je v tom, že sa agent naučí predpovedať primárne a novátorské zložky odmeny. Hoci Kakade a Dayan poukazujú na to, že tvarovanie bonusov nespôsobuje tento typ problému, pretože sa začleňujú do predpovedí odmien z predchádzajúcich stavov, ich pridanie je stále problematické, pretože tvarovanie bonusov zavádza skreslenie do spôsobu, akým agent preskúma svoj stavový priestor. Aj keď tieto dodatočné predpoklady môžu vysvetľovať, ako novosť ovplyvňuje chybu predikcie odmeny v RL, sú problematické. Ďalej vysvetlenia prichádzajú na úkor znižovania parsimonácie modelovacích prác, ktoré sa pokúšajú použiť RL na pochopenie správania reálnych biologických organizmov.

Nižšie uvedená simulácia bola vykonaná s cieľom otestovať hypotézu, že jednoduchý agent RL, bez akýchkoľvek ďalších predpokladov, vyvinie odozvu na predikciu chyby predpovede, ktorá je podobná odpovediam dopamínu, ktoré nesúvisia s odmenou a ktoré sú pozorované v biologických organizmoch. , Agent RL dostal úlohu interakcie s dvoma typmi objektu - jedným pozitívnym a druhým negatívnym - ktoré sa objavili na náhodných miestach v jeho prostredí. Aby sa maximalizovala jeho odmena, agent sa musel naučiť pristupovať a „konzumovať“ pozitívny objekt a vyhýbať sa (tj nie „konzumovať“) negatívnym objektom. Existovali tri hlavné predpovede simulácie.

Prvá predpoveď bola jednoducho taká, že aby sa maximalizovala jeho odmena, agent by sa v skutočnosti naučil pristupovať a „konzumovať“ pozitívne, odmeňujúce objekty a zároveň sa učiť vyhnúť sa negatívnym, trestajúcim objektom. Druhá predikcia bola o niečo menej zrejmá: že činidlo by malo vykazovať orientačnú odozvu (tj naučiť sa posunúť svoju orientáciu) k negatívnym aj pozitívnym objektom. Táto predpoveď bola urobená preto, že hoci agent mohol „vnímať“ vzhľad objektu a jeho umiestnenia, pozitívnu alebo negatívnu identitu objektu (tj tágo, ktoré by sa agent napokon naučil spájať s hodnotou odmeny objektu) nie je možné určiť agentom až po tom, čo sa agent skutočne zameral na objekt. Nakoniec tretia (a najdôležitejšia) predikcia súvisí so simulovanou dopaminergnou fázovou odozvou v modeli; táto predpoveď bola taká, že keď sa objekt objavil, agent by vykazoval chybu v predikcii odmeňovania, ktorá bola výpočtovo analogická s fázovou dopamínovou odpoveďou pozorovanou v biologických organizmoch, čo je pozitívne na pozitívne aj negatívne objekty. Predpokladalo sa, že táto odozva sa bude líšiť aj v závislosti od vzdialenosti medzi činidlom a stimulom, ktorý bol v kontexte simulácie proxy mierou pre „intenzitu“ stimulu alebo význam. Ako bude demonštrované nižšie, tieto predpovede boli potvrdené simulačnými výsledkami, čo dokazuje, že zdanlivo neodmeny týkajúce sa dopamínových odpovedí môžu v zásade vychádzať zo základných princípov RL. Teoretické implikácie týchto výsledkov pre použitie RL na pochopenie aktivity, ktorá nie je závislá od odmeny v biologických organizmoch, budú uvedené v záverečnej časti tohto článku.

Metóda

Ako už bolo spomenuté, algoritmy RL špecifikujú, ako môže agent použiť numerické odmeny za okamih, aby zistil, aké akcie by mal podniknúť, aby maximalizoval celkovú sumu odmeny, ktorú dostane. Vo väčšine formulácií je toto učenie dosiahnuté použitím predikčných chýb odmeny (tj rozdielu medzi predikciou aktuálnej odmeny agenta a skutočnou odmenou, ktorá je získaná) na aktualizáciu predpovedí agentovho odmeňovania. Ako sa naučia predpovede odmien, predpovede môže agent použiť aj na výber svojej ďalšej akcie. Zvyčajná politika (definovaná v rovnici 2) je pre agenta, aby vybral akciu, o ktorej sa predpokladá, že bude mať za následok najväčšiu odmenu. Skutočná odmena, ktorá je poskytnutá agentovi v danom čase, je súčtom okamžitej odmeny plus určitej časti hodnoty štátu, ktorý agent zadá, keď je akcia dokončená. Ak teda agent prežije pozitívne odmeny po tom, čo boli v určitom stave, agent vyberie akcie v budúcnosti, ktoré pravdepodobne vyústia do týchto odmeňovaných štátov; naopak, ak agent zažíva negatívne odmeny (tj trest), vyhne sa činom v budúcnosti, ktoré vedú k týmto „potrestaným“ štátom.

Špecifický algoritmus, ktorý určuje predpovede odmien, ktoré sa naučia pre rôzne stavy (tj hodnota V) sa nazýva Iterácia hodnoty [Poznámka pod čiarou 1] a môže byť formálne opísaná ako:

Pre všetky možné stavy s,

(Rovnica 1)

kde s zodpovedá aktuálnemu stavu, V (s) je aktuálna predikcia odmeny pre stav s, ktorý sa naučil agent, maxaction∈M {} je operátor pre maximálnu hodnotu odstupňovaného množstva v rámci množiny všetkých akcií M dostupný agentovi, V (s ′) je agentova aktuálna predikcia odmeny pre ďalší stav s s, α je určitá miera učenia (medzi 0 a 1) a γ je diskontný faktor odrážajúci, ako budú budúce odmeny vážené vzhľadom na okamžité odmeny. Funkcia počiatočnej hodnoty bola nastavená tak, aby V (s) bol 0 pre všetky stavy s.

Hodnotová funkcia V (s) bola implementovaná ako vyhľadávacia tabuľka, ktorá je formálne ekvivalentná predpokladu dokonalej pamäte. Hoci funkčné aproximátory, ako sú neurónové siete, boli použité s určitým úspechom na reprezentáciu hodnotových funkcií [1], vyhľadávacia tabuľka bola použitá na zabezpečenie toho, aby výsledky neboli závislé od typov mechanizmu zovšeobecňovania, ktoré poskytujú rôzne funkčné aproximátory. Agent bol vyškolený na 1,500 vzdelávacie iterácie nad jeho stavovým priestorom. Kvôli nepredvídateľnosti identity objektov sa počas učenia použil parameter aktualizácie hodnoty funkcie menší ako jeden (α = 0.01), aby sa umožnilo spriemerovanie rôznych výsledkov. Nakoniec, diskontný faktor bol nastavený na γ = 0.99, aby povzbudil agenta k tomu, aby hľadal odmenu skôr, než odložil svoje prístupové správanie až do konca pokusu (hoci jeho zmena z predvolenej hodnoty 1 nemala žiadny vplyv na výsledky tu uvedené. ) Aby sa nezávisle určilo, či 1,500 vzdelávacie iterácie boli dostatočné na to, aby sa učenie dokončilo, priemerné množstvo zmeny v učení sa monitorovalo a zistilo sa, že sa konvergovalo pred týmto počtom iterácií.

Po tréningu je špecifický algoritmus, ktorý riadi správanie agenta (tj politika akcií, ktoré berie z každého daného stavu):

(Rovnica 2)

kde π (s) je akcia, ktorú agent vyberie zo stavu s, a pravá strana rovnice vracia akciu (napr. zmena orientácie, pohybu alebo žiadna akcia), ktorá maximalizuje súčet odmeny a diskontovanej hodnoty výsledného stavu s ′.

V simulácii, ktorá je uvedená nižšie, boli všetky stavy, ktoré agent navštívil, kódované ako 7-rozmerné vektory, ktoré predstavovali informácie o vonkajšom „fyzickom“ stave agenta a jeho vnútornom stave „vedomostí“. Fyzické informácie zahŕňali aktuálnu pozíciu agenta v priestore a jeho orientáciu. Informácie o vedomostiach zahŕňali polohu objektu (ak bol prítomný) a identitu tohto objektu (ak bol určený agentom). Konkrétne typy informácií, ktoré predstavoval zástupca, sú uvedené v tabuľke 1.

Tabuľka 1

Rozmery použité v simuláciách RL a možné hodnoty týchto rozmerov.

V simulácii bolo celkovo 21,120 stavov [Footnote 2]. Štáty, v ktorých bol neidentifikovaný pozitívny a neidentifikovaný negatívny objekt, sú však z pohľadu agenta identické, preto existujú len odlišné štáty 16,280. Počas každej iterácie učenia bolo teda potrebné dvakrát navštíviť niektoré z týchto „identických“ štátov, aby sa umožnila skutočnosť, že polovica času, po ktorom by mohli nasledovať objavenie pozitívneho objektu, a polovica času, ktorý by mohli byť nasledovať objav negatívneho objektu [poznámka pod čiarou 3].

Na začiatku každej simulovanej testovacej skúšky bol prostriedok umiestnený do stredu simulovanej lineárnej 11 × 1 jednotkovej stopy s piatimi medzerami na „východ“ (tj napravo) agenta a päť miest na západ. “(Tj vľavo) agenta. Ako ukazuje tabuľka 1, stavový vektor agenta obsahoval prvok označujúci jeho aktuálnu polohu na stope (tj celé číslo od 0 do 10), ako aj prvok (tj znak „n“, „s“, “ e “alebo„ w “, čo predstavuje jeho aktuálnu orientáciu (tj sever, juh, východ alebo západ). Pôvodná orientácia agenta bola vždy nastavená na „sever“ a v prostredí nebol prítomný žiadny iný objekt (tj hodnota „OBJECT“ v stavovom vektore agenta bola nastavená na hodnotu „0“).

Počas každého časového kroku simulácie by agent mohol vykonávať jednu z nasledujúcich akcií: (1) nerobiť nič a zostať v aktuálnej polohe a orientácii; (2) orientovať na sever, juh, východ alebo západ; alebo (3) presunúť jeden priestor v prostredí (na východ alebo na západ). Výsledok každej akcie sa uskutočnil v nasledujúcom simulovanom časovom kroku. Všetky zmeny v umiestnení a / alebo orientácii agenta v priestore nastali výberom akcií agentom. Avšak počas každého časového kroku simulácie, aj keď bola zvolená akcia „nerobiť nič“, 1 zvýšil čas až do konca pokusu (tj časového kroku 20).

Prostredie agenta bolo nastavené tak, že polovica času, objekt sa objavil na náhodnom mieste (ale nie na rovnakom mieste ako agent) po desiatich časových krokoch; 50% objektov bolo kladných (reprezentovaných znakom „+“; pozri tabuľku 1) a 50% objektov bolo záporných (reprezentovaných znakom „-“). Oneskorenie pred objavením sa predmetu bolo zavedené, aby sa umožnilo pozorovanie akéhokoľvek správania, ktoré agent mohol prejaviť pred objavením sa objektu. Ak agent nebol orientovaný smerom k objektu, keď sa objavil, potom prvok reprezentujúci identitu „OBJECT“ v stavovom vektore agenta bol zmenený z „0“ na „?“, Aby odrážal skutočnosť, že identita objektu, ktorý bol teraz v súčasnosti neznáma. Ak však bol agent orientovaný smerom k objektu, potom v nasledujúcom časovom kroku bol prvok „OBJECT“ nastavený na identitu objektu, takže „0“ sa stalo buď „+“ alebo „-“ pre pozitívne a záporných objektov.

Ak sa agent presunul na miesto objektu, potom počas nasledujúceho kroku objekt zmizol. Ak bol objekt pozitívny, potom bol príznak agenta „CONSUMED“ nastavený na hodnotu true a agent bol odmenený (odmena = + 10); ak bol však objekt záporný, potom bol symbol „SHOCKED“ nastavený na hodnotu true a agent bol potrestaný (odmena = −10). (Všimnite si, že vlajky boli nastavené takýmto spôsobom bez ohľadu na to, či agent mal alebo neidentifikoval objekt, napr. Agent mohol spotrebovať objekt bez toho, aby sa k nemu orientoval.) V nasledujúcom časovom kroku sa „SHOCKED“ alebo Vlajka „SPOTREBENÁ“ bola vymazaná. Agentovi bol tiež udelený malý trest (posilnenie = −1) pre každý pohyb alebo orientáciu a nedostal žiadnu odmenu ani trest (posilnenie = 0), ak nevykonal žiadnu akciu.

Pre agenta boli kvantifikované zjavné správanie (tj orientácia a pohyb) a miera chyby predikcie odmeny. Zjavné správanie (tj zoznam činností vybraných agentom) sa použilo ako údaj o tom, či sa úloha naučila. Meranie chyby predikcie odmeny sa použilo na otestovanie hypotézy o vzniku neodmysliteľného dopaminergného fázového signálu. Chyba predikcie odmeny, δ, bola meraná v čase t vzhľadu objektu odčítaním predikcie odmeny v predchádzajúcom časovom kroku, tj V (s) v časovom kroku t-1, od predikcie odmeny, keď objekt sa objavil, tj V (s) v čase t, dávajúci množstvo δ = V (st) - V (st − 1).

výsledky
Simulované správanie

Zjavné správanie sa činidiel sa najprv kvantifikovalo. Výsledky tejto analýzy ukázali, že po tréningu sa agent priblížil a získal pozitívne zosilnenie zo všetkých pozitívnych objektov a nikdy sa nedostal k žiadnemu z negatívnych objektov. Tieto výsledky spoločne poskytujú potvrdenie o správaní, že agenti sa naučili správne vykonávať úlohu. Tento záver je posilnený dodatočným pozorovaním, že počas pokusov, keď sa neobjavil žiaden objekt, agent zostal nehybný. Ako sa predpokladalo, agent sa orientoval na pozitívne aj negatívne objekty.

Chyba simulovanej predikcie

Ústrednou hypotézou tohto článku je, že výskyt nepredvídateľného stimulu bude konzistentne generovať pozitívnu chybu predikcie odmeny, aj keď sa tento objekt stane „negatívnym“ objektom, ktorý je vždy trestný. Na podporu tejto hypotézy, agent vykazoval pozitívnu odmenu-predikčná chyba vždy, keď sa objavil (neidentifikovaný) objekt, ale nie, keď sa nič neobjavilo. Taktiež v súlade s centrálnou hypotézou je skutočnosť, že veľkosť fázovej odozvy agenta (δ, meraná podľa opisu v časti Metóda) bola citlivá na simulovanú „intenzitu“ stimulu, definované pomocou vzdialenosti medzi agentom a objektom (pozri obrázok 1). Regresná analýza ukázala, že veľkosť δ nepriamo súvisí so vzdialenosťou od objektu, takže bližšie objekty spôsobili silnejšiu odozvu (r = -0.999, p <0.001; β = 0.82). Táto negatívna korelácia bola spôsobená malým trestom (posilnenie = −1), ktorý bol uložený za každý pohyb, ktorý bol agent povinný vykonať, aby sa presunul k pozitívnemu objektu, skonzumoval ho a tým získal odmenu.

Obrázok 1

Tento obrázok ukazuje chybu predikcie odmeny (tj. Δ), keď sa objekt javil ako funkcia polohy objektu vo vzťahu k miestu agenta. Odpovede sú rovnaké pre pozitívne aj negatívne objekty. Keď žiadny objekt (viac ...)

Vzhľadom na to, že v tejto simulácii sa objavili pozitívne a negatívne objekty s rovnakou pravdepodobnosťou (p = .25), vzniká otázka: Prečo bol pozitívny signál predikcie chyby agenta v čase vzhľadu objektu? Dalo by sa predpokladať, že signál by mal odrážať priemer všetkých naučených odmien z takýchto situácií, a preto by sa mal rovnať nule. Kľúčom k pochopeniu tohto výsledku je poznamenať, že nielen že RL robí agenta menej pravdepodobným, že si vyberie akcie, ktoré vedú k negatívnemu zosilneniu, ale tiež robí agent menej pravdepodobným, že vstupuje do štátov, ktoré nakoniec vedú k negatívnemu zosilneniu. Výsledkom je forma „vyššieho rádu“, ktorá je znázornená na obrázku 7 a opísaná ďalej.

Obrázok 2

Ilustrácia znázorňujúca, ako agent RL vyvíja pozitívnu chybu predpovede odmeny, keď je trénovaný s motivačnými aj trestajúcimi stimulmi vo svojom prostredí a je schopný zvoliť si, či k nim bude pristupovať a konzumovať ich. (A) Situácia pred učením: (viac ...)

Na začiatku učenia (pozri obr. 2A) sa agent orientuje na objekty „+“ aj „-“, pristupuje k nim a je odmenený a potrestaný konzumáciou každého typu objektu. Ak hodnoty stavu učeného agenta nedokázali ovplyvniť akcie agenta (pozri Obrázok 2B), agent by pokračoval v prístupe a využívaní objektov. Vzhľad tága by potom predpovedal priemernú odmenu 0 a nastalo by náhle zvýšenie chyby v predikcii odmeny. Agent v tejto simulácii však používa hodnoty naučeného stavu na ovplyvnenie svojich akcií (pozri Obrázok 2C), a hoci agent musí stále orientovať na neznámy objekt, aby určil svoju identitu, už nebude spotrebovať negatívny objekt, ak sa priblížil (ako by to bolo možné, ak by bol vyškolený algoritmom náhodného prieskumu, ako je vzorkovanie trajektórie [Poznámka pod čiarou 1]). Okrem toho, pretože učenie časových rozdielov umožňuje predikciu negatívnej odmeny „šíriť“ späť do predchádzajúcich stavov, a pretože existuje malé náklady na pohyb v priestore, agent sa naučí vyhnúť sa úplnému prístupu k negatívnemu objektu. Potom, čo sa táto informácia dozvedela, hodnota stavu, keď sa prvý objekt objaví (označená ako „V“ v prvom kruhu v každej sekvencii), nie je založená na priemere kladných a záporných hodnôt výstupného stavu, ale je namiesto toho sa zakladá na priemere pozitívneho a „neutrálneho“ výsledku, ktorý sa dosiahne, keď sa agent naučí vyhýbať sa negatívnym objektom. To je dôvod, prečo priemer všetkých odmien skutočne získaných vyškoleným agentom bol väčší ako nula, a vysvetľuje, prečo predikcia odmeny agenta (a teda chyba predikcie odmeny, keď sa objekt náhle objaví) bola čistá. Toto je znázornené na obrázku 3. V skutočnosti, pokiaľ sa agent môže naučiť meniť svoje správanie a vyhýbať sa negatívnemu objektu, hodnota negatívneho objektu je v konečnom dôsledku irelevantná pre konečné správanie agenta a veľkosť reakcie odozvy / novosti.

Obrázok 3

(A) Demonštruje zmeny v predikcii odmien, ku ktorým by došlo, keby RL neviedlo k učeniu vyššieho rádu (tj. Ak by agent nemohol prijať opatrenia na zabránenie negatívnemu výsledku), takže bol agent nútený spotrebovať všetky predmety (viac ...)

Výsledky simulácie sú kriticky závislé od troch predpokladov. Po prvé, stimuly museli byť „výrazné“ v tom, že veľkosť zosilnenia predpovedaného počiatočným tágom bola dostatočne veľká (napr. + 10) vo vzťahu k nákladom na orientáciu a priblíženie (napr. −1). Ak by veľkosť bola relatívne malá, agent by sa nenaučil orientovať, ani by nevytvoril pozitívnu odozvu na predikciu chýb. Po druhé, oneskorenie pred rozpoznaním stimulov bolo tiež potrebné. (Oneskorenie je náhradou za „novosť“ pod odôvodnením, že by sa rýchlo rozpoznal známy podnet.) Bez oneskorenia by agent jednoducho vygeneroval príslušnú pozitívnu alebo negatívnu chybu predikcie odmeny vhodnú pre skutočne vnímaný objekt. Nakoniec, správanie agenta muselo byť určené hodnotami, ktoré sa naučil. Ak by agent nemohol ovládať svoje vlastné správanie (tj či sa má priblížiť k podnetom), potom jeho predikcia odmeny, keď sa objavil objekt, by sa rovnala 0, čo je priemer rovnomerných pozitívnych a negatívnych výsledkov.

Všeobecná diskusia

Simulácia uvedená v tomto článku ukázala, že pozitívna chyba predikcie odmeny nastáva vtedy, keď sa objaví nepredvídateľný stimul, buď odmeňovaný alebo trestajúci, ale nie je možné ho okamžite identifikovať. Okrem toho simulácia ukázala, že veľkosť chyby predikcie odmeny sa zvyšuje s blízkosťou stimulu k agentovi, ktorý v kontexte simulácie je proxy mierou intenzity stimulu, a teda súvisí s významom. V teoretickom rámci RL sa predpovede odmeňovania bežne chápu tak, aby odrážali nadobudnutú hodnotu rozpoznaných stimulov alebo fyzických a / alebo kognitívnych stavov látky [15]. Avšak tu uvedená chyba predikcie predikcie má kvalitatívne odlišnú interpretáciu, pretože je generovaná predtým, ako agent rozpoznal objekt. Tieto výsledky spoločne podporujú hypotézu, že princípy RL sú dostatočné na to, aby vytvorili reakciu, ktorá je zdanlivo nesúvisiaca s odmenou, ale namiesto toho súvisí s vlastnosťami novosti a výkyvov. Tento záver má niekoľko dôležitých následkov pre naše všeobecné chápanie RL a pre našu interpretáciu RL ako popisu učenia sa odmeňovania v reálnych biologických organizmoch.

Po prvé, predikcia odmeny, ktorá je generovaná agentom RL, keď sa objaví neidentifikovaný stimul, nie je nevyhnutne striktným priemerom dosiahnuteľných odmien, ako to navrhli Kakade a Dayan [7], ale v skutočnosti môže byť väčšia v porovnaní s týmto priemerným priemerom. Kakade a Dayan by predpovedali, že priemerná predikcia odmeny by sa mala rovnať nule, pretože pokusy boli odmeňované a trestané rovnako často. Tento prekvapivý výsledok sa objavil, pretože agent sa naučil spôsobom „on-policy“; to znamená, že sa agent dozvedel nielen o negatívnych výsledkoch, ale aj o jeho schopnosti vyhnúť sa týmto výsledkom. Táto schopnosť systému odmeňovania spôsobovať, aby sa agent vyhýbal negatívnym výsledkom, by sa mala starostlivo zvážiť pri prekladaní nášho chápania RL do reálnych organizmov. Táto skutočnosť je potenciálne ešte dôležitejšia vzhľadom na zjavnú asymetriu v schopnosti dopaminergnej fázovej odozvy reprezentovať pozitívnu predikčnú chybu v odmene lepšiu ako negatívna chyba predikcie [11]. Môže byť postačujúce uviesť, že určitá postupnosť udalostí vedie k negatívnemu výsledku, ale že na účely výberu opatrení je rozsah tohto výsledku nedôležité.

Druhé rozloženie súčasnej simulácie spočíva v tom, že novátorská odozva sa môže prejaviť v interakcii medzi percepčnými systémami spracovania a systémami predikcie odmeňovania. Konkrétne, novátorská odpoveď môže byť spôsobená podobnosťou podobnosti medzi novými objektmi a objektmi, ktoré ešte neboli podrobené úplnému percepčnému spracovaniu [poznámka pod čiarou 4]. V tejto simulácii bola novinka implementovaná zavedením oneskorenia pred tým, ako sa agentovi zjavila identita objektu (a teda jeho odmeňujúca alebo trestná povaha). Uskutočnilo sa to za predpokladu, že nové objekty budú trvať dlhšie na identifikáciu, ale tento predpoklad tiež vyústil do toho, že pozitívne a negatívne objekty boli vnímané podobne, keď sa prvýkrát objavili (tj boli oba kódované ako „?“). Na rozdiel od toho Kakade a Dayan [7] naznačujú, že novátorské odpovede a „generalizačné“ odpovede sú v podstate odlišné napriek tomu, že sa prejavujú podobne v údajoch neurofyziológie.

Tretím rozdielom súčasných výsledkov simulácie je, že ukazujú, že dodatočné predpoklady novosti a tvarovania bonusov, ktoré navrhli Kakade a Dayan [7], nie sú potrebné. Namiesto toho, novo podobné reakcie sa môžu objaviť z realistických obmedzení vnímania a vedomostí o schopnosti vyhnúť sa negatívnym výsledkom. Je to šťastie, pretože, ako poukázali Kakade a Dayan, novátorské bonusy skresľujú hodnotovú funkciu, ktorú sa naučil agent, a tvarovanie bonusov ovplyvňuje spôsob, akým agenti skúmajú svoje stavové priestory. Zahrnutie niektorého z týchto predpokladov tak znižuje vyváženosť modelov založených na teórii RL. Zaujímavé je, že výsledky prezentované v tomto dokumente tiež pomáhajú vysvetliť, prečo odpoveď na biologickú novosť nemusí byť rušivá pre učenie založené na odmene v reálnych organizmoch. To znamená, že novinka odozva odráža správanie a odmenu predpovede, ktoré sú vlastné agent, ktorý sa už naučil niečo o svojom prostredí.

Alternatívnou (ale nie vzájomne sa vylučujúcou) interpretáciou výsledkov súčasnej simulácie je, že skutočne existuje abstraktná (možno kognitívna) odmena, ktorú agenti získajú orientáciou na a identifikovaním objektov. V štúdiách dopaminergnej aktivity sa môžu vyskytnúť pozitívne fázové reakcie na neočakávané narážky, o ktorých je známe, že predpovedajú odmenu. Táto simulácia však ukazuje, ako tieto druhy odpovedí môžu nastať aj v reakcii na pokyn, ktorý by mohol nakoniec predpovedať buď odmenu alebo trest. Jediná konzistentná výhoda, ktorú predpovedá tágo, je zisk v informáciách získaných vtedy, keď agent určuje identitu objektu. Ak teda existuje platná, naučená „predikcia odmeny“, keď sa objaví neidentifikovaný objekt, je to ten, ktorý je splnený potom, čo agent získa vedomosti o tom, či sa má podnet podnecovať alebo sa mu vyhnúť. Hodnota týchto informácií nie je založená na priemere dosiahnuteľných výsledkov, ale namiesto toho je založená na poznaní efektívnych výsledkov - že agent môže buď konzumovať pozitívnu odmenu alebo sa vyhnúť negatívnej odmene (pozri obrázok 2).

Nakoniec je dôležité poznamenať, že možnosti prijať konkrétne opatrenia (napr. Orientovať sa) môžu samy prevziať odmeňovanie za vlastnosti prostredníctvom nejakého mechanizmu zovšeobecňovania alebo učenia, ktorý nie je súčasťou tejto simulácie. Napríklad samotný akt orientácie a určovania „čo je tam vonku“ by sa mohol stať odmeňovaním organizmu založeného na asociácii medzi touto činnosťou a vyššie opísanou, vždy pozitívnou chybou predikcie odmeny, keď sa objavia nové podnety. Podobnú myšlienku nedávno pokročili Redgrave a Gurney [13], ktorí sa domnievajú, že dôležitým cieľom fázovej dopamínovej odpovede je posilniť akcie, ku ktorým dochádza pred nepredvídanými udalosťami. Výsledky tu nie sú nezlučiteľné s touto hypotézou, je však potrebné poznamenať, že Redgraveho a Gurneyho hypotéza nie je priamo testovaná v tejto simulácii, pretože pre agenta neboli potrebné žiadne akcie (napr. Skúmanie) agenta, aby sa táto udalosť prejavila objekt). Simulovaný fázový signál sa však časovo zhodoval s časom orientačnej odozvy, čo naznačuje, že tieto dve môžu byť silne prepojené.

Na záver, tento článok ukázal, že RL princípy môžu byť použité na vysvetlenie typu zdanlivo non-odmeny súvisiace aktivity dopaminergných neurónov. Tento výsledok vyplynul zo skutočnosti, že pravidlo učenia časového rozlíšenia (ako je pravidlo používané Kakade a Dayanom [7]) bolo vložené do simulácie, v ktorej agent mohol vybrať akcie, ktoré mali vplyv na konečný výsledok. V simulácii sa agent dozvedel, že výsledok orientácie na objekt, ktorý sa náhle objavil, môže byť vždy buď odmeňovaný, alebo neutrálny, pretože negatívny výsledok sa dá vyhnúť. Preto, keď mal agent možnosť orientovať sa, jeho chyba predikcie odmeny bola vždy pozitívna, výpočtovo analogická s novinkou a salienčnými reakciami pozorovanými v biologických organizmoch.

Poďakovanie

Práca opísaná v tomto článku bola podporená NIH R01 HD053639 a NSF Training Grant DGE-9987588. Chcel by som poďakovať Erikovi Reichlovi, Tesse Warrenovej a anonymnému recenzentovi za užitočné komentáre k staršej verzii tohto článku.

1Another Reinforcement Učenie algoritmus, tzv Trajectory Sampling [17], sa často používa namiesto hodnoty Iterácia, keď stav priestoru sa stáva tak veľký, že nemôže byť vyčerpávajúco iterovať alebo ľahko uložené v pamäti počítača. Namiesto iterácie v každom stave v stavovom priestore a aplikovania rovnice na aktualizáciu hodnotovej funkcie založenej na akciách, ktoré vedú k najväčšej odmene, funguje Odber vzoriek trajektórií nasledujúcimi cestami cez stavový priestor. Podobne ako hodnota Iterácia, akcie vedúce k najväčšej odmene sa zvyčajne vyberajú z každého štátu, ale občas sa náhodná prieskumná akcia vyberie s malou pravdepodobnosťou. Algoritmus je teda: Z niektorých východiskových stavov s vyberte akciu vedúcu k najväčšej odmene [napr. Odmena + γV (s ′)] s pravdepodobnosťou ε, alebo výber náhodnej prieskumnej akcie s pravdepodobnosťou 1 - ε. Použite V (s) → V (s) + α [odmenu + γV (s ′) - V (s)] počas neprevádzkových činností zo stavu s.

Okrem prekonania technických obmedzení výpočtového času a pamäte môže byť Odber vzoriek trajektórie príťažlivý, pretože môže lepšie odrážať spôsob, akým sa reálne biologické organizmy učia: skúmaním ciest v stavovom priestore. Na úlohu opísanú v tomto dokumente, Odber vzoriek trajektórií prináša výsledky, ktoré sú kvalitatívne identické s výsledkami získanými pomocou Value Iteration. Pre stručnosť však tieto výsledky nie sú podrobne uvedené. Hodnota Iterácia bola vybraná pre simuláciu v tomto príspevku z dvoch hlavných dôvodov. Po prvé, pretože vzorkovanie trajektórie zahŕňa stochastičnosť pri výbere trajektórií, veľké množstvo rozvetvenia, ktoré je spôsobené mnohými možnými postupmi akcií v tejto úlohe, môže mať za následok, že agenti, ktorí nemajú skúsenosti s niektorými stavmi, pokiaľ parameter expanzie-využitie (napr. ε-greediness [17]) sa starostlivo vyberie. Tento nedostatok skúseností s konkrétnymi stavmi môže rušiť výkon agenta, keď sa používa pamäťová štruktúra vyhľadávacej tabuľky z dôvodu nedostatku zovšeobecnenia hodnoty na podobné (ale možno nenavštívené) stavy. Bolo teda výhodné využiť vyčerpávajúce skúmanie stavového priestoru, ktorý je zaručený hodnotou Iterácia. Po druhé, použitie hodnoty Iterácia eliminovalo potrebu zadať tento dodatočný parameter využitia prieskumu, čím sa simulácia zjednodušila. Všimnite si, že vzorkovanie trajektórie môže v konečnom dôsledku aproximovať hodnotu Iterácia, pretože počet trajektórií sa blíži nekonečne [17].

2The počet stavov 21,120 možno vypočítať nasledovne: 11 možné umiestnenie agenta × 4 možné agent orientácie × (10 čas-kroky pred objekt sa môže objaviť + 10 čas-kroky, kde žiadny objekt sa objavil + 10 časové kroky, kde agent bol pozitívne zosilnené + 10 časové kroky, kde objekt bol negatívne posilnený + 11 možné umiestnenie objektov * (10 časové kroky s pozitívnym identifikovaným objektom + 10 časové kroky s negatívnym identifikovaným objektom + 10 časové kroky s neidentifikovaným pozitívnym objektom) + 10 časové kroky s neidentifikovaným negatívnym objektom))].

Existencia týchto „skrytých“ stavov sa musí brať do úvahy počas tréningu, pretože Value Iteration vyzerá len „o krok dopredu“ od každého štátu v štátnom priestore. Skutočnosť, že stavy s negatívnymi a pozitívnymi neidentifikovanými objektmi sú efektívne identické, by zabránili spoznávaniu a spriemerovaniu hodnôt v dvoch rôznych následných stavoch, v ktorých sa identifikuje buď pozitívny alebo negatívny objekt. Prístup vzorkovania trajektórie na druhej strane zachováva skryté stavové informácie (tj identitu neidentifikovaného stimulu) počas celého procesu a tak s týmto variantom RL skryté stavy nie sú problémom.

Potenciálnou námietkou k tejto práci je, že orientačná odozva sa zdá byť v mozgu cicavcov pevne zapojená, napríklad v projekciách z superior colliculus [4]. V tejto simulácii agenti neboli tvrdo zapojení, aby sa orientovali na objekty, ale namiesto toho sa naučili orientačné správanie, ktoré umožnilo konečný výber akcie (napr. Prístupu alebo vyhýbania sa), ktorá maximalizovala odmenu. Podobne ako pri hard-wired odpovediach, tieto orientačné správanie sa vyskytovalo veľmi rýchlo, predtým ako boli objekty identifikované, a boli nasmerované na všetky objekty. Cieľom tejto práce nebolo tvrdiť, že všetky takéto odpovede sú získané, ale skôr že môžu existovať v rámci RL. Bolo by však zaujímavé preskúmať, či by sa mechanizmy vytvárania odmeny mohli podieľať na vytváraní konektivity v oblastiach mozgového kmeňa, aby sa vytvorila táto fázová reakcia dopamínu.

Toto je súbor PDF s neupraveným rukopisom, ktorý bol prijatý na uverejnenie. Ako službu pre našich zákazníkov poskytujeme túto skoršiu verziu rukopisu. Rukopis sa podrobí kopírovaniu, sádzaniu a preskúmaniu výsledného dôkazu skôr, ako sa uverejní vo svojej konečnej podobe. Upozorňujeme, že počas výrobného procesu môžu byť zistené chyby, ktoré by mohli mať vplyv na obsah, a všetky právne zrieknutia sa zodpovednosti, ktoré sa vzťahujú na časopis.

Referencie

1. Baird LC. Reziduálne algoritmy: učenie posilnenia s aproximáciou funkcií. In: Priedetis A, Russell S, redaktori. Strojové učenie: Zborník z dvanástej medzinárodnej konferencie; 9 – 12 July.1995.

2. Bunzeck N, Düzel E. Absolútne kódovanie stimulačnej novosti v ľudskej substantia nigra / VTA. Neurón. 2006, 51 (3): 369-379. [PubMed]

3. Dommett E, Coizet V, Blaha CD, Martindale J, Lefebvre V, Walton N, Mayhew JEW, Overton PG, Redgrave P. Ako vizuálne stimuly aktivujú dopaminergné neuróny v krátkej latencii. Science. 2005, 307 (5714): 1476-1479. [PubMed]

4. Doya K. Spracovanie kovov a neuromodulácia. Neurálne siete. 2002 jún – júl; 15 (4 – 6): 495 – 506. [PubMed]

5. Gillies A, Arbuthnott G. Výpočtové modely bazálnych ganglií. Poruchy pohybu. 2000, 15 (5): 762-770. [PubMed]

6. Horvitz JC. Mezolimbokokortikálne a nigrostriatálne dopamínové reakcie na výrazné non-odmeny udalosti. Neuroscience. 2000, 96 (4): 651-656. [PubMed]

7. Kakade S, Dayan P. Dopamine: zovšeobecnenie a bonusy. Neurálne siete. 2002, 15 (4-6): 549-559. [PubMed]

8. Knutson B, Cooper JC. Návnada neznáma. Neurón. 2006, 51 (3): 280-282. [PubMed]

9. Logothetis NK, Pauls J, Augath M, Trinath T, Oeltermann A. Neurofyziologické vyšetrenie základu signálu fMRI. Nature. 2001, 412 (6843): 150-157. [PubMed]

10. McClure SM, Berns GS, Montague PR. Časové predikčné chyby v pasívnej učiacej úlohe aktivujú ľudské striatum. Neurón. 2003, 38 (2): 339-346. [PubMed]

11. Niv Y, Duff MO, Dayan P. Dopamin, neistota a TD učenie. Behaviorálne a mozgové funkcie. 2005 Môže 4; 1: 6. [PMC free article] [PubMed]

12. O'Doherty JP, Dayan P, Friston K, Critchley H, Dolan RJ. Modely časových rozdielov a učenie v ľudskom mozgu súvisiace s odmenou. Neurón. 2003, 38 (2): 329-337. [PubMed]

13. Redgrave P, Gurney K. Krátkodobý dopamínový signál: úloha pri objavovaní nových akcií? Nature Reviews Neuroscience. 2006 Dec; 7 (12): 967 – 975.

14. Redgrave P, Prescott TJ, Gurney K. Je krátkodobá dopamínová odpoveď príliš krátka na to, aby signalizovala chybu? Trendy v Neurosciences. 1999 Apr; 22 (4): 146 – 151. [PubMed]

15. Reichle ED, Laurent PA. Využitie posilňovacieho učenia na pochopenie vzniku „inteligentného“ správania pri pohybe očí počas čítania. Psychologický prehľad. 2006, 113 (2): 390-408. [PubMed]

16. Schultz W. Prediktívny signál odmien dopamínových neurónov. Journal of Neurophysiology. 1998, 80 (1): 1-27. [PubMed]

17. Sutton RS, Barto AG. Výcvik posilnenia: Úvod. MIT Stlačte; Cambridge: 1998.

18. Tanaka SC, Doya K, Okada G, Ueda K, Okamoto Y, Yamawaki S. Predpovede okamžitých a budúcich odmien v závislosti od rekrutov kortiko-bazálnych gangliálnych slučiek. Nature Neuroscience. 2004, 7 (8): 887-893.