Vznik význačnosti a novosti odpovědí z posilování principů učení (2008)

KOMENTÁŘE: Další studie prokazující, že novinkou je vlastní odměna. Jedním z návykových aspektů internetového porna je nekonečná novinka a rozmanitost, schopnost rychle klikat z jedné scény na druhou a hledání správného obrazu / videa. To vše zvyšuje dopamin. Díky tomu se internetové porno liší od časopisů nebo pronajatých DVD.

Úplné studium: Vznik závažnosti a reakcí na novinky z principů učení o posílení

Neural Netw. 2008 prosinec; 21 (10): 1493 – 1499.

Publikováno online 2008 Září 25. doi: 10.1016 / j.neunet.2008.09.004

Patryk A. Laurent, University of Pittsburgh;

Adresujte veškerou korespondenci na: Patryk Laurent, University of Pittsburgh, 623 LRDC, 3939 O'Hara St., Pittsburgh, PA 15260 USA, E-mail: [chráněno e-mailem], Kancelář: (412) 624-3191, Fax: (412) 624-9149

Abstraktní

Nedávné pokusy mapovat modely učení založené na odměňování, jako je učení Reinforcement Learning [17], do mozku, jsou založeny na pozorování, že fázové zvyšování a snižování rozptylu signálů neuronů uvolňujících dopaminy mezi predikovanou a obdrženou odměnou [16,5]. Tato chyba predikce odměny je však pouze jedním z několika signálů sdělených touto fázovou aktivitou; další zahrnuje zvýšení dopaminergního spiknutí, což odráží výskyt význačných, ale nepředvídaných nepodnětných podnětů [4,6,13], zejména když organismus následně směřuje k podnětu [16]. Kakade a Dayan [7] a další vysvětlili tato zjištění, že nové, neočekávané podněty jsou vnitřně prospěšné. Simulace uvedená v tomto článku ukazuje, že tento předpoklad není nutný, protože účinek, který má zachytit, vychází z mechanismů učení předpovědí odměny učení o posílení. Principy posilování učení tedy mohou být použity k pochopení nejen aktivity dopaminergních neuronů bazálních ganglií související s odměnami, ale také některých jejich zjevně neziskových aktivit.

Výzkum zesílení (RL) nabývá na významu při vývoji výpočetních modelů učení založeného na odměňování v mozku. RL je třída výpočetních algoritmů, která specifikují, jak se umělý „agent“ (např. Skutečný nebo simulovaný robot) může naučit vybírat akce za účelem maximalizace celkové očekávané odměny [17]. V těchto algoritmech agent zakládá své akce na hodnotách, které se naučí spojovat s různými stavy (např. Percepční narážky spojené s podnětem). Tyto hodnoty lze postupně naučit pomocí učení s časovým rozdílem, které upravuje stavové hodnoty na základě rozdílu mezi existující predikcí odměny agenta za stát a skutečnou odměnou, která je následně získávána z prostředí. Ukázalo se, že tento vypočítaný rozdíl, nazývaný chyba predikce odměny, koreluje velmi dobře s fázovou aktivitou neuronů uvolňujících dopamin, které se promítají z substantia nigra u primátů jiných než člověk [16]. Navíc u lidí striatum, které je důležitým cílem dopaminu, vykazuje signál fMRI BOLD, který se zdá, že odráží chybu předpovědi odměny během úkolů učení se odměně [10,12,18]. Toto zjištění fMRI doplňuje fyziologická data, protože se předpokládá, že striatální BOLD odráží, alespoň částečně, aferentní synaptickou aktivitu [9] a dopaminové neurony silně promítají do striata.

Ačkoli se zdá, že výše uvedené fyziologické odpovědi souvisejí s výpočty predikce odměn RL, dochází také ke zvýšení dopaminergní fázové aktivity v reakci na vzrušující a / nebo nové podněty, které se zdánlivě nesouvisejí s odměnou [4,6,14,3]. Podobný jev byl nedávno pozorován u lidí užívajících fMRI [2]. Existuje několik důvodů, proč se říká, že tato „novinka“ nebo „význačná“ reakce nesouvisí s chybou predikce odměny: (1) se zdá velmi brzy, než byla zhodnocena identita podnětu, takže přesná predikce odměny nemůže být být generován; (2) odpovídá zvýšení nervové aktivity (tj. Je pozitivní) pro averzní i chutný podnět; a (3) návyky [13]. Ve skutečnosti jsou tyto výrazné / novinové odpovědi neuronů uvolňujících dopamin nejspolehlivější, pokud jsou podněty nepředvídané a mají za následek orientační a / nebo přístupové chování [16] bez ohledu na konečný výsledek, což zdůrazňuje skutečnost, že se kvalitativně liší od naučené odměny předpověď. Výzvou tedy bylo vysvětlit tento zřejmý paradox (tj. Jak novost ovlivňuje chybu predikce odměny) v teoretickém rámci RL.

Kakade a Dayan [7] se o to pokusili přesně; ve svém článku předpokládají dva způsoby, jak by bylo možné do novinek RL modelů dopaminergních funkcí začlenit novinové odpovědi - oba zahrnovaly zahrnutí nových teoretických předpokladů. První předpoklad, označovaný jako novinové bonusy, zahrnuje zavedení další odměny, pokud jsou přítomny nové podněty, nad rámec obvyklé odměny, kterou agent dostal. Tato dodatečná odměna vstupuje do výpočtu, takže učení je založeno na rozdílu mezi existující predikcí odměny agenta a součtem obvyklé odměny z prostředí a bonusem za novinky. Novinka se tak stává součástí odměny, kterou se agent snaží maximalizovat. Druhý předpoklad, nazývaný tvarovací bonusy, lze realizovat umělým zvyšováním hodnot stavů spojených s novými podněty. Protože pravidlo učení se časovým rozdílem používané v RL je založeno na rozdílu v predikci odměny mezi po sobě jdoucími stavy, přidání bonusu za konstantní tvarování do států zabývajících se novými stimuly nemá žádný vliv na konečné chování agenta. Odezva na novost však stále vzniká, když agent vstoupí do části státního prostoru, který byl „tvarován“ (tj. Který je spojen s novinkou).

Ačkoli přidání každého z těchto předpokladů je dostatečné k vysvětlení mnoha pozorovaných účinků novosti, předpoklady také narušují postup učení. Jak zdůrazňují Kakade a Dayan [7], bonusy za novinky mohou narušit hodnotovou funkci (tj. Hodnoty spojené s každým stavem agentem) a ovlivnit to, co se nakonec naučí, protože jsou implementovány jako další odměna, která je přirozeně spojena s novými státy. Problém je v tom, že se agent učí předpovídat jak primární, tak novinkovou složku odměny. Přestože Kakade a Dayan poukazují na to, že tvarovací bonusy nezpůsobují tento typ problému, protože se začleňují do předpovědí odměn z předchozích států, jejich přidání je stále problematické, protože tvarování bonusů zavádí zkreslení do způsobu, jakým agent prozkoumá svůj stavový prostor. Třebaže tyto dodatečné předpoklady mohou vysvětlit, jak novost ovlivňuje chybu predikce odměny v RL, jsou problematické. Dále, vysvětlení přichází na úkor snížení parsimony modelovací práce, která se pokouší použít RL k pochopení chování skutečných biologických organismů.

Simulace uvedená níže byla provedena, aby se otestovala hypotéza, že u jednoduchého agenta RL, bez jakýchkoli dalších předpokladů, by se vyvinula odpověď na predikci odměny, která je podobná reakci na dopamin, která není pozorována u biologických organismů . Agent RL dostal za úkol interagovat se dvěma typy objektů - jedním pozitivním a druhým negativním - který se objevil na náhodných místech v jeho prostředí. Aby se maximalizovala jeho odměna, agent se musel naučit přistupovat a „konzumovat“ pozitivní objekt a vyhýbat se (tj. Nikoli „konzumovat“) negativnímu objektu. Pro simulaci existovaly tři hlavní předpovědi.

První předpovědí bylo jednoduše to, že za účelem maximalizace své odměny by se agent ve skutečnosti naučil přistupovat a „spotřebovávat“ pozitivní, odměňující objekty a současně se učit vyhýbat se negativním, trestajícím objektům. Druhá predikce byla o něco méně zřejmá: agent by projevoval orientační odpověď (tj. Naučil se posunout svou orientaci) směrem k negativním i pozitivním objektům. Tato predikce byla vytvořena, protože ačkoli agent mohl „vnímat“ vzhled objektu a jeho umístění, pozitivní nebo negativní identitu objektu (tj. Narážku, kterou by se agent nakonec naučil spojovat s hodnotou odměny objektu) nemohl být určen agentem, dokud agent nebyl skutečně orientován k objektu. Konečně třetí (a nejdůležitější) predikce se týkala simulované dopaminergní fázové reakce v modelu; tato predikce byla taková, že když se předmět objevil, agent by vykazoval chybu predikce odměny, která byla výpočtově analogická fázové dopaminové reakci pozorované v biologických organismech, přičemž byla pozitivní pro pozitivní i negativní objekty. Předpokládalo se, že tato odpověď se bude lišit také v závislosti na vzdálenosti mezi agentem a stimulem, což v kontextu simulace bylo náhradním měřítkem pro „intenzitu“ nebo významnost stimulu. Jak bude ukázáno níže, tyto předpovědi byly potvrzeny výsledky simulace, což ukazuje, že zdánlivě neodměnitelné dopaminové reakce se v zásadě mohou vyvinout ze základních principů RL. Teoretické důsledky těchto výsledků pro použití RL k porozumění non-odměn-související aktivity v biologických organismech budou diskutovány v závěrečné části tohoto článku.

Metoda

Jak již bylo zmíněno, algoritmy RL specifikují, jak agent může používat numerické odměny od okamžiku k okamžiku, aby zjistil, jaké akce by měl provést, aby maximalizoval celkovou částku odměny, kterou obdrží. Ve většině formulací je toto učení dosaženo použitím chyb predikce odměn (tj. Rozdílu mezi aktuální predikcí odměn agenta a skutečnou odměnou, která je získána) k aktualizaci předpovědí odměn agenta. Jakmile se předpovědi odměny dozví, může agent předpovědi také použít k výběru další akce. Obvyklá politika (definovaná v rovnici 2) je, že agent vybere akci, u které se předpokládá, že bude mít největší odměnu. Skutečná odměna, která je agentovi poskytována v kterémkoli daném okamžiku, je součet okamžité odměny plus část hodnoty státu, kterou agent zadá po dokončení akce. Pokud tedy agent nakonec zažije pozitivní odměny poté, co byl ve zvláštním stavu, agent vybere v budoucnu akce, které pravděpodobně povedou k těmto odměněným stavům; naopak, pokud agent zažije negativní odměny (tj. trest), v budoucnu se vyhne činnostem, které povedou k těm „potrestaným“ státům.

Specifický algoritmus, který určuje předpovědi odměny, které se získávají pro různé stavy (tj. Hodnotovou funkci V), se nazývá Value Iteration [Poznámka pod čarou 1] a lze jej formálně popsat jako:

Pro všechny možné stavy

(Rovnice 1)

kde s odpovídá současnému stavu, V (s) je aktuální predikce odměny za stavy, které se agent dozvěděl, maxaction∈M {} je operátor pro maximální hodnotu bracketovaného množství nad sadou všech akcí M dostupné agentovi, V (s ') je aktuální predikce odměny agenta pro další stav s', α je nějaká rychlost učení (mezi 0 a 1) a γ je diskontní faktor odrážející, jak budou budoucí odměny váženy vzhledem k okamžitým odměnám. Funkce počáteční hodnoty byla nastavena tak, že V (s) byla 0 pro všechny stavy.

Hodnotová funkce V byla implementována jako vyhledávací tabulka, která je formálně ekvivalentní předpokladu dokonalé paměti. Přestože funkce aproximátorů, jako jsou neuronové sítě, byly použity s určitým úspěchem k reprezentaci hodnotových funkcí [1], byla použita vyhledávací tabulka, aby se zajistilo, že výsledky nebyly závislé na typech generalizačního mechanismu, který poskytuje různé aproximátory funkcí. Agent byl vyškolen pro učení iterací 1,500u ve svém stavovém prostoru. Kvůli nepředvídatelnosti identity objektů byl během učení použit parametr aktualizace hodnotové funkce menší než jeden (α = 0.01), který umožnil průměrování různých výsledků. Nakonec byl diskontní faktor nastaven na γ = 0.99, aby povzbudil agenta, aby hledal odměnu dříve, než aby zpozdil chování při přiblížení až do konce pokusu (i když její změna z výchozí hodnoty 1 neměla žádný vliv na výsledky zde uvedené). ) Aby bylo možné samostatně určit, zda iterace učení 1,500 byly dostatečné pro dokončení učení, bylo monitorováno průměrné množství změn v učení a bylo zjištěno, že konvergovalo před tímto počtem iterací.

Po tréninku je specifický algoritmus, který řídí chování agenta (tj. Politika akcí, které provádí z každého daného stavu):

(Rovnice 2)

kde π (s) je akce, kterou agent vybere ze stavů, a pravá strana rovnice vrací akci (např. změna orientace, pohybu nebo žádná akce), která maximalizuje součet odměny a diskontované hodnoty výsledného stavu s '.

V simulaci, která je uvedena níže, byly všechny stavy, které agent navštívil, zakódovány jako 7-rozměrné vektory, které představovaly informace o vnějším „fyzickém“ stavu agenta a jeho vnitřním stavu „znalostí“. Fyzické informace zahrnovaly jak aktuální pozici agenta v prostoru, tak jeho orientaci. Znalostní informace zahrnovala polohu objektu (pokud byl přítomen) a totožnost tohoto objektu (pokud byl určen agentem). Konkrétní typy informací, které byly agentem představovány, jsou uvedeny v tabulce 1.

Tabulka 1

Rozměry použité v simulacích RL a možné hodnoty těchto rozměrů.

V simulaci bylo celkem 21,120 stavů [poznámka pod čarou 2]. Stavy, ve kterých byl neidentifikovaný pozitivní a neidentifikovaný negativní objekt, jsou však z pohledu agenta identické, takže tedy existují pouze odlišné stavy 16,280. Během každé iterace učení bylo tedy nutné navštívit některé z těchto „identických“ stavů dvakrát, aby bylo možné počítat s tím, že polovinu času, po které by mohly být následovány objevem pozitivního objektu, a polovinu času, kdy by mohly být následovat objev negativního objektu [poznámka pod čarou 3].

Na začátku každé simulované zkušební zkoušky byl agent umístěn do středu simulované lineární dráhy jednotky 11 × 1 s pěti mezerami „na východ“ (tj. Napravo) agenta a pěti mezerami na „západ“ “(Tj. Vlevo) agenta. Jak ukazuje tabulka 1, stavový vektor agenta zahrnoval prvek označující jeho aktuální umístění na stopě (tj. Celé číslo od 0 do 10), jakož i prvek (tj. Znak „n“, „s“, „ e “nebo„ w “) představující jeho aktuální orientaci (tj. sever, jih, východ nebo západ). Počáteční orientace agenta byla vždy nastavena na „sever“ a v prostředí nebyl přítomen žádný jiný objekt (tj. Hodnota „OBJECT“ ve stavovém vektoru agenta byla nastavena na „0“).

Během každého časového kroku simulace mohl agent provést jednu z následujících akcí: (1) nedělat nic a zůstat v aktuálním umístění a orientaci; (2) orientovat na sever, jih, východ nebo západ; nebo (3) přesunout jeden prostor v prostředí (východ nebo západ). Výsledek každé akce se uskutečnil v následném simulovaném časovém kroku. Všechny změny v umístění a / nebo orientaci agenta v prostoru nastaly výběrem akcí agentem. Avšak během každého časového kroku simulace, i když byla vybrána akce „nedělat nic“, 1 zvyšoval čas do konce pokusu (tj. Časový krok 20).

Prostředí agenta bylo nastaveno tak, aby se polovina času objevil na náhodném místě (ale ne na stejném místě jako agent) po deseti časových krocích; 50% objektů bylo pozitivních (reprezentováno „+“; viz tabulka 1) a 50% objektů bylo negativních (reprezentováno „-“). Zpoždění před objevením objektu bylo zavedeno, aby bylo možné pozorovat jakékoli chování, které agent mohl projevit před výskytem objektu. Pokud agent nebyl v okamžiku, kdy se objevil, orientován na objekt, pak se prvek představující identitu „OBJECT“ ve vektorovém stavu agenta změnil z „0“ na „?“, Což odráží skutečnost, že identita objektu, který byl nyní přítomnost byla v současné době neznámá Pokud však byl agent orientován na objekt, byl v následném časovém kroku prvek „OBJECT“ nastaven tak, aby se rovnal identitě objektu, takže „0“ se stal buď „+“, nebo „-“ jako pozitivní a negativní objekty.

Pokud se agent přesunul do umístění objektu, v dalším kroku objekt zmizel. Pokud byl objekt pozitivní, byl nastaven příznak „SPOTŘEBENO“ agenta roven true a agent byl odměněn (odměna = + 10); pokud však byl objekt záporný, pak byl příznak „SHOCKED“ nastaven na true a agent byl potrestán (odměna = −10). (Všimněte si, že příznaky byly nastaveny tímto způsobem bez ohledu na to, zda agent objekt identifikoval nebo neidentifikoval; např. Agent mohl spotřebovat objekt, aniž by se na něj někdy orientoval.) V následném časovém kroku „SHOCKED“ nebo Vlajka „CONSUMED“ byla vymazána. Agentovi byl také udělen malý trest (zesílení = −1) za každý pohyb nebo orientaci a neobdržel žádnou odměnu ani trest (zesílení = 0), pokud nevykonal žádnou akci.

Jak zjevné chování (tj. Orientace a pohyb), tak míra chyby predikce odměny byly kvantifikovány pro agenta. Zjevné chování (tj. Seznam akcí vybraných agentem) byl použit jako indikace toho, zda se úkol naučil. Míra chyby predikce odměny byla použita k testování hypotézy o výskytu nedefinovaného dopaminergního fázového signálu. Chyba predikce odměny δ byla měřena v čase t vzhledu objektu odečtením predikce odměny v předchozím časovém kroku, tj. V (s) v časovém kroku t − 1, od predikce odměny, když objekt se objevil, tj. V (s) v čase t, dávající množství 5 = V (st) - V (st-1).

výsledky
Simulované chování

Nejprve bylo kvantifikováno zjevné chování agentů. Výsledky této analýzy ukázaly, že po tréninku se agent přiblížil a získal pozitivní posílení ze všech pozitivních objektů a nikdy se nepřiblížil k žádnému z negativních objektů. Tyto výsledky společně poskytují behaviorální potvrzení, že se agenti naučili správně provádět úlohu. Tento závěr je podpořen dodatečným pozorováním, že během pokusů, kdy se neobjevil žádný objekt, agent zůstal nehybný. Jak bylo předpovězeno, agent se orientoval na pozitivní i negativní objekty.

Simulovaná chyba předpovědi odměn

Ústřední hypotézou tohoto článku je, že výskyt nepředvídatelného podnětu bude trvale generovat pozitivní chybu předpovědi odměny, i když se tento objekt stane „negativním“ objektem, který vždy potrestá. Na podporu této hypotézy agent vykazoval pozitivní chybu v predikci odměny, kdykoli se objevil (neidentifikovaný) objekt, ale ne, když se nic neobjevilo. S centrální hypotézou odpovídá také skutečnost, že velikost fázové odezvy agenta (5, měřeno podle popisu v části Metoda) byla citlivá na simulovanou „intenzitu“ stimulu, definováno pomocí vzdálenosti mezi agentem a objektem (viz obrázek 1). Regresní analýza ukázala, že velikost δ byla nepřímo úměrná vzdálenosti od objektu, takže bližší objekty způsobily silnější odezvu (r = -0.999, p <0.001; β = 0.82). Tato negativní korelace byla způsobena malým trestem (posílení = −1), který byl uvalen na každý pohyb, který agent musel provést, aby se přesunul k pozitivnímu předmětu, spotřeboval ho a získal tak odměnu.

Obrázek 1

Tento obrázek ukazuje chybu predikce odměny (tj. Δ), když se objekt objevil jako funkce polohy objektu ve vztahu k umístění agenta. Odpovědi jsou stejné pro pozitivní i negativní objekty. Když žádný objekt (více…)

Vzhledem k tomu, že pozitivní a negativní objekty se v této simulaci objevily se stejnou pravděpodobností (p = .25), vyvstává otázka: Proč byl signál chyby odměny predikce agenta pozitivní v době vzhledu objektu? S ohledem na Kakade a Dayan [7] by se dalo předpovědět, že signál by měl odrážet průměr všech získaných zisků z takových situací, a proto by měl být roven nule. Klíčem k pochopení tohoto výsledku je poznamenat, že RL nejen činí agenta méně pravděpodobným, že si vybere akce, které mají za následek negativní zesílení, ale také činí agenta méně pravděpodobným vstupem do států, které nakonec vedou k negativnímu zesílení. Výsledkem je jakási forma učení „vyššího řádu“, která je znázorněna na obrázku 2 a popsána dále.

Obrázek 2

Ilustrace ukazující, jak agent RL vyvíjí pozitivní chybu predikce odměny, když je trénován s odměňujícími i trestajícími podněty ve svém prostředí a je schopen si vybrat, zda k nim přistupovat a konzumovat je. (A) Situace před učením: (více…)

Na začátku učení (viz obrázek 2A) se agent orientuje na objekty „+“ i „-“, přistupuje k nim a je odměněn a potrestán spotřebou každého typu objektu. Pokud by hodnoty stavu agenta nemohly ovlivnit činnosti agenta (viz obrázek 2B), agent by pokračoval v přibližování a spotřebovávání objektů. Vzhled tága by pak předpověděl průměrnou odměnu 0 a došlo by k náhlému nárůstu chyby v predikci odměn. Agent v této simulaci však používá naučené stavové hodnoty k ovlivnění svých akcí (viz obrázek 2C), a ačkoli agent stále musí orientovat na neznámý objekt, aby určil jeho identitu, nebude již spotřebovávat negativní objekt, pokud se přiblíží to (jak by se mohlo zdát, kdyby bylo vyškoleno pomocí algoritmu náhodného průzkumu, jako je vzorkování trajektorie [poznámka pod čarou 1]). Kromě toho, protože učení s časovým rozdílem umožňuje predikci záporné odměny „šířit se“ zpět do předchozích stavů a ​​protože se pohybují ve vesmíru malé náklady, agent se učí vyhýbat se přistupování k negativnímu objektu úplně. Po získání této informace tedy hodnota stavu, kdy se objekt poprvé objeví (označený jako „V“ v prvním kruhu v každé sekvenci), není založena na průměru hodnot pozitivního a negativního výsledku, ale je místo toho je založeno na průměru pozitivního a „neutrálního“ výsledku, kterého je dosaženo, jakmile se agent učí vyhýbat se negativním objektům. To je důvod, proč průměr všech odměn skutečně získaných vyškoleným agentem byl větší než nula, a vysvětluje, proč predikce odměn agenta (a tedy chyba odměna-predikce, když se objekt najednou objeví), byla čistě pozitivní. To je znázorněno na obrázku 3. Ve skutečnosti, pokud se agent může naučit měnit své chování a vyhýbat se negativnímu objektu, je hodnota negativního objektu v konečném důsledku irelevantní pro konečné chování agenta a velikost reakce na novost / výtečnost.

Obrázek 3

(A) Prokazuje změny v predikci odměn, ke kterým by došlo, kdyby RL nevedlo k učení vyššího řádu (tj. Pokud by agent nemohl přijmout opatření k zamezení negativního výsledku), takže byl agent nucen spotřebovat všechny objekty (více…)

Výsledky simulace jsou kriticky závislé na třech předpokladech. Nejprve musely být podněty „význačné“ v tom, že velikost předpovědi předpovězená počátečním narážením byla dostatečně velká (např. + 10) vzhledem k nákladům na orientaci a přiblížení (např. –1). Pokud by velikost byla relativně malá, agent by se nenaučil orientovat, ani by nevytvořil pozitivní odpověď na chybovou predikci. Zadruhé bylo také nutné zpoždění před rozpoznáním podnětů. (Zpoždění je zástupcem pro „novost“ s odůvodněním, že známý podnět by byl rychle rozpoznán.) Agent by bez prodlení jednoduše vygeneroval příslušnou chybu predikce pozitivní nebo negativní odměny odpovídající skutečnému vnímanému objektu. Konečně, chování agenta muselo být určeno hodnotami, které se naučil. Pokud by agent nemohl ovládat své vlastní chování (tj. Zda se přiblížit k podnětům), pak by se jeho predikce odměny, když se objeví objekt, rovnala 0, průměru rovnoměrně pozitivních a negativních výsledků.

Obecná diskuse

Simulace uvedená v tomto článku ukázala, že k pozitivní předpovědi odměny dochází, když se objeví nepředvídatelný stimul, odměňující nebo trestající, ale nelze jej okamžitě identifikovat. Simulace dále ukázala, že velikost chyby predikce odměny se zvyšuje s blízkostí stimulu k agentovi, což je v kontextu simulace proxy měřítko intenzity stimulu, a je tedy spojeno s výběžkem. V teoretickém rámci RL jsou předpovědi odměn obvykle chápány tak, že odrážejí naučenou hodnotu rozpoznaných podnětů nebo fyzických a / nebo kognitivních stavů agenta [15]. Zde uvedená chyba predikce odměny má však kvalitativně odlišnou interpretaci, protože je generována dříve, než agent objekt rozpoznal. Společně tyto výsledky podporují hypotézu, že principy RL jsou dostatečné k vyvolání reakce, která se zdánlivě nesouvisí s odměnou, ale místo toho souvisí s vlastnostmi novosti a výtečnosti. Tento závěr má několik důležitých důsledků pro naše obecné chápání RL a pro naši interpretaci RL jako popis učení odměn v reálných biologických organismech.

Zaprvé, predikce odměn, která je generována agentem RL, když se objeví neidentifikovaný stimul, nemusí nutně znamenat přísný průměr dosažitelných odměn, jak navrhuje Kakade a Dayan [7], ale může být ve skutečnosti větší než tento konkrétní průměr. Kakade a Dayan by předpovídali, že by se průměrná predikce odměn měla rovnat nule, protože, protože soudy byly odměňovány a potrestány stejně často. Tento překvapivý výsledek se objevil, protože agent se učil „politicky“; to znamená, že agent se dozvěděl nejen o negativních výsledcích, ale také o své schopnosti vyhnout se těmto výsledkům. Tato schopnost systému odměňování způsobit agentovi, aby se vyhnul negativním výsledkům, by měla být pečlivě zvážena při převodu našeho chápání RL na skutečné organismy. Tato skutečnost je potenciálně ještě důležitější vzhledem ke zjevné asymetrii v kapacitě dopaminergní fázové odpovědi, která představuje chybu predikce pozitivní odměny lépe než chyba predikce negativní odměny [11]. Může být dostatečné naznačit, že určitá posloupnost událostí vede k negativnímu výsledku, ale že pro účely výběru akce je velikost tohoto výsledku nepodstatná.

Druhé rozvětvení současné simulace spočívá v tom, že odezva novosti může vycházet z interakce mezi systémy vnímání zpracování a systémy predikce odměn. Konkrétně může být odezva novosti způsobena formou podobnosti mezi novými objekty a objekty, které dosud nebyly podrobeny úplnému vnímání [poznámka pod čarou 4]. V této simulaci byla novinka implementována zavedením zpoždění, než se identita objektu (a následně jeho odměna nebo potrestání) stala agentovi zřejmá. Bylo to provedeno za předpokladu, že identifikace nových objektů trvá déle, ale tento předpoklad také vedl k tomu, že pozitivní a negativní objekty byly vnímány podobně, když se poprvé objevily (tj. Oba byly kódovány jako „?“). Naproti tomu Kakade a Dayan [7] naznačují, že odpovědi na novinky a „generalizační“ odpovědi jsou zásadně odlišné, přestože se podobným způsobem projevují v datech neurofyziologie.

Třetím důsledkem současných výsledků simulace je, že ukazují, že další předpoklady novosti a tvarovacích bonusů, které navrhly Kakade a Dayan [7], nejsou nutné. Namísto toho mohou reakce podobné novinkám vycházet z realistických omezení vnímání zpracování a ze znalosti schopnosti vyhnout se negativním výsledkům. To je štěstí, protože, jak zdůraznili Kakade a Dayan, novinové bonusy zkreslují hodnotovou funkci, kterou se agent naučil, a tvarovací bonusy ovlivňují způsob, jakým agenti prozkoumávají své stavové prostory. Zahrnutí některého z těchto předpokladů tak snižuje parsimony modelů založených na teorii RL. Zajímavé je, že zde prezentované výsledky také vysvětlují, proč biologická novinka odpověď nemusí narušovat učení založené na odměnách v reálných organismech: odpověď novosti je ve skutečnosti již předpovězena RL. To znamená, že odezva novinky odráží chování a předpovědi odměn, které jsou vlastní agentovi, který se již o svém prostředí dozvěděl něco.

Alternativní (ale nikoli vzájemně se vylučující) interpretace výsledků současné simulace je, že skutečně existuje abstraktní (možná kognitivní) odměna, kterou agenti získají orientací na a identifikováním objektů. Ve studiích dopaminergní aktivity se mohou vyskytnout pozitivní fázové reakce na neočekávané narážky, o nichž je známo, že předpovídají odměnu. Tato simulace však ukazuje, jak k těmto druhům odpovědí může dojít také v reakci na narážku, která by nakonec mohla předpovídat odměnu nebo trest. Jedinou konzistentní výhodou, kterou předpovídá cue, je zisk v informacích získaných, když agent určí identitu objektu. Pokud tedy existuje platná, naučená „predikce odměn“, když se objeví neidentifikovaný objekt, je to ten, který je spokojen poté, co agent získá znalosti o tom, zda se k podnětu přiblížit nebo se mu vyhnout. Hodnota těchto informací není založena na průměru dosažitelných výsledků, ale je založena na znalostech účinných výsledků - že agent může buď získat pozitivní odměnu, nebo se vyhnout negativní odměně (viz obrázek 2).

A konečně je důležité si uvědomit, že příležitosti k přijetí konkrétních opatření (např. K orientaci) mohou samy o sobě získat odměny za vlastnosti prostřednictvím nějakého zobecnění nebo mechanismu učení, který není zahrnut do této simulace. Například samotný akt orientace a určování „co je tam venku“ by se mohl stát prospěšný pro organismus založený na asociaci mezi touto akcí a výše prokázanou vznikající, vždy pozitivní chybou předpovědi odměny, když se objeví nové podněty. Podobnou myšlenku nedávno vyvinuli Redgrave a Gurney [13], kteří předpokládají, že důležitým účelem phasické dopaminové reakce je posílení akcí, ke kterým dochází před nepředvídanými významnými událostmi. Výsledky zde nejsou neslučitelné s touto hypotézou, je však třeba poznamenat, že hypotéza Redgraveho a Gurneyho není v této simulaci přímo testována, protože nebyly vyžadovány žádné akce (tj. Průzkum) agenta, aby došlo k významné události (výskyt předmět). Simulovaný fázový signál se však časově shodoval s časem orientační reakce, což naznačuje, že tyto dva mohou být silně spjaty.

Závěrem tento článek ukázal, že principy RL lze použít k vysvětlení typu zdánlivě nevýnosné aktivity dopaminergních neuronů. Tento výsledek vyplynul ze skutečnosti, že pravidlo učení se časovým rozdílem (jako například pravidlo používané Kakade a Dayanem [7]) bylo vloženo do simulace, ve které agent mohl vybírat akce, které měly vliv na konečný výsledek. Při simulaci se agent dozvěděl, že výsledek orientace na objekt, který se najednou objevil, může být vždy prospěšný nebo neutrální, protože negativnímu výsledku lze zabránit. Proto, když měl agent příležitost se orientovat, byla jeho chyba predikce odměny vždy pozitivní, výpočetně analogická s novinkami a odezvami pozorovanými v biologických organismech.

Poděkování

Práce popsané v tomto článku byly podporovány NIH R01 HD053639 a NSF Training Grant DGE-9987588. Chtěl bych poděkovat Erikovi Reichlovi, Tessa Warren a anonymnímu recenzentovi za užitečné komentáře k dřívější verzi tohoto článku.

Algoritmus 1Another Reinforcement Learning, nazývaný vzorkování trajektorie [17], se často používá místo hodnoty Iteration, když je stavový prostor tak velký, že jej nelze vyčerpávající iterací nebo snadno uložit do paměti počítače. Spíše než opakování přes každý stav ve stavovém prostoru a použití rovnice aktualizace hodnotové funkce založené na akcích, které se zdají vést k největší odměně, vzorkování trajektorie funguje sledováním cest ve stavovém prostoru. Podobně jako u hodnoty Iteration jsou akce vedoucí k nejvyšší odměně obvykle vybrány z každého stavu, ale příležitostně je vybrána náhodná průzkumná akce s malou pravděpodobností. Algoritmus je tedy: Z některých počátečních stavů vyberte akci vedoucí k nejvyšší odměně [např. Odměna + γV (s ′)] s pravděpodobností ε, nebo vyberte náhodnou průzkumnou akci s pravděpodobností 1 - ε. Použijte V (s) → V (s) + α [odměna + γV (s ′) - V (s)] během neprůzkumných akcí od států.

Kromě překonání technických omezení výpočetního času a paměti, vzorkování trajektorie může být lákavé, protože může lépe odrážet způsob, jakým se skutečné biologické organismy učí: zkoumáním cest ve stavovém prostoru. U úkolu popsaného v tomto článku poskytuje vzorkování trajektorie výsledky, které jsou kvalitativně totožné s těmi, které byly získány pomocí hodnoty Iteration. Pro stručnost však tyto výsledky nejsou uvedeny podrobně. V tomto článku byla pro simulaci vybrána hodnota Iteration ze dvou hlavních důvodů. Zaprvé, protože vzorkování trajektorie zahrnuje při výběru trajektorií stochasticitu, velké množství větvení, které je způsobeno mnoha možnými sekvencemi akcí v této úloze, může mít za následek agenty, kterým chybí zkušenosti s některými stavy, pokud není použit parametr průzkumu (tj. ε-chamtivost [17]) je pečlivě vybrána. Tento nedostatek zkušeností s konkrétními stavy může narušit výkon agenta, když je použita struktura paměti vyhledávací tabulky, protože chybí zobecnění hodnoty do podobných (ale možná nevídaných) stavů. Bylo tedy upřednostňováno využít vyčerpávající průzkum stavového prostoru, který je zaručen pomocí Value Iteration. Zadruhé, použití funkce Value Iteration vyloučilo potřebu specifikovat tento další parametr využití průzkumu, čímž se zjednodušila simulace. Všimněte si, že vzorkování trajektorie může v konečném důsledku aproximovat hodnotu Iterace, protože počet trajektorií se blíží k nekonečnu [17].

2Počet stavů 21,120 lze vypočítat takto: 11 možná umístění agentů × 4 možná orientace agentů × (10 časové kroky před objevením objektu + 10 časové kroky, kde se neobjevil žádný objekt + 10 časové kroky, kde byl agent pozitivně posílené + 10 časové kroky, kde byl objekt negativně posílen + 11 možná umístění objektů * (10 časové kroky s pozitivním identifikovaným objektem + 10 časové kroky s negativním identifikovaným objektem + 10 časové kroky s neidentifikovaným pozitivním objektem + 10 časové kroky s neidentifikovaným negativním objektem))].

3 Existenci těchto „skrytých“ stavů je třeba brát v úvahu při tréninku, protože Iterace hodnot vypadá pouze „o krok napřed“ z každého stavu ve stavovém prostoru. Skutečnost, že stavy s negativními a pozitivními neidentifikovanými objekty jsou účinně identické, by bránilo poznání a průměrování hodnot ve dvou různých následných stavech, ve kterých se identifikuje buď pozitivní nebo negativní objekt. Na druhé straně přístup vzorkování trajektorie udržuje skryté informace o stavu (tj. Identitu neidentifikovaného stimulu) po celou dobu pokusu, a tak s touto variantou RL skryté stavy nejsou problémem.

Potenciální námitka 4One proti této práci spočívá v tom, že orientační odpověď se zdá být v mozku savců pevně zapojena, například v projekcích z nadřazeného colliculus [3,14]. V současné simulaci agenti nebyli usilovně orientováni na objekty, ale místo toho se naučili orientačnímu chování, které umožnilo eventuální výběr akce (např. Buď přiblížení, nebo vyhýbání se), která maximalizovala odměnu. Podobně jako v případě drátových odpovědí, k těmto orientačním chování došlo velmi rychle, předtím, než byly objekty identifikovány, a směřovaly ke všem objektům. Cílem této práce nebylo uplatnit tvrzení, že všechny takové reakce jsou učeny, ale spíše, že mohou koexistovat v rámci RL. Bylo by však zajímavé prozkoumat, zda by se mechanismy související s odměnami mohly zapojit do vytváření konektivity v oblastech mozkového kmene, aby se vytvořila tato fázová reakce dopaminu.

Jedná se o soubor PDF s neupraveným rukopisem, který byl přijat k publikaci. Jako službu pro naše zákazníky poskytujeme tuto ranní verzi rukopisu. Rukopis podstoupí kopírování, sázení a přezkoumání výsledného důkazu před jeho zveřejněním ve své konečné podobě. Vezměte prosím na vědomí, že během výrobního procesu mohou být objeveny chyby, které by mohly ovlivnit obsah, a veškeré právní odmítnutí týkající se časopisu.

Reference

1. Baird LC. Zbytkové algoritmy: Posílení učení s aproximací funkcí. In: Priedetis A, Russell S, editoři. Strojové učení: Sborník z 12. mezinárodní konference; 9 – 12 červenec.1995.

2. Bunzeck N, Düzel E. Absolutní kódování novosti stimulu v lidské substantia nigra / VTA. Neuron. 2006; 51 (3): 369 – 379. [PubMed]

3. Dommett E, Coizet V, Blaha CD, Martindale J, Lefebvre V, Walton N, Mayhew JEW, Overton PG, Redgrave P. Jak vizuální podněty aktivují dopaminergní neurony v krátké latenci. Věda. 2005; 307 (5714): 1476 – 1479. [PubMed]

4. Doya K. Metalearning a neuromodulace. Neuronové sítě. 2002 Jun – Jul; 15 (4 – 6): 495 – 506. [PubMed]

5. Gillies A, Arbuthnott G. Výpočetní modely bazálních ganglií. Pohybové poruchy. 2000; 15 (5): 762 – 770. [PubMed]

6. Horvitz JC. Mesolimokortikální a nigrostriatální dopaminové reakce na významné nevýhodné události. Neurovědy. 2000; 96 (4): 651 – 656. [PubMed]

7. Kakade S, Dayan P. Dopamine: zobecnění a bonusy. Neuronové sítě. 2002; 15 (4 – 6): 549 – 559. [PubMed]

8. Knutson B, Cooper JC. Návnada neznámého. Neuron. 2006; 51 (3): 280 – 282. [PubMed]

9. Logothetis NK, Pauls J, Augath M, Trinath T, Oeltermann A. Neurofyziologické zkoumání základu signálu fMRI. Příroda. 2001; 412 (6843): 150 – 157. [PubMed]

10. McClure SM, Berns GS, Montague PR. Časové chyby predikce v pasivním učení aktivují lidský striatum. Neuron. 2003; 38 (2): 339 – 346. [PubMed]

11. Niv Y, Duff MO, Dayan P. Dopamin, nejistota a učení TD. Chování a funkce mozku. 2005 může 4; 1: 6. [Článek zdarma pro PMC] [PubMed]

12. O'Doherty JP, Dayan P, Friston K, Critchley H, Dolan RJ. Časové diferenční modely a učení související s odměnami v lidském mozku. Neuron. 2003; 38 (2): 329 – 337. [PubMed]

13. Redgrave P, Gurney K. Krátkodobý dopaminový signál: role při objevování nových akcí? Recenze přírody Neuroscience. 2006 Dec; 7 (12): 967 – 975.

14. Redgrave P, Prescott TJ, Gurney K. Je reakce dopaminu s krátkou latencí příliš krátká na to, aby signalizovala chybu odměny? Trendy v neurovědách. 1999 Apr; 22 (4): 146 – 151. [PubMed]

15. Reichle ED, Laurent PA. Používání posilovacího učení k porozumění vzniku „inteligentního“ chování očí a pohybu při čtení. Psychologické hodnocení. 2006; 113 (2): 390 – 408. [PubMed]

16. Schultz W. Prediktivní signál odměny dopaminových neuronů. Žurnál neurofyziologie. 1998; 80 (1): 1 – 27. [PubMed]

17. Sutton RS, Barto AG. Učení posílení: Úvod. MIT Press; Cambridge: 1998.

18. Tanaka SC, Doya K, Okada G, Ueda K, Okamoto Y, Yamawaki S. Predikce okamžitých a budoucích odměn různě získává kortiko-bazální smyčky ganglií. Nature Neuroscience. 2004; 7 (8): 887 – 893.