A megerősítő tanulási alapelvekből származó, az érdeklődés és az újdonság válaszainak kialakulása (2008)

MEGJEGYZÉSEK: Egy másik tanulmány bizonyítja, hogy az újdonság a saját jutalma. Az internetes pornó egyik addiktív aspektusa a végtelen újdonság és változatosság, az a lehetőség, hogy gyorsan kattintgathat egyik jelenetről a másikra, és a megfelelő kép / videó keresése. Mindezek növelik a dopamint. Ez különbözteti meg az internetes pornót a magazinoktól vagy a bérelt DVD-ketől.

Teljes tanulmány: a sűrűség-tanulási elvekből származó újdonságok és válaszok kialakulása

Neural Netw. 2008 december; 21 (10): 1493 – 1499.

Megjelent online 2008 szeptember 25. doi: 10.1016 / j.neunet.2008.09.004

Patryk A. Laurent, Pittsburghi Egyetem;

Címzett cím: Patryk Laurent, Pittsburghi Egyetem, 623 LRDC, 3939 O'Hara St., Pittsburgh, PA 15260 USA, E-mail: [e-mail védett], Iroda: (412) 624-3191, Fax: (412) 624-9149

Absztrakt

A jutalmakon alapuló tanulási modellek, mint például a megerősítő tanulás [17], az utóbbi időben történő próbálkozásai arra a megfigyelésre épülnek, hogy a dopamin felszabadító neuronok szignifikáns különbségei fokozódnak és csökkennek az előrejelzett és a kapott jutalmak között [16,5]. Ez a jutalom-előrejelzési hiba azonban csak egy, a phasic tevékenység által közölt több jel közül; egy másik magában foglalja a dopaminerg spikingek növekedését, amely tükrözi a kiemelkedő, de előre nem látható, nem jutalmazó ingerek megjelenését [4,6,13], különösen akkor, ha a szervezet az inger felé irányul [16]. Ezeknek az eredményeknek a magyarázatára Kakade és Dayan [7] és mások az új, váratlan ingereket lényegében előnyösek. Az ebben a cikkben bemutatott szimuláció azt mutatja, hogy ez a feltételezés nem szükséges, mert a megragadandó hatás a megerősítő tanulás jutalom-előrejelzési tanulási mechanizmusaiból következik. Így a megerősítéssel kapcsolatos tanulási elvek segítségével nemcsak a bazális ganglionok dopaminerg neuronjainak jutalmazása, hanem a látszólag nem jutalmazott tevékenysége is jutalmazható.

A megerősítő tanulás (RL) egyre fontosabbá válik a jutalom alapú tanulás számítási modelljeinek fejlesztésében az agyban. Az RL egy olyan számítási algoritmusok osztálya, amely meghatározza, hogy egy mesterséges „ügynök” (pl. Egy valódi vagy szimulált robot) megtanulhatja a műveletek kiválasztását a teljes várható jutalom maximalizálása érdekében [17]. Ezekben az algoritmusokban egy ügynök olyan értékekre támaszkodik, melyeket a különböző állapotokhoz kötődik (pl. Az ingerrel kapcsolatos észlelési jelek). Ezeket az értékeket fokozatosan megtanulhatjuk az időbeli különbségek tanulásán keresztül, amely az állapotértékeket az ügynök által az államra vonatkozó meglévő jutalmi előrejelzés és a későbbi környezetből származó tényleges jutalom közötti különbség alapján állítja be. Ez a kiszámított különbség, amit jutalom-előrejelzési hibának nevezünk, kimutatták, hogy nagyon jól korrelál a dopamin-felszabadító neuronok nem humán főemlősökben a materiális nigrából kiálló fázisos aktivitásával [16]. Továbbá az emberekben a stropium, amely a dopamin fontos célpontja, fMRI BOLD jelet mutat, amely úgy tűnik, hogy a jutalom-előrejelzési hibát tükrözi a jutalom-tanulási feladatok során [10,12,18]. Ez az fMRI-megállapítás kiegészíti a fiziológiai adatokat, mivel a striatta BOLD-t feltételezzük, hogy legalább részben az afferens szinaptikus aktivitást [9] tükrözi, és a dopamin neuronok erőteljesen a striatumra hatnak.

Bár a fent említett fiziológiai válaszok az RL jutalom-előrejelzési számításaihoz kapcsolódnak, a dopaminerg phasicus aktivitás növekedése is hatással van az ingerlő és / vagy új ingerekre, amelyek látszólag nem kapcsolódnak a jutalomhoz [4,6,14,3]. Hasonló jelenséget észleltek az emberekben az fMRI [2] alkalmazásával. Számos oka van annak, hogy ez az „újdonság” vagy „sűrűség” válasz nem kapcsolódik a jutalom-előrejelzési hibához: (1) nagyon korán jelenik meg, mielőtt az inger azonosítása megtörtént, így a pontos jutalom-előrejelzés nem létre kell hozni; (2) a neurális aktivitás (azaz pozitív) növekedését jelenti mind az averzív, mind az étvágygerjesztő ingerek esetében; és (3) az [13] -ot szoktatja. Valójában a dopamin-felszabadító idegsejtek ilyen sűrűség / újdonsági válaszai a legmegbízhatóbbak, ha az ingerek kiszámíthatatlanok, és orientálódást és / vagy megközelítést eredményeznek [16], függetlenül az esetleges kimeneteltől, kiemelve azt a tényt, hogy ezek minőségileg különböznek a tanult jutalomtól előrejelzést. A kihívás tehát az volt, hogy megmagyarázzuk ezt a látszólagos paradoxont ​​(azaz, hogy az újdonság hogyan befolyásolja a jutalom-előrejelzési hibát) az RL elméleti keretein belül.

Kakade és Dayan [7] pontosan ezt tették; cikkükben két olyan módszert mutattak be, amellyel az új válaszok beépíthetők a dopaminerg funkció RL-modelljeibe - mindkettő új elméleti feltevések bevonásával foglalkozott. Az első feltételezés, amelyet újdonsági bónuszoknak neveznek, egy további jutalom bevezetését jelenti, amikor új ingerek vannak jelen, az ügynök által kapott szokásos jutalom felett és túl. Ez a további jutalom a számításba kerül, hogy a tanulás az ügynök meglévő jutalmi előrejelzése és a szokásos környezetvédelmi jutalom és az újdonság bónusz összege közötti különbségen alapuljon. Így az újdonság a jutalom részévé válik, amelyet az ügynök igyekszik maximalizálni. A második feltételezés, amelyet formálási bónusznak nevezünk, az új ingerekkel társított állapotok értékeinek mesterséges növelésével valósítható meg. Mivel az RL-ben alkalmazott időbeli-különbség-tanulási szabály az egymást követő állapotok közötti jutalom-előrejelzés különbségén alapul, az állandó ingerlési bónusz hozzáadása az új ingerekkel érintett államoknak nincs hatása az ügynök végső viselkedésére. Az újdonság válasz azonban még mindig akkor jelentkezik, amikor az ügynök belép az állapotterület azon részébe, amely „formázott” (vagyis az újdonsághoz kapcsolódik).

Bár ezeknek a feltevéseknek a hozzáadása elegendő az újdonság számos megfigyelt hatásának magyarázatához, a feltételezések is zavarják a tanulás progresszióját. Ahogy Kakade és Dayan [7] rámutatnak, az újdonság bónuszok torzíthatják az értékfüggvényt (azaz az ügynök által az egyes államokhoz kapcsolódó értékeket), és befolyásolhatják azt, amit végül megtanultak, mivel azokat egy további jutalomként valósítják meg, amely lényegében a regényhez kapcsolódik. Államok. A probléma az, hogy az ügynök megtanulja megjósolni a jutalom elsődleges és újdonságait. Bár Kakade és Dayan rámutatnak arra, hogy a bónuszok kialakítása nem okoz ilyen problémát, mert beépülnek az előző államok jutalmi előrejelzéseibe, addíciójuk még mindig problematikus, mert a bónuszok alakítása elfogultságokat vezet be ahhoz, ahogy egy ügynök felfedezi az állapotterét. Így, bár ezek a további feltevések megmagyarázhatják, hogy az újdonság milyen hatással van az RL jutalom-előrejelzési hibájára, problémásak. Ezen túlmenően a magyarázatok költsége az, hogy csökkentsük a modellezési munka parsimóniáját, amely megkísérli az RL-t a valódi biológiai szervezetek viselkedésének megértésére.

Az alábbiakban bemutatott szimulációt azért teszteltük, hogy megvizsgáljuk azt a hipotézist, hogy az egyszerű RL ágens további feltételezések nélkül fejleszthet egy jutalom-előrejelzési hiba választ, amely hasonlít a biológiai szervezetekben megfigyelhető nem jutalmazott dopamin válaszokra. . Az RL-ügynöknek feladata volt, hogy két objektumtípus - egy pozitív és a másik negatív - kölcsönhatásba lépjen a véletlenszerű helyeken a környezetében. A jutalom maximalizálása érdekében az ügynöknek megtanulnia kellett a pozitív objektum megközelítését és „fogyasztását”, valamint a negatív objektum (azaz nem „fogyasztani”) elkerülését. A szimuláció három fő előrejelzése volt.

Az első előrejelzés egyszerűen az volt, hogy a jutalom maximalizálása érdekében az ügynök valóban megtanulja a pozitív, jutalmazó tárgyak megközelítését és „fogyasztását”, miközben egyidejűleg megtanulja a negatív, büntető tárgyak elkerülését. A második előrejelzés kissé kevésbé nyilvánvaló volt: hogy az ügynök orientáló választ mutatna (azaz megtanulja a tájékozódást) negatív és pozitív objektumok felé. Ez az előrejelzés azért történt, mert bár az ügynök „érzékelheti” az objektum megjelenését, helyét, az objektum pozitív vagy negatív identitását (azaz azt a jelet, hogy az ügynök végül megtanulja társítani az objektum jutalmi értékéhez) az ügynök nem tudta meghatározni, amíg az ügynök ténylegesen az objektum felé nem irányult. Végül a harmadik (és a legfontosabb) előrejelzés a modell szimulált dopaminerg fázikus válaszával függ össze; ez az előrejelzés az volt, hogy amikor az objektum megjelent, az ágens jutalom-előrejelzési hibát mutat, amely számszerűen analóg a biológiai szervezetekben megfigyelt fázisos dopaminválaszkal, pozitív és negatív objektumok esetében is pozitív. Ez a válasz várhatóan változik a hatóanyag és az inger közötti távolság függvényében is, amely a szimuláció összefüggésében az inger „intenzitás” vagy a serkentés proxy mérése volt. Amint az alábbiakban bemutatjuk, ezeket az előrejelzéseket a szimulációs eredmények megerősítették, ami azt mutatja, hogy a látszólag nem jutalmú dopamin válaszok elvileg az RL alapelveiből származnak. Az eredmények elméleti következményeit az RL használatára a biológiai szervezetekben a nem jutalmakkal kapcsolatos tevékenység megértésére tárgyaljuk e cikk utolsó részében.

Módszer

Amint már említettük, az RL algoritmusok meghatározzák, hogy egy ügynök hogyan használhatja a pillanatnyi számjegyű jutalmat, hogy megtudja, milyen lépéseket kell tennie annak érdekében, hogy maximalizálja a kapott jutalom teljes összegét. A legtöbb formulációban ezt a tanulást a jutalom-előrejelzési hibák (azaz az ügynök aktuális jutalmi előrejelzése és a kapott jutalom közötti különbség) alkalmazásával érik el az ügynök jutalmi előrejelzéseinek frissítéséhez. Ahogyan a jutalom előrejelzések megtanulnak, az előrejelzéseket egy ügynök is felhasználhatja a következő művelet kiválasztására. A szokásos politika (az 2 egyenletben definiálva) az, hogy az ügynök kiválasztja azt a műveletet, amely várhatóan a legnagyobb jutalmat eredményezi. Az ügynöknek az adott időpontban nyújtott tényleges jutalom az azonnali jutalom összege, valamint annak az államnak az értékének egy része, amelyet az ügynök az akció befejezésekor lép be. Tehát, ha az ügynök végül pozitív jutalmat tapasztal, miután egy adott állapotban volt, az ügynök kiválasztja a jövőben olyan cselekvéseket, amelyek valószínűleg ezeknek a jutalmazott államoknak az eredményét eredményezik; ezzel ellentétben, ha az ügynök negatív jutalmakat tapasztal (pl. büntetés), akkor elkerülni fogja a jövőbeni cselekedeteket, amelyek ezekhez a „büntetett” államokhoz vezetnek.

Az egyedi algoritmust, amely meghatározza a különböző államok számára megtanult jutalmi előrejelzéseket (azaz az V értékfüggvényt) Value Iteration [1 lábjegyzet] -nek nevezzük, és formálisan le lehet írni:

Minden lehetséges állapotban

(1 egyenlet)

ahol s az aktuális állapotnak felel meg, V (s) az ügynök által megtanult állapotok aktuális jutalmi előrejelzése, a maxaction∈M {} az összes művelet halmazánál a zárójel maximális értékének üzemeltetője M az ügynök számára elérhető, V (s ′) az ügynök aktuális jutalmi előrejelzése a következő állapothoz: α, α egy bizonyos tanulási ráta (az 0 és az 1 között), és γ egy olyan kedvezményes tényező, amely tükrözi a jövőbeni jutalmak súlyozását azonnali jutalmakhoz képest. A kezdeti értékfüggvényt úgy állítottuk be, hogy V (s) az összes állam számára 0 volt.

Az V (érték) függvényt keresési táblázatként valósítottuk meg, amely formálisan egyenértékű a tökéletes memória feltételezésével. Bár az olyan funkciók közelítése, mint a neurális hálózatok, az értékfüggvények [1] reprezentálására lettek sikeresek, egy keresési táblázatot használtunk annak biztosítására, hogy az eredmények nem függnek az általánosítási mechanizmusok típusától, amelyeket a különböző funkciók közelítői biztosítanak. Az ügynököt kiképezték az 1,500 tanulási iterációjára az állapotterületén. Az objektumok azonosságának kiszámíthatatlansága miatt a tanulás során egynél kevesebb (α = 0.01) értékfüggvény-frissítési paramétert használtunk, hogy lehetővé tegyük a különböző eredmények átlagolását. Végül a diszkonttényezőt γ = 0.99 értékre állították, hogy ösztönözze az ügynököt arra, hogy előbbre keresse a jutalmat, minthogy késleltesse a megközelítési viselkedését a próba végéig (bár az 1 alapértelmezett értékéből való megváltoztatása nem befolyásolta az itt bemutatott eredményeket. ) Annak érdekében, hogy függetlenül meghatározzuk, hogy az 1,500 tanulási iterációk elegendőek-e a teljes tanuláshoz, a tanultak átlagos változásának mértékét figyelték meg, és azt találták, hogy ez az iterációszám előtt konvergált.

Az edzés után az ügynök viselkedését szabályozó konkrét algoritmus (azaz az egyes államok által végrehajtott cselekvések politikája):

(2 egyenlet)

ahol π (s) az a cselekvés, amelyet az ügynök kiválaszthat az s állapotból, és az egyenlet jobb oldala visszaadja a műveletet (pl. az orientáció, a mozgás vagy az akció nem változik), amely maximalizálja a jutalom és a diszkontált érték összegét a kapott állapot s '.

Az alábbiakban bemutatott szimulációban az ügynök által meglátogatott összes államot 7-dimenziós vektorokként kódolták, amelyek az ügynök külső fizikai állapotáról és belső „tudásállapotáról” információt szolgáltattak. A fizikai információ magában foglalja mind az ügynök aktuális helyét a térben, mind annak tájolását. A tudásinformáció tartalmazza az objektum helyzetét (ha van) és az objektum azonosságát (ha az ügynök meghatározta). A konkrét típusú információkat, amelyeket az ügynök képvisel, a 1.

Táblázat 1

Az RL szimulációkban használt dimenziók és a méretek lehetséges értékei.

A szimulációban összesen 21,120 állapot volt [2 lábjegyzet]. Azok az államok azonban, amelyekben egy azonosítatlan pozitív és azonosítatlan negatív objektum létezett, az ügynök szempontjából azonosak, ezért csak 16,280 elkülönített állapotok vannak. Így a tanulás minden iterációja során szükség volt kétszer meglátogatni néhány ilyen „azonos” állapotot, hogy lehetővé tegye azt a tényt, hogy az idő felét egy pozitív objektum felfedezésével követhetjük, és annak a felének a felét, amelyre negatív objektum felfedezésével [3 lábjegyzet].

Minden egyes szimulált próbaüzem kezdetén az ügynök egy szimulált lineáris 11 × 1 egység pálya középpontjába került, öt szóközzel az ügynök „keleti” (azaz jobbra) és öt „nyugati irányába”. "(Azaz balra) az ügynök. Ahogy az 1 táblázat mutatja, az ügynök állapotvektora tartalmazott egy elemet, amely jelzi az aktuális helyét a pályán (azaz 0-től egészen 10-ig terjedő egész számot), valamint egy elemet (azaz egy „n”, „s” karaktert, „ e ”, vagy„ w ”), amely az aktuális tájolását képviseli (azaz észak, dél, kelet, vagy nyugat). Az ügynök kezdeti orientációja mindig „észak” volt, és a környezetben nem volt más objektum (azaz az „OBJECT” értéke az ügynök állapotvektorában az „0” értékre lett állítva).

A szimuláció minden egyes lépésében az ügynök végrehajthatja az alábbi műveletek egyikét: (1) nem tesz semmit, és az aktuális helyen és orientációban marad; (2) északra, délre, keletre vagy nyugatra irányul; vagy (3) mozgassa az egyik helyet a környezetben (keleti vagy nyugati). Az egyes akciók eredményeit a későbbi szimulált időszakban végeztük. Az ágens helyében és / vagy orientációjában bekövetkezett minden változás az ügynök által végzett cselekvések kiválasztásával történt. Azonban a szimuláció minden egyes lépésében, még akkor is, ha a „semmit sem” műveletet választották, az időt 1 növelte a próba végéig (azaz az 20 idő-lépés).

Az ügynök környezetét úgy alakították ki, hogy az idő felét, egy tárgyat véletlenszerű helyen mutatták be (de nem az ügynökével azonos helyen), tíz idő után; Az objektumok 50% -a pozitív („+”; lásd 1 táblázat) és az objektumok 50% -a negatív volt („-” képviselte). Az objektum megjelenése előtti késleltetés bevezetése lehetővé tette, hogy megfigyelhessük az ügynök által az objektum megjelenése előtt megjelenő viselkedést. Ha az ügynök nem jelenik meg az objektum felé, amikor megjelent, akkor az ügynök állapotvektorában az „OBJECT” identitást képviselő elemet „0” -ról „?” -Ra változtattuk, hogy tükrözze azt a tényt, hogy az objektum azonossága most jelenleg nem ismert. Azonban, ha az ügynök az objektum felé irányult, akkor a következő időszakban az „OBJECT” elemet az objektum azonosságával egyenlővé tette, úgyhogy „0” lett „+” vagy „-” pozitív és negatív objektumok.

Ha az ügynök egy objektum helyére költözött, akkor a következő időpontban az objektum eltűnt. Ha az objektum pozitív volt, akkor az ügynök „CONSUMED” zászlója igaz volt, és az ügynök jutalmazott (jutalom = + 10); Ha azonban az objektum negatív volt, akkor a „SHOCKED” jelzőt igazra állították, és az ügynököt megbüntették (jutalom = −10). (Ne feledje, hogy a jelzők ilyen módon lettek beállítva, függetlenül attól, hogy az ügynök volt-e vagy nem azonosította-e az objektumot, pl. A „CONSUMED” zászlót törölték. Az ügynököt szintén kis büntetéssel (megerősítés = −1) kapták minden mozdulattal vagy orientációs akcióval, és nem kapott jutalmat vagy büntetést (megerősítés = 0), ha nem tett semmilyen lépést.

Mind a nyílt viselkedést (azaz az orientációt és a mozgást), mind a jutalom-előrejelzési hiba mértékét számszerűsítettük az ügynök számára. A nyilvánvaló viselkedést (azaz az ügynök által kiválasztott cselekvések listáját) jelezte, hogy a feladat megtanult. A jutalom-előrejelzési hiba mértékét használtuk a nem jutalmazott dopaminerg fázisjelek megjelenésének hipotézisének tesztelésére. A jutalom-predikciós hibát, δ, egy objektum megjelenésének idején t mérjük, az előző időszakban levonva a jutalom-előrejelzést, azaz V (s) t − 1 időpontban, a jutalom előrejelzésből, amikor megjelent az objektum, azaz t (t) idő alatt V (s), ami δ = V (st) - V (st − 1) mennyiséget eredményezett.

Eredmények
Szimulált viselkedés

A hatóanyagok nyilvánvaló viselkedését először számszerűsítettük. Ennek az elemzésnek az eredményei azt mutatták, hogy az edzés után az ügynök közelebb jutott a pozitív objektumokhoz, és nem jutott hozzá semmilyen negatív objektumhoz. Ezek az eredmények együttesen viselkedési igazolást adnak arról, hogy az ügynökök megtanulták a feladatot helyesen végrehajtani. Ezt a következtetést alátámasztja az a további megfigyelés, hogy a kísérletek során, amikor egyetlen tárgy sem jelent meg, az ügynök mozdulatlan maradt. Amint azt előre jeleztük, az ügynök mind pozitív, mind negatív tárgyakra irányult.

Szimulált jutalom-előrejelzési hiba

A dolgozat központi hipotézise az, hogy egy kiszámíthatatlan inger megjelenése következetesen pozitív jutalom-előrejelzési hibát generál, még akkor is, ha ez az objektum „negatív” objektum, amely mindig büntetik. Ennek a hipotézisnek az alátámasztására az ágens pozitív jutalom-előrejelzési hibát mutatott, amikor egy (azonosítatlan) tárgy megjelent, de nem, amikor semmi sem jelent meg. A központi hipotézisnek megfelelően az a tény is, hogy az ágens fazikus válaszának nagysága (δ, a Metszet szakaszban leírtak szerint mérve) érzékeny volt az inger szimulált „intenzitására”, az ügynök és az objektum közötti távolság felhasználásával határozható meg (lásd 1. ábra). A regresszióanalízis azt mutatta, hogy a δ nagysága fordítva függ össze az objektumtól mért távolsággal, így a közelebbi objektumok erősebb választ váltottak ki (r = −0.999, p <0.001; β = 0.82). Ezt a negatív összefüggést az a kis büntetés okozta (megerősítés = −1), amelyet minden olyan mozdulatra kiszabtak, amelyet az ügynöknek meg kellett tennie annak érdekében, hogy a pozitív tárgyra lépjen, elfogyassza és ezáltal jutalmat szerezzen.

ábra 1

Ez az ábra a jutalom-előrejelzési hibát (azaz δ) mutatja, amikor az objektum megjelent az objektum helyének függvényében az ügynök helyéhez viszonyítva. A válaszok pozitív és negatív objektumokra egyaránt megegyeznek. Ha nincs tárgy (több…)

Figyelembe véve, hogy a szimulációban azonos valószínűséggel (p = .25) megjelentek a pozitív és negatív objektumok, felmerül a kérdés: Miért volt pozitív az ügynök jutalom-előrejelzési hibajelzése az objektum megjelenésének időpontjában? Kakade és Dayan [7] vonalak mentén megjósolható, hogy a jelnek tükröznie kell az ilyen helyzetekből származó összes megtanult jutalom átlagát, és így egyenlőnek kell lennie nullával. Ennek az eredménynek a megértése kulcsfontosságú megjegyezni, hogy nemcsak az RL az anyagot kevésbé valószínűsíti, hogy negatív megerősítést eredményez, hanem azt is, hogy az ágens kevésbé kerül be olyan állapotba, amely végül negatív megerősítést eredményez. Ez egyfajta „magasabb rendű” tanulási formát eredményez, amelyet a 2 ábrán mutatunk be, és a következőt írjuk le.

ábra 2

Illusztráció, amely megmutatja, hogy egy RL-ügynök hogyan alakítja ki a pozitív jutalom-előrejelzési hibát, amikor egy javadalmazó és büntető ingerekkel edzik a környezetét, és képes választani, hogy megközelíti-e és fogyasztja-e őket. A) A tanulás előtti helyzet: (tovább ...)

A tanulás kezdetén (lásd az 2A ábrát) az ügynök mind a „+”, mind a „-” tárgyakhoz fordul, megközelíti őket, és mindketten jutalmazzák és büntetik az egyes tárgyfajták fogyasztásával. Ha az ügynök megtanult állapotértékei nem tudták befolyásolni az ügynök tevékenységét (lásd 2B. Ábra), akkor az ügynök továbbra is megközelíti és fogyasztja az objektumokat. A cue megjelenése ezután megjósolná az 0 átlagos jutalmát, és hirtelen megnő a jutalom-előrejelzési hiba. Ennek a szimulációnak az ügynöke azonban megtanult állapotértékeket használ a tevékenységének befolyásolására (lásd az 2C ábrát), és bár az ügynöknek mégis az ismeretlen objektumhoz kell irányítania annak azonosítását, nem fogja negatív tárgyat fogyasztani, ha közeledik azt (ha esetleg egy véletlenszerű vizsgálati algoritmussal képzett, mint a trajektor mintavételezés [1 lábjegyzet]). Továbbá, mivel az időbeli különbség-tanulás lehetővé teszi, hogy a negatív jutalom-előrejelzés „eljusson” vissza az előző állapotokhoz, és mivel az űrben való mozgás költsége kicsi, az ügynök megtanulja, hogy ne kerüljön közel a negatív objektumhoz. Így, miután ezt az információt megtanultuk, az állapot értéke, amikor az objektum először jelenik meg (az első sorban „V” -ként jelezve), nem a pozitív és negatív kimeneti állapotértékek átlagán alapul, hanem ehelyett a pozitív és a „semleges” eredmény átlagán alapul, amint az ügynök megtanulja a negatív tárgyak elkerülését. Ez az oka annak, hogy a képzett ügynök által ténylegesen kapott összes jutalom átlaga nagyobb volt, mint nulla, és megmagyarázza, hogy az ügynök jutalmi előrejelzése (és ezért a jutalom-előrejelzési hiba, amikor az objektum hirtelen megjelenik) nettó pozitív volt. Ezt az 3 ábrán mutatjuk be. Valójában mindaddig, amíg az ügynök megtanulhatja megváltoztatni a viselkedését és elkerülni a negatív tárgyat, a negatív objektum értéke végső soron nem releváns az ügynök végső viselkedésére és az újdonság / érzékenység válasz nagyságára.

ábra 3

(A) Bemutatja azokat a változásokat a jutalom előrejelzésében, amelyek akkor történtek volna, ha az RL nem eredményez magasabb rendű tanulást (azaz ha az ügynök nem tudott intézkedéseket hozni a negatív eredmény elkerülése érdekében), így az ügynök kénytelen volt az összes tárgyak (tovább ...)

A szimulációs eredmények kritikusan függnek három feltételezéstől. Először is, az ingereknek „kiemelkedőnek” kellett lenniük, mivel a kezdeti cue által előre jelzett erősítés nagysága elég nagy volt (pl. + 10) az orientálás és a közeledő költségek (pl. -1) költségeihez képest. Ha a nagysága viszonylag kicsi volt, az ügynök nem tanult volna orientálni, és nem is generálta a pozitív jutalom-előrejelzési hiba választ. Másodszor, szükség volt az ingerek felismerése előtti késleltetésre is. (A késleltetés az „újdonság” proxy az érvelés szerint, hogy egy ismerős inger gyorsan felismerhető lesz.) Az ügynök késedelem nélkül egyszerűen létrehozta a megfelelő pozitív vagy negatív jutalmi előrejelzési hibát, amely megfelel a tényleges észlelt objektumnak. Végül az ügynök viselkedését az általa megtanult értékek alapján kellett meghatározni. Ha az ügynök nem tudta irányítani saját viselkedését (azaz, hogy közeledik-e az ingerekhez), akkor a jutalmának előrejelzése, amikor egy megjelenő objektum az 0-t, az egyenlőtlen pozitív és negatív kimenetek átlaga.

· Input in more enjoy whilst Warning more more Warning in more or embëse ·

Az ebben a cikkben bemutatott szimuláció azt mutatja, hogy pozitív jutalom-előrejelzési hiba jelentkezik, amikor egy kiszámíthatatlan inger, akár jutalmazó, akár büntető, megjelenik, de nem lehet azonnal azonosítani. Továbbá a szimuláció azt jelezte, hogy a jutalom-előrejelzési hiba mérete az inger közelségével növekszik az ügynök számára, amely a szimuláció kontextusában az inger intenzitásának proxy mérője, és így a nyugalomhoz kapcsolódik. Az RL elméleti keretrendszerében a jutalmi előrejelzéseket általában az elismert ingerek, illetve az [15] fizikai és / vagy kognitív állapotainak megtanult értékének tükrözik. Azonban az itt bemutatott jutalom-előrejelzési hiba kvalitatívan eltérő értelmezéssel bír, mivel azt az ügynök felismerte az objektum felismerése előtt. Ezek az eredmények együttesen alátámasztják azt a hipotézist, hogy az RL elvek elegendőek ahhoz, hogy olyan választ kapjanak, amely látszólag nem kapcsolódik a jutalomhoz, hanem az újdonság és a sűrűség tulajdonságaihoz kapcsolódik. Ennek a következtetésnek számos fontos következménye van az RL általános megértésének és az RL értelmezésének, mint a valódi biológiai szervezetekben elért jutalom tanulásnak.

Először is, az RL-ügynök által generált jutalom-előrejelzés, amikor egy azonosítatlan inger jelenik meg, nem feltétlenül a Kakade és a Dayan [7] által ajánlott jutalom szigorú átlaga, de valójában nagyobb lehet, mint az adott átlag. Kakade és Dayan azt jósolják, hogy az átlagos jutalom-előrejelzésnek nullának kell lennie, mert mivel a próbákat egyszerre gyakran jutalmazta és megbüntette. Ez a meglepő eredmény azért merült fel, mert az ügynök „politikailag” tanult; azaz az ügynök nemcsak a negatív eredményekről tanult, hanem arról is, hogy képes-e elkerülni ezeket az eredményeket. Ezt a jutalomrendszer azon képességét, hogy az ügynököt a negatív kimenetelek elkerülésére okozza, gondosan mérlegelni kell az RL-nek való valódi organizmusok megértésében. Ez a tény a potenciálisan még fontosabb, mivel a dopaminerg fazikus válasz azon képességének nyilvánvaló aszimmetriája, hogy pozitív jutalom predikciós hibát képvisel, jobb, mint a negatív jutalmi predikciós hiba [11]. Elég elegendő jelezni, hogy egy adott eseménysorozat negatív kimenetelhez vezet, de az akció kiválasztása céljából az eredmény nagysága nem lényeges.

A jelenlegi szimuláció második következménye, hogy az újdonság válasz az észlelési folyamatok és a jutalom-előrejelző rendszerek közötti kölcsönhatásból eredhet. Pontosabban, az újdonság válasz lehet az új objektumok és objektumok hasonlóságának egy formája, amelyek még nem teljes körű észlelési feldolgozáson mentek keresztül [4 lábjegyzet]. Ebben a szimulációban az újdonságot egy késedelem bevezetésével valósították meg, mielőtt az objektum identitása (és következésképpen annak jutalmazó vagy büntető jellege) az ügynök számára nyilvánvalóvá vált. Ezt azzal a feltevéssel hajtottuk végre, hogy az új objektumok hosszabb ideig tartanak azonosításra, de ez a feltételezés azt is eredményezte, hogy a pozitív és negatív tárgyakat hasonlóan észlelték, amikor először megjelentek (azaz mindkettőt „?” -Nek kódolták). Ezzel szemben Kakade és Dayan [7] azt sugallják, hogy az újdonsági válaszok és a „generalizációs” válaszok lényegében eltérőek, annak ellenére, hogy a neurofiziológiai adatok hasonlóan jelentkeznek.

A jelenlegi szimulációs eredmények harmadik következménye, hogy azt mutatják, hogy a Kakade és a Dayan [7] által javasolt újdonsági és alakító bónuszok további feltevései nem szükségesek. Ehelyett az újszerű jellegű válaszok reális perceptuális feldolgozási korlátokból és a negatív kimenetelek elkerülésére való tudásból származnak. Ez szerencsés, mert, amint azt Kakade és Dayan rámutatott, az újdonság bónuszok torzítják az ügynök által megtanult értékfüggvényt, és a bónuszok alakítása befolyásolja azt, ahogyan az ügynökök felfedezik az államtereket. Ezeknek a feltételezéseknek a felvétele így csökkenti az RL elméleten alapuló modellek parsimóniáját. Érdekes, hogy az itt bemutatott eredmények segítenek megmagyarázni, hogy miért nem lehet a biológiai újdonság válaszában semlegesíteni a reálszervezetekben a jutalmakon alapuló tanulást: az újdonság választ valójában már az RL előre megjósolta. Ez azt jelenti, hogy az újdonság-válasz tükrözi a viselkedéseket és jutalmi előrejelzéseket, amelyek egy olyan ügynökre jellemzőek, amelyek már megtanultak valamit a környezetéről.

A jelenlegi szimulációs eredmények alternatív (de nem kölcsönösen kizáró) értelmezése az, hogy valóban van egy absztrakt (talán kognitív) jutalom, amelyet az ügynökök az objektumok orientálásával és azonosításával kapnak. A dopaminerg aktivitás vizsgálatában pozitív phasic válaszok fordulhatnak elő olyan váratlan jelekre, amelyekről ismert, hogy jutalékot jeleznek. Ez a szimuláció azonban azt mutatja be, hogy az ilyen típusú válaszok is előfordulhatnak olyan válaszként, amely végső soron a jutalmat vagy a büntetést is előre jelezheti. Az egyetlen következetes előny, amelyet a cue előre megjósol, az az információ nyeresége, amelyet akkor kapunk, amikor az ügynök meghatározza az objektum azonosságát. Tehát, ha van egy érvényes, megtanult „jutalom-előrejelzés”, amikor az azonosítatlan objektum megjelenik, akkor az elégedett, miután az ügynök megszerzi a tudást arról, hogy megpróbál-e megközelíteni vagy elkerülni az ingert. Ennek az információnak az értéke nem a rendelkezésre álló eredmények átlagán alapul, hanem a tényleges eredmények ismeretén alapul, hogy az ügynök akár a pozitív jutalmat fogyaszthatja, akár elkerülheti a negatív jutalmat (lásd az 2 ábrát).

Végül fontos megjegyezni, hogy a konkrét cselekvések (pl. Orientáció) meghozatalának lehetőségei maguk is elnyerhetik a nyereséges tulajdonságokat egy olyan általánosítási vagy tanulási mechanizmuson keresztül, amely nem szerepel ebben a szimulációban. Például a „mi van” orientálásának és meghatározásának akciója jutalmazást jelenthet egy szervezetnek az akció és a fent bemutatott, mindig pozitív pozitív jutalmi hiba közötti összefüggés alapján, amikor új ingerek jelennek meg. A Redgrave és a Gurney [13] nemrégiben hasonló elképzelést hozott, amelyek feltételezik, hogy a fázisos dopamin válasz fontos célja az, hogy megerösítse a kiszámíthatatlan kiemelkedõ események elõtti fellépéseket. Az eredmények itt nem összeegyeztethetetlenek ezzel a hipotézissel, azonban meg kell jegyezni, hogy a Redgrave és Gurney hipotézisét nem tesztelik közvetlenül ebben a szimulációban, mert nem volt szükség cselekvésre (azaz feltárásra) az ügynök számára a legfontosabb esemény (a megjelenés) miatt. az objektum). A szimulált fázisjel azonban egybeesett az orientációs válasz idejével, ami arra utal, hogy a kettő erősen összefügghet.

Végül ez a cikk kimutatta, hogy az RL elvek felhasználhatók a dopaminerg idegsejtek látszólag nem jutalmazó jellegű aktivitásának magyarázatára. Ez az eredmény arra a tényre vezethető vissza, hogy az időbeli különbség-tanulási szabályt (mint például a Kakade és a Dayan [7] által használt) szabályozást olyan szimulációba ágyazották be, amelyben az ügynök kiválaszthatja azokat az intézkedéseket, amelyek hatással voltak az esetleges kimenetelre. A szimuláció során az ügynök megtudta, hogy a hirtelen megjelenő objektumra való orientálás eredménye mindig is jutalmazó vagy semleges, mert a negatív eredmény elkerülhető. Ezért, amikor az ügynöknek lehetősége volt tájékozódni, a jutalom-előrejelzési hiba mindig pozitív volt, számszerűen analóg a biológiai szervezetekben megfigyelt újdonság és sűrűség-válaszokkal.

Köszönetnyilvánítás

Az ebben a cikkben leírt munkát az NIH R01 HD053639 és az NSF Training Grant DGE-9987588 támogatta. Szeretnék köszönetet mondani Erik Reichle-nek, Tessa Warrennek és egy névtelen véleményezőnek, hogy hasznos megjegyzéseket fűzhessen a cikk egy korábbi verziójához.

1Anternative Reinforcement Learning algoritmus, az úgynevezett Trajectory Sampling [17], az Value Iteration helyett gyakran használatos, amikor az állapotterület olyan nagy lesz, hogy nem lehet kimerítően iterálni vagy könnyen tárolni a számítógép memóriájában. Ahelyett, hogy az állapotterületen minden állapot fölé ismétlődne, és az értékfüggvény-frissítés egyenletet alkalmaznánk azon műveletek alapján, amelyek a legtöbb jutalomhoz vezetnek, a trajektormintavétel az utat az állapotterületen keresztül követi. A Value Iterationhoz hasonlóan a legtöbb jutalmat eredményező műveletek általában minden egyes állapotból kerülnek kiválasztásra, de néha véletlenszerű felderítő akciót választunk kis valószínűséggel. Így az algoritmus az alábbiak: Néhány kezdőállapotból válassza ki a legjobban jutalmat eredményező műveletet [pl. Jutalom + γV (s ′)] valószínűséggel ε, vagy válasszon véletlenszerű feltáró műveletet valószínűséggel 1 - ε. V (s) → V (s) + α [jutalom + γV (s ′) - V (s)] alkalmazása az állami s nem feltáró műveletek során.

A számítási idő és a memória technikai korlátainak leküzdése mellett a Trajectory mintavétel vonzó lehet, mert jobban tükrözi azt a módot, ahogyan a valódi biológiai organizmusok tanulnak: az utak feltárása egy állami térben. Az ebben a tanulmányban leírt feladatnál a trajektor mintavétel olyan eredményeket hoz létre, amelyek minőségileg azonosak az Value Iteration alkalmazással kapott eredményekkel. A tömörség érdekében azonban ezeket az eredményeket itt nem részletezik. Az ebből a dokumentumból a szimulációra az érték Iteráció került kiválasztásra két fő okból. Először is, mivel a trajekciós mintavétel a trajektorok kiválasztásánál sztochasztikus, a nagyszámú elágazás, amely a feladat számos lehetséges szekvenciájának köszönhető, olyan ügynökökhöz vezethet, amelyek nem rendelkeznek tapasztalattal néhány állammal, kivéve, ha a feltárási-kiaknázási paraméter (pl. ε-mohóság [17]) gondosan kiválasztott. Az adott állapotokkal kapcsolatos tapasztalathiány megzavarhatja az ügynök teljesítményét, amikor egy keresési táblázat memóriaszerkezetét használjuk, mivel az értékek nem hasonlóak a hasonló (de esetleg nem látott) állapotokhoz. Tehát előnyben részesítettük az állapotterület kimerítő feltárását, amelyet az Value Iteration garantál. Másodszor, az Value Iteration használata megakadályozta annak szükségességét, hogy ezt a további feltárási-kiaknázási paramétert megadjuk, ezáltal egyszerűsítve a szimulációt. Ne feledje, hogy a trajektormintavétel végső soron hozzávetőlegesen közelítheti az értéket, mivel a pályák száma közeledik a végtelenhez [17].

2A 21,120 állapotok számát az alábbiak szerint lehet kiszámítani: 11 lehetséges ügynök helyek × 4 lehetséges ágensorientációk × (10 idő lépések az objektum megjelenése előtt + 10 időkorlátok, ahol nincs megjelenő objektum + 10 időkorlátok, ahol az ügynök volt pozitívan megerősített + 10 időkorlátok, ahol az objektumot negatívan erősítették + 11 lehetséges objektumhelyzetek * (10 időbeli lépések pozitív azonosított objektummal + 10 időképpen negatívan azonosított objektummal + 10 idő lépések azonosítatlan pozitív objektummal + 10 idõszakok azonosítatlan negatív objektummal))].

3Ezek a „rejtett” állapotok meglétét a képzés során figyelembe kell venni, mert az Érték Iteráció csak egy lépéssel előre néz ki minden állapotból az állapotterületen. Az a tény, hogy a negatív és pozitív azonosítatlan objektumokkal rendelkező államok ténylegesen azonosak, megakadályozzák a két különböző későbbi állapotban lévő értékek megismerését és átlagolását, amelyekben a pozitív vagy negatív objektum azonosul. A trajektor mintavételezési megközelítése viszont fenntartja a rejtett állapotinformációt (azaz az azonosítatlan inger azonosságát) a tárgyalás során, így az RL ezen változatával a rejtett állapotok nem jelentenek problémát.

Az 4One jelen munkával szembeni potenciális kifogás az, hogy az orientáló válasz úgy tűnik, hogy az emlősök agyában erősen vezetékes, például a kiváló kolliculus [3,14] kivetítéseinél. A jelen szimulációban az ügynökök nem voltak vezetékesek, hogy orientálódjanak az objektumokhoz, hanem megtanultak egy orientáló magatartást, amely lehetővé tette egy olyan cselekvés (pl. Megközelítés vagy elkerülés) végső kiválasztását, amely maximalizálta a jutalmat. A vezetékes válaszokhoz hasonlóan ezek az orientáló magatartások nagyon gyorsan előfordultak, mielőtt az objektumokat azonosították, és minden objektum felé irányultak. Ennek a munkának a célja nem az volt, hogy azt állítsuk, hogy minden ilyen válasz megtanulható, hanem inkább az RL keretein belül létezhetnek. Érdekes lenne azonban annak vizsgálata, hogy a jutalmakkal kapcsolatos mechanizmusok részt vehetnek-e az agytörzsi területek összekapcsolhatóságának megteremtésében annak érdekében, hogy ez a fázisos dopamin válasz keletkezzen.

Ez egy PDF-fájl egy nem szerkesztett kéziratból, amelyet közzétételre fogadtak el. Ügyfeleink szolgálataként a kézirat korai változatát nyújtjuk. A kéziratot másolják, megírják és felülvizsgálják a kapott bizonyítékot, mielőtt a végleges idézhető formában közzéteszik. Kérjük, vegye figyelembe, hogy a gyártási folyamat során hibák észlelhetők, amelyek hatással lehetnek a tartalomra, és minden, a naplóra vonatkozó jogi nyilatkozat vonatkozik.

Referenciák

1. Baird LC. Residual algoritmusok: megerősítő tanulás funkciók közelítésével. In: Priedetis A, Russell S, szerkesztők. Gépi tanulás: a tizenkettedik nemzetközi konferencia folyamata; 9 – 12 July.1995.

2. Bunzeck N, Düzel E. A stimulus újdonságok abszolút kódolása a humán materia nigra / VTA-ban. Idegsejt. 2006; 51 (3): 369-379. [PubMed]

3. Dommett E, Coizet V, Blaha CD, Martindale J, Lefebvre V, Walton N, Mayhew JEW, Overton PG, Redgrave P. Hogyan viselkednek a vizuális ingerek a dopaminerg neuronok rövid késéssel. Tudomány. 2005; 307 (5714): 1476-1479. [PubMed]

4. Doya K. Metalearning és neuromoduláció. Neurális hálózatok. 2002 június – július, 15 (4 – 6): 495 – 506. [PubMed]

5. Gillies A, Arbuthnott G. A bazális ganglionok számítási modelljei. Mozgási zavarok. 2000; 15 (5): 762-770. [PubMed]

6. Horvitz JC. Mesolimbokortikális és nigrostriatális dopamin válaszok a kiemelkedő, nem jutalmazó eseményekre. Neuroscience. 2000; 96 (4): 651-656. [PubMed]

7. Kakade S, Dayan P. Dopamine: általánosítás és bónuszok. Neurális hálózatok. 2002; 15 (4-6): 549-559. [PubMed]

8. Knutson B, Cooper JC. Az ismeretlen csábítása. Idegsejt. 2006; 51 (3): 280-282. [PubMed]

9. Logothetis NK, Paul J, Augath M, Trinath T, Oeltermann A. Az fMRI jel alapja neurofiziológiai vizsgálata. Természet. 2001; 412 (6843): 150-157. [PubMed]

10. McClure SM, Berns GS, Montague PR. A passzív tanulási feladatok időbeli előrejelzési hibái aktiválják az emberi striatumot. Idegsejt. 2003; 38 (2): 339-346. [PubMed]

11. Niv Y, Duff MO, Dayan P. Dopamin, bizonytalanság és TD tanulás. Viselkedési és agyi funkciók. 2005 május 4, 1: 6. [PMC ingyenes cikk] [PubMed]

12. O'Doherty JP, Dayan P, Friston K, Critchley H, Dolan RJ. Időbeli különbség modellek és jutalmakkal kapcsolatos tanulás az emberi agyban. Idegsejt. 2003; 38 (2): 329-337. [PubMed]

13. Redgrave P, Gurney K. A rövid-késleltetésű dopamin jel: szerepe az új akciók felfedezésében? Természet vélemények Neurotudomány. 2006 Dec; 7 (12): 967 – 975.

14. Redgrave P, Prescott TJ, Gurney K. Vajon a rövid-késleltetésű dopamin válasz túl rövid ahhoz, hogy jelezze a jutalmat? A neurológiai tudományok trendjei. 1999 Apr., 22 (4): 146 – 151. [PubMed]

15. Reichle ED, Laurent PA. A megerősítés segítségével megtanulják megérteni az „intelligens” szemmozgás viselkedését az olvasás során. Pszichológiai áttekintés. 2006; 113 (2): 390-408. [PubMed]

16. Schultz W. A dopamin neuronok prediktív jutalmi jele. Journal of Neurophysiology. 1998; 80 (1): 1-27. [PubMed]

17. Sutton RS, Barto AG. Megerősítő tanulás: Bevezetés. MIT Press; Cambridge: 1998.

18. Tanaka SC, Doya K, Okada G, Ueda K, Okamoto Y, Yamawaki S. Az azonnali és jövőbeni jutalmak előrejelzése a kori-bazális ganglion hurkok felvételét jelenti. Nature Neuroscience. 2004; 7 (8): 887-893.