Die opkoms van toegewydheid en nuwigheidsresponse van versterkingsleerbeginsels (2008)

OPMERKINGS: Nog 'n studie wat aantoon dat nuutheid die beloning is. Een van die verslawende aspekte van internetporno is die eindelose nuutheid en verskeidenheid, die vermoë om vinnig van die een toneel na die ander te klik en die soek na net die regte beeld / video. Al hierdie verhoog dopamien. Dit is wat internetporno verskil van tydskrifte of gehuurde DVD's.

Volle studie: Die opkoms van versoenbaarheid en nuwerwetse reaksies van versterkingsleerbeginsels

Neurale Netw. 2008 Desember; 21 (10): 1493-1499.

Gepubliseer aanlyn 2008 September 25. doi: 10.1016 / j.neunet.2008.09.004

Patryk A. Laurent, Universiteit van Pittsburgh;

Gee alle korrespondensie aan: Patryk Laurent, Universiteit van Pittsburgh, 623 LRDC, 3939 O'Hara St, Pittsburgh, PA 15260 VSA, E-pos: [e-pos beskerm], Kantoor: (412) 624-3191, Faks: (412) 624-9149

Abstract

Onlangse pogings om beloningsgebaseerde leermodelle te plaas, soos versterkingsleer [17], na die brein, is gebaseer op die waarneming dat phasic toeneem en afneem in die spiking van dopamien-vrylating neurone sein verskille tussen voorspelde en ontvang beloning [16,5]. Hierdie beloningsvoorspellingsfout is egter slegs een van verskeie seine wat deur daardie fasiese aktiwiteit gekommunikeer word; Die ander behels 'n toename in dopaminergiese spiking, wat die voorkoms van opvallende maar onvoorspelbare nie-beloningstimulasies [4,6,13] weerspieël, veral wanneer 'n organisme later na die stimulus [16] oriënteer. Om hierdie bevindings te verduidelik, het Kakade en Dayan [7] en ander die roman geplaas, onverwagte stimuli is intrinsiek beloonend. Die simulasie wat in hierdie artikel gerapporteer word, toon dat hierdie aanname nie nodig is nie omdat die effek wat dit beoog om vas te vang, voortspruit uit die beloningsvoorspellingsleermeganismes van versterkingsleer. So kan versterkingsleerbeginsels gebruik word om nie net beloningsverwante aktiwiteit van die dopaminerge neurone van die basale ganglia te verstaan ​​nie, maar ook van hul oënskynlik nie-beloningsverwante aktiwiteit.

Versterking leer (RL) word toenemend belangrik in die ontwikkeling van berekeningsmodelle van beloning-gebaseerde leer in die brein. RL is 'n klas van berekeningsalgoritmes wat spesifiseer hoe 'n kunsmatige "agent" (bv. 'N ware of gesimuleerde robot) kan leer om aksies te kies om die totale verwagte beloning [17] te maksimeer. In hierdie algoritmes baseer 'n agent sy optrede op waardes wat hy leer om met verskillende state te assosieer (bv. Die perseptuele leidrade wat met 'n stimulus geassosieer word). Hierdie waardes kan geleidelik geleer word deur middel van tydelike-verskil leer, wat staatswaardes verander wat gebaseer is op die verskil tussen die agent se bestaande beloningvoorspelling vir die staat en die werklike beloning wat daarna uit die omgewing verkry word. Hierdie berekeningsverskil, genoem beloningsvoorspellingsfout, het getoon dat dit baie goed korreleer met die fasiese aktiwiteit van dopamien-vrystelling van neurone wat uit die substantia nigra in nie-menslike primate [16] uitsteek. Verder, in die mens, toon die striatum, wat 'n belangrike teiken van dopamien is, 'n fMRI BOLD-sein, wat skynbaar voorspellingsfout tydens beloning-leer take [10,12,18] weerspieël. Hierdie fMRI-bevinding komplementeer die fisiologiese data omdat striatal BOLD aanvaar word, ten minste gedeeltelik, afferente sinaptiese aktiwiteit [9] en die dopamienneurone produseer swaar aan die striatum.

Alhoewel die bogenoemde fisiologiese response verband hou met die beloningsvoorspellingsberekeninge van RL, Daar is ook 'n toename in dopaminerge fasiese aktiwiteit in reaksie op opwekking en / of nuwe stimuli wat oënskynlik onverwant is om [4,6,14,3] te beloon. 'N Soortgelyke verskynsel is onlangs waargeneem in mense met behulp van fMRI [2]. Daar is verskeie redes waarom hierdie "nuwigheid" of "saligheid" -reaksie nie verband hou met die voorspellingsfout nie: (1) dit lyk baie vroeg voordat die identiteit van die stimulus geassesseer is, sodat 'n akkurate beloningvoorspelling nie gegenereer word; (2) dit stem ooreen met 'n toename in neurale aktiwiteit (dit wil sê positief) vir beide afersive en stimulerende stimuli; en (3) word dit gewoond aan [13]. Inderdaad, hierdie versoenings- / nuwigheidsreaksies van die dopamien-vrylating neurone is die mees betroubare wanneer die stimuli onvoorspelbaar is en lei tot oriëntering en / of benaderingsgedrag [16], ongeag die uiteindelike uitkoms, met die klem op die feit dat hulle kwalitatief verskil van geleerde beloning voorspelling. Die uitdaging is dus om hierdie skynbare paradoks te verduidelik (dit wil sê, hoe nuwigheid die beloningsvoorspellingsfout beïnvloed) binne die teoretiese raamwerk van RL.

Kakade en Dayan [7] het probeer om dit presies te doen; In hul artikel stel hulle twee maniere voor waarop nuwigheids response in RL-modelle van dopaminerge funksie geïnkorporeer kon word. Dit was beide die insluiting van nuwe teoretiese aannames. Die eerste veronderstelling, wat bekend staan ​​as nuwigheidsbonusse, behels die invoering van 'n bykomende beloning wanneer nuwe stimuli teenwoordig is, bo en behalwe die gewone beloning wat die agent ontvang. Hierdie bykomende beloning betree die berekening sodat leer gebaseer is op die verskil tussen die agent se bestaande beloningsvoorspelling en die som van beide die gewone beloning van die omgewing en die nuwigheidsbonus. Dus, die nuwigheid word deel van die beloning wat die agent probeer om te maksimeer. Die tweede veronderstelling, genaamd vormbonusse, kan geïmplementeer word deur kunsmatig die waardes van toestande wat met nuwe stimuli geassosieer word, te verhoog. Aangesien die temporele-verskil-leerreël wat in RL gebruik word, gebaseer is op die verskil in beloningsvoorspelling tussen opeenvolgende state, het die byvoeging van 'n konstante vormingsbonus aan state betrokke by die nuwe stimuli geen effek op die finale gedrag van die agent nie. 'N Nuwigheidsreaksie kom egter nog voor wanneer die agent die deel van die staatsruimte binnekom wat "gevorm" is (dit wil sê, wat verband hou met nuwigheid).

Alhoewel die byvoeging van elk van hierdie aannames voldoende is om baie waargenome effekte van nuwigheid te verduidelik, beïnvloed die aannames ook die progressie van leer. Soos Kakade en Dayan [7] daarop wys, kan nuwigheidbonusse die waardefunksie (dws die waardes wat met elke staat deur die agent geassosieer word) verwring en beïnvloed wat uiteindelik geleer word omdat hulle geïmplementeer word as 'n addisionele beloning wat inherent verband hou met roman state. Die probleem is dat die agent leer om beide die primêre en nuwigheidskomponente van die beloning te voorspel. Alhoewel Kakade en Dayan daarop wys dat die vorming van bonusse nie so 'n probleem veroorsaak nie omdat hulle in die beloningsvoorspellings van voorafgaande state geïnkorporeer word, is hul toevoeging steeds problematies omdat die vorming van bonusse vooroordeel in die manier waarop 'n agent sy staatsruimte sal verken. Alhoewel hierdie bykomende aannames kan verduidelik hoe nuwigheid die beloningsvoorspellingsfout in RL beïnvloed, is dit problematies. Verder, die verduidelikings kom ten koste van die vermindering van die parsimonie van modellerende werk wat poog om RL te gebruik om die gedrag van werklike biologiese organismes te verstaan.

Die onderstaande simulasie is uitgevoer om die hipotese te toets dat 'n eenvoudige RL-agent, sonder enige aanvullende aannames, 'n beloningsvoorspellingsfoutrespons sal ontwikkel wat soortgelyk is aan die nie-beloningsverwante dopamienresponse wat waargeneem word in biologiese organismes . 'N RL-agent het die taak gekry om met twee tipes voorwerp-een positief en die ander negatief te kommunikeer - wat op lukrake plekke in sy omgewing verskyn het. Ten einde sy beloning te maksimeer, moes die agent leer om die positiewe voorwerp te benader en te "verteer" en om die negatiewe voorwerp te vermy (dws nie "verbruik" nie). Daar was drie hoofvoorspellings vir die simulasie.

Die eerste voorspelling was eenvoudig dat die agent om sy beloning te maksimeer sou leer om die positiewe, lonende voorwerpe te benader en te "verteer" terwyl hulle gelyktydig leer om die negatiewe, strawende voorwerpe te vermy. Die tweede voorspelling was effens minder voor die hand liggend: die agent sou 'n oriënterende reaksie uitoefen (dws leer om sy oriëntasie te verskuif) teenoor beide negatiewe en positiewe voorwerpe. Hierdie voorspelling is gemaak, want hoewel die agent die voorkoms van 'n voorwerp en sy ligging kan uitken, kan die positiewe of negatiewe identiteit van die voorwerp (dws die leidraad wat die agent uiteindelik leer om te assosieer met die beloningswaarde van die voorwerp) kan nie deur die agent bepaal word nie nadat die agent eintlik na die voorwerp georiënteer het. Laastens was die derde (en belangrikste) voorspelling verwant aan die gesimuleerde dopaminerge-fasiese respons in die model; hierdie voorspelling was dat wanneer die voorwerp verskyn, die agent 'n beloning-voorspellingsfout toon wat berekenend analoog is aan die fasiese dopamienrespons wat in biologiese organismes waargeneem word, positief is vir beide positiewe en negatiewe voorwerpe. Hierdie reaksie is ook voorspel om te wissel as 'n funksie van die afstand tussen die middel en die stimulus, wat in die konteks van die simulasie 'n proxy-maatstaf was vir stimulus "intensiteit" of saligheid. Soos hieronder aangedui word, is hierdie voorspellings bevestig deur die simulasie resultate, wat aantoon dat die oënskynlik nie-beloningsverwante dopamienreaksies in beginsel kan voortspruit uit die basiese beginsels van RL. Die teoretiese implikasies van hierdie resultate vir die gebruik van RL om nie-beloningsverwante aktiwiteit in biologiese organismes te verstaan, sal in die laaste gedeelte van hierdie artikel bespreek word.

Metode

Soos reeds genoem, spesifiseer RL-algoritmes hoe 'n agent oomblik-tot-oomblik numeriese belonings kan gebruik om te leer watter aksies dit moet neem om die totale bedrag van die beloning wat dit ontvang, te maksimeer. In die meeste formulerings word hierdie leer bereik deur die gebruik van beloningsvoorspellingsfoute (dws die verskil tussen 'n agent se huidige beloningvoorspelling en die werklike beloning wat verkry is) om die agent se beloningsvoorspellings by te werk. Soos die beloningsvoorspellings geleer word, kan die voorspellings ook deur 'n agent gebruik word om sy volgende aksie te kies. Die gewone beleid (gedefinieer in Vergelyking 2) is vir die agent om die aksie te kies wat voorspel word om die grootste beloning te gee. Die werklike beloning wat op enige gegewe tydstip aan die agent verskaf word, is die som van die onmiddellike beloning plus 'n gedeelte van die waarde van die staat wat die agent betree wanneer die aksie voltooi word. Dus, as die agent uiteindelik positiewe belonings ervaar nadat hy in 'n bepaalde toestand was, sal die agent aksies in die toekoms kies wat waarskynlik tot daardie beloonde state sal lei; Omgekeer, as die agent negatiewe belonings ervaar (dws straf), sal dit aksies in die toekoms vermy wat tot die "gestraf" state lei.

Die spesifieke algoritme wat die beloningsvoorspellings bepaal wat vir die verskillende state geleer word (dws die waarde funksie V) word Value Iteration [Footnote 1] genoem en kan formeel beskryf word as:

Vir alle moontlike state s,

(Vergelyking 1)

waar s ooreenstem met die huidige toestand, is V (s) die huidige beloning voorspelling vir staat s wat deur die agent geleer is, maxaction∈M {} is 'n operateur vir die maksimum waarde van die gekonsentreerde hoeveelheid oor die stel van alle aksies M is beskikbaar vir die agent, V (s ') is die agent se huidige beloning voorspelling vir die volgende staat s', α is 'n mate van leersyfer (tussen 0 en 1) en γ is 'n afslagfaktor wat aandui hoe toekomstige voordele gewig moet word relatief tot onmiddellike belonings. Die aanvanklike waarde funksie is gestel sodat V (s) 0 vir alle state s was.

Die waarde funksie V (s) is geïmplementeer as 'n opsoek tafel, wat formeel gelykstaande is aan die aanname van perfekte geheue. Alhoewel funksie-benaderings soos neurale netwerke met sukses gebruik is om waardefunksies [1] voor te stel, is 'n opsoekstabel gebruik om te verseker dat die resultate nie afhanklik was van die tipes veralgemeningsmeganisme wat deur verskillende funksiebenaderings verskaf word nie. Die agent is opgelei vir 1,500 leer iterasies oor sy staatsruimte. As gevolg van die onvoorspelbaarheid van die identiteit van die voorwerpe, is 'n waardefunksie-opdateringsparameter van minder as een (α = 0.01) gebruik tydens die leer om toe te sien dat verskillende uitkomste gemiddeld is. Uiteindelik is die afslagfaktor ingestel op γ = 0.99 om die agent aan te moedig om eerder beloning te verkry eerder as om sy benaderinggedrag tot die einde van die verhoor te vertraag (hoewel dit van 'n verstekwaarde van 1 verander het, het geen effek gehad op die resultate wat hier gerapporteer word nie. ) Ten einde onafhanklik te bepaal of 1,500 leerherhalings voldoende was om te voltooi om te voltooi, is die gemiddelde hoeveelheid verandering in die geleerdes gemonitor en kon dit voor hierdie aantal iterasies gekonverteer word.

Na die opleiding is die spesifieke algoritme wat die agent se gedrag beheer (dws die beleid van aksies wat dit uit elke gegewe toestand neem):

(Vergelyking 2)

waar π (s) die aksie wat die agent uit staat s kies, en die regterkant van die vergelyking gee die aksie terug (bv. verandering van oriëntering, beweging of geen aksie) wat die som van die beloning en die verdiskonteerde waarde maksimeer van die gevolglike staat s '.

In die simulasie wat hieronder genoem word, is al die state wat deur die agent besoek is, as 7-dimensionele vektore geïnkripteer wat inligting oor beide die eksterne "fisiese" toestand van die agent en sy interne "kennis" toestand verteenwoordig. Die fisiese inligting het beide die agent se huidige posisie in die ruimte en sy oriëntasie ingesluit. Die kennisinligting het die posisie van die voorwerp ingesluit (indien een teenwoordig was) en die identiteit van daardie voorwerp (indien dit deur die agent bepaal is). Die spesifieke tipes inligting wat deur die agent voorgestel word, word in Tabel 1 getoon.

Tabel 1

Die dimensies wat gebruik word in die RL simulasies en die moontlike waardes van daardie dimensies.

Daar was 'n totaal van 21,120 state in die simulasie [Footnote 2]. Die state waarin daar 'n onbekende positiewe en onidentifiseerde negatiewe voorwerp is, is egter vanuit die perspektief van die agent identies, dus is daar slegs 16,280 afsonderlike state. Dus, tydens elke leerleer, was dit nodig om sommige van daardie "identiese" state twee keer te besoek om toe te laat dat die helfte van die tyd wat hulle met die ontdekking van 'n positiewe voorwerp gevolg kan word, en die helfte van die tyd wat hulle mag word gevolg met die ontdekking van 'n negatiewe voorwerp [voetnoot 3].

Aan die begin van elke gesimuleerde toetsproef is die agent in die middel van 'n gesimuleerde lineêre 11 × 1-eenheidspoor geplaas, met vyf spasies na die "ooste" (dws na regs) van die agent en vyf spasies na die "weste "(Dws aan die linkerkant) van die agent. Soos Tabel 1 toon, het die agent se staatsvektor 'n element ingesluit wat sy huidige ligging op die baan aandui (dit wil sê 'n heelgetal van 0 tot 10), sowel as 'n element ('n karakter "n", "s" e "of" w ") wat sy huidige oriëntasie verteenwoordig (dws onderskeidelik noord, suid, oos of wes). Die agent se aanvanklike oriëntasie was altyd "noord" en geen ander voorwerp was in die omgewing teenwoordig nie (dws die waarde van "OBJECT" in die agent se staatsvektor was gelyk aan "0").

Tydens elke tydstap van die simulasie kan die agent een van die volgende aksies uitvoer: (1) doen niks en bly in die huidige ligging en oriëntasie nie; (2) orient in die noorde, suid, oos of wes; of (3) beweeg een spasie in die omgewing (oos of wes). Die gevolg van elke aksie het plaasgevind op die daaropvolgende gesimuleerde tydstap. Alle veranderinge in die ligging en / of oriëntasie van die agent in die ruimte het plaasgevind deur die keuse van aksies deur die agent. Tydens elke tydstap van die simulasie, selfs wanneer 'n "niks doen" -aksie gekies is, is die tyd deur 1 tot aan die einde van die verhoor (dws tydstap 20) verhoog.

Die agent se omgewing is opgestel sodat die helfte van die tyd, 'n voorwerp op 'n ewekansige plek (maar nie op dieselfde plek as die agent nie) na tien tydstappe verskyn het; 50% van die voorwerpe was positief (verteenwoordig deur 'n "+", sien Tabel 1) en 50% van die voorwerpe was negatief (verteenwoordig deur 'n "-"). Die vertraging voordat die voorwerp verskyn het, is bekendgestel om die waarneming van enige gedrag wat die agent voor die voorkoms van die voorwerp uitgestal het, aan te toon. As die agent nie na die voorwerp georiënteer was nie, is die element wat die "OBJECT" -identiteit in die agent se staatsvektor verteenwoordig, verander van "0" na "?" Om die feit dat die identiteit van die voorwerp wat nou was teenwoordig was tans onbekend. As die agent egter na die voorwerp georiënteer was, was die "OBJECT" -element op die volgende tydstap gelyk aan die identiteit van die voorwerp, sodat "0" óf "+" óf "-" vir positief geraak het en negatiewe voorwerpe, onderskeidelik.

As die agent na 'n voorwerp se ligging beweeg het, dan het die voorwerp in die volgende tydstap verdwyn. As die voorwerp positief was, is die agent se VERBRUIKTE vlag gelyk aan waar en die agent is beloon (beloning = + 10); As die voorwerp egter negatief was, is die "SHOCKED" -vlag as waar gestel en die agent is gestraf (beloning = -10). (Let daarop dat die vlae so ingestel is, ongeag of die agent die voorwerp geïdentifiseer het of nie geïdentifiseer het nie, bv. Die agent kan 'n voorwerp verbruik sonder om ooit daarop te oriënteer.) In die daaropvolgende tydstap word die "GESCHOEER" of Die "VERBRUIK" -vlag is skoongemaak. Die agent is ook vir elke beweging of oriënteringsaksie 'n klein straf (versterking = -1) gegee, en het geen loon of straf ontvang nie (versterking = 0) as dit geen aksie uitgevoer het nie.

Beide die openlike gedrag (dws oriëntering en beweging) en 'n mate van beloningsvoorspellingsfout is vir die agent gekwantifiseer. Die oop gedrag (dws die lys van aksies wat deur die agent gekies is) is gebruik as 'n aanduiding of die taak aangeleer is. Die mate van beloning-voorspellingsfout is gebruik om die hipotese te toets oor die opkoms van die nie-beloning dopaminerge-fasiese sein. Die beloningsvoorspellingsfout, δ, is gemeet ten tye van die voorkoms van 'n voorwerp deur die beloningsvoorspelling by die vorige tydstap af te trek, dit wil sê, V (s) by tydstip t-1, van die beloningvoorspelling wanneer die voorwerp het verskyn, dws V (s) by tyd t, wat die hoeveelheid δ = V (st) - V (st-1) lewer.

Results
Gesimuleerde Gedrag

Die oop gedrag van die agente is eerste gekwantifiseer. Die resultate van hierdie analise het getoon dat die agent na opleiding die positiewe versterking van al die positiewe voorwerpe bereik het en nooit enige van die negatiewe voorwerpe genader het nie. Saam lewer hierdie resultate gedragsbevestiging dat die agente geleer het om die taak korrek uit te voer. Hierdie gevolgtrekking word versterk deur die addisionele waarneming dat die agent gedurende die proewe, toe geen voorwerp verskyn het, roerloos gebly het nie. Soos voorspel, het die agent gefokus op beide positiewe en negatiewe voorwerpe.

Simuleer Beloningsvoorspellingsfout

Die sentrale hipotese van hierdie vraestel is dat die voorkoms van 'n onvoorspelbare stimulus konsekwent 'n positiewe beloning-voorspellingsfout sal genereer, selfs as die voorwerp 'n "negatiewe" voorwerp is wat altyd straf. Ter ondersteuning van hierdie hipotese het die agent 'n positiewe beloningsvoorspellingsfout vertoon wanneer 'n (onidentifiseerde) voorwerp verskyn het, maar nie toe niks verskyn het nie. Ook in ooreenstemming met die sentrale hipotese is die feit dat die grootte van die middel se fasiese respons (δ, gemeet soos beskryf in die Metode-afdeling) sensitief is vir die gesimuleerde "intensiteit" van die stimulus, gedefinieer met behulp van die afstand tussen die agent en die voorwerp (sien Figuur 1). 'N Regressie-analise het aangedui dat die grootte van δ omgekeerd verband hou met die afstand vanaf die voorwerp, sodat nader voorwerpe 'n sterker reaksie veroorsaak (r = -0.999, p <0.001; β = 0.82). Hierdie negatiewe korrelasie is veroorsaak deur die klein boete (versterking = -1) wat opgelê is vir elke beweging wat die agent moes doen om na die positiewe voorwerp te beweeg, dit te verbruik en sodoende beloning te kry.

Figuur 1

Hierdie figuur toon die beloningsvoorspellingsfout (dws δ) toe die voorwerp verskyn as 'n funksie van die ligging van die voorwerp in verhouding tot die ligging van die agent. Die antwoorde is identies vir beide positiewe en negatiewe voorwerpe. Wanneer geen voorwerp (meer ...)

Aangesien positiewe en negatiewe voorwerpe in dieselfde simulasie met gelyke waarskynlikheid voorkom (p = .25) ontstaan ​​die vraag: Waarom was die agent se beloningsvoorspellingsfout sein positief ten tyde van die voorkoms se voorkoms? Redenering volgens Kakade en Dayan [7] kan voorspel dat die sein die gemiddelde van al die geleerde belonings van sulke situasies moet weerspieël, en dus gelyk wees aan nul. Die sleutel tot die verstaan ​​van hierdie resultaat is om daarop te let dat RL nie net 'n agent maak wat minder geneig is om aksies te kies wat negatiewe versterking tot gevolg het nie. Dit maak ook 'n agent minder waarskynlike lande wat uiteindelik tot negatiewe versterking lei. Dit lei tot 'n soort "hoër-orde" vorm van leer wat in Figuur 2 uitgebeeld word en later beskryf word.

Figuur 2

Illustrasie wat wys hoe 'n RL-agent positiewe beloningsvoorspellingsfout ontwikkel wanneer 'n IT opgelei word met belonende en strafprikkels in sy omgewing en in staat is om te kies of hy dit wil benader en verbruik. (A) Die situasie voordat u leer: (meer ...)

Aan die begin van leer (sien Figuur 2A) oriënteer die agent aan beide die "+" en "-" voorwerpe, benader hulle, en word beide beloon en gestraf deur elke tipe voorwerp te gebruik. As die agent se geleerde toestandwaardes nie die agent se aksies kon beïnvloed nie (sien Figuur 2B), sou die agent voortgaan om die voorwerpe te benader en te gebruik. Die voorkoms van die cue sal dan 'n gemiddelde beloning van 0 voorspel en daar sal 'n skielike toename in beloningsvoorspellingsfout wees. Die agent in hierdie simulasie gebruik egter geleerde toestandwaardes om sy aksies te beïnvloed (sien Figuur 2C) en hoewel die agent nog steeds na die onbekende voorwerp moet oriënteer om sy identiteit te bepaal, sal dit nie meer 'n negatiewe voorwerp verbruik as dit genader word nie. dit (soos dit moontlik sou wees indien dit opgelei is met 'n ewekansige eksplorasie-algoritme soos trajekmonsterneming [Voetnota 1]). Verder, omdat die leer van tydelike verskil die negatiewe beloningvoorspelling toelaat om terug te keer na vorige state, en omdat daar 'n klein koste is om in die ruimte te beweeg, leer die agent om die negatiewe objek heeltemal te vermy. Dus, nadat hierdie inligting geleer is, is die waarde van die staat wanneer die voorwerp eers verskyn (aangedui as "V" in die eerste sirkel in elke ry) nie gebaseer op die gemiddelde van die positiewe en negatiewe uitkomsstatuswaardes nie, maar is eerder gebaseer op die gemiddelde positiewe en die "neutrale" uitkoms wat bereik word sodra die agent leer om die negatiewe voorwerpe te vermy. Daarom is die gemiddelde van alle belonings wat eintlik deur die opgeleide agent verkry is, groter as nul en verduidelik waarom die agent se beloningsvoorspelling (en dus 'n voorspellingsfout wanneer die voorwerp skielik verskyn) net positief was. Dit word geïllustreer in Figuur 3. So lank as wat die agent kan leer om sy gedrag te verander en die negatiewe voorwerp te vermy, is die waarde van die negatiewe voorwerp uiteindelik irrelevant vir die finale gedrag van die agent en die omvang van die nuwigheids- / saligheidsrespons.

Figuur 3

(A) Demonstreer die veranderinge in die voorspelling van beloning wat sou plaasvind indien RL nie hoërordelike leer tot gevolg gehad het nie (dws as die agent nie maatreëls kon tref om die negatiewe uitkoms te vermy nie), sodat die agent gedwing is om al die voorwerpe (meer ...)

Die simulasie resultate is krities afhanklik van drie aannames. Eerstens moes die stimuli "opvallend" wees omdat die grootte van die versterking wat deur die aanvanklike kuier voorspel was groot genoeg was (bv. + 10) relatief tot die koste van oriëntering en naderende (bv. -1). As die grootte relatief klein was, sou die agent nie geleer het om te oriënteer nie, en sou dit ook nie die positiewe beloningsvoorspellingsfoutrespons gegenereer het nie. Tweedens, 'n vertraging voor die erkenning van die stimuli was ook nodig. (Vertraging is 'n proxy vir "nuwigheid" onder die redenasie dat 'n bekende stimulus vinnig herken sal word.) Sonder 'n vertraging sou die agent net die gepaste positiewe of negatiewe beloningsvoorspellingsfout geskik vir die werklike waargenome voorwerp gegenereer het. Laastens moes die agent se gedrag bepaal word deur die waardes wat dit geleer het. As die agent nie sy eie gedrag kon beheer nie (dws om die stimuli te benader), sou sy beloningvoorspelling wanneer 'n voorwerp verskyn, 0, die gemiddelde van die equiprobable positiewe en negatiewe uitkomste, gelyk het.

Algemene Bespreking

Die simulasie wat in hierdie artikel gerapporteer word, het getoon dat 'n positiewe beloningsvoorspellingsfout plaasvind wanneer 'n onvoorspelbare stimulus, hetsy beloning of straf, verskyn, maar nie onmiddellik geïdentifiseer kan word nie. Verder het die simulasie aangedui dat die grootte van die beloningsvoorspellingsfout toeneem na aanleiding van die stimulus vir die agent, wat in die konteks van die simulasie 'n proxy-maatstaf vir stimulusintensiteit is en dus verwant is aan saligheid. In die teoretiese raamwerk van RL word beloningsvoorspellings normaalweg verstaan ​​om die geleerde waarde van erkende stimuli, of van die fisiese en / of kognitiewe toestande van 'n agent [15] te weerspieël. Die hierbo gerapporteerde beloningsvoorspellingsfout het egter 'n kwalitatief verskillende interpretasie omdat dit gegenereer word voordat die agent die voorwerp herken het. Saam ondersteun hierdie resultate die hipotese dat RL-beginsels voldoende is om 'n reaksie te produseer wat oënskynlik nie verband hou met beloning nie, maar eerder in verband met die eienskappe van nuwigheid en saligheid. Hierdie gevolgtrekking het verskeie belangrike gevolge vir ons algemene begrip van RL en vir ons interpretasie van RL as 'n rekening van beloning leer in regte biologiese organismes.

Eerstens, die beloningsvoorspelling wat deur 'n RL-agent gegenereer word wanneer 'n onbekende stimulus verskyn, is nie noodwendig 'n streng gemiddelde van die verkrygbare belonings soos voorgestel deur Kakade en Dayan [7] nie, maar kan eintlik groter wees as die gemiddelde. Kakade en Dayan sal voorspel dat die gemiddelde beloningvoorspelling gelyk moet wees aan nul omdat die proewe soveel beloon en gestraf word. Hierdie verrassende resultaat het ontstaan ​​omdat die agent op 'n "on-policy" manier geleer het; dit wil sê, die agent het nie net geleer van negatiewe uitkomste nie, maar ook oor sy vermoë om daardie uitkomste te vermy. Hierdie vermoë van die beloningstelsel om 'n agent te laat om negatiewe uitkomste te vermy, moet noukeurig oorweeg word om ons begrip van RL te vertaal na werklike organismes. Hierdie feit is potensieel selfs belangriker gegewe die oënskynlike asimmetrie in die kapasiteit van die dopaminerge fasiese respons om positiewe beloningvoorspellingsfout beter te verteenwoordig as negatiewe beloningvoorspellingsfout [11]. Dit kan voldoende wees om aan te dui dat 'n bepaalde volgorde van gebeurtenisse tot 'n negatiewe uitkoms lei, maar dat die omvang van die uitkoms nie belangrik is vir die doel van aksie seleksie nie.

'N Tweede raming van die huidige simulasie is dat die nuwigheidsreaksie kan voortspruit uit 'n interaksie tussen perseptuele verwerkingstelsels en beloningsvoorspellingsstelsels. Spesifiek kan die nuwigheidsreaksie te wyte wees aan 'n vorm van ooreenkomste tussen nuwe voorwerpe en voorwerpe wat nog nie perseptuele verwerking ondergaan het nie [Footnote 4]. In hierdie simulasie is nuwigheid geïmplementeer deur 'n vertraging voor te lê voordat die voorwerp se identiteit (en gevolglik sy beloonende of strafbare aard) duidelik geword het vir die agent. Dit is gedoen onder die aanname dat nuwe voorwerpe langer neem om te identifiseer, maar hierdie aanname het ook daartoe gelei dat die positiewe en negatiewe voorwerpe soortgelyk waargeneem word toe hulle die eerste keer verskyn het (di hulle is albei gekodeer as "?"). In teenstelling hiermee dui Kakade en Dayan [7] daarop dat nuwigheidsresponse en "veralgemening" -reaksies in wese verskil, hoewel dit ook in die neurofisiologiese data manifesteer.

'N Derde raming van die huidige simulasie resultate is dat hulle wys dat die bykomende aannames van nuwigheid en vorm bonusse wat deur Kakade en Dayan [7] voorgestel is nie nodig is nie. In plaas daarvan kan nuwigheidsagtige antwoorde voortspruit uit realistiese perseptuele verwerkingsbeperkings en die kennis om negatiewe uitkomste te vermy. Dit is gelukkig omdat, soos aangedui deur Kakade en Dayan, nuwigheidsbonusse die waardefunksie wat deur 'n agent geleer word verdraai, en die vorming van bonusse beïnvloed die manier waarop agente hul staatsruimtes verken. Die insluiting van een van hierdie aannames verminder dus die parsimonie van modelle gebaseer op RL teorie. Interessant genoeg, help die resultate hier ook om te verduidelik hoekom die biologiese nuwigheidsreaksie nie ontwrigtend kan wees vir beloningsgebaseerde leer in werklike organismes nie: die nuwigheidsreaksie word eintlik reeds voorspel deur RL. Dit is, die nuwigheidsreaksie weerspieël gedrag en beloningsvoorspellings wat inherent is aan 'n agent wat reeds iets van sy omgewing geleer het.

'N Alternatiewe (maar nie wedersyds uitsluitende) interpretasie van die huidige simulasie resultate is dat daar inderdaad 'n abstrakte (miskien kognitiewe) beloning is wat agente verkry deur oriëntering en identifisering van voorwerpe. In studies van dopaminerge aktiwiteit kan positiewe fasiese reaksies voorkom by onvoorsiene aanwysings wat bekend is om 'n beloning te voorspel. Hierdie simulasie demonstreer egter hoe hierdie soort reaksies ook kan voorkom in reaksie op 'n cue wat uiteindelik óf beloning of straf kan voorspel. Die enigste konsekwente voordeel wat deur die cue voorspel word, is die toename in inligting wat verkry word wanneer die agent dit bepaal die identiteit van die voorwerp. Dus, as daar 'n geldige, geleerde "beloningvoorspelling" is wanneer die onbekende voorwerp verskyn, is dit een wat tevrede is nadat die agent die kennis verkry het om die stimulus te benader of te vermy. Die waarde van hierdie inligting is nie gebaseer op die gemiddelde van die verkrygbare uitkomste nie, maar gebaseer op die kennis van die effektiewe uitkomste - dat die agent die positiewe beloning kan verhoed of die negatiewe beloning kan vermy (sien Figuur 2).

Laastens is dit belangrik om daarop te let dat die geleenthede om spesifieke aksies te neem (bv. Om te oriënteer) self die beloonende eienskappe kan opneem deur middel van 'n algemene of leermeganisme wat nie in hierdie simulasie ingesluit is nie. Byvoorbeeld, die daad van oriëntering en bepaling van "wat daar buite is" kan beloon word vir 'n organisme wat gebaseer is op die verband tussen daardie aksie en die bogenoemde gedemonstreerde, altyd positiewe beloningsvoorspellingsfout wanneer nuwe stimuli voorkom. 'N Soortgelyke idee is onlangs deur Redgrave en Gurney [13] gevorder, wat vermoed dat 'n belangrike doel van die fasiese dopamienreaksie is om aksies wat voorkom voor onvoorspelbare belangrike gebeurtenisse te versterk. Die resultate hierin is nie onverenigbaar met die hipotese nie, maar daar moet op gelet word dat Redgrave en Gurney se hipotese nie direk getoets word in hierdie simulasie nie omdat daar geen aksies (eksplorasie) van die agent benodig word vir die belangrike gebeurtenis nie (die voorkoms van die voorwerp) om te voorkom. Die gesimuleerde fasiese sein het egter saamgeval met die tyd van die oriënterende reaksie wat daarop dui dat die twee sterk verwant kan wees.

Ten slotte het hierdie artikel getoon dat RL-beginsels gebruik kan word om 'n soort oënskynlik nie-beloningsverwante aktiwiteit van die dopaminerge neurone te verduidelik. Hierdie resultaat het geblyk uit die feit dat die temporale verskil leerreël (soos dié wat gebruik word deur Kakade en Dayan [7]) ingebed is in 'n simulasie waarin die agent aksies kon kies wat 'n uitwerking op die uiteindelike uitkoms gehad het. In die simulasie het die agent geleer dat die uitkoms van oriëntering op 'n voorwerp wat skielik verskyn het, altyd beloon of neutraal kan wees, aangesien die negatiewe uitkoms vermy kan word. Daarom, toe die agent die geleentheid gehad het om te oriënteer, was sy beloningsvoorspellingsfout altyd positief, berekenend analities aan die nuwigheids- en versoeningsreaksies wat in biologiese organismes waargeneem word.

Erkennings

Die werk wat in hierdie artikel beskryf word, is ondersteun deur NIH R01 HD053639 en deur NSF Training Grant DGE-9987588. Ek wil graag Erik Reichle, Tessa Warren, en 'n anonieme resensent bedank vir nuttige kommentaar oor 'n vorige weergawe van hierdie artikel.

1Andere versterkingsleer algoritme, genaamd Traject Monsterneming [17], word dikwels gebruik in plaas van Value Iteration wanneer die staatspasie so groot word dat dit nie volledig uitgehaal of maklik in 'n rekenaar se geheue gestoor kan word nie. Eerder as om te herhaal oor elke staat in die staatspasie en om die vergelyking van waardefunksies toe te pas, gebaseer op die aksies wat tot die meeste beloning lei, werk Traject Sampling deur die volg van paaie deur die staatsruimte. Net soos Value Iteration word die aksies wat tot die meeste beloning lei, gewoonlik uit elke land gekies, maar soms word 'n ewekansige verkennende aksie gekies met 'n klein kans. Die algoritme is dus: Vanaf 'n beginstaat s, kies 'n aksie wat tot die meeste beloning lei [bv. Beloning + yV (s ')] met waarskynlikheid ε, of kies 'n ewekansige verkennende aksie met waarskynlikheid 1 - ε. Pas V (s) toe ^ V (s) + α [beloning + yV (s ') - V (s)] tydens nie-verkennende aksies van staat s.

Benewens die tegniese beperkinge van berekeningstyd en geheue, kan Traject Monsterneming aantreklik wees omdat dit die manier waarop werklike biologiese organismes leer, beter weerspieël: deur paaie in 'n staatsruimte te ondersoek. Op die taak wat in hierdie vraestel beskryf word, lewer opbrengste van steekproefopbrengste wat kwalitatief identies is aan dié wat verkry word met Value Iteration. Vir die beknoptheid word hierdie resultate egter nie hier in besonderhede gerapporteer nie. Waardeherstelling is vir twee hoofredes gekies vir die simulasie in hierdie vraestel. Eerstens, omdat trajekmonsterneming stokastisiteit in die seleksie van trajekte behels, kan die groot hoeveelheid vertakking wat te danke is aan die talle moontlike opeenvolgings van aksies in hierdie taak tot agente lei wat nie ondervinding met sommige state het nie, tensy die eksplorasie-uitbuiting parameter (dit wil sê, E-gierigheid [17]) word noukeurig gekies. Hierdie gebrek aan ondervinding met bepaalde state kan ontwrigting van 'n agent se prestasie wees wanneer 'n opsommingstabel-geheuestruktuur gebruik word as gevolg van die gebrek aan veralgemening van waarde na soortgelyke (maar moontlik ongevraagde) state. Dit was dus verkies om voordeel te trek uit die uitputtende verkenning van staatsruimte wat gewaarborg word met Waardeherstelling. Tweedens, die gebruik van Value Iteration verhoed die behoefte om daardie bykomende eksplorasie-uitbuiting parameter te spesifiseer, en sodoende die simulasie te vereenvoudig. Let daarop dat Traject Monsterneming uiteindelik Waarde-Iterasie kan benader, aangesien die aantal trajekte oneindig [17] benader.

2Die aantal 21,120-state kan soos volg bereken word: 11 moontlike agentlocaties × 4 moontlike agent oriëntasies × (10 tydstappe voor 'n voorwerp mag voorkom + 10 tydstappe waar geen voorwerp verskyn het nie + 10 tydstappe waar die agent was positief versterk + 10 tydstappe waar die voorwerp negatief versterk is 11 moontlike voorwerp plekke * (10 tydstappe met 'n positief geïdentifiseerde objek + 10 tydstappe met 'n negatief geïdentifiseerde voorwerp + 10 tydstappe met 'n onbekende positiewe voorwerp + 10 tydstappe met 'n onbekende negatiewe voorwerp))].

3Die bestaan ​​van hierdie "verborge" state moet oorweeg word tydens die opleiding omdat Waardevertering slegs 'n stap vorentoe van elke staat in die staatsruimte lyk. Die feit dat state met negatiewe en positiewe onidentifiseerde voorwerpe effektief identies is, sal verhoed dat leer oor en die waardes in die twee verskillende daaropvolgende state waarin die positiewe of negatiewe voorwerp geïdentifiseer word, bereken word. 'N Traject Monsterneming benadering handhaaf egter die verborge staat inligting (dws die identiteit van die onbekende stimulus) dwarsdeur die verhoor en so met die variant van RL is die verborge state nie 'n bron van kommer nie.

4One potensiële beswaar teen die huidige werk is dat die oriënterende reaksie blykbaar in die soogdierbrein voorkom, byvoorbeeld in projeksies van die superieure colliculus [3,14]. In die huidige simulasie was die agente nie moeilik om te oriënteer op voorwerpe nie, maar het hulle eerder 'n oriënterende gedrag geleer wat die uiteindelike keuse van 'n aksie (bv. Benadering of vermyding) moontlik gemaak het wat die beloning maksimeer. Net so met hardebandreaksies het hierdie oriënterende gedrag baie vinnig plaasgevind, voordat die voorwerpe geïdentifiseer is en na alle voorwerpe gerig is. Die doel van hierdie werk was om nie die aanspraak te maak dat al sulke antwoorde geleer word nie, maar eerder dat hulle binne die RL-raamwerk kan bestaan. Nietemin, dit sal interessant wees om te ondersoek of beloningsverwante meganismes betrokke kan wees by die opstel van verbindings in breinstamgebiede om hierdie fasiese dopamienrespons te genereer.

Hierdie is 'n PDF-lêer van 'n ongeredigeerde manuskrip wat aanvaar is vir publikasie. As 'n diens aan ons kliënte voorsien ons hierdie vroeë weergawe van die manuskrip. Die manuskrip sal kopieëring, tikwerk en hersiening van die gevolglike bewys ondergaan voordat dit in sy finale citable vorm gepubliseer word. Let asseblief daarop dat tydens die produksieproses foute ontdek kan word wat die inhoud kan beïnvloed, en alle wettige disklaimers wat van toepassing is op die tydskrif betrekking het.

Verwysings

1. Baird LC. Resterende Algoritmes: Versterking Leer Met Funksionele Benadering. In: Priedetis A, Russell S, redakteurs. Masjienleer: Verrigtinge van die Twaalfde Internasionale Konferensie; 9-12 July.1995.

2. Bunzeck N, Düzel E. Absolute kodering van stimulus nuwigheid in die menslike substantia nigra / VTA. Neuron. 2006; 51 (3): 369-379. [PubMed]

3. Dommett E, Coizet V, Blaha CD, Martindale J, Lefebvre V, Walton N, Mayhew JEW, Overton PG, Redgrave P. Hoe visuele stimuli aktiveer dopaminerge neurone op kort latensie. Wetenskap. 2005; 307 (5714): 1476-1479. [PubMed]

4. Doya K. Metaaloorlewing en neuromodulasie. Neurale Netwerke. 2002 Jun-Jul; 15 (4-6): 495-506. [PubMed]

5. Gillies A, Arbuthnott G. Rekenaarmodelle van die basale ganglia. Bewegingsafwykings. 2000; 15 (5): 762-770. [PubMed]

6. Horvitz JC. Mesolimbokortiese en nigrostriatale dopamienreaksies vir belangrike, nie-beloningsgebeurtenisse. Neuroscience. 2000; 96 (4): 651-656. [PubMed]

7. Kakade S, Dayan P. Dopamien: veralgemening en bonusse. Neurale Netwerke. 2002; 15 (4-6): 549-559. [PubMed]

8. Knutson B, Cooper JC. Die lokmiddel van die onbekende. Neuron. 2006; 51 (3): 280-282. [PubMed]

9. Logothetis NK, Pauls J, Augath M, Trinath T, Oeltermann A. Neurofisiologiese ondersoek na die basis van die fMRI sein. Aard. 2001; 412 (6843): 150-157. [PubMed]

10. McClure SM, Berns GS, Montague PR. Temporale voorspellingsfoute in 'n passiewe leertaak aktiveer menslike striatum. Neuron. 2003; 38 (2): 339-346. [PubMed]

11. Niv Y, Duff MO, Dayan P. Dopamien, onsekerheid en TD leer. Gedrags- en breinfunksies. 2005 Mei 4; 1: 6. [PMC gratis artikel] [PubMed]

12. O'Doherty JP, Dayan P, Friston K, Critchley H, Dolan RJ. Temporale verskilmodelle en beloningsverwante leer in die menslike brein. Neuron. 2003; 38 (2): 329-337. [PubMed]

13. Redgrave P, Gurney K. Die kortlatende dopamien sein: 'n rol in die ontdekking van nuwe aksies? Natuur Resensies Neurowetenskap. 2006 Dec; 7 (12): 967-975.

14. Redgrave P, Prescott TJ, Gurney K. Is die kortlatende dopamienreaksie te kort om die beloningsfout te sein? Neigings in Neurowetenschappen. 1999 Apr; 22 (4): 146-151. [PubMed]

15. Reichle ED, Laurent PA. Gebruik versterkingsleer om die opkoms van "intelligente" oogbewegingsgedrag tydens lees te verstaan. Sielkundige Oorsig. 2006; 113 (2): 390-408. [PubMed]

16. Schultz W. Voorspellende beloning sein van dopamienneurone. Blaar van Neurofisiologie. 1998; 80 (1): 1-27. [PubMed]

17. Sutton RS, Barto AG. Versterkingsleer: 'n Inleiding. MIT Press; Cambridge: 1998.

18. Tanaka SC, Doya K, Okada G, Ueda K, Okamoto Y, Yamawaki S. Voorspelling van onmiddellike en toekomstige belonings rekruteer differensiaal cortico-basale ganglia-lusse. Natuur Neurowetenskap. 2004; 7 (8): 887-893.