Uppkomsten av förmåner och nyhetssvar från förstärkningsinlärningsprinciper (2008)

KOMMENTARER: En annan studie som visar att nyhet är sin egen belöning. En av de beroendeframkallande aspekterna av internetporn är den oändliga nyheten och variationen, möjligheten att snabbt klicka från en scen till en annan och sökandet efter precis rätt bild / video. Alla dessa ökar dopamin. Det är detta som gör internetporr annorlunda än tidningar eller hyrda DVD-skivor.

Fullständig studie: Uppkomsten av förmåner och nyhetssvar från principerna för förstärkande lärande

Neural Netw. 2008 december; 21 (10): 1493-1499.

Publicerad online 2008 September 25. doi: 10.1016 / j.neunet.2008.09.004

Patryk A. Laurent, University of Pittsburgh;

Adressera all korrespondens till: Patryk Laurent, University of Pittsburgh, 623 LRDC, 3939 O'Hara St., Pittsburgh, PA 15260 USA, E-post: [e-postskyddad], Office: (412) 624-3191, Fax: (412) 624-9149

Abstrakt

Nyliga försök att kartlägga belöningsbaserade inlärningsmodeller, som förstärkningslära [17], till hjärnan baseras på observationen att fasas ökar och minskar vid spikningen av dopaminfrigörande neuroner signalerar skillnader mellan förutspådd och mottagen belöning [16,5]. Emellertid är detta belönings-prediktionsfel endast en av flera signaler som kommuniceras av den fasaktiviteten; en annan innebär en ökning av dopaminergisk spikning, vilket återspeglar uppkomsten av uppenbara men oförutsedda icke-belöningsstimuli [4,6,13], speciellt när en organism därefter orienterar sig mot stimulansen [16]. För att förklara dessa fynd har Kakade och Dayan [7] och andra ställt sig till den romanen, oväntade stimuli är egentligen givande. Den simulering som rapporteras i den här artikeln visar att detta antagande inte är nödvändigt eftersom effekten som den är avsedd att fånga framkommer av mekanismerna för förstärkningsprognosering för förstärkningslärande. Således kan förstärkningsinlärningsprinciper användas för att förstå inte bara belöningsrelaterad aktivitet av de basala gangliernas dopaminerga neuroner, men också några av deras uppenbarligen icke-belöningsrelaterade aktivitet.

Förstärkande lärande (RL) blir allt viktigare när det gäller att utveckla beräkningsmodeller av belöningsbaserat lärande i hjärnan. RL är en klass av beräkningsalgoritmer som anger hur en artificiell "agent" (t.ex. en riktig eller simulerad robot) kan lära sig att välja åtgärder för att maximera total förväntad belöning [17]. I dessa algoritmer baserar en agent sina handlingar på värden som den lär sig att associera med olika stater (t.ex. de perceptuella signalerna som hör samman med en stimulans). Dessa värden kan gradvis läras genom temporär skillnadsinlärning, vilket anpassar tillståndsvärdena baserat på skillnaden mellan agenten befintliga belöningsspecifikation för staten och den faktiska belöningen som därefter erhålls från miljön. Denna beräknade skillnad, benämnd belönings-prediktionsfel, har visat sig korrelera mycket bra med den fasiska aktiviteten hos dopaminfrigörande neuroner som utstrålar från substantia nigra i icke-mänskliga primater [16]. Vidare uppvisar striatumet, som är ett viktigt mål för dopamin, hos människor en fMRI BOLD-signal som tycks återspegla belöningsprediktionsfel under belöningsinlärningsuppgifter [10,12,18]. Detta fMRI-resultat kompletterar fysiologiska data eftersom striatal BOLD antas att åtminstone delvis avspegla afferent synaptisk aktivitet [9] och dopaminneuronen strängar sig mot striatumet.

Även om de ovan nämnda fysiologiska svaren förefaller vara relaterade till RL-belöningsspecifikationerna, Det finns också en ökning av dopaminergfasisk aktivitet som svar på uppväckning och / eller nya stimuli som uppenbarligen saknar belöning [4,6,14,3]. Ett liknande fenomen har nyligen observerats hos människor som använder fMRI [2]. Det finns flera anledningar till att det här meddelandet "nyhet" eller "salighet" inte är relaterat till belönings prediktionsfel: (1) det verkar mycket tidigt, innan stimulansidentiteten har bedömts, så att en exakt belöningsprognos inte kan genereras; (2) motsvarar det en ökning av neuralt aktivitet (det vill säga det är positivt) för både aversiva och aptitativa stimuli; och (3) det habituates [13]. Faktum är att dessa förmåner / nyhetssvar för de dopaminfrisättande neuronerna är mest tillförlitliga när stimuli är oförutsedda och resulterar i orientering och / eller beteendebeteende [16] oavsett det slutliga resultatet, vilket framhäver att de skiljer sig kvalitativt från lärd belöning förutsägelse. Utmaningen har därför varit att förklara det här uppenbara paradoxet (dvs hur nyheten påverkar felsökningsfelet) inom RL: s teoretiska ram.

Kakade och Dayan [7] försökte göra just detta; I deras artikel postulerar de två sätt på vilka nyhetssvar kan införlivas i RL-modeller av dopaminerg funktion - båda involverade införandet av nya teoretiska antaganden. Det första antagandet, som kallas nyhetsbonus, innebär att man inför en extra belöning när nya stimuli är närvarande, utöver den vanliga belöningen mottaget av agenten. Denna extra belöning går in i beräkningen så att inlärning baseras på skillnaden mellan agenten befintliga belöningsspecifikation och summan av både den vanliga belöningen från miljön och nyhetsbonusen. Således blir nyheten en del av den belöning som agenten försöker maximera. Det andra antagandet, benämnt formningsbonus, kan implementeras genom att artificiellt öka värdena för tillstånd associerade med nya stimuli. Eftersom den temporära skillnadsinlärningsregeln som används i RL är baserad på skillnaden i belöningsspecifikation mellan successiva stater, har tillsättningen av en konstant formningsbonus till stater som berörs av de nya stimulina ingen effekt på agens slutliga beteende. Ett nyhetssvar framstår emellertid fortfarande när agenten kommer in i den del av det statliga utrymmet som har "formats" (dvs det är förknippat med nyhet).

Även om tillägget av vart och ett av dessa antaganden är tillräckligt för att förklara många observerade effekter av nyhet, stör antagandena också utvecklingen av lärandet. Som Kakade och Dayan [7] påpekar kan nyhetsbonusar snedvrida värdefunktionen (dvs. värdena som är förknippade med varje tillstånd av agenten) och påverka det som slutligen lär sig, eftersom de implementeras som en extra belöning som i grunden är förknippad med romanen stater. Problemet är att agenten lär sig att förutsäga både primär- och nyhetskomponenterna i belöningen. Även om Kakade och Dayan påpekar att formning av bonusar inte orsakar denna typ av problem eftersom de införlivas i belöningsspecifikationerna från föregående stater, är deras tillägg fortfarande problematiskt eftersom formning av bonusar introducerar biaser i hur en agent utforskar sitt tillståndsutrymme. Således, även om dessa ytterligare antaganden kan förklara hur nyheten påverkar felsökningsproblemet i RL, är de problematiska. Vidare kommer förklaringarna till kostnaden för att minska parsimon av modelleringsarbete som försöker använda RL för att förstå beteendet hos verkliga biologiska organismer.

Den nedan angivna simuleringen utfördes för att testa hypotesen att ett enkelt RL-medel utan några ytterligare antaganden skulle utveckla ett belönings-prediktionsfelsvar som liknar de icke-belöningsrelaterade dopaminreaktioner som observeras i biologiska organismer . En RL-agent fick uppgiften att interagera med två typer av objekt-ett positivt och det andra negativt som uppträdde på slumpmässiga platser i sin miljö. För att maximera sin belöning måste agenten lära sig att närma sig och "konsumera" det positiva objektet och för att undvika (dvs inte "konsumera") det negativa objektet. Det fanns tre huvudsakliga förutsägelser för simuleringen.

Den första förutsägelsen var helt enkelt att agenten faktiskt skulle lära sig att närma sig och "konsumera" de positiva, givande föremålen samtidigt som man lär sig att undvika de negativa, straffande föremålen. Den andra förutsägelsen var något mindre uppenbar: att agenten skulle visa ett orienterande svar (dvs. lära sig att flytta sin orientering) mot både negativa och positiva objekt. Denna förutsägelse gjordes för att, trots att agenten kunde "känna" utseendet på ett föremål och dess plats, objektets positiva eller negativa identitet (dvs. den kue som agenten senare skulle lära sig att associera med objektets belöningsvärde) kunde inte bestämmas av agenten förrän agenten faktiskt hade riktat sig mot föremålet. Slutligen var den tredje (och viktigaste) predikationen relaterad till det simulerade dopaminerga fasiska svaret i modellen; Denna förutsägelse var att när föremålet uppträdde skulle agenten uppvisa ett belönings prediktionsfel som var beräkningsmässigt analogt med det fasiska dopaminsvaret som observerades i biologiska organismer, var positiv för både positiva och negativa objekt. Detta svar förutspåddes också att variera som en funktion av avståndet mellan medlet och stimulansen, vilket i samband med simuleringen var ett proximått för stimulans "intensitet" eller salience. Såsom kommer att demonstreras nedan, bekräftades dessa förutsägelser genom simuleringsresultaten, vilket visar att de uppenbarligen icke-belöningsrelaterade dopaminreaktionerna i princip kan framgå av RL: s grundläggande principer. De teoretiska konsekvenserna av dessa resultat för att använda RL för att förstå icke-belöningsrelaterad aktivitet i biologiska organismer kommer att diskuteras i det sista avsnittet i denna artikel.

Metod

Som redan nämnts anger RL-algoritmer hur en agent kan använda moment-till-moment numeriska belöningar för att lära sig vilka åtgärder den ska vidta för att maximera den totala belöningen som den tar emot. I de flesta formuleringar uppnås denna inlärning genom att använda belöningsprediktionsfel (dvs skillnaden mellan en agents nuvarande belöningsprediktion och den faktiska belöningen som erhålls) för att uppdatera agentens belöningsspecifikationer. När belöningsspecifikationerna lärs, kan prognoserna också användas av en agent för att välja sin nästa åtgärd. Den vanliga policyen (definierad i ekvation 2) är att agenten väljer att den åtgärd som förutses resulterar i den största belöningen. Den faktiska belöningen som ges till agenten vid vilken tidpunkt som helst är summan av den omedelbara belöningen plus en del av värdet av det tillstånd som agenten kommer in när åtgärden är fullbordad. Om medlet så småningom upplever positiva belöningar efter att ha varit i ett visst tillstånd kommer agenten att välja åtgärder i framtiden som sannolikt kommer att resultera i de belönade tillstånden; Omvänt, om agenten upplever negativa belöningar (dvs. straff) kommer det att undvika åtgärder i framtiden som leder till de "straffade" staterna.

Den specifika algoritmen som bestämmer belöningsspecifikationerna som lärs för de olika tillstånden (dvs. värdesfunktionen V) kallas Value Iteration [Footnote 1] och kan formellt beskrivas som:

För alla möjliga stater s,

(Ekvation 1)

där s motsvarar det nuvarande tillståndet, är V (s) den nuvarande belöningsförutsägelsen för tillstånd s som har blivit lärd av agenten, maxaction∈M {} är en operatör för det maximala värdet av den fästa kvantiteten över uppsättningen av alla åtgärder M är tillgänglig för agenten, V (s ') är agentens nuvarande belöningsspecifikation för nästa stat s', α är en del inlärningsfrekvens (mellan 0 och 1) och y är en diskonteringsfaktor som avspeglar hur framtida belöningar ska vägas i förhållande till omedelbara belöningar. Den ursprungliga värdesfunktionen sattes så att V (s) var 0 för alla tillstånd s.

Värdesfunktionen V (s) implementerades som en uppslagstabell, som formellt motsvarar antagandet om perfekt minne. Även om funktiona approximatorer såsom neurala nätverk har använts med viss framgång för att representera värdefunktioner [1] användes en uppslagstabell för att säkerställa att resultaten inte var beroende av de typer av generaliseringsmekanism som tillhandahålls av olika funktionsimperatörer. Medlet utbildades för 1,500-lärande iterationer över sitt tillståndsutrymme. På grund av oförutsägbarheten för objektens identitet användes en värdefunktionsuppdateringsparameter på mindre än en (α = 0.01) under inlärningen för att medge medelvärde för olika resultat. Slutligen sattes diskonteringsfaktorn till γ = 0.99 för att uppmuntra agenten att söka belöning snarare än att fördröja sitt beteendebeteende fram till slutet av försöket (även om det ändras från ett standardvärde av 1 hade ingen effekt på resultaten som rapporteras här. ) För att självständigt bestämma huruvida 1,500-lärande iterationer var tillräckliga för att lära sig att slutföra, övervakades den genomsnittliga förändringsmängden hos de lärda och befanns ha konvergerats före detta antal iterationer.

Efter träning är den specifika algoritmen som reglerar agentens beteende (dvs. politiken för handlingar som det tar från varje givet tillstånd):

(Ekvation 2)

där π (s) är den åtgärd som agenten kommer att välja från tillstånd s, och den högra sidan av ekvationen returnerar åtgärden (t.ex. förändring av orientering, rörelse eller ingen åtgärd) som maximerar summan av belöningen och det diskonterade värdet av det resulterande tillståndet s '.

I simuleringen som rapporteras nedan kodades alla de stater som besöktes av agenten som 7-dimensionella vektorer som representerade information om både det yttre "fysiska" tillståndet hos agenten och dess interna "kunskap" -tillstånd. Den fysiska informationen omfattade både agentens nuvarande position i rymden och dess orientering. Kunskapsinformationen innehöll objektets position (om en var närvarande) och identiteten på det objektet (om det hade bestämts av agenten). De specifika typerna av information som representerades av agenten visas i tabell 1.

Tabell 1

Dimensionerna som används i RL-simuleringarna och de möjliga värdena för dessa dimensioner.

Det fanns totalt 21,120-tillstånd i simuleringen [Fotnot 2]. De stater där det fanns ett oidentifierat positivt och oidentifierat negativt föremål är emellertid från agentens perspektiv identiska, så det finns således endast 16,280-separata tillstånd. Under varje upprepning av lärandet var det därför nödvändigt att besöka några av dessa "identiska" stater två gånger för att tillåta att hälften av tiden de skulle kunna följas med upptäckten av ett positivt föremål och hälften av tiden de kunde följas med upptäckten av ett negativt föremål [fotnot 3].

I början av varje simulerad testförsök placerades agenten i mitten av ett simulerat linjärt 11 × 1-enhetsspår med fem mellanslag till agenten "öst" (dvs. till höger) och fem utrymmen till "väst "(Dvs till vänster) hos agenten. Som tabell 1 visar, inkluderade agens tillståndsvektor ett element som indikerar sin nuvarande position på spåret (dvs ett heltal från 0 till 10), liksom ett element (dvs. ett tecken "n", "s", " e "eller" w ") som representerar dess nuvarande orientering (dvs. norr, syd, öst eller väst). Agentens initiala orientering var alltid inställd på att vara "norr" och inget annat objekt var närvarande i miljön (dvs. värdet av "OBJECT" i agentens tillståndsvektor sattes till lika med "0").

Under varje tidssteg i simuleringen kan agenten utföra en av följande åtgärder: (1) gör ingenting och förblir i den aktuella positionen och orienteringen; (2) orientera mot norr, söder, öst eller väst; eller (3) flytta ett utrymme i miljön (öst eller väst). Resultatet av varje åtgärd ägde rum på det efterföljande simulerade tidsteget. Alla förändringar i platsen och / eller orienteringen för agenten i rymden uppstod genom att agentens urval av åtgärder gjordes. Under varje tidssteg i simuleringen, även om en "gör ingenting" -åtgärd valdes, ökade tiden dock med 1 fram till slutet av försöket (dvs. tidssteget 20).

Agentens miljö upprättades så att halva tiden, ett föremål uppträdde på en slumpmässig plats (men inte på samma plats som agenten) efter tio tidssteg; 50% av objekten var positiva (representerade av en "+", se tabell 1) och 50% av objekten var negativa (representerade av en "-"). Förseningen innan föremålet uppträdde infördes för att tillåta observation av något beteende som agenten kan ha uppvisat före objektets utseende. Om agenten inte var orienterad mot objektet när det såg ut, ändrades det element som representerade "OBJECT" -identiteten i agentens tillståndsvektor från "0" till "?" För att reflektera det faktum att identiteten hos föremålet som nu var närvarande var för närvarande okänt. Om emellertid agenten var orienterad mot objektet sattes "OBJECT" -elementet på det efterföljande tidssteget lika med objektets identitet, så att "0" blev antingen "+" eller "-" för positiv respektive negativa objekt.

Om agenten flyttade till ett objekts plats, försvann föremålet under nästa steg. Om objektet hade varit positivt, var agenten "CONSUMED" -flagga satt lika sann och agenten belönades (belöning = + 10); Om objektet hade varit negativt, var "SHOCKED" -flaggan satt till sann och agenten straffades (belöning = -10). (Observera att flaggorna var inställda på detta sätt oavsett om agenten hade eller inte identifierat föremålet, t ex kan agenten konsumera ett föremål utan att någonsin orientera sig mot det.) På det efterföljande tidssteget "SHOCKED" eller "CONSUMED" flaggan rensades. Agenten fick också ett litet straff (förstärkning = -1) för varje rörelse eller orienteringsåtgärd, och fick ingen belöning eller straff (förstärkning = 0) om den inte utförde någon åtgärd.

Både uppträdande beteenden (dvs. orientering och rörelse) och en åtgärd av felsökningsprognosfel kvantifierades för agenten. Det uppträdande beteendet (dvs. listan över åtgärder som valdes av agenten) användes som en indikation på om uppgiften hade lärt sig. Mätningen av belöningsprediktionsfel användes för att testa hypotesen om framväxten av den icke-belönade dopaminerga fasiska signalen. Belöningsspecifikationsfelet, 5, mättes vid tiden t för ett objekts utseende genom att subtrahera belöningsförutsägelsen vid föregående tidssteg, dvs V (s) vid tidsteget t-1, från belöningsprediktionen när objektet visade sig, dvs V (s) vid tid t, vilket gav kvantiteten δ = V (st) - V (st-1).

Resultat
Simulerad beteende

Agenternas uppträdande beteende kvantifierades först. Resultaten av denna analys visade att efter träning närmade sig agenten och uppnådde positiv förstärkning från alla positiva föremål och nådde aldrig några av de negativa föremålen. Tillsammans ger dessa resultat beteendebekräftelse att agenterna lärde sig att utföra uppgiften korrekt. Denna slutsats stärks av den ytterligare observationen att medlet under försöken när inget föremål uppstod förblev orörligt. Som förutspådde agenten inriktad på både positiva och negativa föremål.

Simulerat belöningsprognosfel

Den centrala hypotesen av detta dokument är att utseendet på en oförutsägbar stimulans konsekvent kommer att generera ett positivt belöningsspecifik fel, även om objektet råkar vara ett "negativt" objekt som alltid straffar. Till stöd för denna hypotes uppvisade agenten ett positivt felsökningsfel närhelst ett (oidentifierat) föremål uppstod, men inte när ingenting uppstod. Också i överensstämmelse med den centrala hypotesen är det faktum att magnitudet av agens fasiska respons (5, mätt som beskrivet i avsnittet Metod) var känsligt för stimulans stimulerade simulering "intensitet" definieras med hjälp av avståndet mellan agenten och objektet (se figur 1). En regressionsanalys visade att storleken på δ var omvänt relaterad till avståndet från objektet, så att närmare objekt orsakade ett starkare svar (r = -0.999, p <0.001; β = 0.82). Denna negativa korrelation orsakades av det lilla straffet (förstärkning = -1) som infördes för varje rörelse som agenten var tvungen att göra för att flytta till det positiva föremålet, konsumera det och därmed få belöning.

Figur 1

Denna figur visar belöningsförutsägelsefelet (dvs δ) när objektet uppträdde som en funktion av objektets läge i förhållande till agentens plats. Svaren är identiska för både positiva och negativa objekt. När inget objekt (mer ...)

Med tanke på att positiva och negativa föremål uppstod i denna simulering med samma sannolikhet (p = .25) uppstår frågan: Varför var agentens belöningsspecifik felsignal positiv vid tidpunkten för objektets utseende? Med anledning av Kakade och Dayan [7] kan man förutse att signalen ska återspegla medelvärdet av alla lärda belöningar från sådana situationer och därför vara lika med noll. Nyckeln till att förstå detta resultat är att notera att RL inte bara gör en agent mindre sannolikt att välja åtgärder som leder till negativ förstärkning, det gör också en agent mindre sannolikt att komma in i stater som så småningom leder till negativ förstärkning. Detta resulterar i en slags "högre ordning" form av inlärning som avbildas i Figur 2 och beskrivs nedan.

Figur 2

Illustration som visar hur en RL-agent utvecklar positivt belöningsförutsägningsfel när en den tränas med både givande och straffande stimuli i sin miljö och kan välja om de ska närma sig och konsumera dem. (A) Situationen innan du lär dig: (mer ...)

I början av inlärningen (se Figur 2A) orienterar agenten både "+" och "-" objekten, närmar sig dem, och belönas både och straffas genom att konsumera varje typ av objekt. Om agentens lärda tillståndsvärden inte kunde påverka agens åtgärder (se Figur 2B), skulle agenten fortsätta att närma sig och konsumera föremålen. Klockans utseende skulle då förutsäga en genomsnittlig belöning för 0 och det skulle plötsligt öka belöningsspecifik fel. Emellertid använder agenten i denna simulering inlärda tillståndsvärden för att påverka dess åtgärder (se Figur 2C) och även om agenten fortfarande måste orientera sig mot det okända objektet för att bestämma sin identitet, kommer det inte längre att förbruka ett negativt objekt om det närmade sig det (som det kanske skulle utbildas med en slumpmässig prospekteringsalgoritm som banaprovtagning [Fotnot 1]). Dessutom, för att lärande av temporär skillnad gör det möjligt att förutspå negativa belöningar att "propagera" tillbaka till föregående stater, och eftersom det finns en liten kostnad för att flytta i rymden, lär agenten att undvika att närma sig det negativa objektet helt. Således, efter att denna information har lärt sig, är statens värde när objektet först visas (angivet som "V" i den första cirkeln i varje sekvens) inte baserat på medelvärdet av de positiva och negativa utfallstillståndsvärdena, utan är istället baserat på det genomsnittliga positiva och det "neutrala" resultatet som uppnås när agenten lär sig att undvika de negativa föremålen. Därför var genomsnittet av alla belöningar som faktiskt erhölls av den utbildade agenten större än noll, och förklarar varför agens belöningsförutsägelse (och därmed belöningsspecifikt fel när objektet plötsligt uppträder) var ett positivt nät. Detta illustreras i figur 3. Så länge agenten kan lära sig att förändra sitt beteende och undvika det negativa objektet, är värdet av det negativa objektet i slutändan irrelevant för agens slutliga beteende och omfattningen av nyheten / salvitetssvaret.

Figur 3

(A) Visar de förändringar i belöningsförutsägelser som skulle ha inträffat om RL inte resulterade i högre ordningslärande (dvs. om agenten inte kunde vidta åtgärder för att undvika det negativa resultatet), så att agenten tvingades konsumera allt objekt (mer ...)

Simuleringsresultaten är kritiskt beroende av tre antaganden. Först måste stimuli vara "framträdande" genom att storleken på förstärkningen som förutspåddes av den ursprungliga koden var tillräckligt stor (t ex + 10) i förhållande till kostnaderna för orientering och närmar sig (t ex -1). Om storleken hade varit relativt liten skulle medlet inte ha lärt sig att orientera, och det skulle heller inte ha genererat det positiva felsvaret. För det andra var en fördröjning före erkännande av stimuli också nödvändig. (Fördröjning är en proxy för "nyhet" med motiveringen att en välkänd stimulans skulle snabbt erkännas.) Utan en fördröjning skulle agenten helt enkelt ha genererat det lämpliga positiva eller negativa belöningsförutsägningsfelet som är lämpligt för det faktiska uppfattade objektet. Slutligen måste agens beteende bestämmas av de värden som den hade lärt sig. Om agenten inte kunde kontrollera sitt eget beteende (dvs. om man skulle närma sig stimuli) så skulle dess belöningsprediktion när ett föremål uppstod ha motsvarat 0, genomsnittet av de equiprobable positiva och negativa resultaten.

Allmän diskussion

Den simulering som rapporteras i den här artikeln visade att ett positivt belöningsspecifikt fel inträffar när en oförutsägbar stimulans, antingen belöning eller straff, uppträder men kan inte identifieras omedelbart. Vidare indikerade simuleringen att storleken på belöningsprediktionsfel ökar med närhet av stimulansen till agenten, vilken i simuleringssituationen är ett proximått för stimulansintensitet och därmed är relaterat till salience. I den teoretiska ramen för RL förstås belöningsspecifikationer normalt för att återspegla det lärda värdet av erkända stimuli, eller av en fysisk och / eller kognitiv tillstånd hos ett agent [15]. Det här belöningsspårningsfelet rapporteras här emellertid en kvalitativt annorlunda tolkning eftersom den genereras innan agenten har erkänt objektet. Tillsammans stöder dessa resultat hypotesen att RL-principer är tillräckliga för att producera ett svar som uppenbarligen saknar belöning, men i stället relaterat till egenskaperna hos nyhet och salighet. Denna slutsats har flera viktiga konsekvenser för vår generella förståelse av RL och för vår tolkning av RL som ett redogör för belöningsbelöning i verkliga biologiska organismer.

För det första är den belöningsprognos som genereras av ett RL-medel när en oidentifierad stimulans uppträder inte nödvändigtvis ett strikt medelvärde av de uppnåbara belöningarna som föreslagits av Kakade och Dayan [7], men kan faktiskt vara större i storleksordningen än det speciella genomsnittet. Kakade och Dayan skulle förutsäga att den genomsnittliga belöningsprognosen skulle vara lika med noll eftersom, eftersom försöken belönades och straffades lika ofta. Detta överraskande resultat uppstod för att agenten lärde sig på ett "on-policy" sätt; det vill säga, agenten lärde sig inte bara om negativa resultat, men också om dess förmåga att undvika dessa resultat. Denna förmåga av belöningssystemet att få en agent att undvika negativa resultat bör noggrant övervägas när man översätter vår förståelse av RL till verkliga organismer. Detta faktum är potentiellt ännu viktigare med tanke på den uppenbara asymmetrin som är kapaciteten för det dopaminerga fasresponset för att representera positivt belöningsprediktionsfel bättre än negativt belöningsprediktionsfel [11]. Det kan vara tillräckligt att ange att en viss händelsefrekvens leder till ett negativt utfall, men att för verkningsvalets ändamål är storleken på det resultatet oväsentligt.

En andra förskjutning av den nuvarande simuleringen är att nyhetssvaret kan uppstå av en växelverkan mellan perceptuella bearbetningssystem och belöningsspecifikationssystem. Speciellt kan nyhetssvaret bero på en form av likhet mellan nya objekt och objekt som ännu inte har genomgått fullständig perceptuell behandling [Fotnot 4]. I denna simulering genomfördes nyhet genom att införa en fördröjning innan objektets identitet (och därmed dess givande eller straffande natur) blev uppenbar för agenten. Detta gjordes under antagandet att nya objekt tar längre tid att identifiera, men detta antagande resulterade också i att de positiva och negativa föremålen uppfattas på samma sätt när de först uppträdde (dvs. de båda var kodade som "?"). I motsats härtill föreslår Kakade och Dayan [7] att nyhetssvar och "generaliserings" -svar är väsentligen olika trots att de manifesteras på samma sätt i neurofysiologidata.

En tredje förskjutning av nuvarande simuleringsresultat är att de visar att de ytterligare antagandena om nyhet och formbonus som föreslagits av Kakade och Dayan [7] inte är nödvändiga. I stället kan nyhetsliknande svar uppstå från realistiska perceptuella bearbetningsgränser och kunskapen om att kunna undvika negativa resultat. Det här är lyckligt eftersom, som påpekat av Kakade och Dayan, snedvrider nyhetsbonusvärdet värdefunktionen som lärs av en agent, och formning av bonusar påverkar hur agenter utforskar sina statsrum. Inkluderingen av något av dessa antaganden minskar således modellernas parsimoni baserat på RL-teorin. Intressant är att de resultat som presenteras här också bidrar till att förklara varför det biologiska nyhetssvaret inte kan vara störande för belöningsbaserat lärande i verkliga organismer: nyhetssvaret är faktiskt redan förutspått av RL. Det vill säga, nyhetssvaret speglar beteenden och belöningsspecifikationer som är inneboende i en agent som redan har lärt sig något om sin miljö.

En alternativ (men inte ömsesidigt exklusiv) tolkning av nuvarande simuleringsresultat är att det verkligen finns en abstrakt (kanske kognitiv) belöning som agenter erhåller genom att rikta sig mot och identifiera objekt. I studier av dopaminerg aktivitet kan positiva fasresponser uppträda till oförutsedda indikatorer som är kända för att förutsäga en belöning. Denna simulering visar emellertid hur dessa slags svar också kan uppstå som svar på en signal som i slutändan kan förutsäga antingen belöning eller straff. Den enda konsekventa fördelen som förutspås av cue är förstärkningen av information som erhålls när agenten bestämmer objektets identitet. Således, om det finns en giltig, lärd "belöningsprognos" när det oidentifierade föremålet uppträder, är det en som är nöjd efter att medlet har kunskap om huruvida man ska närma sig eller undvika stimulansen. Värdet av denna information baseras inte på genomsnittet av de uppnåbara resultaten, utan baseras istället på kunskapen om de effektiva resultaten - att agenten antingen kan konsumera den positiva belöningen eller undvika den negativa belöningen (se Figur 2).

Slutligen är det viktigt att notera att möjligheterna att vidta särskilda åtgärder (t.ex. att orientera) kan själva ta på sig givande egenskaper genom någon generaliserings- eller inlärningsmekanism som inte ingår i denna simulering. Till exempel kan själva akten att orientera och bestämma "vad som är där ute" kunna bli en belöning för en organism baserad på sambandet mellan den åtgärden och det ovan visade framväxande, alltid positiva belöningsförutsägningsfelet när nya stimuli uppträder. En liknande idé har nyligen utvecklats av Redgrave och Gurney [13] som hypoteser att ett viktigt syfte med fasisk dopaminreaktion är att förstärka åtgärder som uppträder före oförutsedda uppträdande händelser. Resultaten här är inte oförenliga med den här hypotesen, men det bör noteras att Redgrave och Gurney's hypotes inte testas direkt i denna simulering, eftersom det inte krävdes någon åtgärd (dvs. prospektering) av agenten för att den framträdande händelsen skulle utse objektet) att inträffa. Den simulerade fasensignalen sammanföll dock med tiden för orienteringssvaret vilket tyder på att de två kan vara starkt besläktade.

Slutligen har denna artikel visat att RL-principer kan användas för att förklara en typ av till synes icke-belöningsrelaterad aktivitet hos de dopaminerga neuronerna. Resultatet härrörde från det faktum att den temporära skillnaden lärande regeln (som den som användes av Kakade och Dayan [7]) var inbäddad i en simulering där agenten kunde välja åtgärder som hade effekt på det eventuella resultatet. I simuleringen lärde agenten att resultatet av orientering mot ett objekt som plötsligt uppträdde alltid kan vara givande eller neutralt eftersom det negativa resultatet kunde undvikas. Därför när agenten hade möjlighet att orientera, var dess belöningsförutsägningsfel alltid positivt, beräkningsmässigt analogt med de nyhets- och samlingssvar som observerades i biologiska organismer.

Erkännanden

Arbetet som beskrivs i denna artikel stöddes av NIH R01 HD053639 och av NSF Training Grant DGE-9987588. Jag vill tacka Erik Reichle, Tessa Warren och en anonym granskare för användbara kommentarer om en tidigare version av den här artikeln.

1Another förstärkningsinlärningsalgoritm, kallad Trajectory Sampling [17], används ofta istället för Value Iteration när tillståndsutrymmet blir så stort att det inte kan uttömmas fullständigt eller enkelt lagras i datorns minne. I stället för att iterera över varje stat i statsutrymmet och tillämpa uppdateringslikvationen för värdefunktionen baserat på de åtgärder som verkar leda till mest belöning fungerar Trajectory Sampling genom att följa sökvägar genom tillståndsutrymmet. På samma sätt som Value Iteration väljs de åtgärder som leder till mest belöning vanligtvis från varje stat, men ibland väljs en slumpmässig undersökande åtgärd med liten sannolikhet. Algoritmen är sålunda: Från en del startläge s välj en åtgärd som leder till mest belöning [t.ex. belöning + yV (s ')] med sannolikhet ε, eller välj en slumpvis undersökande åtgärd med sannolikhet 1 - ε. Applicera V (s) → V (s) + α [belöning + YV (s ') - V (s)] under icke-undersökande åtgärder från tillstånd s.

Förutom att övervinna de tekniska begränsningarna av beräkningstiden och minnet kan Trajectory Sampling vara tilltalande eftersom det bättre kan återspegla det sätt på vilket reella biologiska organismer lär sig: genom att utforska vägar i ett tillståndsrymd. På uppgiften som beskrivs i detta dokument ger Trajectory Sampling resultat som är kvalitativt identiska med de som erhållits med Value Iteration. För sammanfattningar rapporteras dock inte resultaten här i detalj. Value Iteration valdes för simuleringen i detta papper av två huvudskäl. För det första eftersom trajectorypling inbegriper stokasticitet vid val av banor, kan den stora förgreningen som beror på de många möjliga sekvenserna av åtgärder i denna uppgift resultera i agenter som saknar erfarenhet av vissa tillstånd såvida inte prospekteringsutnyttjandeparametern (dvs. E-greediness [17]) väljs noggrant. Denna brist på erfarenhet med specifika tillstånd kan vara störande för en agents prestanda när en minnesstruktur för uppslagstabellen används på grund av bristen på generalisering av värde till liknande (men möjligen ovisade) stater. Således föredrogs det att utnyttja den uttömmande prospektering av tillståndsutrymmet som garanteras med Value Iteration. För det andra hindrade användningen av Value Iteration behovet att specificera den ytterligare prospekteringsutnyttjande parametern och därigenom förenkla simuleringen. Observera att Trajectory Sampling kan slutligen approximera Value Iteration eftersom antalet banor närmar sig oändlighet [17].

2 Antalet 21,120-tillstånd kan beräknas enligt följande: 11 möjliga agenter-platser × 4 möjliga agentinriktningar × (10-tidssteg innan ett objekt kan visas + 10-tidssteg där inget objekt uppstod + 10-tidssteg där agenten hade varit positivt förstärkt + 10-tidssteg där objektet hade förstärkts negativt + 11 möjliga objektplatser * (10-tidssteg med ett positivt identifierat objekt + 10-tidssteg med ett negativt identifierat objekt + 10-tidssteg med ett oidentifierat positivt objekt + 10-tidssteg med ett oidentifierat negativt objekt))].

3 Förekomsten av dessa "dolda" stater måste övervägas under träning, eftersom värdesättning endast ser "ett steg framåt" från varje stat i statsutrymmet. Det faktum att stater med negativa och positiva oidentifierade objekt är effektivt identiska skulle förhindra att man lär sig om och medelvärderar värdena i de två olika efterföljande tillstånden i vilka antingen det positiva eller negativa objektet identifieras. En Trajectory Sampling-strategi å andra sidan upprätthåller den dolda statliga informationen (dvs identiteten för den oidentifierade stimulansen) under hela försöket och så med den varianten av RL är de dolda staterna inte oroande.

4 En potentiell invändning mot det nuvarande arbetet är att det orienterande svaret verkar vara hårdkopplat i däggdjurshjärnan, till exempel i projicer från överlägsen colliculus [3,14]. I den nuvarande simuleringen var agenterna inte hårda för att orientera mot föremål, utan lärde sig istället ett orienterande beteende som möjliggjorde det eventuella valet av en handling (t.ex. antingen tillvägagångssätt eller undvikande) som maximerade belöningen. På samma sätt som hårdkopplade svar uppträdde dessa orienteringsbeteenden mycket snabbt, innan objekten identifierades och riktades mot alla objekt. Målet med detta arbete var inte att göra påståendet att alla sådana svar lärs men snarare att de kan existera inom ramen för RL. Det skulle emellertid vara intressant att undersöka om belöningsrelaterade mekanismer kan vara involverade i att upprätta anslutning i hjärnstamområden för att generera detta fasiska dopaminrespons.

Detta är en PDF-fil av ett oediterat manuskript som har godkänts för publicering. Som en tjänst till våra kunder tillhandahåller vi denna tidiga version av manuskriptet. Manuskriptet kommer att genomgå copyediting, uppsättning och granskning av det resulterande beviset innan det publiceras i sin slutliga formulär. Observera att under tillverkningsprocessen kan det upptäckas fel som kan påverka innehållet och alla juridiska ansvarsfrister som gäller för tidskriften avser.

Referensprojekt

1. Baird LC. Resterande algoritmer: Förstärkningslärande med funktionskänslighet. I: Priedetis A, Russell S, redaktörer. Maskininlärning: Proceedings of the Twelfth International Conference; 9-12 juli.1995.

2. Bunzeck N, Düzel E. Absolut kodning av stimulansnyhet i humant substantia nigra / VTA. Nervcell. 2006; 51 (3): 369-379. [PubMed]

3. Dommett E, Coizet V, Blaha CD, Martindale J, Lefebvre V, Walton N, Mayhew JEW, Overton PG, Redgrave P. Hur visuella stimuli aktiverar dopaminerga neuroner vid kort latens. Vetenskap. 2005; 307 (5714): 1476-1479. [PubMed]

4. Doya K. Metalearning och neuromodulation. Neurala nätverk. 2002 Jun-Jul; 15 (4-6): 495-506. [PubMed]

5. Gillies A, Arbuthnott G. Beräkningsmodeller av basalganglierna. Rörelse störningar. 2000; 15 (5): 762-770. [PubMed]

6. Horvitz JC. Mesolimbokortikala och nigrostriatala dopaminreaktioner till framträdande icke-belöningshändelser. Neuroscience. 2000; 96 (4): 651-656. [PubMed]

7. Kakade S, Dayan P. Dopamin: generalisering och bonusar. Neurala nätverk. 2002; 15 (4-6): 549-559. [PubMed]

8. Knutson B, Cooper JC. Det okända locket. Nervcell. 2006; 51 (3): 280-282. [PubMed]

9. Logothetis NK, Pauls J, Augath M, Trinath T, Oeltermann A. Neurofysiologisk undersökning av grunden för fMRI-signalen. Natur. 2001; 412 (6843): 150-157. [PubMed]

10. McClure SM, Berns GS, Montague PR. Temporala prediktionsfel i en passiv inlärningsuppgift aktiverar mänsklig striatum. Nervcell. 2003; 38 (2): 339-346. [PubMed]

11. Niv Y, Duff MO, Dayan P. Dopamin, osäkerhet och TD-lärande. Beteende och hjärnfunktioner. 2005 kan 4; 1: 6. [PMC gratisartikel] [PubMed]

12. O'Doherty JP, Dayan P, Friston K, Critchley H, Dolan RJ. Temporala skillnadsmodeller och belöningsrelaterat lärande i människans hjärna. Nervcell. 2003; 38 (2): 329-337. [PubMed]

13. Redgrave P, Gurney K. Den korta latensdopamin-signalen: En roll för att upptäcka nya handlingar? Naturrecensioner Neurovetenskap. 2006 Dec; 7 (12): 967-975.

14. Redgrave P, Prescott TJ, Gurney K. Är det korta latensdopaminreaktionen för kort för att signalbelöningsfel? Trender i neurovetenskaper. 1999 Apr; 22 (4): 146-151. [PubMed]

15. Reichle ED, Laurent PA. Använda förstärkningslärande för att förstå uppkomsten av "intelligent" ögonrörelse beteende under läsning. Psykologisk granskning. 2006; 113 (2): 390-408. [PubMed]

16. Schultz W. Prediktiv belöningssignal för dopaminneuroner. Journal of Neurophysiology. 1998; 80 (1): 1-27. [PubMed]

17. Sutton RS, Barto AG. Förstärkande lärande: En introduktion. MIT Press; Cambridge: 1998.

18. Tanaka SC, Doya K, Okada G, Ueda K, Okamoto Y, Yamawaki S. Rekryteringen av omedelbara och framtida belöningar rekryterar differentiellt cortico-basala ganglia-slingor. Natur Neurovetenskap. 2004; 7 (8): 887-893.