De opkomst van opvoedings- en nieuwheidsreacties van leersterkte leersterkte (2008)

OPMERKINGEN: Een andere studie die aantoont dat nieuwheid zijn eigen beloning is. Een van de verslavende aspecten van internetporno is de eindeloze nieuwigheid en variatie, de mogelijkheid om snel van de ene scène naar de andere te klikken en het zoeken naar precies de juiste afbeelding / video. Al deze verhogen dopamine. Dit is wat internetporno anders maakt dan tijdschriften of gehuurde dvd's.

Volledige studie: de opkomst van opvoedings- en nieuwheidsreacties van leersterkingsbeginselen

Neural Netw. 2008 december; 21 (10): 1493-1499.

Gepubliceerd online 2008 september 25. doi: 10.1016 / j.neunet.2008.09.004

Patryk A. Laurent, University of Pittsburgh;

Adres alle correspondentie aan: Patryk Laurent, Universiteit van Pittsburgh, 623 LRDC, 3939 O'Hara St., Pittsburgh, PA 15260 VS, E-mail: [e-mail beveiligd], Kantoor: (412) 624-3191, Fax: (412) 624-9149

Abstract

Recente pogingen om op beloning gebaseerde leermodellen, zoals Reinforcement Learning [17], in de hersenen in kaart te brengen, zijn gebaseerd op de waarneming dat fasische stijgingen en dalingen in de toename van dopamine-afgevende neuronen signaalverschillen zijn tussen voorspelde en ontvangen beloning [16,5]. Deze beloningspredictiefout is echter slechts een van de verschillende signalen die door die fasische activiteit worden gecommuniceerd; een andere omvat een toename van dopaminerge stuiptrekkingen, die het uiterlijk van opvallende maar niet-voorspelde niet-beloningsstimuli [4,6,13] weerspiegelt, vooral wanneer een organisme vervolgens oriënteert naar de stimulus [16]. Om deze bevindingen te verklaren, hebben Kakade en Dayan [7] en anderen geponeerd dat nieuwe, onverwachte stimuli intrinsiek voldoening schenken. De in dit artikel gerapporteerde simulatie laat zien dat deze veronderstelling niet nodig is omdat het effect dat het beoogd heeft te vangen naar voren komt uit de beloningspredictiemechanismen van Reinforcement Learning. De principes van Reinforcement Learning kunnen dus worden gebruikt om niet alleen de aan de beloning gerelateerde activiteit van de dopaminerge neuronen van de basale ganglia te begrijpen, maar ook enkele van hun schijnbaar niet-beloningsgerelateerde activiteiten.

Reinforcement Learning (RL) wordt steeds belangrijker in de ontwikkeling van computationele modellen van op beloning gebaseerd leren in de hersenen. RL is een klasse van rekenalgoritmen die specificeert hoe een kunstmatige "agent" (bijv. Een echte of gesimuleerde robot) kan leren om acties te selecteren om de totale verwachte beloning [17] te maximaliseren. In deze algoritmen baseert een agent zijn acties op waarden die hij leert associëren met verschillende toestanden (bijv. De perceptuele signalen die verband houden met een stimulus). Deze waarden kunnen geleidelijk aan worden geleerd door middel van temporeel verschil-leren, dat de toestandswaarden aanpast op basis van het verschil tussen de bestaande beloningsvoorspelling van de agent voor de staat en de feitelijke beloning die vervolgens uit de omgeving wordt verkregen. Van dit berekende verschil, aangeduid als beloningspredictiefout, is aangetoond dat het zeer goed correleert met de fasische activiteit van dopamine-afgevende neuronen die uit de substantia nigra in niet-menselijke primaten [16] projecteren. Bovendien vertoont het striatum, wat een belangrijk doelwit is van dopamine, bij de mens een fMRI-GEWAAGD signaal dat blijkbaar een beloningspredictiefout weerspiegelt tijdens beloningslerende taken [10,12,18]. Deze fMRI-bevinding is een aanvulling op de fysiologiegegevens omdat wordt aangenomen dat striatale BOLD ten minste gedeeltelijk de afferente synaptische activiteit [9] weerspiegelt en de dopamine-neuronen zwaar op het striatum projecteren.

Hoewel de hiervoor genoemde fysiologische responsen gerelateerd lijken te zijn aan de beloningsvoorspellingsberekeningen van RL, er is ook een toename van dopaminerge fasische activiteit als reactie op opwindende en / of nieuwe stimuli die schijnbaar niet gerelateerd is aan beloning [4,6,14,3]. Een soortgelijk fenomeen is recent waargenomen bij mensen met behulp van fMRI [2]. Er zijn verschillende redenen waarom deze "nieuwheid" - of "saliency" -reactie niet gerelateerd is aan de beloningspredictiefout: (1) het lijkt heel vroeg, voordat de identiteit van de stimulus is beoordeeld, zodat een nauwkeurige beloningsvoorspelling niet kan worden gegenereerd; (2) het komt overeen met een toename in neurale activiteit (dat wil zeggen, het is positief) voor zowel aversieve als appetitieve stimuli; en (3) het gebruikt [13]. Deze heiligheid / nieuwheidsreacties van de dopamine-vrijmakende neuronen zijn inderdaad het meest betrouwbaar als de stimuli niet worden voorspeld en leiden tot oriëntatie en / of naderingsgedrag [16] ongeacht de uiteindelijke uitkomst, wat aangeeft dat ze kwalitatief verschillen van de geleerde beloning voorspelling. De uitdaging was daarom om deze schijnbare paradox (ie, hoe nieuwheid de beloningspredictiefout beïnvloedt) te verklaren binnen het theoretische raamwerk van RL.

Kakade en Dayan [7] hebben geprobeerd dit precies te doen; in hun artikel postuleren ze twee manieren waarop nieuwheidsresponsen kunnen worden opgenomen in RL-modellen van dopaminerge functie - beide betroffen de opname van nieuwe theoretische aannames. De eerste veronderstelling, aangeduid als nieuwheidsbonussen, omvat het introduceren van een extra beloning wanneer nieuwe stimuli aanwezig zijn, boven en buiten de gebruikelijke beloning die door de agent wordt ontvangen. Deze extra beloning komt in de berekening, zodat het leren gebaseerd is op het verschil tussen de bestaande beloningsvoorspelling van de agent en de som van zowel de gebruikelijke beloning uit de omgeving als de nieuwheidspremie. De nieuwheid wordt dus onderdeel van de beloning die de agent probeert te maximaliseren. De tweede veronderstelling, genaamd vormgevingsbonussen, kan worden geïmplementeerd door kunstmatig de waarden van toestanden geassocieerd met nieuwe stimuli te verhogen. Omdat de temporeel-verschil-leerregel die wordt gebruikt in RL gebaseerd is op het verschil in beloningsvoorspelling tussen opeenvolgende toestanden, heeft de toevoeging van een constante vormgevingsbonus aan staten die betrokken zijn bij de nieuwe stimuli geen effect op het uiteindelijke gedrag van het middel. Er treedt echter nog steeds een nieuwheidsreactie op wanneer het agens het gedeelte van de toestandsruimte betreedt dat "vormgegeven" is (dat wil zeggen, dat is geassocieerd met nieuwheid).

Hoewel de toevoeging van elk van deze aannames voldoende is om veel waargenomen effecten van nieuwheid te verklaren, interfereren de veronderstellingen ook met de voortgang van het leren. Zoals Kakade en Dayan [7] aangeven, kunnen nieuwigheidsbonussen de waardefunctie (dat wil zeggen de waarden die door de agent aan elke staat zijn gekoppeld) verstoren en beïnvloeden wat uiteindelijk wordt geleerd omdat ze worden geïmplementeerd als een extra beloning die intrinsiek wordt geassocieerd met nieuwe staten. Het probleem is dat de agent zowel de primaire als de nieuwheidscomponenten van de beloning leert voorspellen. Hoewel Kakade en Dayan erop wijzen dat het vormgeven van bonussen dit soort problemen niet veroorzaakt omdat ze worden opgenomen in de beloningsvoorspellingen van voorgaande staten, is hun toevoeging nog steeds problematisch omdat het vormgeven van bonussen vooroordelen introduceert in de manier waarop een agent zijn toestandsruimte zal verkennen. Dus, hoewel deze aanvullende aannames kunnen verklaren hoe nieuwheid de beloningspredictiefout in RL beïnvloedt, zijn ze problematisch. Verder gaan de verklaringen ten koste van het verminderen van de spaarzaamheid van modelleergegevens die proberen om RL te gebruiken om het gedrag van echte biologische organismen te begrijpen.

De hieronder gerapporteerde simulatie werd uitgevoerd om de hypothese te testen dat een eenvoudige RL-agent, zonder enige aannames, een foutrespons-foutrespons zou ontwikkelen die vergelijkbaar is met de niet-beloningsgerelateerde dopaminereacties die worden waargenomen in biologische organismen . Een RL-agent kreeg de taak om te interageren met twee typen objecten, de ene positief en de andere negatief, die op willekeurige locaties in de omgeving verschenen. Om zijn beloning te maximaliseren, moest de agent leren om het positieve object te benaderen en te "consumeren", en om het negatieve object te vermijden (dwz niet te "consumeren"). Er waren drie hoofdvoorspellingen voor de simulatie.

De eerste voorspelling was eenvoudig dat de agent, om zijn beloning te maximaliseren, in feite de positieve, belonende objecten zou leren benaderen en "consumeren" terwijl hij tegelijkertijd leert om de negatieve, straffende objecten te vermijden. De tweede voorspelling was iets minder voor de hand liggend: dat de agent een oriëntatiereactie zou vertonen (dwz zijn oriëntatie zou veranderen) naar zowel negatieve als positieve objecten. Deze voorspelling is gedaan omdat de agent weliswaar het uiterlijk van een object en de locatie ervan kon 'waarnemen', de positieve of negatieve identiteit van het object (dat wil zeggen, de cue die de agent uiteindelijk zou leren associëren met de beloningswaarde van het object) kon niet worden bepaald door de agent tot nadat de agent zich daadwerkelijk op het object had gericht. Ten slotte was de derde (en belangrijkste) voorspelling gerelateerd aan de gesimuleerde dopaminerge fasische respons in het model; deze voorspelling was dat, wanneer het object verscheen, het agens een beloningspredictiefout zou vertonen die computationeel analoog was aan de fasische dopaminerespons waargenomen in biologische organismen, positief voor zowel positieve als negatieve objecten. Er werd ook voorspeld dat deze respons zou variëren als een functie van de afstand tussen het middel en de stimulus, wat in de context van de simulatie een maatstaf voor de stimulus "intensiteit" of opvallendheid was. Zoals hieronder zal worden aangetoond, werden deze voorspellingen bevestigd door de simulatieresultaten, hetgeen aantoont dat de schijnbaar niet-beloningsgerelateerde dopaminereacties in principe kunnen voortkomen uit de basisprincipes van RL. De theoretische implicaties van deze resultaten voor het gebruik van RL om niet-beloningsgerelateerde activiteit in biologische organismen te begrijpen, worden besproken in het laatste deel van dit artikel.

Methode

Zoals eerder vermeld, bepalen RL-algoritmen hoe een agent moment-tot-moment numerieke beloningen kan gebruiken om te achterhalen welke acties hij moet ondernemen om de totale beloning die hij ontvangt te maximaliseren. In de meeste formuleringen wordt dit leren bereikt door het gebruiken van beloningsvoorspellingsfouten (dwz het verschil tussen de huidige beloningsvoorspelling van een agent en de feitelijke beloning die wordt verkregen) om de beloningsvoorspellingen van de agent bij te werken. Naarmate de beloningsvoorspellingen worden geleerd, kunnen de voorspellingen ook door een agent worden gebruikt om de volgende actie te selecteren. Het gebruikelijke beleid (gedefinieerd in Vergelijking 2) is dat de agent de actie selecteert waarvan wordt voorspeld dat deze resulteert in de grootste beloning. De feitelijke beloning die op een bepaald moment aan de agent wordt verstrekt, is de som van de onmiddellijke beloning plus een deel van de waarde van de staat die de agent invoert wanneer de actie is voltooid. Dus als de agent uiteindelijk positieve beloningen ervaart nadat hij in een bepaalde toestand is geweest, zal de agent in de toekomst acties selecteren die waarschijnlijk in die beloonde toestanden resulteren; omgekeerd, als de agent negatieve beloningen ervaart (dwz straf), zal het in de toekomst acties vermijden die tot die "gestrafte" toestanden leiden.

Het specifieke algoritme dat de beloningsvoorspellingen bepaalt die voor de verschillende toestanden worden geleerd (dwz de waardefunctie V) wordt waardetiteringsfunctie [voetnoot 1] genoemd en kan formeel worden beschreven als:

Voor alle mogelijke staten,

(Vergelijking 1)

waar s overeenkomt met de huidige status, V (s) is de huidige beloningsvoorspelling voor toestanden die is geleerd door de agent, maxaction∈M {} is een operator voor de maximale waarde van de reeks tussen haakjes over de reeks van alle acties M beschikbaar voor de agent, V (s ') is de huidige beloningsvoorspelling van de agent voor de volgende status s', α is enige leerfrequentie (tussen 0 en 1), en γ is een kortingsfactor die weergeeft hoe toekomstige beloningen moeten worden gewogen ten opzichte van onmiddellijke beloningen. De beginwaardefunctie werd zo ingesteld dat V (s) voor alle toestanden 0 was.

De waardefunctie V (s) is geïmplementeerd als een opzoektabel, die formeel equivalent is aan de aanname van perfect geheugen. Hoewel functie-approximatoren zoals neurale netwerken met enig succes zijn gebruikt om waardefuncties [1] weer te geven, werd een opzoektabel gebruikt om ervoor te zorgen dat de resultaten niet afhankelijk waren van het type generaliseringsmechanisme dat wordt geleverd door verschillende functie-approximatoren. De agent is getraind voor het leren van iteraties van 1,500 over de toestandsruimte. Vanwege de onvoorspelbaarheid van de identiteit van de objecten, werd een parameter voor de waardefunctie-update van minder dan één (α = 0.01) gebruikt tijdens het leren om het gemiddelde van verschillende uitkomsten toe te staan. Ten slotte werd de kortingsfactor ingesteld op γ = 0.99 om de agent aan te moedigen sneller een beloning te zoeken in plaats van zijn benaderingsgedrag te vertragen tot het einde van de proef (hoewel het wijzigen van een standaardwaarde van 1 geen effect had op de hier vermelde resultaten. ) Om onafhankelijk te bepalen of 1,500-leeriteraties voldoende waren om het leren te voltooien, werd de gemiddelde hoeveelheid verandering in de geleerde gemonitord en bleek geconvergeerd te zijn vóór dit aantal iteraties.

Na de training is het specifieke algoritme dat het gedrag van de agent regelt (dwz het beleid van acties die het vanuit elke gegeven status uitvoert):

(Vergelijking 2)

waarbij π (s) de actie is die de agent uit toestanden zal selecteren, en de rechterkant van de vergelijking de actie retourneert (bijv. verandering van oriëntatie, beweging of geen actie) die de som van de beloning en de kortingswaarde maximaliseert van de resulterende staat s '.

In de simulatie die hieronder worden vermeld, zijn alle staten die door de agent zijn bezocht, gecodeerd als 7-dimensionale vectoren die informatie bevatten over zowel de externe "fysieke" status van de agent als de interne "kennis" -status. De fysieke informatie omvatte zowel de huidige positie van de agent in de ruimte als zijn oriëntatie. De kennisinformatie omvatte de positie van het object (als er een aanwezig was) en de identiteit van dat object (als het door de agent was bepaald). De specifieke soorten informatie die door de agent werden weergegeven, worden weergegeven in tabel 1.

Tabel 1

De dimensies die worden gebruikt in de RL-simulaties en de mogelijke waarden van die dimensies.

Er waren in totaal 21,120-statussen in de simulatie [Voetnoot 2]. De toestanden waarin een niet-geïdentificeerd positief en niet-geïdentificeerd negatief object bestaat, zijn vanuit het perspectief van het agens identiek, dus er zijn daarom alleen 16,280-verschillende statussen. Daarom was het tijdens elke iteratie van het leren noodzakelijk om een ​​aantal van die 'identieke' toestanden tweemaal te bezoeken om rekening te houden met het feit dat de helft van de tijd dat ze gevolgd zouden kunnen worden met de ontdekking van een positief object, en de helft van de tijd dat ze zouden kunnen gevolgd worden door de ontdekking van een negatief object [Voetnoot 3].

Aan het begin van elke gesimuleerde testversie, werd de agent geplaatst in het midden van een gesimuleerde lineaire 11 × 1-eenheidsspoor met vijf velden naar het "oosten" (dwz aan de rechterkant) van de agent en vijf velden naar de "west "(Dwz aan de linkerkant) van de agent. Zoals tabel 1 laat zien, bevatte de statusvector van de agent een element dat de huidige locatie op de track aangeeft (dwz een geheel getal van 0 tot 10), evenals een element (dat wil zeggen een teken "n", "s", " e ", of" w ") die de huidige oriëntatie vertegenwoordigen (dwz respectievelijk Noord, Zuid, Oost of West). De oorspronkelijke oriëntatie van de agent was altijd ingesteld op "noord" en er was geen ander object aanwezig in de omgeving (dwz de waarde van "OBJECT" in de statusvector van de agent was gelijk aan "0").

Tijdens elke tijdstap van de simulatie kan de agent een van de volgende acties uitvoeren: (1) niets doen en op de huidige locatie en oriëntatie blijven; (2) oriënteer naar het noorden, zuiden, oosten of westen; of (3) één spatie verplaatsen in de omgeving (oost of west). Het resultaat van elke actie vond plaats op de daaropvolgende gesimuleerde tijdstap. Alle wijzigingen in de locatie en / of oriëntatie van de agent in de ruimte vonden plaats door de selectie van acties door de agent. Tijdens elke tijdstap van de simulatie, zelfs wanneer een actie "niets doen" werd geselecteerd, werd de tijd met 1 verhoogd tot het einde van de proef (dwz, de tijdstap 20).

De omgeving van de agent werd zo ingesteld dat de helft van de tijd na tien stappen op een willekeurige locatie (maar niet op dezelfde locatie als de agent) verscheen; 50% van de objecten was positief (weergegeven door een "+", zie tabel 1) en 50% van de objecten waren negatief (weergegeven door een "-"). De vertraging voordat het object verscheen, werd geïntroduceerd om de observatie mogelijk te maken van elk gedrag dat de agent vóór het verschijnen van het object had kunnen vertonen. Als de agent niet op het object was gericht toen deze verscheen, werd het element dat de "OBJECT" -identiteit in de toestandsvector van de agent vertegenwoordigde, gewijzigd van "0" in "?" Om het feit weer te geven dat de identiteit van het object dat nu was heden was momenteel onbekend. Als de agent echter op het object was gericht, werd het element "OBJECT" op de daaropvolgende tijdstap gelijkgesteld aan de identiteit van het object, zodat "0" "+" of "-" werd voor positieve en negatieve objecten, respectievelijk.

Als de agent naar de locatie van een object is verplaatst, is het object tijdens de volgende tijdstap verdwenen. Als het object positief was, dan was de "VERBRUIKTE" vlag van de agent gelijk aan waar en werd de agent beloond (beloning = + 10); Als het object echter negatief was, was de markering "SHOCKED" ingesteld op true en werd de agent gestraft (reward = -10). (Merk op dat de vlaggen op deze manier zijn ingesteld, ongeacht of de agent het object al dan niet had geïdentificeerd, bijvoorbeeld dat de agent een object kon gebruiken zonder zich er ooit op te oriënteren.) Op de daaropvolgende tijdstap, de "SHOCKED" of De vlag "CONSUMEREN" is gewist. De agent kreeg ook een kleine boete (reinforcement = -1) voor elke beweging of oriëntatie-actie en ontving geen beloning of straf (reinforcement = 0) als deze geen actie uitvoerde.

Zowel het openlijke gedrag (ie oriënteren en bewegen) als een maat voor de beloningspredictiefout werden gekwantificeerd voor de agent. Het openlijke gedrag (dwz de lijst met acties geselecteerd door de agent) werd gebruikt als een indicatie van de vraag of de taak was geleerd. De maat van de beloningspredictiefout werd gebruikt om de hypothese te testen over de opkomst van het niet-belonende dopaminerge fasische signaal. De beloningsvoorspellingsfout, 8, werd gemeten op het tijdstip t van het uiterlijk van een object door de beloningsvoorspelling af te trekken bij de vorige tijdstap, dat wil zeggen V (s) in de tijdstap t-1, uit de beloningsvoorspelling wanneer het object verscheen, dat wil zeggen V (s) op tijdstip t, wat de hoeveelheid 8 = V (st) - V (st-1) opleverde.

Resultaten
Gesimuleerd gedrag

Het openlijke gedrag van de agentia werd eerst gekwantificeerd. De resultaten van deze analyse toonden aan dat de agent na de training benaderde en positieve versterking van alle positieve objecten verkreeg en nooit een van de negatieve objecten benaderde. Samen bieden deze resultaten gedragsbevestiging dat de agents hebben geleerd om de taak correct uit te voeren. Deze conclusie wordt versterkt door de extra observatie dat, tijdens de proeven toen geen object verscheen, de agent onbeweeglijk bleef. Zoals voorspeld, is de agent gericht op zowel positieve als negatieve objecten.

Simulated Reward-Prediction Error

De centrale hypothese van dit artikel is dat het verschijnen van een onvoorspelbare stimulus consequent een positieve beloningspredictiefout zal genereren, zelfs als dat object een "negatief" object is dat altijd strafbaar is. Ter ondersteuning van deze hypothese vertoonde de agent een positieve beloningsvoorspellingsfout wanneer een (niet-geïdentificeerd) object verscheen, maar niet wanneer niets verscheen. Ook consistent met de centrale hypothese is het feit dat de magnitude van de fasische respons van het middel (δ, gemeten zoals beschreven in de sectie Methode) gevoelig was voor de gesimuleerde "intensiteit" van de stimulus, gedefinieerd met behulp van de afstand tussen de agent en het object (zie Figuur 1). Een regressieanalyse gaf aan dat de grootte van δ omgekeerd evenredig was met de afstand tot het object, zodat objecten dichterbij een sterkere respons veroorzaakten (r = −0.999, p <0.001; β = 0.82). Deze negatieve correlatie werd veroorzaakt door de kleine straf (versterking = -1) die werd opgelegd voor elke beweging die de agent moest maken om naar het positieve object te gaan, het te consumeren en daardoor een beloning te krijgen.

Figuur 1

Deze afbeelding toont de beloningsvoorspellingsfout (dwz δ) wanneer het object verscheen als een functie van de locatie van het object ten opzichte van de locatie van de agent. De reacties zijn identiek voor zowel positieve als negatieve objecten. Wanneer geen object (meer ...)

Gegeven dat positieve en negatieve objecten in deze simulatie met gelijke waarschijnlijkheid verschenen (p = .25), rijst de vraag: Waarom was het beloningsvoorspellingsfoutsignaal van de agent positief op het moment van het uiterlijk van het object? Redenerend volgens Kakade en Dayan [7], zou je kunnen voorspellen dat het signaal het gemiddelde van alle geleerde beloningen uit dergelijke situaties zou moeten weerspiegelen en daarom gelijk aan nul zou moeten zijn. De sleutel tot het begrijpen van dit resultaat is dat niet alleen RL een agent minder geneigd maakt acties te kiezen die resulteren in negatieve versterking, maar ook dat een agent minder snel staten binnengaat die uiteindelijk tot negatieve versterking leiden. Dit resulteert in een soort "hogere-orde" vorm van leren die wordt weergegeven in figuur 2 en hierna wordt beschreven.

Figuur 2

Illustratie die laat zien hoe een RL-agent een positieve beloningsvoorspellingsfout ontwikkelt wanneer hij wordt getraind met zowel belonende als bestraffende stimuli in zijn omgeving en kan kiezen of hij deze benadert en consumeert. (A) De situatie vóór het leren: (meer ...)

Aan het begin van het leren (zie figuur 2A), benadert de agent de objecten "+" en "-", en wordt zowel beloond als bestraft door elk type object te consumeren. Als de geleerde statuswaarden van de agent de acties van de agent niet konden beïnvloeden (zie figuur 2B), zou de agent de objecten blijven benaderen en consumeren. Het verschijnen van de cue zou dan een gemiddelde beloning van 0 voorspellen en er zou een plotselinge toename van de fout van de reward-voorspelling optreden. De agent in deze simulatie gebruikt echter geleerde statuswaarden om zijn acties te beïnvloeden (zie figuur 2C), en hoewel de agent zich nog steeds moet oriënteren op het onbekende object om zijn identiteit te bepalen, zal deze niet langer een negatief object consumeren als het dichterbij komt het (zoals het zou kunnen als getraind met een willekeurig exploratiealgoritme zoals trajectbemonstering [Voetnoot 1]). Bovendien, omdat leren in tijdsverschil het mogelijk maakt dat de negatieve beloningsvoorspelling zich terugvoert naar voorgaande staten en omdat er lage kosten zijn voor het verplaatsen in de ruimte, leert de agent vermijden om het negatieve object volledig te benaderen. Dus, nadat deze informatie is geleerd, is de waarde van de status wanneer het object voor het eerst verschijnt (aangegeven als "V" in de eerste cirkel in elke reeks) niet gebaseerd op het gemiddelde van de positieve en negatieve uitkomststatuswaarden, maar is in plaats daarvan op basis van het gemiddelde van de positieve en de "neutrale" uitkomst die wordt bereikt zodra de agent leert om de negatieve objecten te vermijden. Dit is de reden waarom het gemiddelde van alle daadwerkelijk door de getrainde agent verkregen beloningen groter was dan nul, en verklaart waarom de beloningsvoorspelling van de agent (en dus de beloningspredictiefout toen het object plotseling verscheen) een netto positief was. Dit wordt geïllustreerd in figuur 3. In feite, zolang de agent kan leren om zijn gedrag te veranderen en het negatieve object te vermijden, is de waarde van het negatieve object uiteindelijk niet relevant voor het uiteindelijke gedrag van het agens en de grootte van de nieuwheid / saliencyrespons.

Figuur 3

(A) Toont de veranderingen in beloningsvoorspelling die zouden zijn opgetreden als RL niet had geleid tot leren van hogere orde (dwz als de agent geen maatregelen kon nemen om de negatieve uitkomst te vermijden), zodat de agent gedwongen werd om alle objecten (meer ...)

De simulatieresultaten zijn kritisch afhankelijk van drie aannames. Ten eerste moesten de stimuli "saillant" zijn in die zin dat de grootte van de wapening voorspeld door de initiële cue voldoende groot was (bijv. + 10) ten opzichte van de kosten van oriënteren en naderen (bijv. -1). Als de omvang relatief klein was geweest, zou de agent niet hebben geleerd zich te oriënteren en evenmin zou het de positieve respons van de beloning-voorspellingsfout hebben gegenereerd. Ten tweede was een vertraging voorafgaand aan het herkennen van de stimuli ook noodzakelijk. (Vertraging is een proxy voor "nieuwheid" onder de redenering dat een bekende stimulus snel zou worden herkend.) Zonder vertraging zou de agent eenvoudig de juiste positieve of negatieve voorspellingsfout hebben gegenereerd die geschikt is voor het werkelijke waargenomen object. Ten slotte moest het gedrag van de agent worden bepaald door de waarden die het had geleerd. Als de agent zijn eigen gedrag (dat wil zeggen of hij de stimuli benaderde) niet kon controleren, dan zou de voorspelling van de beloning dat een object verscheen gelijk zijn aan 0, het gemiddelde van de uit te zetten positieve en negatieve uitkomsten.

algemene discussie

De in dit artikel gerapporteerde simulatie toonde aan dat een positieve beloningsvoorspellingsfout optreedt wanneer een onvoorspelbare stimulus, beloning of straffen, verschijnt maar niet onmiddellijk kan worden vastgesteld. Verder gaf de simulatie aan dat de grootte van de beloningspredictiefout toeneemt met de nabijheid van de stimulus tot het agens, wat in de context van de simulatie een proxy-maat is voor de stimulusintensiteit en dus gerelateerd is aan salience. In het theoretische raamwerk van RL worden beloningsvoorspellingen normaal beschouwd als de geleerde waarde van erkende stimuli, of van de fysieke en / of cognitieve toestand van een agent [15]. De hier vermelde fout met betrekking tot beloningsvoorspelling heeft echter een kwalitatief andere interpretatie omdat deze wordt gegenereerd voordat de agent het object heeft herkend. Samen ondersteunen deze resultaten de hypothese dat RL-principes voldoende zijn om een ​​respons te produceren die schijnbaar niet gerelateerd is aan beloning, maar in plaats daarvan gerelateerd aan de eigenschappen van nieuwheid en oplettendheid. Deze conclusie heeft verschillende belangrijke consequenties voor ons algemene begrip van RL en voor onze interpretatie van RL als een verslag van beloningsleren in echte biologische organismen.

Ten eerste is de beloningsvoorspelling die door een RL-agent wordt gegenereerd wanneer een niet-geïdentificeerde stimulus verschijnt, niet noodzakelijkerwijs een strikt gemiddelde van de verkrijgbare beloningen zoals voorgesteld door Kakade en Dayan [7], maar kan in feite groter in omvang zijn dan dat bepaalde gemiddelde. Kakade en Dayan zouden voorspellen dat de gemiddelde beloningsvoorspelling gelijk zou zijn aan nul omdat, omdat de proeven even vaak werden beloond en bestraft. Dit verrassende resultaat kwam naar voren omdat de agent op een 'on-policy'-manier leerde; dat wil zeggen, de agent leerde niet alleen over negatieve uitkomsten, maar ook over zijn vermogen om die uitkomsten te vermijden. Dit vermogen van het beloningssysteem om te zorgen dat een agent negatieve uitkomsten vermijdt, moet zorgvuldig worden overwogen bij het vertalen van ons begrip van RL naar echte organismen. Dit feit is potentieel zelfs nog belangrijker, aangezien de schijnbare asymmetrie in het vermogen van de dopaminerge fasische reactie een betere beloningsvoorspellingsfout beter weergeeft dan een negatieve beloningsvoorspellingsfout [11]. Het kan voldoende zijn om aan te geven dat een bepaalde reeks gebeurtenissen tot een negatieve uitkomst leidt, maar dat met het oog op actieselectie de omvang van die uitkomst niet belangrijk is.

Een tweede vertakking van de huidige simulatie is dat de nieuwheidsrespons kan voortkomen uit een interactie tussen perceptuele verwerkingssystemen en beloningsvoorspellingssystemen. In het bijzonder kan de nieuwheidsrespons het gevolg zijn van een vorm van overeenkomst tussen nieuwe objecten en objecten die nog geen volledige perceptuele verwerking hebben ondergaan [Voetnoot 4]. In deze simulatie werd nieuwigheid geïmplementeerd door het introduceren van een vertraging voordat de identiteit van het object (en bijgevolg zijn belonende of straffende aard) duidelijk werd voor de agent. Dit gebeurde onder de aanname dat het langer duurt om nieuwe objecten te identificeren, maar deze aanname heeft ook tot gevolg gehad dat de positieve en negatieve objecten op dezelfde manier werden waargenomen toen ze voor het eerst verschenen (dwz ze waren beide gecodeerd als "?"). Daarentegen suggereren Kakade en Dayan [7] dat nieuwheidsresponsen en "generalisatie" -reacties wezenlijk verschillen, ondanks dat ze op dezelfde manier in de neurofysiologiegegevens tot uiting komen.

Een derde vertakking van de huidige simulatieresultaten is dat ze aantonen dat de aanvullende aannames van nieuwheid en vormingsbonussen die door Kakade en Dayan [7] werden voorgesteld, niet nodig zijn. In plaats daarvan kunnen nieuwheid-achtige reacties voortkomen uit realistische perceptuele verwerkingsbeperkingen en de kennis van het kunnen vermijden van negatieve uitkomsten. Dit is een geluk omdat, zoals Kakade en Dayan hebben opgemerkt, nieuwheidbonussen de waardefunctie verstoren die een agent leerde, en dat het vormgeven van bonussen van invloed is op de manier waarop agenten hun toestandsruimten verkennen. De opname van een van deze veronderstellingen vermindert dus de spaarzaamheid van modellen op basis van de RL-theorie. Interessant is dat de hier gepresenteerde resultaten ook helpen verklaren waarom de biologische nieuwheidsreactie misschien niet storend is voor op beloning gebaseerd leren in echte organismen: de nieuwheidsreactie is eigenlijk al voorspeld door RL. Dat wil zeggen, de nieuwheidsreactie weerspiegelt gedragingen en beloningsvoorspellingen die inherent zijn aan een agent die al iets over zijn omgeving heeft geleerd.

Een alternatieve (maar niet wederzijds exclusieve) interpretatie van de huidige simulatieresultaten is dat er inderdaad een abstracte (misschien cognitieve) beloning is die agenten verkrijgen door zich te oriënteren op en identificeren van objecten. In studies naar dopaminerge activiteit kunnen positieve fasische reacties optreden voor onverwachte signalen waarvan bekend is dat ze een beloning voorspellen. Deze simulatie laat echter zien hoe dit soort reacties ook kan optreden als reactie op een signaal dat uiteindelijk een beloning of straf zou kunnen voorspellen. Het enige consistente voordeel dat wordt voorspeld door de cue is de winst in informatie die wordt verkregen wanneer de agent de identiteit van het object bepaalt. Dus als er een geldige, geleerde "beloningsvoorspelling" is wanneer het niet-geïdentificeerde object verschijnt, is er een die tevreden is nadat de agent de kennis heeft verkregen over het naderen of vermijden van de stimulus. De waarde van deze informatie is niet gebaseerd op het gemiddelde van de te behalen uitkomsten, maar is in plaats daarvan gebaseerd op de kennis van de effectieve uitkomsten- dat de agent de positieve beloning kan consumeren of de negatieve beloning kan vermijden (zie figuur 2).

Ten slotte is het belangrijk op te merken dat de mogelijkheden om bepaalde acties te ondernemen (bijv. Om te oriënteren) zelf belonende eigenschappen kunnen aannemen door middel van een generalisatie of leermechanisme dat niet in deze simulatie is opgenomen. Bijvoorbeeld, juist het oriënteren en bepalen van "wat daarbuiten is" kan een organisme belonen op basis van het verband tussen die actie en de hierboven gedemonstreerde emergente, altijd positieve beloningsvoorspellingsfout wanneer nieuwe stimuli verschijnen. Een vergelijkbaar idee is onlangs ontwikkeld door Redgrave en Gurney [13], die veronderstellen dat een belangrijk doel van de fasische dopamine-respons is om acties te versterken die plaatsvinden vóór onverwachte saillante gebeurtenissen. De resultaten zijn hier niet onverenigbaar met die hypothese, maar er dient te worden opgemerkt dat de hypothese van Redgrave en Gurney niet direct in deze simulatie wordt getest omdat er geen acties (dwz exploratie) van de agent nodig waren voor de opvallende gebeurtenis (de schijn van het object) optreden. Het gesimuleerde fasische signaal viel echter samen met de tijd van de oriëntatiereactie, wat suggereert dat de twee sterk gerelateerd kunnen zijn.

Tot slot heeft dit artikel aangetoond dat RL-principes kunnen worden gebruikt om een ​​soort schijnbaar niet-beloningsgerelateerde activiteit van de dopaminerge neuronen te verklaren. Dit resultaat kwam voort uit het feit dat de temporeel-verschil leerregel (zoals die gebruikt door Kakade en Dayan [7]) was ingebed in een simulatie waarin de agent acties kon selecteren die een effect hadden op de uiteindelijke uitkomst. In de simulatie leerde de agent dat de uitkomst van het zich oriënteren op een object dat plotseling verscheen, altijd lonend of neutraal kon zijn omdat de negatieve uitkomst kon worden vermeden. Wanneer de agent de gelegenheid had om zich te oriënteren, was de fout van de beloning-voorspelling altijd positief, computationeel analoog aan de nieuwheid en de saliency-reacties die werden waargenomen in biologische organismen.

Dankwoord

Het werk dat in dit artikel wordt beschreven, werd ondersteund door NIH R01 HD053639 en door NSF Training Grant DGE-9987588. Ik zou graag Erik Reichle, Tessa Warren, en een anonieme reviewer willen bedanken voor nuttige opmerkingen over een eerdere versie van dit artikel.

1 Een ander algoritme voor wapeningsleren, Trajectory Sampling [17] genaamd, wordt vaak gebruikt in plaats van Value Iteration wanneer de statusruimte zo groot wordt dat deze niet uitputtend kan worden herhaald of eenvoudig kan worden opgeslagen in het geheugen van een computer. In plaats van het herhalen van elke staat in de toestandsruimte en het toepassen van de waarde-functie-updatevergelijking op basis van de acties die tot de meeste beloning lijken te leiden, werkt Trajectoremonstering door het volgen van paden door de toestandsruimte. Net als bij Value Iteration worden de acties die leiden tot de meeste beloningen meestal gekozen uit elke staat, maar af en toe wordt een willekeurige verkennende actie gekozen met een kleine kans. Het algoritme is dus: selecteer vanuit sommige starttoestanden een actie die leidt tot de meeste beloning [bijv. Beloning + γV (s ')] met kans ε, of selecteer een willekeurige verkenningsactie met kans 1 - ε. Pas V (s) → V (s) + α [beloning + γV (s ') - V (s)] toe tijdens niet-verkennende acties van staat s.

Naast het overwinnen van de technische beperkingen van computertijd en geheugen, kan Trajecty Sampling aantrekkelijk zijn omdat het de manier waarop echte biologische organismen leren beter kan weergeven: door wegen in een toestandsruimte te verkennen. Voor de taak die in dit artikel wordt beschreven, levert Trajectory Sampling resultaten op die kwalitatief identiek zijn aan die verkregen met Value Iteration. Voor de bondigheid worden deze resultaten hier echter niet in detail beschreven. Value Iteration werd geselecteerd voor de simulatie in dit document om twee belangrijke redenen. Ten eerste omdat Trajectory Sampling betrekking heeft op stochasticiteit bij de selectie van trajecten, kan de grote hoeveelheid vertakking die te wijten is aan de vele mogelijke reeksen acties in deze taak resulteren in agents die ervaring hebben met sommige staten, tenzij de parameter exploratie-exploitatie (dwz ε-hebzucht [17]) is zorgvuldig geselecteerd. Dit gebrek aan ervaring met bepaalde toestanden kan de prestaties van een agent verstoren wanneer een geheugenstructuur van een opzoektabel wordt gebruikt vanwege het gebrek aan generalisatie van waarde voor vergelijkbare (maar mogelijk niet-bezochte) toestanden. Het had dus de voorkeur om gebruik te maken van de uitputtende verkenning van de toestandsruimte die wordt gegarandeerd met waardetitering. Ten tweede maakte het gebruik van Value Iteration het niet nodig om die extra parameter voor exploratie-exploitatie te specificeren, waardoor de simulatie vereenvoudigd werd. Merk op dat Trajectory Sampling uiteindelijk Value Iteration kan benaderen naarmate het aantal trajecten oneindig [17] nadert.

2Het aantal 21,120-staten kan als volgt worden berekend: 11 mogelijke agentlocaties × 4 mogelijke agentoriëntatie × (10 tijdstappen voordat een object kan verschijnen + 10 tijdstappen waar geen object verscheen + 10 tijdstappen waar de agent was geweest positief versterkt + 10 tijd-stappen waarbij het object negatief was versterkt + 11 mogelijke objectlocaties * (10 tijd-stappen met een positief geïdentificeerd object + 10 tijd-stappen met een negatief geïdentificeerd object + 10 tijd-stappen met een niet-geïdentificeerd positief object + 10 tijdstappen met een niet-geïdentificeerd negatief object))].

3Het bestaan ​​van deze "verborgen" toestanden moet tijdens de training worden overwogen, omdat Value Iteration er alleen "een stap voor kijkt" uit elke staat in de toestandsruimte. Het feit dat toestanden met negatieve en positieve niet-geïdentificeerde objecten effectief identiek zijn zou het leren over en middelen van de waarden in de twee verschillende opeenvolgende toestanden verhinderen waarin ofwel het positieve ofwel het negatieve object geïdentificeerd wordt. Een Trajectory Sampling-aanpak daarentegen houdt de verborgen statusinformatie (dat wil zeggen de identiteit van de niet-geïdentificeerde stimulus) gedurende de proef bij en dus met die variant van RL zijn de verborgen toestanden geen zorg.

4Een potentieel bezwaar tegen het huidige werk is dat de oriëntatiereactie hard-wired lijkt te zijn in de hersenen van zoogdieren, bijvoorbeeld in projecties van de superieure colliculus [3,14]. In de huidige simulatie waren de agenten niet vastgebonden om zich op objecten te oriënteren, maar leerden ze een oriëntatiegedrag dat de uiteindelijke selectie van een actie mogelijk maakte (bijv. Benadering of vermijden) die de beloning maximaliseerde. Net zoals bij bedrade responsen deden zich deze oriënteringsgedragingen zeer snel voor, voordat de objecten werden geïdentificeerd en naar alle objecten werden gericht. Het doel van dit werk was niet om de bewering te doen dat al dergelijke antwoorden werden geleerd, maar veeleer dat ze naast elkaar kunnen bestaan ​​binnen het RL-raamwerk. Niettemin zou het interessant zijn om te onderzoeken of mechanismen die verband houden met beloning betrokken kunnen zijn bij het opzetten van connectiviteit in hersenstamgebieden om deze fasische dopamine-respons te genereren.

Dit is een PDF-bestand van een onbewerkt manuscript dat is geaccepteerd voor publicatie. Als service aan onze klanten bieden wij deze vroege versie van het manuscript. Het manuscript zal een copy-editing ondergaan, een typografie en een review van het resulterende bewijs voordat het in zijn definitieve citeervorm wordt gepubliceerd. Houd er rekening mee dat tijdens het productieproces fouten kunnen worden ontdekt die van invloed kunnen zijn op de inhoud en alle wettelijke disclaimers die van toepassing zijn op het tijdschrift.

Referenties

1. Baird LC. Residual Algorithms: Reinforcement Learning with Function Approximation. In: Priedetis A, Russell S, redacteuren. Machine Learning: Proceedings of the Twelfth International Conference; 9-12 July.1995.

2. Bunzeck N, Düzel E. Absolute codering van stimulusnieuwigheid in de menselijke substantia nigra / VTA. Neuron. 2006, 51 (3) 369-379. [PubMed]

3. Dommett E, Coizet V, Blaha CD, Martindale J, Lefebvre V, Walton N, Mayhew JEW, Overton PG, Redgrave P. Hoe visuele stimuli dopaminerge neuronen activeren bij een korte latentie. Wetenschap. 2005, 307 (5714) 1476-1479. [PubMed]

4. Doya K. Metalearning en neuromodulatie. Neurale netwerken. 2002 Jun-Jul; 15 (4-6): 495-506. [PubMed]

5. Gillies A, Arbuthnott G. Computationele modellen van de basale ganglia. Bewegingsstoornissen. 2000, 15 (5) 762-770. [PubMed]

6. Horvitz JC. Mesolimbocorticale en nigrostriatale dopaminereacties op saillante niet-beloningsgebeurtenissen. Neuroscience. 2000, 96 (4) 651-656. [PubMed]

7. Kakade S, Dayan P. Dopamine: generalisatie en bonussen. Neurale netwerken. 2002, 15 (4-6) 549-559. [PubMed]

8. Knutson B, Cooper JC. De aantrekkingskracht van het onbekende. Neuron. 2006, 51 (3) 280-282. [PubMed]

9. Logothetis NK, Pauls J, Augath M, Trinath T, Oeltermann A. Neurofysiologisch onderzoek van de basis van het fMRI-signaal. Natuur. 2001, 412 (6843) 150-157. [PubMed]

10. McClure SM, Berns GS, Montague PR. Temporele voorspellingsfouten in een passieve leertaak activeren het menselijk striatum. Neuron. 2003, 38 (2) 339-346. [PubMed]

11. Niv Y, Duff MO, Dayan P. Dopamine, onzekerheid en TD-leren. Gedrags- en hersenfuncties. 2005 mei 4; 1: 6. [PMC gratis artikel] [PubMed]

12. O'Doherty JP, Dayan P, Friston K, Critchley H, Dolan RJ. Temporele verschilmodellen en beloningsgerelateerd leren in het menselijk brein. Neuron. 2003, 38 (2) 329-337. [PubMed]

13. Redgrave P, Gurney K. Het dopamine-signaal met korte latentie: een rol bij het ontdekken van nieuwe acties? Nature Reviews Neurowetenschappen. 2006 dec; 7 (12): 967-975.

14. Redgrave P, Prescott TJ, Gurney K. Is de dopamine-respons met korte latentie te kort om een ​​beloningsfout aan te geven? Trends in neurowetenschappen. 1999 apr; 22 (4): 146-151. [PubMed]

15. Reichle ED, Laurent PA. Gebruik van reinforcement learning om de opkomst van "intelligent" oogbewegingsgedrag tijdens het lezen te begrijpen. Psychologisch overzicht. 2006, 113 (2) 390-408. [PubMed]

16. Schultz W. Voorspellend beloningssignaal van dopamine-neuronen. Journal of Neurophysiology. 1998, 80 (1) 1-27. [PubMed]

17. Sutton RS, Barto AG. Reinforcement Learning: een inleiding. MIT Druk op; Cambridge: 1998.

18. Tanaka SC, Doya K, Okada G, Ueda K, Okamoto Y, Yamawaki S. Voorspelling van onmiddellijke en toekomstige opbrengsten werpt differentieel cortico-basale ganglia-loops op. Nature Neuroscience. 2004, 7 (8) 887-893.