D'Entstehung vu Salienzéi an Neiheet Response vun verstäerkt Léierpersonal (2008)

COMMENTAIREN: Eng aner Studie déi weist datt d'Neiheet hir eege Belounung ass. Ee vun de süchteg Aspekter vun Internetpornografie ass déi onendlech Neiheet a Varietéit, d'Fäegkeet séier vun enger Szen op eng aner ze klicken, an d'Sich no just dem richtege Bild / Video. All dës erhéijen Dopamin. Dëst ass wat Internet Porno anescht mécht wéi Zäitschrëften oder gelounten DVDen.

Voll Studie: D'Entstoe vu Kënnen a Neiheeten Äntwerte vu Verstäerkung Léierprinzipien

Neural Netw. 2008 Dezember; 21 (10): 1493 – 1499.

Online publizéiert 2008 September 25. doi: 10.1016 / j.neunet.2008.09.004

Patryk A. Laurent, Universitéit vu Pittsburgh;

Adresséiert all Korrespondenz un: Patryk Laurent, Universitéit vu Pittsburgh, 623 LRDC, 3939 O'Hara St., Pittsburgh, PA 15260 USA, E-Mail: [Email geschützt], Büro: (412) 624-3191, Fax: (412) 624-9149

mythologesch

Rezent Versuche fir Belounungsbaséiert Léiermodeller ze kartéieren, sou wéi Verstäerkung Léieren [17], an d'Gehir baséieren op der Observatioun datt phasic erhéicht an erofgeet am Spike vun dopamin-friginn Neuronen signaliséieren Differenzen tëscht virausgesot a kritt Belounung [16,5]. Wéi och ëmmer, dës Belounungsprognosfehler ass nëmmen ee vun e puer Signaler kommunizéiert vun där phasescher Aktivitéit; eng aner implizéiert eng Erhéijung vun dopaminergesche Spike, wat d'Erscheinung vu spuersamen awer onprediktéierten net-Belounungsstimulioune reflektéiert [4,6,13], besonnesch wann en Organismus duerno orientéiert sech op de Reiz [16]. Fir dës Erkenntnisser z'erklären, hunn de Kakade an den Dayan [7] an anerer dee Roman poséiert, onerwaart Stimulatioune sinn amgaang belount. D'Simulatioun, déi an dësem Artikel bericht gëtt, weist datt dës Viraussetzung net néideg ass, well den Effekt et geduecht ass fir z'erreechen entstinn aus de Belounungsprognosen Léiermechanismen vu Verstäerkung Léieren. Also, Reinforcement Learning Prinzipien kënne benotzt ginn fir net nëmmen Belounungsaktivitéit vun den dopaminergesche Neuronen vun de Basal Ganglia ze verstoen, awer och e puer vun hirer anscheinend net-belount-relatéierter Aktivitéit.

Reinforcement Learning (RL) gëtt ëmmer méi wichteg bei der Entwécklung vu computational Modeller vu Belounungsbaséiert Léieren am Gehir. RL ass eng Klass vu computational Algorithmen déi spezifizéiert wéi e künstlechen "Agent" (z. B. e richtegen oder simuléierte Roboter) léiere kann Aktiounen ze wielen fir maximal erwaart Belounung [17] ze maximéieren. An dësen Algorithmen baséiert en Agent seng Handlungen op Wäerter, déi hie léiert mat verschiddene Staaten ze associéieren (z. B. d'perseptuell Zeechen, déi mat engem Stimulus verbonne sinn). Dës Wäerter kënnen no an no temporärer Differenz Léieren geléiert ginn, wat d'Staatswäerter upasst baséiert op den Ënnerscheed tëscht dem Agent seng existent Belounungsprognose fir de Staat an der aktueller Belounung déi spéider vun der Ëmwelt kritt gëtt. Dëse berechenten Ënnerscheed, bezeechent Belounungsprognose Feeler, gouf gewisen datt hie ganz gutt korreléiert mat der phasescher Aktivitéit vun dopamin-befreitende Neuronen, déi aus der substantia nigra an net-mënschleche Primaten projizéieren [16]. Ausserdeem weist an de Mënschen de Striatum, wat e wichtegt Zil vun Dopamin ass, e fMRI BOLD Signal ausstellt dat schéngt Belounungsprognose Feeler während Belounungs-Léier Aufgaben [10,12,18] ze reflektéieren. Dës fMRI Fonnt ergänzen d'Physiologiedaten well striatal BOLD ugeholl gëtt, op d'mannst zum Deel deelweis, afferent synaptesch Aktivitéit [9] an d'Dopamin Neuronen projizéieren schwéier zum Striatum.

Och wann déi uewe genannte physiologesch Äntwerte scheinbar mat de Belounungsprognosen Berechnunge vum RL ze dinn hunn et ass och eng Erhéijung vun der dopaminergescher phasescher Aktivitéit an Äntwert op opreegend an / oder nei Reizen, déi anscheinend net ze dinn huet ze belounen [4,6,14,3]. En ähnlecht Phänomen gouf viru kuerzem bei Mënschen observéiert mat fMRI [2]. Et ginn e puer Grënn firwat dës "Neiheet" oder "Salzegkeet" Äntwert gesot gëtt net relatéiert mat Belounungsprognose Feeler: (1) et schéngt ganz fréi, ier d'Identitéit vum Stimulus bewäert gëtt, sou datt eng korrekt Belounungsprognose net kann generéiert ginn (2) et entsprécht eng Erhéijung vun der neuraler Aktivitéit (dh. Et ass positiv) fir béid aversiv an appetitlech Reizen; an (3) et bewunnt [13]. Tatsächlech sinn dës Saliabilitéit / Neiheeten Äntwerte vun den dopamin-befreitende Neuronen am meeschte verlässlech wann d'Simulien onpredictéiert sinn an resultéieren an orientéierend an / oder Approcheverhalen [16] onofhängeg vum eventuellen Resultat, beliicht d'Tatsaach datt se qualitativ anescht aus der geléiert Belounung Cepheid. D'Erausfuerderung war dofir dës offensichtlech Paradox z'erklären (dat heescht, wéi d'Neiheet de Belounungsprognosfehler beaflosst) bannent dem theoreteschen Kader vum RL.

Kakade an Dayan [7] probéiert dat genau ze maachen; an hirem Artikel postuléieren se zwou Weeër wéi Neiheeten Äntwerte an RL Modeller vun dopaminergescher Funktioun kënnen integréiert ginn - béid hunn d'Inklusioun vun neien theoreteschen Viraussetzungen involvéiert. Déi éischt Viraussetzung, bezeechent als Neiheetsbonus, ëmfaasst eng zousätzlech Belounung aféieren wann nei Stimuli präsent sinn, iwwer an iwwer déi üblech Belounung, déi vum Agent kritt gouf. Dës zousätzlech Belounung trëtt an d'Berechnung sou datt d'Léieren baséiert op den Ënnerscheed tëscht dem Agent seng existent Belounungsprognose an der Zomm vu béid déi üblech Belounung aus der Ëmwelt an dem Neiheetsbonus. Sou gëtt d'Neiheeten Deel vun der Belounung déi den Agent probéiert maximal ze maachen. Déi zweet Viraussetzung, bezeechent Formformatiounsbonus, kann implementéiert ginn andeems d'wäerter vun de Staaten, déi mam Roman Stimulatioun verbonne sinn, kënschtlech eropgoen. Well déi temporär-Differenz-Léierregel, déi am RL benotzt gëtt, baséiert op den Ënnerscheed an der Belounungsprognose tëscht successive Staaten, huet d'Zousatz vun engem konstante formende Bonus zu Staaten, déi sech mam Roman Stimulatioun beschäftegen, keen Effekt op d'endgültegt Verhalen vum Agent. Wéi et heescht, ass eng nei Neiegkeet ervirgaang, wann den Agent den Deel vum Staatsraum erakënnt, dee "geformt" gouf (dat ass mat Neiegkeet assoziéiert).

Och wann d'Zousatz vun all eenzel Viraussetzunge genuch ass fir vill observéiert Effekter vun der Neiegkeet z'erklären, sinn d'Ausnahmen och de Progressioun vum Léiere gestéiert. Wéi Kakade an Dayan [7] drop hiweisen, kënnen Neiheetsbonusen d'Wäertfunktioun verzerren (dat heescht d'Wäerter, déi mat all Staat vum Agent verbonne sinn) an et beaflossen wat letztendlech geléiert gëtt well se als zousätzlech Belounung ëmgesat ginn, déi intrinsesch mam Roman assoziéiert ass. Staaten. De Problem ass datt den Agent léiert béid déi primär an Neiheetskomponenten vun der Belounung ze predizéieren. Och wa Kakade an Dayan drop hindeit datt Formen vun Bonusen net dës Zort vu Probleemer verursaache well se an d'Belounungsprognosen aus de viregte Staaten agebonne sinn, ass hir Zousatz nach ëmmer problematesch well Forming vun Bonus Biasen agefouert hunn an de Wee wéi en Agent säi Staatsraum entdeckt. Also, och wann dës zousätzlech Viraussetzunge kënnen erkläre wéi d'Neiheet de Belounungsprediktiounsfehler am RL beaflosst, si se problematesch. Weider kommen d'Erklärungen op d'Käschte fir d'Parsimonie vu Modelleraarbecht ze reduzéieren, déi probéiert de RL ze benotzen fir d'Behuele vun echte biologeschen Organismen ze verstoen.

Déi Simulatioun hei ënnendrënner gouf duerchgefouert fir d'Hypothese ze testen datt en einfachen RL Agent, ouni zousätzlech Viraussetzungen, eng Belounungsprediktiounsfehlerreaktioun géif entwéckelen déi ähnlech ass wéi net-belount-relatéiert Dopaminreaktiounen, déi a biologescher Organismen observéiert ginn. An. En RL Agent krut d'Aufgab mat zwou Zorte vun Objet ze interagéieren - een positiven an deen aneren negativ - déi op zoufälleger Plazen a sengem Ëmfeld erscheet. Fir seng Belounung ze maximéieren, huet den Agent missen léieren den positiven Objet ze benennen an ze "konsuméieren" an ze vermeiden (dh net "konsuméieren") den negativen Objet. Et waren dräi Haaptprognosen fir d'Simulatioun.

Déi éischt Viraussetzung war einfach datt, fir seng Belounung ze maximéieren, den Agent tatsächlech léiere géifen déi positiv, belount Objete z'erreechen an "ze konsuméieren", a gläichzäiteg léiert den negativen, bestrofen Objeten ze vermeiden. Déi zweet Predictioun war liicht manner offensichtlech: datt den Agent eng orientéierend Äntwert hätt (dat heescht, léiert seng Orientéierung ze veränneren) Richtung negativ a positiv Objeten. Dës Viraussetzung gouf gemaach well obwuel den Agent d'Erscheinung vun engem Objet a senger Lag "konnt" senséieren, ass déi positiv oder negativ Identitéit vum Objet (dh d'Cue datt den Agent schlussendlech léiert mat der Belounungswäert vum Objet ze associéieren) konnt vum Agent net bestëmmen bis nodeems den Agent tatsächlech géint den Objet orientéiert war. Endlech war déi drëtt (a wichtegst) Predictioun mat der simuléierter dopaminergescher phasescher Äntwert am Model verwandt; dës Viraussetzung war datt wann den Objet erscheet, den Agent en Belounungsprognosfehler géif weisen, deen computationally an der phasescher Dopamin-Äntwert a biologescher Organismen observéiert gouf, positiv fir positiv an negativ Objekter. Dës Äntwert war och virauszegesinn als Funktioun vun der Distanz tëscht dem Agent an dem Stimulus ze variéieren, wat am Kontext vun der Simulatioun eng Proxy Moossnam fir Stimulatioun "Intensitéit" oder Salience war. Wéi hei ënnen nogewise ginn, goufen dës Prognosen duerch d'Simulatiounsresultater bestätegt, wat beweist, datt déi anscheinend net-belount-verwandten Dopaminreaktiounen aus de Basisprinzipien vum RL kënnen entstoen. D'theoretesch Implikatioune vun dëse Resultater fir de RL ze gebrauchen fir déi net belount verwandt Aktivitéit a biologesche Organismen ze verstoen, ginn an der Finaler Sektioun vun dësem Artikel diskutéiert.

Method

Wéi scho gesot, RL algorithms spezifizéiere wéi en Agent moment-to-Moment numeresch Beloununge benotze kann fir ze léieren wéi eng Handlungen et maache soll fir de Gesamtbetrag ze belounen deen e kritt. An de meeschte Formulatiounen gëtt dës Léiere erreecht andeems Dir Belounungsprognose Fehler benotzt (dat heescht den Ënnerscheed tëscht engem Agent sengem aktuelle Belounungsprognose an der aktueller Belounung déi kritt gëtt) fir dem Agent seng Belounungsprognosen ze aktualiséieren. Wéi d'Belounungsprognosen geléiert sinn, kënnen d'Prognosen och vun engem Agent benotzt ginn fir seng nächst Handlung ze wielen. Déi üblech Politik (definéiert an Equatioun 2) ass fir den Agent d'Aktioun ze wielen déi virgesi gëtt fir déi gréisste Belounung ze resultéieren. Déi aktuell Belounung déi dem Agent zu all Moment zur Verfügung gestallt gëtt ass d'Zomm vun der direkter Belounung plus e Deel vum Wäert vum Staat, deen den Agent agëtt, wann d'Aktioun fäerdeg ass. Also, wann den Agent schlussendlech positiv Belounungen erliewt nodeems hien an engem bestëmmte Staat war, wielt den Agent Aktiounen an der Zukunft, déi méiglecherweis an déi belount Staaten féieren; Ëmgedréit, wann den Agent negativ Belounungen erliewt (dh Strof), vermeit hien an Zukunft Aktiounen, déi zu deenen "bestrofen" Staaten féieren.

De spezifeschen Algorithmus deen d'Belounungsprognosen bestëmmt déi fir déi verschidden Staaten geléiert ginn (dh d'Wäertfunktioun V) nennt sech Value Iteration [Foussnot 1] a ka formell beschriwwe ginn als:

Fir all méiglech Staaten s,

(Equatioun 1)

wou s mam aktuellen Zoustand entsprécht, ass V (en) déi aktuell Belounungsprognose fir Staat s deen vum Agent geléiert gouf, maxaction∈M {} ass e Bedreiwer fir de maximale Wäert vun der klammer Quantitéit iwwer de Set vun all Aktiounen M verfügbar fir den Agent, V (s ′) ass den aktuellen Belounungsprognose vum Agent fir den nächste Staat s ′, α ass e puer Léierraten (tëscht 0 an 1), an γ ass e Rabattfaktor wat reflektéiert wéi zukünfteg Beloununge sollen gewiicht ginn relativ bis direkt Belounungen. Déi initial Wäertfunktioun gouf sou agestallt datt V (en) 0 war fir all Staaten s.

D'Wäertfunktioun V (en) gouf als Lookup-Dësch ëmgesat, wat formell gläichwäerteg ass mat der Virgab vu perfektem Erënnerung. Och wa Funktioun approximators wéi neural Netzwierker mat Erfolleg benotzt goufen fir Wäertfunktiounen [1] ze vertrieden, gouf e Lookup Tabelle benotzt fir sécherzestellen datt d'Resultater net ofhängeg waren vun den Typen vun der Generaliséierungsmechanismus, déi vu verschiddene Funktiouns approximators zur Verfügung gestallt ginn. Den Agent gouf trainéiert fir 1,500 Léier Iteratiounen iwwer säi Staatsraum. Wéinst der onberechenbarkeet vun der Identitéit vun den Objeten, gouf e Wäertfunktiouns-Update-Parameter vu manner wéi ee (α = 0.01) während dem Léiere benotzt fir averaging vu verschiddene Resultater z'erreechen. Schlussendlech gouf de Rabattfaktor op γ = 0.99 gesat fir den Agent ze encouragéieren d'Belounung méi fréi anzestellen, amplaz seng Approcheverhalung bis zum Schluss vum Prozess ze verzögeren (och wann et aus engem Standardwäert vun 1 geännert huet, huet keen Effekt op d'Resultater hei gemellt. ) Fir onofhängeg festzestellen, ob 1,500 Léier Iteratiounen genuch waren fir ze léieren fir komplett ze maachen, gouf d'duerchschnëttlech Quantitéit vun der Ännerung an der Geléierter iwwerwaacht a gouf fonnt datt se konvergéiert hunn ier dës Zuel vun Iteratiounen.

Nom Training ass de spezifeschen Algorithmus deen den Verhalen vum Agent regéiert (dat heescht d'Politik vun den Aktiounen, déi et vun all bestëmmte Staat mécht):

(Equatioun 2)

wou π (s) d'Aktioun ass, déi den Agent vum Staat s auswielt, an op der rietser Säit vun der Equatioun gëtt d'Aktioun zréck (z. B. Ännerung vun der Orientéierung, Bewegung oder keng Handlung) déi d'Zomm vun der Belounung an de reduzéierte Wäert maximéiert vum resultéierende Staat s ′.

An der Simulatioun déi hei ënnendrënner bericht ginn, goufen all d'Staaten déi vum Agent besicht goufen als 7-zweedimensional Vektore kodéiert déi Informatioun souwuel iwwer den externen "physeschen" Zoustand vum Agent an säin internen "Wëssen" Staat representéieren. Déi kierperlech Informatioun enthale souwuel den Agent seng aktuell Positioun am Weltraum wéi och seng Orientéierung. D'Wësseninformatioun huet d'Positioun vum Objet abegraff (wann een derbäi war) an d'Identitéit vum Objet (wann et vum Agent bestëmmt gouf). Déi spezifesch Typen vun Informatioun, déi vum Agent vertruede waren, ginn an der Tabell 1 gewisen.

Table 1

D'Dimensioune ginn an de RL Simulatioune benotzt an déi méiglech Wäerter vun dësen Dimensiounen.

Et waren am Ganzen 21,120 Staaten an der Simulatioun [Foussnot 2]. Wéi och ëmmer, déi Staaten, an deenen et en onidentifizéierte positiven an net identifizéierten negativen Objet war, aus der Perspektiv vum Agent identesch, sou datt et dofir nëmmen 16,280 ënnerschiddlech Staaten sinn. Also war et bei all Iteratioun vu Léieren et néideg e puer vun dësen "identesche" Staaten zweemol ze besichen fir de Fakt ze erlaben datt d'Halschent vun der Zäit mat der Entdeckung vun engem positiven Objet gefollegt ginn, an d'Halschent vun der Zäit déi se eventuell gefollegt mat der Entdeckung vun engem negativen Objet [Foussnot 3].

Am Ufank vun all simuléierten Testprozess gouf den Agent am Zentrum vun enger simuléierter linearer 11 × 1 Eenheetespur mat fënnef Raum op den "Osten" (dh no riets) vum Agent a fënnef Plazen zum "Westen" gesat ”(Dh no lénks) vum Agent. Wéi den Tabell 1 weist, huet den Agentvektor vum Agent en Element abegraff deen seng aktuell Positioun op der Streck ugeet (dh eng ganz Zuel vun 0 op 10), souwéi en Element (dh e Charakter "n", "s", " e ", oder" w ") déi hir aktuell Orientéierung representéiert (dh, Nord, Süd, Osten oder West, respektiv). Déi ursprénglech Orientéierung vum Agent war ëmmer op "Norden" gesat, a keen aneren Objet war an der Ëmfeld präsent (dat heescht, de Wäert "OBJECT" am Staatsvektor vum Agent gouf op "0" gesat).

Wärend all Zäitstuf vun der Simulatioun konnt den Agent eng vun de folgenden Aktiounen ausféieren: (1) näischt maachen a bleift op der aktueller Plaz an Orientéierung; (2) orientéiert op den Norden, de Süden, den Osten oder de Westen; oder (3) ee Raum an der Ëmwelt bewegt (Ost oder West). D'Resultat vun all Handlung huet am spéideren simuléierten Zäit-Schrëtt stattfonnt. All Ännerung vun der Plaz an / oder Orientéierung vum Agent am Weltraum ass duerch d'Auswiel vun Aktiounen vum Agent geschitt. Wéi och ëmmer, während all Zäitstuf vun der Simulatioun, och wann eng "näischt maachen" Aktioun gewielt gouf, gouf d'Zäit vum 1 eropgesat bis zum Schluss vum Prozess (dh Zäitstap 20).

Den Ëmfeld vum Agent war sou ageriicht datt d'Halschent vun der Zäit en Objet op enger zoufälleger Plaz (awer net op der selwechter Plaz wéi den Agent) no zéng Zäitstufen erschéngt; 50% vun den Objekter ware positiv (representéiert mat engem "+"; kuck Table 1) an 50% vun den Objekter ware negativ (representéiert mat engem "-"). D'Verzögerung ier den Objet erscheet gouf agefouert fir d'Observatioun vun iergendeng Verhalen ze erlaben deen den Agent virum Erscheinungsbild vum Objekt kann ausgestallt huet. Wann den Agent net op den Objet orientéiert war wéi en erschéngt ass, dann ass dat Element dat "OBJECT" Identitéit an dem Agent Vector Zoustand vun "0" op "geännert huet? Fir d'Tatsaach ze reflektéieren datt d'Identitéit vum Objet dat elo war präsent war de Moment onbekannt. Wéi och ëmmer, wann den Agent op den Objet orientéiert war, dann ass op de spéideren Zäitstap den "OBJECT" Element op der Identitéit vum Objet gesat ginn, sou datt "0" entweder "+" oder "-" fir positiv gouf an negativ Objeten, respektiv.

Wann den Agent op de Standuert vun engem Objet geplënnert ass, da wärend der nächster Zäitstuf den Objet verschwonnen. Wann den Objekt positiv gewiescht wier, da war dem Fändel "CONSUMED" Fändel vum Agent gläich wéi wouer gesat an den Agent gouf belount (Belounung = + 10); wann den Objet awer negativ wier, dann ass de "SHOCKED" Fändel op richteg gesat an den Agent gouf bestrooft (Belounung = −10). (Notéiert datt d'Fändelen op dës Manéier opgestallt goufen, egal ob den Agent den Objet hat oder net identifizéiert huet; zB, den Agent konnt en Objet konsuméieren ouni sech ni drop orientéieren.) Op der spéiderer Zäitstuf ass de "SHOCKED" oder De "CONSUMED" Fändel gouf geläscht. Den Agent gouf och eng kleng Strof kritt (Verstäerkung = −1) fir all Bewegung oder orientéierend Handlung, a krut keng Belounung oder Strof (Verstäerkung = 0) wann et keng Aktioun gemaach huet.

Souwuel den ongeuerte Verhalen (dh. Orientéieren a Bewegung) an e Mooss vun der Belounungsprognose Feeler ware fir den Agent quantifizéiert. Den onsichtleche Verhalen (dh d'Lëscht vun den Handlungen ausgewielt Aktiounen) gouf als Indikatioun benotzt ob d'Aufgab geléiert gouf. De Mooss vum Belounungsprognose Feeler gouf benotzt fir d'Hypothese iwwer d'Entstoe vum net-belounende dopaminergesche phasesche Signal ze testen. D'Belounungsprognose Feeler, δ, gouf um Zäit t vun der Erscheinung vun engem Objet gemooss andeems d'Belounungsprognose am viregte Zäitstuf, dh, V (s) am Zäitstuf t − 1, vun der Belounungsprognose subtrahéiert wann den Objet erschéngt, dh, V (s) zu Zäit t, wat d'Quantitéit δ = V (st) - V (st − 1) gëtt.

Resultater

Simuléiert Behuelen

D'Offiichtverhalen vun den Agenten goufen als éischt quantifizéiert. D'Resultater vun dëser Analyse hunn ugewisen datt den Training nom Training eng gutt Verstäerkung vun all de positiven Objeten huet an ni vun den negativen Objeten entgéint koum. Zesummen bréngen dës Resultater Verhalensbestätegung datt d'Agente geléiert hunn d'Aufgab korrekt auszeféieren. Dës Konklusioun gëtt duerch déi zousätzlech Observatioun gestäerkt datt während den Trials wann keen Objet erschénge war, den Agent ouni Beweegung bliwwen ass. Wéi virausgesot orientéiert den Agent souwuel positiv wéi negativ Objeten.

Simuléiert Belounungsprognose Feeler

Déi zentral Hypothese vun dësem Pabeier ass datt d'Erscheinung vun engem onberechenbaren Stimulus konsequent e positiven Belounungsprognosfehler generéiert, och wann dësen Objet en "negativen" Objet ass, deen ëmmer bestrooft gëtt. Fir dës Hypothese z'ënnerstëtzen huet den Agent e positiven Belounungsprognose Feeler gewisen, wann en (net identifizéierten) Objet erschéngt, awer net wann näischt optrieden. Och konsequent mat der zentraler Hypothese ass d'Tatsaach datt d'Gréisst vun der phasescher Äntwert vum Agent (δ, gemooss wéi an der Method Sektioun) sensibel war fir déi simuléiert "Intensitéit" vum Stimulus, definéiert mat der Distanz tëscht dem Agent an dem Objet (kuck Figure 1). Eng Regressiounsanalyse huet uginn datt d'Gréisst vun δ invers am Zesummenhang mat der Distanz vum Objet ass, sou datt méi no Objeten eng méi staark Äntwert verursaacht hunn (r = -0.999, p <0.001; β = 0.82). Dës negativ Korrelatioun gouf duerch déi kleng Strof (Verstäerkung = -1) verursaacht, déi fir all Bewegung opgehaang gouf, déi den Agent gemaach huet fir op de positiven Objet ze réckelen, ze konsuméieren an doduerch Belounung ze kréien.

Figure 1

Dës Figur weist de Belounungsprognosefeeler (dh δ) wann den Objet als Funktioun vun der Plaz vum Objet relativ zu der Plaz vum Agent erschéngt. D'Äntwerten sinn identesch fir positiv an negativ Objeten. Wa keen Objet (méi ...)

Tatsächlech datt positiv an negativ Objeten an dëser Simulatioun mat der selwechter Probabilitéit erschénge sinn (p = .25), stellt sech d'Fro: Firwat war den Agent seng Belounung-Prognosen Feeler Signal positiv zur Zäit vum Erscheinungsbild vum Objekt? Reasoning langs de Linne vu Kakade an Dayan [7], kéint ee virausse datt d'Signal d'Moyenne vun alle geléierte Beloununge aus esou Situatiounen sollt reflektéieren, an dofir d'selwecht wéi Null sinn. De Schlëssel fir dëst Resultat ze verstoen ass ze bemierken datt net nëmmen de RL en Agent manner wahrscheinlech mécht d'Aktiounen ze wielen déi zu enger negativer Verstäerkung féieren, et mécht och en Agent manner dacks an d'Staaten anzegoen, déi schliisslech zu enger negativer Verstäerkung féieren. Dëst resultéiert an enger Art "méi héijer Uerdnung" Form vu Léieren déi a Figur 2 beschriwwe ginn an als nächst beschriwwe gëtt.

Figure 2

Illustratioun déi weist wéi en RL Agent positive Belounungsprognosefeeler entwéckelt wann en et mat belounenden a bestrofende Reizen a sengem Ëmfeld trainéiert gëtt a fäeg ass ze wielen ob se unzegoen an ze konsuméieren. (A) D'Situatioun virum Léiere: (méi ...)

Um Ufank vum Léieren (kuck Fig. 2A) orientéiert den Agent béid "+" an "-" Objeten, mécht hinnen no, a gëtt souwuel belount a bestrooft andeems hien all Typ vun Objet verbraucht. Wann de Agent sengem geléierten Zoustandwäerter net konnt d'Aktiounen vum Agent beaflossen (kuck Fig. 2B), da wier den Agent weider fir d'Abjete z'erreechen an ze konsuméieren. D'Erscheinung vun der Cue géif dann eng duerchschnëttlech Belounung vum 0 virstellen an et géif e plötzlechen Erhéigung vun der Belounungsprognose Feeler sinn. Wéi och ëmmer, den Agent an dëser Simulatioun benotzt geléiert Zoustandwäerter fir seng Handlungen ze beaflossen (kuck Fig. 2C), an och wann den Agent nach ëmmer op den onbekannte Objet orientéiere muss fir seng Identitéit ze bestëmmen, wäert en net méi en negativen Objet konsuméieren wann en ukomm ass et (sou wéi et kéint sinn, wann Dir mat engem zoufällegen Erfarungsalgorithmus trainéiert wéi eng Trajectoire Sampling [Footnote 1]). Ausserdeem, well temporär-Differenz-Léiere erlaabt datt déi negativ Belounungsprognose "propagéieren" zréck an déi virgezunnen Staaten ass, a well et e klenge Käschte sinn fir sech an de Weltraum ze beweegen, léiert den Agent ze vermeiden datt den negativen Objet ganz opgeet. Also, nodeems dës Informatioun geléiert gouf, ass de Wäert vum Staat wann den Objet fir d'éischt erscheint (als "V" am éischte Krees an all Sequenz ugewisen) net op der Moyenne vum positiven an negativen Ausgangsstaat Wäerter baséiert amplaz op der Moyenne vum positiven an dem "neutralen" Resultat baséiert deen erreecht ass wann den Agent léiert den negativen Objeten ze vermeiden. Dëst ass firwat d'Moyenne vun all Belounungen, déi tatsächlech vum trainéierten Agent kritt goufen, méi grouss wéi Null war, an erkläert firwat den Agent seng Belounungsprognose (an dofir Belounungsprognose Fehler wann den Objet eemol opdaucht) e Nettopositiv war. Dëst ass a Figur 3 illustréiert. Tatsächlech, soulaang den Agent léiere kann säi Verhalen z'änneren an den negativen Objet ze vermeiden, ass de Wäert vum negativen Objet schlussendlech irrelevant fir d'endgülteg Verhalen vum Agent an d'Gréisst vun der Neiegkeet / Salzeger Äntwert.

Figure 3

(A) Beweist d'Verännerunge vun der Belounungsprognosioun déi optriede wieren wann RL net zu méi héijer Uerdnung léiert (dh wann den Agent keng Moossname kéint huelen fir den negativen Resultat ze vermeiden), sou datt den Agent gezwonge gouf all Objeten (méi ...)

D'Simulatiounsresultater si kritesch ofhängeg vun dräi Viraussetzungen. Als éischt musse d'Stimulatioune "salient" sinn datt d'Gréisst vun der Verstäerkung, déi vum initialen Cue virausgesot war, genuch grouss war (z. B. + 10) relativ zu de Käschte fir ze orientéieren an ze Approche (z. B. −1). Wann d'Muecht relativ kleng gewiescht wier, hätt den Agent net geléiert ze orientéieren, an et hätt och net déi positiv Belounungsprognose Feeler Äntwert generéiert. Zweetens, e Verspéidung virum Erkennen vun de Reizen war och noutwendeg. (Verzögerung ass e Proxy fir "Neiheet" ënner der Begrënnung datt e vertraute Stimulus séier erkannt gëtt.) Ouni Verspéidung hätt den Agent einfach den entspriechende positiven oder negativen Belounungsprognosfehler generéiert fir den aktuellen observéierten Objet. Schlussendlech huet d'Behuele vum Agent misse bestëmme vun de Wäerter, déi et geléiert huet. Wann den Agent säin eegene Verhalen net konnt kontrolléieren (dat heescht, ob de Stimulus entgéint kënnt), da wier seng Belounungsprognose wann en Objet erscheint 0, dem Duerchschnëtt vun den equipéierbaren positiven an negativen Resultater.

General Discussion

D'Simulatioun, déi an dësem Artikel bericht gëtt, huet gewisen datt e positiven Belounungsprognose Feeler geschitt wann en onberechenbare Stimulus, entweder belount oder bestrooft, erschéngt awer net direkt identifizéiert ka ginn. Ausserdeem huet d'Simulatioun uginn datt d'Gréisst vum Belounungsprognosfehler mat der Proximitéit vum Stimulus zum Agent eropgeet, wat am Kontext vun der Simulatioun e Proxy Mooss fir Stimulatiounsintensitéit ass an doduerch mat der Geeschtlechkeet ass. Am theoreteschen Encadrement vum RL ginn Belounungsprognosen normalerweis verstanen fir de geléiertene Wäert vun unerkannte Reizen ze reflektéieren, oder vun de physikaleschen an / oder kognitiven Zoustänn vun engem Agent [15]. Wéi och ëmmer, de Rapport-Predictiounsfehler, deen hei gemellt gëtt, huet eng qualitativ anescht Interpretatioun, well et entsteet ier den Agent den Objet unerkannt huet. Zesummen ënnerstëtzen dës Resultater d'Hypothese datt RL-Prinzipien duergeet fir eng Äntwert ze produzéieren déi anscheinend net relatéiert ass fir ze belounen, awer amplaz mat den Eegeschafte vun Neiheet a Salizitéit ze dinn. Dës Konklusioun huet e puer wichteg Ramifikatiounen fir eist allgemeng Verständnis vum RL a fir eis Interpretatioun vum RL als Kont vu Belounungsléiere bei reelle biologeschen Organismen.

Als éischt ass d'Belounungsprognose, déi vun engem RL Agent generéiert gëtt wann en net identifizéierte Stimulus erschéngt, net onbedéngt e strenge Duerchschnëtt vun den erzielbaren Beloununge wéi proposéiert vum Kakade an Dayan [7], awer ka tatsächlech méi grouss sinn wéi dat bestëmmten Duerchschnëtt. Kakade an Dayan géifen viraussoen datt déi duerchschnëttlech Belounungsprognose soll gläich op Null sinn, well d'Treië goufen dacks belount a bestrooft. Dëst iwwerraschend Resultat ass opkomm well den Agent op eng "on-Politik" Manéier geléiert huet; dat heescht, den Agent huet geléiert net nëmmen iwwer negativ Resultater, awer och iwwer seng Fäegkeet fir dës Resultater ze vermeiden. Dës Fäegkeet vum Belounungssystem fir en Agent ze vermeiden negativ Resultater ze vermeiden sollte suergfälteg berécksiichtegt ginn am Sënn vun eisem Verständnis vum RL zu reellen Organismen. Dëse Fakt ass potenziell nach méi wichteg no der scheinbar Asymmetrie an der Kapazitéit vun der dopaminergescher phasescher Äntwert fir e positiven Belounungsprognosfehler ze representéieren besser wéi negativ Belounungsprognosfehler [11]. Et kann genuch sinn fir unzeginn datt eng bestëmmte Sequenz vun Evenementer zu engem negativen Resultat féiert, awer datt fir Zwecker vun der Auswiel vun der Handlung d'Gréisst vun deem Resultat onwichteg ass.

Eng zweet Vergréisserung vun der aktueller Simulatioun ass datt déi Neiegkeet-Äntwert aus enger Interaktioun tëscht perceptuelle Veraarbechtungssystemer a Belounungsprognose Systemer kënnt. Besonnesch déi Neiheeten Äntwert kann duerch eng Form vun Ähnlechkeet tëscht Roman Objeten an Objeten entstoen, déi bis elo nach net komplett perceptuell Veraarbechtung [Footnote 4] gemaach goufen. An dëser Simulatioun gouf Neiheet ëmgesat andeems en e Retard agefouert huet ier d'Identitéit vum Objet (an doduerch seng belountend oder bestrofen Natur) dem Agent offensichtlech gouf. Dëst ass gemaach ënner der Virgab datt nei Objete méi laang daueren fir z'identifizéieren, awer dës Viraussetzung huet och zur Säit erginn datt déi positiv an negativ Objete ähnlech gesi ginn, wéi se fir d'éischt ausgesinn hunn (dh, se goufen allebéid als "?" Kodéiert). Am Géigesaz, proposéiere Kakade an Dayan [7] datt Neiheeten Äntwerte an "Generaliséierung" Äntwerte wesentlech anescht sinn, trotz ähnlech manifestéiert an den Neurophysiologie Daten.

Eng drëtt Ramifikatioun vun den aktuellen Simulatiounsresultater ass datt se weisen datt déi zousätzlech Viraussetzunge fir Neiheeten a formend Bonusen, déi vum Kakade an Dayan [7] proposéiert goufen, net néideg sinn. Amplaz kënnen nei Neiheeten Äntwerte entstoe vu realistesche perceptuelle Veraarbechtungsbegrenzungen an dem Wësse fir negativ Resultater z'evitéieren. Dëst ass glécklech well, wéi vu Kakade an Dayan uginn, Neiheetsbonusen verzerzen d'Wäertefunktioun déi vun engem Agent geléiert gëtt, a Formen vun Bonus beaflosse d'Aart a Weis wéi Agenten hir Staatsraim entdecken. D'Inklusioun vun entweder vun dëse Viraussetzungen reduzéiert doduerch d'Parsimonitéit vu Modeller baséiert op der RL Theorie. Interessant, d'Resultater, déi hei virgestallt ginn, hëllefen och ze erklären firwat d'biologesch Neiheeten Äntwert vläicht net disruptive fir Belounungsbaséiert Léieren an echte Organismen ass: d'Neiheeten-Äntwert ass tatsächlech scho vum RL virausgesot. Dat ass, déi Neiheet Äntwert reflektéiert Behuelen a belount Prognosen, déi mat engem Agent inherent sinn, deen eppes iwwer säi Ëmfeld geléiert huet.

Eng alternativ (awer net géigesäiteg exklusiv) Interpretatioun vun den aktuellen Simulatiounsresultater ass datt et tatsächlech eng abstrakt (vläicht kognitiv) Belounung gëtt, déi Agente kréien andeems se sech orientéieren an Objekter identifizéieren. An Studien vun der dopaminergescher Aktivitéit kënne positiv phasesch Äntwerte geschéien op onerwaart Beleidegungen, déi bekannt sinn eng Belounung ze prediéieren. Dës Simulatioun weist awer wéi dës Aarte vun Äntwerte kënnen och an Äntwert op eng Cue optrieden, déi schlussendlech entweder Belounung oder Strof viraussoen. Deen eenzege konsequente Virdeel deen duerch d'Kue virausgesot gëtt ass de Gewënn an Informatioun kritt wann den Agent et d'Identitéit vum Objet bestëmmt. Also, wann et eng gülteg, geléiert "Belounungsprognose" gëtt wann den onidentifizéierten Objet erschéngt, ass et een zefridden nodeems den Agent de Wësse kritt ob de Stimulus entgéint geet oder vermeit. De Wäert vun dëser Informatioun baséiert net op der Moyenne vun den erzielbaren Resultater, mais ass amplaz baséiert op dem Wësse vun den effektive Resultater - datt den Agent entweder déi positiv Belounung konsuméiere kann oder déi negativ Belounung vermeit (kuck Fig. 2).

Schlussendlech ass et wichteg ze bemierken datt d'Chancen fir speziell Handlungen ze maachen (z. B. ze orientéieren) selwer belount Eegeschafte kënnen iwwerhuelen duerch e puer Generaliséierung oder Léiermechanismus, déi net an dëser Simulatioun enthale sinn. Zum Beispill, déi ganz Handlung fir ze orientéieren an ze bestëmmen "wat dobaussen ass" kéint zu engem Organismus belount ginn op Basis vun der Associatioun tëscht där Handlung an dem uewe demonstréierten opkomende, ëmmer positiven Belounungsprognose Feeler wann nei Stimulatioune erscheinen. Eng ähnlech Iddi ass viru kuerzem vu Redgrave a Gurney [13] fortgeschratt ginn, déi hypothéiren datt e wichtegt Zweck vun der phasescher Dopamin-Äntwert ass Handlungen ze verstäerken, déi virun onberechenten haarde Virgäng optrieden. D'Resultater hei sinn net kompatibel mat där Hypothese, awer et sollt bemierkt ginn datt d'Redgrave a Gurney d'Hypothese net direkt an dëser Simulatioun getest gëtt well keng Aktiounen (dh d'Exploratioun) vum Agent erfuerderlech waren fir déi bemierkbar Manifestatioun (d'Erscheinung vun den Objet) ze geschéien. Wéi och ëmmer, dat simuléiert phasic Signal huet mat der Zäit vun der orientéierender Äntwert zesummegefaasst, wat suggeréiert datt déi zwee staark kënne verbonne sinn.

Ofschléissend huet dësen Artikel bewisen datt RL Prinzipien kënne benotzt ginn fir eng Aart vu scheinbar net-belounungsaktivitéit vun den dopaminergesche Neuronen z'erklären. Dëst Resultat entstanen aus der Tatsaach datt déi temporär Differenz Léierregel (sou wéi déi benotzt vum Kakade an Dayan [7]) an eng Simulatioun agebonne gouf an där den Agent Aktiounen auswielen konnt deen en Effekt op den eventuellen Resultat huet. An der Simulatioun huet den Agent geléiert datt d'Resultat vum Orientéiere vun engem Objet dee plötzlech optriede kann ëmmer entweder belount oder neutral sinn, well den negativen Resultat kéint verhënnert ginn. Dofir wann den Agent eng Geleeënheet huet ze orientéieren, säi Belounungsprognosfehler war ëmmer positiv, computationally analog zu der Neiheet an der Saliatiounsreaktiounen, déi an biologeschen Organismen observéiert goufen.

Arbeschterlidder

D'Aarbecht, déi an dësem Artikel beschriwwe gouf, gouf vum NIH R01 HD053639 an vum NSF Training Grant DGE-9987588 ënnerstëtzt. Ech soe dem Erik Reichle, dem Tessa Warren, an engem anonyme Rezensor Merci fir hëllefräich Kommentarer zu enger fréierer Versioun vun dësem Artikel.

1Another Verstäerkung Learning Algorithmus, sougenannt Trajectory Sampling [17], gëtt dacks benotzt amplaz vu Value Iteration wann de Staatsraum sou grouss gëtt datt et net ustrengend kann iteréiert oder einfach an engem Computer Gedächtnis gelagert ginn. Anstatt iwwer all Staat am Staatsraum ze iteréieren an d'Wäertfunktiounsaktualiséierung Equatioun ze maachen baséiert op d'Aktiounen, déi op déi meeschte Belounung schéngen, Wierker Trajectory Sampling duerch Weeër duerch de Staatsraum ze folgen. Ähnlech mam Value Iteration ginn d'Aktiounen, déi zu de meeschte Beloununge féieren, normalerweis aus all Staat gewielt, awer heiansdo gëtt eng zoufälleg Erklärungsaktioun mat e bësse klenge Wahrscheinlechkeet gewielt. Also ass den Algorithmus: Aus e puer Startstaten s, wielt eng Handlung déi zu der belountungste féiert [zB, Belounung + γV (s ′)] mat Probabilitéit ε, oder wielt eng zoufälleg Erzéiungsaktioun mat Probabilitéit 1 - ε. Passt V (en) op → V (en) + α [Belounung + γV (s ′) - V (en)] wärend net-exploratoresch Aktiounen vum Staat s.

Nieft der technescher Begrenzung vun der Berechnungszäit an der Erënnerung ze iwwerwannen, kann Trajectory Sampling attraktiv sinn, well et kann besser d'Manéier reflektéieren wéi real biologesch Organismen léieren: andeems Weeër an engem Staatsraum entdecken. Op der Aufgab, déi an dësem Pabeier beschriwwe gëtt, ergëtt Trajectory Sampling Resultater déi qualitativ identesch sinn mat déi, déi mat Value Iteration kritt goufen. Wéi och ëmmer, fir d'Resultater ginn dës Resultater net am Detail bericht. Wäert Iteration gouf aus zwou Haaptgrënn fir d'Simulatioun an dësem Pabeier ausgewielt. Als éischt, well Trajectory Sampling Stochastikitéit bei der Auswiel vu Trajectoire involvéiert, kann de groussen Betrag vun der Verzweigung déi wéinst de ville méigleche Sequenzen vun Aktiounen an dëser Aufgab resultéieren Agenten déi Erfahrung mat e puer Staaten hunn, ausser de Exploratiounsausbeutungsparameter (dh. ε-Gierzegkeet [17]) gëtt virsiichteg gewielt. Dëse Mangel u Experienz mat besonnesche Staaten kann dem Leeschtung vun engem Agent disruptive sinn, wann e Lookup Table Memory Struktur benotzt gëtt wéinst dem Mangel u Generaliséierung vum Wäert op ähnlech (awer méiglecherweis net viséiert) Staaten. Sou huet et léiwer gemaach déi ausféierlech Entdeckung vum Staatsraum ze notzen, dee mat Value Iteration garantéiert ass. Zweetens huet d'Benotzung vu Value Iteration d'Bedierfnes fir dës zousätzlech Exploratioun-Exploitatioun Parameter ze spezifizéieren, doduerch d'Simulatioun vereinfacht. Bemierkung datt Trajectory Sampling schlussendlech de Wäert Iteration unzeschätze kann, well d'Zuel vun de Trajectories infinity [17] ugeet.

2 D'Unzuel vun den 21,120 Staaten kënne wéi follegt berechent ginn: 11 méiglech Agent Locations × 4 méiglech Agent Orientatiounen × (10 Zäit-Schrëtt ier en Objekt erschéngt + 10 Zäit-Schrëtt wou keen Objet erschéngt + 10 Zäit-Schrëtt wou den Agent gewiescht wier positiv verstäerkt + 10 Zäitstufe wou den Objekt negativ verstäerkt gouf + 11 méiglech Objektplazen * (10 Zäitstufe mat engem positiven identifizéierten Objet + 10 Zäitstufe mat engem negativen identifizéierten Objet + 10 Zäitstufe mat engem onidentifizéierte positiven Objet + 10 Zäit Schrëtt mat engem onidentifizéierten negativen Objet))].

3 D'Existenz vun dësen "verstopptene" Staaten musse considéréiert ginn während der Ausbildung well d'Wäert Iteration nëmmen "ee Schrëtt viraus" aus all Staat am Staatsraum ausgesäit. De Fakt datt Staaten mat negativen a positiven onidentifizéierten Objeten effektiv identesch sinn, géif verhënneren datt d'Wäerter an deenen zwee ënnerschiddleche spéider Staaten, an deenen entweder de positiven oder negativen Objet identifizéiert gëtt, léieren an avergen. Eng Trajectory Sampling Approche op der anerer Säit hält déi verstoppt Zoustandinformatioun (dh d'Identitéit vum onidentifizéierte Stimulus) während dem Prozess an dofir mat där Variant vum RL sinn déi verstoppte Staaten keng Suergen.

4One potenziell Verstouss géint dat haitegt Wierk ass datt d'orientéierend Äntwert am kabesame Gehir am Schäfferot schéngt, zum Beispill, an Projektioune vum Superior Colliculus [3,14]. An der aktueller Simulatioun waren d'Agente net schwéier gedrockt fir Objeten ze orientéieren, awer amplaz en orientéierend Verhalen ze léieren, deen eventuellen Auswiel vun enger Handlung erlaabt (z. B. entweder Approche oder Vermeiden) déi maximal Belounung huet. Ähnlech wéi schwéier kabelléiert Äntwerte, hunn dës orientéierend Verhalen ganz séier passéiert, ier d'Objete identifizéiert goufen, a se op all Objet geriicht goufen. D'Zil vun dëser Aarbecht war net d'Ufuerderung ze maachen datt all sou Äntwerte geléiert ginn, mee éischter datt se am RL-Kader zesumme kënnen existéieren. Trotzdem wier et interessant z'ënnersichen ob d'Belounungsmechanismen an der Konnektivitéit an de Gehirstemberäicher agebonne kënne sinn, fir dës phasesch Dopamin-Äntwert ze generéieren.

Dëst ass eng PDF-Datei vun engem net verworfene Manuskript deen fir d'Publikatioun akzeptéiert gouf. Als Service fir eis Cliente këmmeren mir dës fréie Versioun vum Manuskript. De Manuskript wäert d'Kopieveraarbechtung, d'Setzgarantie an d'Iwwerpréiwung vum entstinnende Beweis ënnerwerfen, ier se an der Final citat Form publizéiert gëtt. Maacht weg datt während dem Produktiounsfehler eventuell Décisiounen entdeckt kënne ginn, déi d'Inhalter beaflosse kënnen, an all gesetzlech Verännerungen, déi op d'Zäitschrëft gelidden sinn.

Referenze

1. Baird LC. Rescht Algorithmen: Verstäerkung Léier mat der Funktioun Approximatioun. In: Priedetis A, Russell S, Redaktoren. Maschinn Léieren: Virgäng vun der Zwielefter International Konferenz; 9 – 12 Juli.1995.

2. Bunzeck N, Düzel E. Absolute Kodéierung vun der Stimulatioun Neiheet an der mënschlecher substantia nigra / VTA. Neuron. 2006; 51 (3): 369 – 379. [PubMed]

3. Dommett E, Coizet V, Blaha CD, Martindale J, Lefebvre V, Walton N, Mayhew JEW, Overton PG, Redgrave P. Wéi visuell Reizen stimuléieren dopaminergesch Neuronen a kuerzer latency. Wëssenschaft. 2005; 307 (5714): 1476 – 1479. [PubMed]

4. Doya K. Metalearning a Neuromodulatioun. Neural Netzwierker. 2002 Jun – Jul; 15 (4 – 6): 495 – 506. [PubMed]

5. Gillies A, Arbuthnott G. Computational Modeller vun de Basalganglia. Bewegungsstéierunge. 2000; 15 (5): 762 – 770. [PubMed]

6. Horvitz JC. Mesolimbocortical an nigrostriatal Dopaminreaktiounen op spektakulär net belount Eventer. Neurowëssenschaft. 2000; 96 (4): 651 – 656. [PubMed]

7. Kakade S, Dayan P. Dopamine: Generaliséierung a Bonus. Neural Netzwierker. 2002; 15 (4 – 6): 549 – 559. [PubMed]

8. Knutson B, Cooper JC. D'Loch vun der Onbekannter. Neuron. 2006; 51 (3): 280 – 282. [PubMed]

9. Logothetis NK, Pauls J, Augath M, Trinath T, Oeltermann A. Neurophysiologesch Untersuchung vun der Basis vum fMRI Signal. Natur. 2001; 412 (6843): 150 – 157. [PubMed]

10. McClure SM, Berns GS, Montague PR. Temporal Prognosenfehler an enger passiver Léieraufgab aktivéieren de Mënschestreatum. Neuron. 2003; 38 (2): 339 – 346. [PubMed]

11. Niv Y, Duff MO, Dayan P. Dopamine, Onsécherheet an TD Léieren. Behuelen- a Gehirfunktiounen. 2005 Mee 4; 1: 6. [PMC gratis Artikel] [PubMed]

12. O'Doherty JP, Dayan P, Friston K, Critchley H, Dolan RJ. Temporär Differenzmodeller a Belounungsrelatéiert Léieren am mënschleche Gehir. Neuron. 2003; 38 (2): 329 – 337. [PubMed]

13. Redgrave P, Gurney K. De Kuerz latency Dopamin Signal: eng Roll bei der Entdeckung vun Romaneraktiounen? Natur Bewäertungen Neurowëssenschaften. 2006 Dec; 7 (12): 967 – 975.

14. Redgrave P, Prescott TJ, Gurney K. Ass déi kuerz-latency Dopamin-Äntwert ze kuerz fir d'Signal Belounungsfehler? Trends an Neurowëssenschaften. 1999 Apr; 22 (4): 146 – 151. [PubMed]

15. Reichle ED, Laurent PA. Mat Verstäerkung Léiere fir d'Entstoe vu "intelligenten" Aenbewegungsverhalen beim Liesen ze verstoen. Psychologesch Iwwerpréiwung. 2006; 113 (2): 390 – 408. [PubMed]

16. Schultz W. Prognostescht Belounungssignal vun Dopamin Neuronen. Journal vun Neurophysiologie. 1998; 80 (1): 1 – 27. [PubMed]

17. De Sutton RS, Barto AG. Verstäerkung Léieren: Eng Aféierung. MIT Press; Cambridge: 1998.

18. Tanaka SC, Doya K, Okada G, Ueda K, Okamoto Y, Yamawaki S. Viraussiicht fir direkt an zukünfteg Belounungen differenziell rekrutéiert cortico-basal Ganglia Loops. Natur Neurowëssenschaften. 2004; 7 (8): 887 – 893.