D'Dopamine-Unerkennung an TD Learning (2005)

COMMENTAIREN: Onsécherheet heescht Neiegkeet. Dës komplex Studie bestätegt datt d'Neiheet d'Dopamin erhéicht. Et erkläert och datt wat méi onsécher d'Belounung méi staark ass d'Léieren. Internetpornografie ass anescht wéi Porno vun der Vergaangenheet wéinst der endloser Neiegkeet - dat heescht endlos Sprëtz vun Dopamin. Sucht am Kär ass Léieren & Erënnerung. Wiesselen op Roman Genre vu Porno aktivéiert Dopamin a Léieren - wéinst der Onsécherheet wat Dir wëllt erliewen. Onsécherheet trëtt och op wann Porno Benotzer no Porno surfen. Dir wësst net wat Dir amgaang sidd ze gesinn an datt d'Dopamin opkënnt.
Neiheet, Onsécherheet, a sichen all aktivéiert Dopamin

Voll Studie: Dopamin Onsécherheet an TD Learning

Behuelen- a Gehirfunktiounen 2005, 1:6doi:10.1186/1744-9081-1-6

Yael Niv1,2, Michael O Duff2 a Peter Dayan2
1 Interdisziplinär Zentrum fir Neural Computation, Hebräesch Universitéit, Jerusalem, Israel
2 Gatsby Computational Neuroscience Unit, University College London, London, UK
D'elektronesch Versioun vun dësem Artikel ass déi komplett a ka online fonnt ginn op: http://www.behavioralandbrainfunctions.com/content/1/1/6
© 2005 Niv et al; Lizenzgeber BioMed Central Ltd.

mythologesch

Wesentlech Beweiser hindeit datt déi phasesch Aktivitéite vun dopaminergesche Neuronen am primativen Midbrain e temporalen Ënnerscheed (TD) Fehler an de Prognosen vun der zukünfteger Belounung duerstellen, mat Erhéigungen uewen an erofgaang ënner der Baseline Konsequent op positiven an negativen Prognosenfeeler, respektiv. Wéi och ëmmer, Dopaminzellen hunn ganz wéineg Basisaktivitéit, wat implizéiert datt d'Vertriedung vun dësen zwou Zorte vu Feeler asymmetresch ass. Mir entdecken d'Implikatioune vun dëser scheinbar onschëlleger Asymmetrie fir d'Interpretatioun vun dopaminergesche Feiermuster an Experimenter mat probabilistesche Belounungen déi bestänneg Prognosenfeeler mat sech bréngen. Besonnesch, mir weisen datt wann d'Moyenne vun den net-stationäre Prognosefeeler iwwer Studien eng Ramping an der Aktivitéit vun den Dopaminneuronen soll offensichtlech sinn, deenen hir Gréisst ofhängeg vum Léiergeschwindegkeet ass. Dëst exakt Phänomen gouf an engem kierzlechen Experiment observéiert, obwuel se an antipodal Begrëffer interpretéiert ginn als e bannen-Prozess Encodéierung vun Onsécherheet.

Aféierung

Et gëtt en beandrockend grousst Kierper vu physiologeschen, Imaging, a psychopharmakologeschen Donnéeën betreffend déi phasesch Aktivitéit vun dopaminergesche (DA) Zellen an de Mëttbunnen vun den Affen, Ratten a Mënschen a klassescher an instrumental Konditiounsaufgaben mat Viraussoen iwwer zukünfteg Belounungen [1-5]. Dës Donnéeën goufen ageholl fir [6,7] ze proposéieren datt d'Aktivitéit vun DA Neuronen temporär Differenz (TD) Fehler an de Prognosen vun der zukünfteger Belounung duerstellt [8,9]. Dës TD Theorie vun Dopamin bitt e präzis computational Fundament fir eng Vill Verhalens- an Neuraldaten ze verstoen. Weider proposéiert et datt den DA e Signal liwwert dat theoretesch passend ass fir d'Léiere vu béiden Prognosen a Belounungsoptimiséierung vun Aktiounen ze kontrolléieren.

E puer vun de zwéngendste Beweiser zugonschte vun der TD Theorie stamen aus Studien déi d'phasesch Aktivéierung vun Dopaminzellen als Äntwert op arbiträr Stimulie (wéi Fraktalmuster op engem Monitor) ënnersicht, déi d'proxim Disponibilitéit vu Belounungen (wéi Drëpsen vum Jus) virauszesoen. An. A ville Varianten hunn dës gewisen datt mat Training phasic DA Signaler iwwerdroen vun der Zäit vun der ursprénglecher onberechenbaren Belounung, op déi Zäit vun der éischter Cue déi eng Belounung virausgesot. Dëst ass genau dat erwaartent Resultat fir en temporäre-Differenz-baséiert Prognosenfehler (z. B. [1,2,10-13]). D'Grondfindung [7] ass datt wann eng Belounung onerwaart ass (wat inevitibel ass an de fréie Studien), reagéieren dopaminzellen staark dorop. Wann eng Belounung virausgesot ass, äntweren d'Zellen awer dem Prediktor, an net op déi elo erwaart Belounung.

Wann eng virausgesot Belounung onerwaart ewech gelooss gëtt, da ginn d'Zellen phasesch an der normaler Zäit vun der Belounung hemmt, eng Hemmung déi de präzisen Timing vun der Belounungsprognosioun verréid [10], an där hir temporär Metriken de Moment ënner engem forensesche Spotlight [14] stinn. D'Verrécklung vun der Aktivitéit vun der Zäit vun der Belounung zu der Zäit vum Prädiktor gläicht der Verrécklung vun der appetitiver Verhalensreaktioun vum Déier vun der Zäit vun der Belounung (den onbedingte Reiz) op dee vum bedingte Reiz a klassesche Konditiounsexperimenter [7,10] .

An enger interessanter rezenter Etude huet de Fiorillo et al. [15] huet de Fall vun enger partieller Verstäerkung ënnersicht, an där et persistent, ineluctable, Prognosenfeeler op all eenzele Prozess ass. Eng einfach Interpretatioun vun der TD Predictiounsfehlerhypothese géif virschloen datt an dësem Fall (a) dopamin Aktivitéit zur Zäit vum prévisiven Stimuli mat der Wahrscheinlechkeet vun der Belounung géifen skala, an (b) am Duerchschnëtt iwwer Studien, déi dopaminergesch Äntwert nom Stimulus an de ganze Wee bis zur Zäit vun der Belounung, sollt Null sinn. Och wann déi éischt Hypothese an den Experimenter bestätegt gouf, war déi zweet net. Déi zwëschen Prozess duerchschnëttlech Äntwerte weisen e kloere Vergréisserung vun der Aktivitéit wärend der Verzögerung tëscht Stimuléierungsanfang a Belounung, déi am TD-Kont konsequent schéngen. Fiorillo et al. hypothese datt dës Aktivitéit d'Onsécherheet an der Belounungsliwwerung duerstellt anstatt e Prognosenfehler.

An dësem Pabeier besiche mir d'Fro vum persistenten Prognosenfeeler. Mir weisen datt eng entscheedend Asymmetrie bei der Kodéierung vu positiven an negativen Prognosenfeeler féiert een ze erwaarden datt d'Ramping am Duerchschnëttsduerchschnëtt Dopamin Signal, an huet och gutt zwou weider Feature vum DA Signal virgesi - scheinbar persistent Aktivitéit zur Zäit vun der (potenzieller) Belounung, a verschwonnen (oder op d'mannst Schwächung) vum Rampesignal, awer net d'Signal zur Zäit vun der Belounung, vis-à-vis vu Spure anstatt Retard op Konditioun. Béid vun dëse Phenomener goufen och an de verbonne instrumental Konditiounsexperimenter vum Morris et al observéiert. [16]. Schlussendlech interpretéiere mir de Rampesignal als de beschte Beweis dee momentan verfügbar ass fir d'Natur vum Léiermechanismus, duerch deen d'Verréckelung vun der Dopaminaktivitéit an d'Zäit vun de prévisive Stimuli geschitt.

Onsécherheet am Belounungsfall: DA ramping

Fiorillo et al. [15] huet d'Presentatioun vu fënnef verschiddene visuellen Reizen zu Makaken mat der verspéidter, probabilistescher (pr = 0, 0.25, 0.5, 0.75, 1) Liwwerung vu Jusbeloununge verbonnen. Si hunn e Verzögerungskonditiounsparadigma benotzt, an deem de Reiz fir e fixen Intervall vun 2s bestoe bleift, mat Belounung geliwwert wann de Reiz verschwënnt. No der Ausbildung huet d'Apse viraussiichtlech lecken Verhalen uginn datt se sech bewosst waren iwwer déi verschidde Belounungsméiglechkeeten, déi mat all Reiz verbonne sinn.

Figur 1a weist Bevëlkerungshistogramme vun extracellularly opgeholler DA Zell Aktivitéit, fir all Pr. TD Theorie virauszegesinn datt d'phasesch Aktivéierung vun den DA Zellen zur Zäit vun den visuellen Reizen soll op déi duerchschnëttlech erwaart Belounung entspriechen, an esou soll mat Pr eropgoen. Figur 1a weist genau dat - tatsächlech iwwer d'Populatioun ass d'Erhéijung zimlech linear. Morris et al. [16] bericht en ähnlecht Resultat an enger instrumentaler (Spur) Konditiounsaufgab och mat probabilistescher Verstäerkung.

Figur 1. Duerchschnëtt Prognosenfehler an enger probabilistescher Belounungsaufgabe
(a) DA Äntwert a Prozesser mat verschiddene Belounungsméiglechkeeten. Populatioun Peri-Stimulus Zäit Histogramme (PSTHs) weisen déi summéiert Spikesaktivitéit vu verschiddenen DA Neuronen iwwer vill Verspriechen, fir all Pr, zesummegesat iwwer belount an onbezuelte Prozesser mat mëttlere Wahrscheinlechkeeten. (b) TD Prediction Feeler mat asymmetresche Skaléieren. An der simuléierter Aufgab gouf an all Versuch ee vu fënnef Reizen zoufälleg gewielt an zur Zäit t = 5. De Reiz gouf ausgeschalt bei t = 25, zu där Zäit gouf eng Belounung mat enger Wahrscheinlechkeet vu pr uginn vum Reiz. Mir hunn eng ausgezeechent Verspéidungslinn Duerstellung vun de Reizen benotzt (kuck Text), mat all Reiz representéiert vun engem anere Set vun Eenheeten ('Neuronen'). Den TD Feeler war δ (t) = r (t) + w (t - 1) • x (t) - w (t - 1) • x (t - 1), mat r (t) d'Belounung zur Zäit t , an x (t) a w (t) d'Staats- a Gewiichtvektore fir d'Eenheet. Eng Standard Online TD Léierregel gouf mat enger fixer Léierquote α, w (t) = w (t - 1) + αδ (t) x (t - 1) benotzt, sou datt all Gewiicht en erwaarten zukünftege Belounungswäert duerstellt. Ähnlech wéi Fiorillo et al., Weise mir de Prediction Feeler δ (t) duerchschnëttlech iwwer vill Verspriechen, nodeems d'Aufgab geléiert gouf. D'Representatiouns-Asymmetrie entsteet als negativ Wäerter vun δ (t) goufe vun d = 1/6 virun der Summatioun vun der simuléierter PSTH skaléiert, obwuel d'Léiere no ongeschaute Feeler virugeet. Schlussendlech, fir déi kleng positiv Äntwerten zur Zäit vum Reiz fir pr = 0 ze berechnen an zur Zäit vun der (virausgesot) Belounung fir pr = 1 gesinn am (a), hu mir eng kleng (8%) Chance ugeholl prädiktive Reiz ass falsch identifizéiert. (c) DA Äntwert a pr = 0.5 Prozesser, getrennt a belount (lénks) an onbezuelten (riets) Prozesser. (d) TD Model vun (c). (a, c) Reprint mat Erlaabnis vun [15] © 2003 AAAS. Erlaabnes vun AAAS ass fir all aner Uwendungen erfuerderlech.

Am Géigesaz zu der Zäit vu potenzieller Belounungsliwwerung virausgesäit TD Theorie datt am Duerchschnëtt keng Aktivitéit sollte ginn, well am Duerchschnëtt et kee Prognosenfehler zu där Zäit. Natierlech, am probabilistesche Verstärkungsdesign (op d'mannst fir pr ≠ 0, 1) gëtt et tatsächlech e Prognosenfehler zu der Zäit vun der Liwwerung oder net-Liwwerung vun der Belounung op all eenzele Prozess. Op Studien an deenen eng Belounung ausgeliwwert ass, soll de Prognosenfehler positiv sinn (well d'Belounung kritt ass méi grouss wéi déi duerchschnëttlech Belounung erwaart). Ëmgekéiert, bei Studien ouni Belounung sollt et negativ sinn (kuck Fig. 1c). Wichteg sinn ënner TD den Duerchschnëtt vun dësen Ënnerscheeder, gewiicht duerch hir Wahrscheinlechkeeten op, datt et soll sinn. Wann et net null ass, da soll dëse Prognosenfehler als Plastizitéit Signal handelen, andeems d'Prognosen verännert ginn bis et kee Prognosenfehler ass. Mat Varianz mat dëser Erwaardung, weisen d'Donnéeën a Figur 1a déi a souwuel belount wéi och net ausbezuelten Studien averaged sinn, datt et tatsächlech positiv mëttler Aktivitéit ass zu dësem Moment. Dëst ass och evident an den Daten vum Morris et al. [16] (kuck Fig. 3c). Déi positiv DA Äntwerte weisen keng Zeeche fir ze verschwannen och mat substantiellem Training (am Laaf vun de Méint).

Méi schlëmm wéi dëst fir den TD Modell, an tatsächlech de Fokus vum Fiorillo et al. [15], ass déi offensichtlech Ramping vun der DA Aktivitéit Richtung der erwaart Zäit vun der Belounung. Well d'Gréisst vun der Ramp am Gréissten ass fir pr = 0.5, Fiorillo et al. huet virgeschloen datt et d'Onsécherheet an der Belounungsliwwerung bericht, anstatt e Prognosenfehler, a spekuléiert datt dëst Signal déi anscheinend appetitlech Eegeschafte vun Onsécherheet erkläre kann (wéi am Spillraum gesi).

Béid d'Ramping Aktivitéit an d'Aktivitéit op der erwaart Zäit vun der Belounung stellen kritesch Erausfuerderunge fir den TD Theorie. TD Léiere funktionnéiert andeems en DA Aktivitéit gläichzäiteg an engem Prozess arrangéiert fir virausgesot ginn duerch Cues, déi virdru an deem Prozess verfügbar sinn. Also ass et net kloer wéi eng anscheinend prévisibel Aktivitéit, sief et datt et zu der Zäit vun der Belounung oder an der Ramp virdrun kann bestoe bleiwen, ouni datt de visuellen Stimulum virausgesot gëtt. No allem ass déi pr-ofhängeg Aktivitéit an Äntwert op de Stimulus bestätegt säin Zoustand als gültege Prediktor. Weideren e wichtegen Aspekt vum TD [17], ass datt se d'Prognose fir d'Aktiounswiel paréiert andeems de Wäert vun engem Staat als Indikatioun fir déi zukünfteg Beloununge vun dësem Staat benotzt, an dofir seng Attraktivitéit als Zil fir Handlung ass. Vun dëser Perspektiv, well d'Ramping Aktivitéit explizit net vun der fréierer Cue virausgesot gëtt, kann et net fréi Aktiounen beaflossen, sou wéi d'Entscheedung ze gamble. Betruecht zum Beispill e Konkurrenz tëscht zwou Aktiounen: eng féiert schlussendlech zu engem Staat mat enger deterministescher Belounung an dofir keng Ramp, an deen aneren zu engem Staat gefollegt vun enger probabilistescher Belounung mat deem selwechte Moyen, an eng Ramp. Well d'Ramp net d'Aktivitéit zum Zäitpunkt vum bedingte Stimulus beaflosst, kann se net benotzt ginn fir déi zweet Handlung (Gambling) iwwer déi éischt ze bewäerten oder ze favoriséieren, trotz der extraer Onsécherheet.

Mir proposéieren d'alternativ Hypothese datt béid dës anomal Feiermuster direkt aus de Contrainten implizéieren duerch déi niddreg Baseline Rate vun der Aktivitéit vun DA Neuronen (2 – 4 Hz) op der Kodéierung vum ënnerschriwwenen Prognosenfeeler. Wéi uginn vum Fiorillo et al. [15], Positiv Predictiounsfehler sinn duerch Brennraten vun ~ 270% iwwer der Basislinn vertruede ginn, während negativ Fehler duerch eng Ofsenkung vun nëmmen ~ 55% ënner der Baseline vertruede sinn (kuck och [14,18]). Dës Asymmetrie ass eng direkt Konsequenz vun der Kodéierung vun enger ënnerschriwwener Quantitéit duerch Brennen déi eng niddreg Baseline huet, awer, offensichtlech, kann nëmme positiv sinn. Brennungsraten iwwer der Basislinn kënnen positiv Prognosenfehler codéieren andeems Dir e grousst dynamescht Range benotzt, awer ënner Baseline Feierraten kënnen nëmmen op Null erofgoen, wat eng Restriktioun op d'Kodéierung vun negativen Prognosenfehler opléisst.

Dofir muss een oppassen d'Summen (oder Duerchschnëtter) vun Peri-Reiz-Zäit-Histogrammen (PSTHs) vun Aktivitéit iwwer verschidde Prozesser z'interpretéieren, wéi et an der Figur 1a gemaach gouf. Déi asymmetresch kodéiert positiv an negativ Feeler Signaler zum Zäitpunkt vum Empfang oder Net-Empfang vun der Belounung sollten tatsächlech net op Null summéieren, och wa se korrekt TD Prediction Feeler duerstellen. Wann zesummegefaasst gëtt déi niddereg Schéissung déi negativ Feeler an den onbezuelte Verspriechen duerstellt net déi séier Schéisskodéierung positiv Feeler an de belounten Tester "annuléiert", an am Allgemenge weist eng positiv Äntwert. Am Gehir, natierlech, well d'Äntwerten net duerchschnëttlech iwwer (belount an onbezuelten) Verspriechen sinn, awer iwwer Neuronen an engem Prozess, brauch dat kee Problem ze stellen.

Dëst erkläert d'persistent positiv Aktivitéit (am Duerchschnëtt) zum Zäitpunkt vun der Liwwerung oder net d'Liwwerung vun der Belounung. Awer wéi ass et mat der Ramp virun dëser Zäit? Op d'mannst a bestëmmte neurale Representatioune vun der Zäit tëscht Stimulus a Belounung, wa Studien duerchschnëttlech sinn, féiert dës selwecht Asymmetrie TD zu enger resultéierender Aktivitéit zu enger Zäit vun der Belounung. Den TD Léiermechanismus huet den Effekt, op engem Test-vun-Test Basis ze propagéieren, Prognosenfehler déi op eng Kéier an engem Prozess entstoen (sou wéi zum Zäitpunkt vun der Belounung) Richtung potenziellen Prognosen (wéi den CS) déi entstinn zu fréien Zäiten an all Prozess. Ënnert der asymmetrescher Duerstellung vu positiven an negativen Predictiounsfehler déi mir just diskutéiert hunn, féieren dës Duerchschnëttsfehler iwwer verschidde Studien (wéi an der Bild 1a) avermëttelen zu positiven Mëttelen fir Epochen an engem Prozess virun enger Belounung. Déi präzis Form vun der resultéierender Ramp vun der Aktivitéit hänkt vun der Aart a Weis wéi Reizen stimuléiert iwwer Zäit vertruede sinn, an och vun der Geschwindegkeet vum Léieren, wéi et hei ënnen diskutéiert gëtt.

Figure 2 illustréiert dës Vue vun der Provenz vun der Rampaktivitéit. Hei ass eng gezaaptene Verzögerungslinn Duerstellung vun der Zäit zënter dem Reiz benotzt. Dofir gëtt all Eenheet ('Neuron') aktiv (dh hëlt de Wäert 1 un) bei enger gewësser Lag nodeems de Stimulus presentéiert gouf, sou datt all Zäitstuf nom Stimulusausgang konsequent duergestallt gëtt duerch d'Feier vun enger Eenheet. Léiere baséiert op dem (dopaminergesch berichtete) TD Feeler, formaliséiert als δ (t) = r (t) + V (t) - V (t - 1), mat V (t) de gewiessene Input vun der aktiver Eenheet bei Zäit t, a r (t) d'Belounung zu Zäit t kritt. D'Aktualiséiere vun de Gewiichter vun den Eenheeten no der Standard TD Update Regel mat engem fixe Léierquot, erlaabt V (t), am Duerchschnëtt, déi erwaart zukünfteg Belounungen duerzestellen (kuck Figure 1 Iwwerschrëft). Wéi all spéider Zäitzäit getrennt vertruede ass, kënnen TD Prediction Feeler zu all Moment am Prozess entstoen. Figure 2a weist dës Feeler a sechs hannereneen simuléierte Prozesser an deenen pr = 0.5. An all Prouf entsteet en neie positiven oder negativen Feeler zur Zäit vun der Belounung, als Konsequenz beim Empfang oder Net-Empfang vun der Belounung, a Schrëtt fir Schrëtt propagéiere sech d'Feeler aus fréiere Prouwen zréck an d'Zäit vum Reiz, duerch déi konstant Aktualiséierung vun de Gewiichter (z. B. de Feeler rout markéiert). Beim Duerchschnëtt (oder, wéi an PSTHs, summéieren) iwwer Verspriechen, annuléieren dës Feeler sech am Duerchschnëtt, wat zu engem allgemenge flaache Histogramm am Intervall nom Stimulusausgang resultéiert, a féiert bis zur Zäit vun der Belounung (schwaarz Linn an der Figure 2b, resüméiert iwwer déi 10 Prozesser an dënn blo gewisen). Wéi och ëmmer, wann nom asymmetresche Skala vun den negativen Feeler duerch e Faktor vun d = 1/6 summéiert (wat d'asymmetresch Kodéierung vu positiven an negativen Viraussoe Feeler vun DA Neuronen simuléiert), entsteet eng positiv Aktivitéitsrampe, wéi déi schwaarz Linn illustréiert. an der Figur 2c. Bedenkt datt dës Ëmkaléierung nëmmen e representativt Thema ass, wat aus de Contrainten entsteet fir en negativen Wäert iwwer e niddrege Baseline Schéissrate ze kodéieren, a sollt net d'Léiere vun de Gewiichter beaflossen, fir net falsch Wäerter ze léieren (kuckt Diskussioun). Wéi och ëmmer, well PSTHs direkt Zomme vun neuronale Spikes sinn, dréit dës representativ Ausgab op dat resultéierend Histogramm.

Figur 2. Réckpropagéierung vu Prognosenfehler erkläert d'Ramping Aktivitéit.
(a) Den TD Viraussiichtungsfehler iwwer jiddfer vu sechs noeneen ugeluechte Studien (vun uewen bis ënnen) vun der Simulatioun an der Figur 1b, mat pr = 0.5. Op rout beliicht ass de Feeler zur Zäit vun der Belounung an der éischter vun de Studien, a seng graduell Réckverbreedung a Richtung Zäit vum Stimulus an de spéideren Trials. Block Bréiwer bedeiten d'Resultat vun all spezifesche Prozess (R = belount; N = net belount). Déi Rei vun Belounungen déi virun dësen Studien viru ginn ass uewe riets. (b) Den TD-Feeler vun dëse sechs Studien, a véier méi folgend duerno, iwwerlagert. Déi rout a gréng Linnen illustréieren d'Enveloppe vun de Feeler an dësen Studien. Summing iwwer dës Studien ergëtt keng Duerchschnëttsaktivitéit am Duerchschnëtt (schwaarz Linn), well positiv an negativ Feeler op zoufälleg 50% vun der Zäit optrieden, a sou annuléieren. (c) Wann d'Prognictiounsfehler awer asymmetresch vertruede sinn uewen an ënner der Basislinnfrequenz (hei negativ Fehler goufen asymmetresch geschrauft vun d = 1 / 6 fir d'asymmetresch Kodéierung vu Prognosenfehler duerch DA Neuronen ze simuléieren), eng duerchschnëttlech Ramping vun der Aktivitéit kënnt op wann duerchschnëttlech iwwer Trials, wéi illustréiert vun der schwaarzer Linn. All Simulatiounsparameter sinn d'selwecht wéi an der Bild 1b, d.

Zuelen 1b, d weisen d'Ramp déi aus dëser Kombinatioun vun asymmetresche Kodéierung an Inter-Prozessvermëttlung entstinn, zum Verglach mat den experimentellen Donnéeën. Figur 1b weist de PSTH aus eiser simuléierter Donnéeën berechent andeems iwwer d'asymmetresch representéiert δ (t) Signal an ~ 50 Studien fir all Stimulatyp berechent. Figur 1d weist d'Resultater fir de pr = 0.5 Fall, opgedeelt an belount an net iwwerdriwwenen Studien zum Verglach mat Figur 1c. Déi simuléiert Resultater ähnelen zu den experimentellen Donnéeën datt se d'Netto-positiv Äntwert op déi onsécher Beloununge replizéieren, souwéi de ramping Effekt, deen am héchsten am Pr = 0.5 Fall ass.

Et ass einfach d'Duerchschnëttsantwort zur Zäit vun der Belounung (t = N) am Test T ofgeleet, dat heescht den duerchschnëttleche TD-Fehler δT (N), vun der TD-Léierregel mat der vereinfachter gestippter Verzögerungslinn Zäit Representatioun an eng fixen Léierrate α. De Wäert op der nächster leschter Zäitstuf an engem Test, als Funktioun vun der Testnummer (mat initial Wäerter op Null geholl), ass

wou r (t) d'Belounung um Enn vum Prozess ass t. De Feelersignal am leschte Moment vum Test T ass einfach den Ënnerscheed tëscht der kritt Belounung r (T), an dem Wäert, deen d'Belounung VT - 1 (N - 1) virausgesäit. Dëse Feeler ass positiv mat Wahrscheinlechkeet pr, an negativ mat Wahrscheinlechkeet (1 - pr). Skaléiert déi negativ Feeler duerch e Faktor vun d ∈ (0, 1], kréie mir also

Fir symmetresch Kodéierung vu positiven an negativen Feeler (d = 1), ass déi duerchschnëttlech Äntwert 0. Fir asymmetresch Kodéierung (0 Spuren Konditioun: en Testfall

E wichtege Testfall fir eis Interpretatioun entstinn an enger Variant vum Fiorillo et al. Senger [15] Aufgab, wéi och an der analoger instrumentaler Aufgab vum Morris et al. [16], béid mat Spuerbedéngung. Am Géigesaz zu der Verzögerungskonditioun (Figure 3a) an där d'Belounung mat dem Offset vum prädiktiven Reiz fällt, ass et e wesentleche Lück tëscht dem Offset vum Prädiktive Reiz an der Liwwerung vun der Belounung (Figure 3b). Kloer, an dësem Fall kéint Onsécherheet iwwer d'Belounung nëmme méi grouss ginn, wéinst Kaméidi beim Timing vum Intervall tëscht Reiz a Belounung [19], also ënner dem Ongewëssheetskont soll et vergläichbar oder souguer méi grouss Rampe ginn. Wéi och ëmmer, déi experimentell Resultater weisen d'Rampingaktivitéit méi kleng ze sinn, oder souguer vernoléissegbar (Figure 3c; d). Bedenkt awer datt d'Gréisst vun der Testduerchschnëttsaktivitéit an der erwaarter Zäit vun der Belounung erhale bleift, a weist op eng Dissoziatioun tëscht der Héicht vun der Ramp an der Unzuel vun der positiver Aktivitéit zu der erwaarter Zäit vun der Belounung.

Figur 3. Spuren Konditioune mat probabilistesche Belounungen.
(a) Eng Illustratioun vun engem Prozess vun der Verspéidungskonditiounsaufgab vu Fiorillo et al. [15]. E Prozess besteet aus engem 2-zweete visuellen Ureiz, deem säin Offset fällt mat der Liwwerung vun der Jusbelounung, wann esou eng Belounung no der Wahrscheinlechkeet mat der visueller Cue programméiert ass. An onbezuelten Testen ass de Reiz ouni Belounung ofgeschloss. A béide Fäll trennt en Inter-Prozess-Intervall vun 9 Sekonnen am Duerchschnëtt Verspriechen. (b) Eng Illustratioun vun engem Prozess vun der Trace Conditioning Task vu Morris et al. [16]. Den entscheedenden Ënnerscheed ass datt et elo e wesentlechen zäitleche Verspéidung tëscht dem Offset vum Reiz an dem Begrëff vun der Belounung gëtt (der "Spur" Period), a keen externen Ureiz weist d'erwaart Zäit vun der Belounung un. Dëst bidd zousätzlech Onsécherheet als präzis Timing vun der virausgesot Belounung muss intern geléist ginn, besonnesch an onbezuelten Tester. An dëser Aufgab, wéi am [15], gouf ee vun e puer visuellen Reizen (net gewisen) an all Prozess presentéiert, an all Reiz war mat enger Wahrscheinlechkeet vun der Belounung assoziéiert. Och hei gouf den Af opgefuerdert eng instrumental Äntwert ze maachen (dréckt op de Schlëssel entspriechend der Säit an där de Reiz präsentéiert gouf), den Ausfall deen de Prozess ouni Belounung ofgeschloss huet. Prouwen goufen duerch variabel Interprozessintervalle getrennt. (c, d) DA Schéissrate (glat) par rapport zu der Baseline, ëm déi erwaart Zäit vun der Belounung, a belount Verspriechen (c) an an onbezuelten Tester (d). (c, d) Reprint vum [16] © 2004 mat Erlaabnis vum Elsevier. D'Spuren implizéieren eng allgemeng positiv Äntwert op der erwaarter Zäit vun der Belounung, awer mat enger ganz klenger, oder keng Ramp virdrun. Ähnlech Resultater goufen an enger klassescher Konditiounsaufgab kuerz beschriwwen [15] kritt, déi eng Spuerbedingungsprozedur beschäftegt, bestätegt datt d'Spuerperiod, an net déi instrumental Natur vun der am (b) duergestallten Aufgab war den entscheedenden Ënnerscheed vun (a) .

Den TD Modell vum DA erkläert dës grujeleg Donnéeën einfach. Wéi an der Figur 4 gewisen, ass d'Form vun der Ramp, awer net d'Héicht vun hirem Héichpunkt, vun der Léiergeschwindegkeet beaflosst. D'Gréisst vun den zréckverbreidende Prognosenfehler gëtt, deelweis, vum Léierrate festgeluecht, well dës Feeler entstinn als Deel vum Online Léieren vun neie Prognosen. Tatsächlech gëtt et eng kontinuéierlech Aktualiséierung vu Prognosen sou datt no engem ausgezeechente Prozess eng méi héich Erwaardung vun der Belounung gëtt (an doduerch déi nächst Belounung enthält e méi klengen Prognosenfeeler), a konverséiert no engem net-belounten Prozess [18] (kuck Fig. 2a). Dës Aktualiséierung vu Prognosen ass direkt mat der Léiergeschwindegkeet verbonnen - wat méi héich ass de Léiergeschwindegkeet, wat méi grouss ass den Update vun de Prognosen no dem aktuellen Prognosenfeeler, a méi grouss ass de Fraktioun vum Prognosenfehler deen zréck propagéiert gëtt. Op dës Manéier, mat méi héije Léierraten, ass den Ënnerscheed an den Erwaardungen no engem ausgezeechente versus en onbezuelten Prozess méi grouss, an doduerch déi Prognosenfehler wann déi nächst Belounung ass oder net verfügbar ass méi grouss - dofir déi méi grouss a méi graduell Ramp.

Figur 4. Ofhängegkeet vun der Ramp um Léierrate.
D'Form vun der Ramp, awer net d'Héicht vun hirem Héichpunkt, hänkt vum Léiergeschwindegkeet of. D'Grafik weist simuléiert Aktivitéit fir de Fall vun pr = 0.5 bei der Zäit vun der erwaarter Belounung, fir verschidde Léierraten, duerchschnëttlech souwuel fir belount wéi och net ofbezuelten Studien. Geméiss den TD Léieren mat persistent asymmetresch kodéiert Prognosenfeeler, Duerchschnëtt iwwer Aktivitéit a belount an onverwertend Studien Resultater an enger Ramp bis zur Zäit vun der Belounung. D'Héicht vum Héichpunkt vun der Ramp gëtt festgeluecht duerch de Verhältnis vu belount an net iwwerdriwwenen Trials, awer d'Breet vun der Ramp gëtt festgeluegt duerch den Taux vun der Réckverbreedung vun dëse Feeler Signaler aus der Zäit vun der (erwaart) Belounung op déi Zäit vum prévisiven Stimulus. Eng méi héich Léierrate féiert zu enger méi grousser Fraktioun vum Feeler zréck propagéiert, an doduerch eng méi héich Ramp. Mat méi nidderegen Léierraten ass d'Ramp vernoléissbar, awer déi positiv Aktivitéit (am Duerchschnëtt) zum Zäitpunkt vun der Belounung gëtt nach ëmmer oprecht gehalen. Bemierkung datt obwuel de Léiergeschwindegkeet an de Simulatiounen, déi a Fig. 1b beschriwwe ginn, benotzt gouf, war 0.8, dëst sollt net als de wuertwiertlech synaptesche Léierrate vum neurale Substrat geholl ginn, kritt eis schematesch Representatioun vum Stimul. An enger méi realistescher Representatioun an där eng Populatioun vun Neuronen zu all Zäit aktiv ass, géif e vill méi nidderegen Léierrate ähnlech Resultater produzéieren.

Tatsächlech, am Verglach mat Verzögerungskonditioune, ass d'Spurekonditionéierung notoresch lues, wat suggeréiert datt d'Léiergrad niddereg ass an dofir datt et eng méi niddereg Ramp sollt sinn, am Aklang mat den experimentellen Resultater. Eng direkt Untersuchung vum Léiergeschwindegkeet an den Donnéeën vum Morris et al. [16], deem seng Aufgab exzessiv Ausbildung erfuerderlech war well et net nëmmen eng Spurekonditionéierung war, awer och eng instrumental Handlung involvéiert huet, huet et bestätegt wierklech ganz niddereg ze sinn (Genela Morris - perséinlech Kommunikatioun, 2004).

Diskussioun

D'differenziell Kodéierung vu positiven an negativen Wäerter vun DA Neuronen ass evident an all Studien vum phasesche DA Signal, a ka als eng inévitabel Konsequenz vun der gerénger Baseline Aktivitéit vun dësen Neuronen ugesi ginn. Tatsächlech huet dat lescht direkt Empfeelunge inspiréiert datt en Géigner Neurotransmitter, putativ Serotonin, bedeelegt ass fir d'Vertriederung an dofir léieren déi negativ Prognosenfehler [20], sou datt se och voll Véierel hunn. Hei hu mir eis awer beschränkt fir d'Auswierkunge vun der Asymmetrie op der Testmëttelméisseg Analyse vun der Dopaminaktivitéit ze berücksichtegen, an hu gewisen datt d'Ramping vun der DA Aktivitéit, souwéi eng duerchschnëttlech positiv Äntwert zur Zäit vun der Belounung, direkt vun déi asymmetresch Kodéierung vu Prognosenfehler.

Ausser enger méi klorerer Vue vum Fehlsignal ass déi wichtegst Konsequenz vun der neier Interpretatioun datt d'Rampen als Ënnerschrëft vun engem TD-Phänomen gesi kënne ginn, déi bis elo extrem entfälteg war. Dëst ass déi progressiv Réckverbreedung vum Fehlsignal representéiert vun der DA Aktivitéit, vun der Zäit vun der Belounung bis zur Zäit vum Prediktor (Fig. 2a). Déi meescht fréier Studien vun der dopaminergescher Aktivitéit hunn pr = 1 benotzt, sou datt dës Réckverbreedung am beschten en iwwergangs Phänomen ereichtbar nëmme am Ufank vum Training (wann, typesch, Opzeechnungen hunn nach net ugefaang), a potenziell schwéier ze erkennen a lues - fir DA Neuronen ze schéissen. Weider, wéi erwähnt, hänkt d'Réckpropagatioun of wéi d'Auer tëscht dem prévisiven Stimulus an der Belounung vertruede gëtt - et ass präsent fir eng getippten Verzögerungslinn Representatioun wéi an [6], awer net fir Representatioune déi de ganzen spanen Retard, sou wéi am [21]. Bemierkung datt d'Form vun der Ramp och ofhängeg vun der Notzung vun Usprochungsspuren an der sougenannter TD (λ) Léierregel (Simulatioun net ugewisen), déi en zousätzleche Mechanismus zur Iwwerbréckungszäit tëscht Eventer während dem Léieren ubidden. Leider, well d'Forme vun de Rampen an den Daten zimlech verännerbar sinn (Fig. 1) a Kaméidi, si kënnen net staark Restriktioune fir de genaue TD-Mechanismus ubidden, deen vum Gehir benotzt gëtt.
Méi rezent Studien mat persistent Prognosenfeeler weisen och Aktivitéit, déi suggeréiert fir Réckverbreedung, besonnesch Figur 4 vun [13]. An dëser Studie sinn Viraussiichtungsfehler aus periodeschen Ännerungen an der Aufgab entstan, an DA Opzeechnunge goufen aus dem Ufank vum Training gemaach, also ass Réckverbreedung-ähnlech Aktivitéit direkt offensichtlech, obwuel dës Aktivitéit net quantifizéiert gouf.

Mir erwaarden datt d'Rampen duerch den Training nëmmen daueren wann de Léiergeschwindegkeet net op Null erofgeet wéi de Léiere weidergeet. D'Pearce & Hall [22] Theorie iwwer d'Kontroll vum Léieren duerch Onsécherheet suggeréiert genau dës Persistenz vum Léieren - an et gëtt Beweiser vu partiellen Verstäerkungspläng, datt d'Léierquote méi héich ka sinn, wann et méi Onsécherheet mat der Belounung assoziéiert. Tatsächlech, aus enger "rationaler" statistescher Siicht, sollt d'Léiere bestoen wann et substantiell Onsécherheet ass iwwer d'Bezéiung tëscht Prädiktoren a Resultater, wéi et aus der ëmmer präziser Méiglechkeet vun enger Verännerung vun de prädiktiven Bezéiungen entstoe kann. Dës Form vu bestänneger Onsécherheet, zesumme mat Onsécherheet wéinst der éischter Ignoranz iwwer d'Aufgab, goufe benotzt fir dem Pearce & Hall seng Theorie ze formaliséieren iwwer d'Art a Weis wéi Onsécherheet d'Léiere féiert [23]. Also, eis Fuerderung datt Onsécherheet net direkt duerch d'Rampe representéiert ka sinn, sollt sécher net als heeschen datt seng Representatioun a Manipulatioun net wichteg ass. Fir de Géigendeel, hu mir virgeschloen datt Onsécherheet d'cortikal Inferenz beaflosst an d'Léieren duerch aner neuromodulatoresch Systemer [24] beaflosst, an datt et och Aspekter vun der Auswiel vun Aktiounen kann bestëmmen [25].

Verschidde aner Funktiounen vun der Asymmetrie solle bemierkt ginn. Déi meescht kritesch ass den Effekt vun der Asymmetrie op der DA-ofhängeg Léiere [26], wann déi ënnescht Baseline DA Aktivitéit vu sech selwer verantwortlech ass fir erofgoen Prognosen déi ze héich sinn. Fir sécherzestellen datt déi geléiert Prognosen korrekt bleiwen, musse mir unhuelen datt d'asymmetresch Duerstellung net d'Léiere beaflosst, dat heescht datt e Mechanismus wéi verschidden Skaléierung fir Potenséierung an Depressioun vun de synaptesche Stäerkten den asymmetresche Feeler Signal kompenséiert. Natierlech, wär dëst moot gemaach ginn wann e Géigner Neurotransmitter involvéiert ass ze léieren vun negativen Prognosenfehler. Dëse Problem ass komplizéiert duerch de Virschlag vum Bayer [14] datt d'DRA-Feierraten tatsächlech ähnlech si fir all Prognosenfehler ënner e puer negativ Schwellelänner, vläicht wéinst dem Buedemeffekt vum niddrege Feierraten. Esou lossy Kodéierung beaflosst net dat qualitativt Bild vun den Auswierkunge vum Inter-Prozess Duerchschnëtt op d'Entstoe vu Rampen, awer verstäerkt d'Noutwendegkeet vun engem Géigner Signal fir déi onbedéngt symmetresch Léieren.

Schlussendlech ass deen direktsten Test vun eiser Interpretatioun e Verglach vun intra- an inter-trial Duerchschnëtt vum DA Signal. Et wier wichteg dëst temporär sophistikéiert ze maachen, fir Probleemer ze vermeiden fir net-stationär Signaler duerchschnëttlech ze maachen. Fir de Kaméidi am neurale Schéiss ze iwwerwannen, a festzestellen, ob wierklech eng graduell Rampe bannent engem Prozess war, oder, wéi mir viraussoen - intermittierend positiv an negativ Viraussiichtfeeler, wier et néideg duerchschnëttlech iwwer vill Neuronen, déi gläichzäiteg opgeholl goufen ee Prozess, a weider Neuronen verbonne mat ähnleche Léierraten. Alternativ kënnen eenzel Neuronspuren géint d'Backpropagatiounsreaktioun zréckgezunn ginn, déi vun hire viregte Prozesser an TD Léieren virausgesot goufen. E Verglach vun der Unzuel vun der Verännerlechkeet erkläert vun esou engem Modell, am Verglach zu deem vun enger Regressioun géint eng monoton Aktivitéitsrampe, kéint op dee passendste Modell weisen. Eng manner einfach, awer méi testbar Viraussiicht ass datt d'Form vun der Ramp vum Léiergeschwindegkeet ofhänkt. Léierraten kënnen aus der Äntwert op déi probabilistesch Belounungen beurteelt ginn, onofhängeg vun der Form vun der Ramp (Nakahara et al. [18] huet op esou enger Manéier gewisen, datt an hirer deelweiser Verstäerkung Spure Konditiounsaufgab, d'Léierquote 0.3 war), a potenziell manipuléiert andeems de Betrag vum Training variéiert oder d'Frequenz mat deenen Task Contingencies geännert a nei geléiert ginn. Tatsächlech d'Qualifizéierung vun der Existenz an der Form vun enger Ramp an der Nakahara et al. Opgeholl DA Aktivitéit, kéint gutt Liicht op déi aktuell Propose werfen.

Interessant Gespréicher
Den Auteur erkläert datt si keng konkret Interessen hunn.

Authairen
YN, MD an PD hunn dës Etude gemeinsam ausgefouert an duerchgefouert an hëllefen de Manuskript auszeschaffen. All Autoren hunn dat lescht Manuskript gelies an guttgeheescht.

Dankbarkeet
Mir sinn dem H. Bergman, C. Fiorillo, N. Daw, D. Joel, P. Tobler, P. Shizgal a W. Schultz ganz dankbar fir Diskussiounen a Kommentarer, an e puer Fäll trotz variéierend Interpretatioun vun den Daten. Mir sinn dem Genela Morris besonnesch dankbar fir hir eege publizéiert an net publizéiert Donnéeën am Bezuch op d'Ramping ze analyséieren. Dës Aarbecht gouf vum EC Thematic Network (YN), der Gatsby Charitable Foundation an dem EU BIBA Projet finanzéiert.

Referenze

1. Ljungberg T, Apicella P, Schultz W: Äntwerte vu Monkey Dopamin Neuronen beim Léieren vu Verhalensreaktiounen.
Journal Neurophysiol 1992, 67: 145-163.
Zréck op Text
2. Schultz W: Predictive Belounungssignal vun Dopaminneuronen. [http://jn.physiology.org/cgi/content/full/80/1/1] Websäit
Journal vun Neurophysiologie 1998, 80: 1-27. PubMed Abstract
Zréck op Text
3. O'Doherty J, Dayan P, Friston K, Critchley H, Dolan R: Temporal Differenzmodeller a belountbezunnen Léieren am mënschleche Gehir.
Neuron 2003, 38: 329-337. PubMed Abstract | Publisher Full Text
Zréck op Text
4. Seymour B, O'Doherty J, Dayan P, Koltzenburg M, Jones A, Dolan R, Friston K, Frackowiak R.
Natur 2004, 429: 664-667. PubMed Abstract | Publisher Full Text
Zréck op Text
5. Montague PR, Hyman SE, Cohan JD: Computational Rollen fir Dopamin an der Verhalenskontroll.
Natur 2004, 431: 760-767. PubMed Abstract | Publisher Full Text
Zréck op Text
6. Montague PR, Dayan P, Sejnowski TJ: E Kader fir mesencephalic Dopaminsystemer baséiert op prévisiven Hebbesch Léieren.
De Journal of Neuroscience 1996, 16: 1936-1947. PubMed Abstract | Publisher Full Text
Zréck op Text
7. Schultz W, Dayan P, Montague PR: En neurale Substrat vu Viraussoen a Belounung.
Science 1997, 275: 1593-1599. PubMed Abstract | Publisher Full Text
Zréck op Text
8. Sutton RS: Léieren virauszesoen duerch d'Method vun temporärer Ënnerscheed.
Maschinn Léieren 1988, 3: 9-44.
Zréck op Text
9. Sutton RS, Barto AG: [http://www.cs.ualberta.ca/~sutton/book/ebook/the-book.html] Websäit
Verstäerkung Léieren: Eng Aféierung. MIT Press; 1998.
Zréck op Text
10. Hollerman J, Schultz W: Dopaminneuronen mellen e Feeler an der temporärer Viraussetzung vun der Belounung beim Léieren.
Natur Neuroscience 1998, 1: 304-309. PubMed Abstract | Publisher Full Text
Zréck op Text
11. Schultz W, Apicella P, Ljungberg T: Äntwerte vun Affen Dopamin Neuronen fir Belounung a bedingte Reizen während successive Schrëtt fir eng verspéiten Äntwert Aufgab ze léieren.
De Journal of Neuroscience 1993, 13: 900-913. PubMed Abstract | Publisher Full Text
Zréck op Text
12. Tobler P, Dickinson A, Schultz W: Kodéierung vun virausgesot Belounungsausfall vun Dopaminneuronen an engem bedingten Inhibitiounsparadigma.
Journal of Neuroscience 2003, 23 (32): 10402-10410. PubMed Abstract | Publisher Full Text
Zréck op Text
13. Takikawa Y, Kawagoe R, Hikosaka O: Eng méiglech Roll vu Midbrain Dopamin Neuronen an der Kuerz- a laangfristeg Adaptatioun vu Saccaden op d'Positioun-Belounung Mapping.
Journal vun Neurophysiologie 2004, 92: 2520-2529. PubMed Abstract | Publisher Full Text
Zréck op Text
14. Bayer H: Eng Roll fir d'substantia nigra am Léieren a Motor Kontroll.
Dokteraarbecht, New York University 2004.
Zréck op Text
15. Fiorillo C, Tobler P, Schultz W: Diskret Kodéierung vu Belounungswahrscheinlechkeet an Onsécherheet vun Dopaminneuronen.
Science 2003, 299 (5614): 1898-1902. PubMed Abstract | Publisher Full Text
Zréck op Text
16. Morris G, Arkadir D, Nevet A, Vaadia E, Bergman H: Zoufälleg awer ënnerschiddlech Messagen vu Midbrain Dopamin a striatal tonesch aktive Neuronen.
Neuron 2004, 43: 133-143. PubMed Abstract | Publisher Full Text
Zréck op Text
17. Barto A, Sutton R, Watkins C: Léieren a sequntiell Entscheedungsprozess. Am Léieren a Computational Neurowëssenschaften: Fundamenter vun adaptiven Netzwierker. Erausgi vum Gabriel M, Moore J. Cambridge, MA: MIT Press; 1990:539-602.
Zréck op Text
18. Nakahara H, Itoh H, Kawagoe R, Takikawa Y, Hikosaka O: Dopaminneuronen kënnen Kontext-ofhängeg Prediktiounsfehler representéieren.
Neuron 2004, 41: 269-280. PubMed Abstract | Publisher Full Text
Zréck op Text
19. Gallistel CR, Gibbon J: Zäit, Taux an Konditioun.
Psychologesch Kritik 2000, 107: 289-344. PubMed Abstract | Publisher Full Text
Zréck op Text
20. Daw ND, Kakade S, Dayan P: Géigner Interaktiounen tëscht Serotonin an Dopamin.
Neural Netzwierker 2002, 15 (4 – 6): 603-616. PubMed Abstract | Publisher Full Text
Zréck op Text
21. Suri RE, Schultz W: En neurale Netzwierkmodell mat dopaminähnlechen Verstäerkungssignal, deen eng raimlech verspéiten Äntwert Aufgab léiert.
Neurowëssenschaft 1999, 91: 871-890. PubMed Abstract | Publisher Full Text
Zréck op Text
22. Pearce JM, Hall G: E Modell fir Pavlovian Léieren: Variatiounen an der Effektivitéit vu bedingten awer net vun onbedingte Reizen.
Psychologesch Kritik 1980, 87: 532-552. PubMed Abstract | Publisher Full Text
Zréck op Text
23. Dayan P, Kakade S, Montague PR: Léieren a selektiv Opmierksamkeet.
Natur Neuroscience 2000, 3: 1218-1223. PubMed Abstract | Publisher Full Text
Zréck op Text
24. Dayan P, Yu A: Erwaart an onerwaart Onsécherheet: Ach an NE am Neocortex. [http://books.nips.ce/papers/files/nips15/NS08.pdf] Websäit
Am Viraus an Neural Informatiounsveraarbechtung Sysytems Editéiert vum Dietterich T, Becker S, Ghahramani Z. Cambridge, MA: MIT Press; 2002, 14: 189-196.
Zréck op Text
25. Daw N, Niv Y, Dayan P: Aktiounen, Politik, Wäerter, an der Basal Ganglia. A Rezent Duerchbréch an der Basal Ganglia Fuerschung. Editéiert vum Bezard E. New York, USA: Nova Science Publishers, Inc; an der Press.
Zréck op Text
26. Wickens J, Kötter R: Cellular models of inforcememnt. A Modeller vun Informatiounsveraarbechtung an der Basal Ganglia. Houk JC, Davis JL, Beiser DG. MIT Press; 1995:187-214.
Zréck op Text