Dopamin Osäkerhet och TD Learning (2005)

KOMMENTARER: Osäkerhet innebär nyhet. Denna komplexa studie bekräftar att nyheten ökar dopamin. Det förklarar också att ju mer osäker belöningen är desto starkare blir inlärningen. Internetporr skiljer sig från det förflutna porr på grund av den oändliga nyheten - vilket innebär oändliga sprutar av dopamin. Beroende på kärnan är lärande och minne. Att byta till en ny porrgenre aktiverar dopamin och lärande - på grund av osäkerheten om vad du ska uppleva. Osäkerhet uppstår också när porranvändare surfar efter porr. Du vet inte vad du håller på att se och det stöder dopamin.
Nyhet, osäkerhet, och söker alla aktivera dopamin

Fullständig studie: Dopamin Osäkerhet och TD-lärande

Beteende och hjärnfunktioner 2005, 1:6doi:10.1186/1744-9081-1-6

Yael Niv1,2 , Michael O Duff2 och Peter Dayan2
1 Tvärvetenskapligt Centrum för Neural Computation, Hebreiska Universitetet, Jerusalem, Israel
2 Gatsby Computational Neuroscience Unit, University College London, London, Storbritannien
Den elektroniska versionen av den här artikeln är den kompletta och kan hittas online på: http://www.behavioralandbrainfunctions.com/content/1/1/6
© 2005 Niv m.fl. licensinnehavare BioMed Central Ltd.

Abstrakt

Väsentliga bevis tyder på att de phasiska aktiviteterna hos dopaminerga neuroner i primatmassan representerar ett temporärt skillnad (TD) -fel i förutsägelser av framtida belöning, med ökningar över och lägre under baslinjen beroende på respektive positiva och negativa prediktionsfel. Dopaminceller har emellertid mycket låg baslinjeaktivitet, vilket innebär att representationen av dessa två slags fel är asymmetrisk. Vi undersöker konsekvenserna av denna till synes oskyldiga asymmetri för tolkning av dopaminerga skjutmönster i experiment med probabilistiska belöningar som medför långvariga prediktionsfel. I synnerhet visar vi att när en medelvärde för de icke-stationära förutsägelsesfelen över försöken är, bör en rampning i aktiviteten hos dopaminneuronen vara uppenbar, vars storlek är beroende av inlärningsgraden. Detta exakta fenomen observerades i ett nyligen genomfört experiment, men tolkades där i antipodala termer som en in-trial kodning av osäkerhet.

Beskrivning

Det finns en imponerande stor kropp av fysiologiska, bild- och psykofarmakologiska data avseende den fasiska aktiviteten hos dopaminerga (DA) celler i mitten av apor, råttor och människor i klassiska och instrumentella konditioneringsuppgifter med förutsägelser av framtida belöningar [1-5]. Dessa data har tagits för att föreslå [6,7] att DA neurons aktivitet representerar tidsskillnad (TD) fel i förutsägelserna av framtida belöning [8,9]. Denna TD-teori om dopamin ger en exakt beräkningsgrund för att förstå en mängd beteendemässiga och neurala data. Dessutom föreslår det att DA ger en signal som är teoretiskt lämplig för att styra inlärning av både förutsägelser och belöningsoptimeringsåtgärder.

Några av de mest övertygande bevisen för TD-teorin kommer från studier som undersöker den fasaktiva aktiveringen av dopaminceller som svar på godtyckliga stimuli (såsom fraktmönster på en bildskärm) som förutspår närvaron av belöningar (till exempel dropp av juice) . I många varianter har dessa visat att under träning övergår fasiska DA-signaler från tiden för den initialt oförutsägbara belöningen till tiden för den tidigaste kue som förutsäger en belöning. Detta är exakt det förväntade resultatet för ett temporärt skillnadsbaserat prediktionsfel (t.ex. [1,2,10-13]). Grundfunnet [7] är att när en belöning är oväntad (vilket är oundvikligt i tidiga försök) svarar dopaminceller starkt på det. När en belöning förutses, svarar cellerna dock på prediktorn, och inte till den nuförväntade belöningen.

Om en förutspådd belöning utesluts utelämnas, hämmas cellerna phasically vid den normala tiden för belöningen, en hämning som avslöjar den exakta tidpunkten för belöningsförutsägelsen [10], och vars temporala mätvärden för närvarande är under en kriminalteknisk strålkastare [14]. Förskjutningen i aktivitet från belöningstiden till prediktorns tid liknar förskjutningen av djurets aptitfulla beteendemässiga reaktion från belöningstiden (den ovillkorliga stimulansen) till den av den konditionerade stimulansen i klassiska konditioneringsexperiment [7,10] .

I en mest intressant nyligen studie, Fiorillo et al. [15] undersökte fallet med partiell förstärkning, där det finns ett bestående, ofrånkomligt prediktionsfel vid varje försök. En enkel tolkning av TD-prediktionsfelhypotesen skulle föreslå att i detta fall (a) dopaminaktivitet vid tidpunkten för prediktiva stimuli skulle skala med sannolikheten för belöning och (b) i genomsnitt över försök, det dopaminerga svaret efter stimulansen och hela vägen till belöningens gång bör vara noll. Fastän den första hypotesen bekräftades i experimenten var den andra inte. De genomsnittliga svaren mellan försöken visade en tydlig rampning av aktivitet under förseningen mellan stimulansuppträdande och belöning som verkade inkonsekvent med TD-kontot. Fiorillo et al. hypotesen att denna aktivitet representerar osäkerheten i belöningsleverans snarare än ett prediktionsfel.

I det här dokumentet besöker vi frågan om uthålligt prediktionsfel. Vi visar att en avgörande asymmetri vid kodningen av positiva och negativa prediktionsfel leder till att man förväntar sig rampen i den genomsnittliga dopamin-signalen mellan försöket, och står också väl för två ytterligare funktioner hos DA-signalen - tydlig beständig aktivitet vid tiden för (potentiell) belöning och försvinnande (eller åtminstone försvagning) av rampsignalen, men inte signalen vid belöningstidpunkten, inför spår istället för att fördröja konditioneringen. Båda dessa fenomen har också observerats i de relaterade instrumentella konditioneringsexperimenten av Morris et al. [16]. Slutligen tolkar vi rampsignalen som det bästa beviset som för närvarande finns för typen av inlärningsmekanismen, genom vilken skiftet i dopaminaktivitet till tiden för prediktiva stimuli uppträder.

Osäkerhet i belöning förekomst: DA ramping

Fiorillo et al. [15] associerade presentationen av fem olika visuella stimuli till makaker med försenad, probabilistisk (pr = 0, 0.25, 0.5, 0.75, 1) leverans av juicebelöningar. De använde ett fördröjningskonditioneringsparadigm, där stimulansen kvarstår under ett fast intervall på 2 sekunder, med belöning som levereras när stimulansen försvinner. Efter träning indikerade apornas förväntade slickbeteende att de var medvetna om de olika belöningssannolikheterna för varje stimulans.

Figur 1a visar populationshistogram av extracellulärt inspelad DA-cellaktivitet, för varje pr. TD-teorin förutsäger att den fasaktiva aktiveringen av DA-cellerna vid tidpunkten för den visuella stimuli bör motsvara den genomsnittliga förväntade belöningen, och så bör öka med pr. Figur 1a visar exakt detta - faktiskt över befolkningen är ökningen ganska linjär. Morris et al. [16] rapporterar ett liknande resultat i en instrumental (spår) konditioneringsuppgift som även involverar probabilistisk förstärkning.

Figur 1. Genomsnittlig förutsägelsesfel i en probabilistisk belöningsuppgift
(a) DA-svar i prövningar med olika belöningssannolikheter. Befolkningens peri-stimulustidshistogram (PSTH) visar den summerade spikaktiviteten hos flera DA-neuroner under många försök, för varje pr, sammanslagna över belönade och obetalade försök med mellanliggande sannolikheter. (b) TD-förutsägelsefel med asymmetrisk skalning. I den simulerade uppgiften valdes en av fem stimuli slumpmässigt i varje försök och visades vid tidpunkten t = 5. Stimuleringen stängdes av vid t = 25, vid vilken tidpunkt en belöning gavs med en sannolikhet för pr specificerad av stimulansen. Vi använde en avtappad fördröjningsrepresentation av stimuli (se text), med varje stimulus representerad av en annan uppsättning enheter ('neuroner'). TD-felet var δ (t) = r (t) + w (t - 1) • x (t) - w (t - 1) • x (t - 1), med r (t) belöningen vid tiden t och x (t) och w (t) tillstånds- och viktvektorerna för enheten. En vanlig online TD-inlärningsregel användes med en fast inlärningshastighet α, w (t) = w (t - 1) + αδ (t) x (t - 1), så varje vikt representerade ett förväntat framtida belöningsvärde. På samma sätt som Fiorillo et al. Visar vi förutsägelsefelet δ (t) i genomsnitt över många försök, efter att uppgiften har lärt sig. Representationsasymmetrin uppstår då negativa värden på δ (t) har skalats med d = 1/6 före summering av den simulerade PSTH, även om inlärningen fortsätter enligt oskalade fel. Slutligen, för att redogöra för de små positiva svaren vid tidpunkten för stimulansen för pr = 0 och vid tidpunkten för (förutspådd) belöning för pr = 1 sett i (a), antog vi en liten (8%) chans att en prediktiv stimulans identifieras felaktigt. (c) DA-svar i pr = 0.5 försök, separerat i belönade (vänster) och obetalade (höger) försök. (d) TD-modell av (c). (a, c) Omtryckt med tillstånd från [15] © 2003 AAAS. Tillstånd från AAAS krävs för all annan användning.

Däremot förutspår TD-teorin vid tidpunkten för potentiell belöningsleverans att det i genomsnitt inte skulle vara någon aktivitet, eftersom det i genomsnitt inte finns något förutsägelsesfel vid den tiden. I själva verket finns det i själva verket ett prediktionsfel vid tidpunkten för leverans eller icke-leverans av belöning vid varje försök i den probabilistiska förstärkningsdesignen (åtminstone för pr ≠ 0, 1). Vid försök där en belöning har levererats bör prediksionsfelet vara positivt (eftersom den erhållna belöningen är större än den genomsnittliga belöningen som förväntas). Omvänt, vid försök utan belöning borde det vara negativt (se Figur 1c). Avgörande, under TD, bör medelvärdet av dessa skillnader, viktat av deras sannolikheter, vara noll. Om det inte är noll, bör detta prediktionsfel fungera som en plasticitetssignal, ändra förutsägelserna tills det inte finns något prediktionsfel. I avvikelse med denna förväntning visar data i Figur 1a, som är medelvärde över både belönade och obestämda försök, att det i själva verket finns positiv medelaktivitet. Detta framgår också av data från Morris et al. [16] (se Figur 3c). De positiva DA-reaktionerna visar inga tecken på att försvinna, även med betydande träning (under månaderna).

Värre än detta för TD-modellen, och faktiskt Fiorillo et al. [15] är den uppenbara rampen av DA-aktivitet mot den förväntade tiden för belöningen. Eftersom rampens storlek är störst för pr = 0.5, Fiorillo et al. föreslog att det rapporterar osäkerheten i leveransleverans snarare än ett prediktionsfel, och spekulerade att denna signal skulle kunna förklara de osannolikt tydliga appetitiva egenskaperna (sett i spel).

Både rampningsaktiviteten och aktiviteten vid den förväntade belöningstiden utgör kritiska utmaningar för TD-teorin. TD-lärande fungerar genom att arrangera för DA-aktivitet på en gång i en försök som kan förutsägas bort av ledtrådar som är tillgängliga tidigare i den försöket. Således är det inte klart hur någon till synes förutsägbar aktivitet, det är det som vid tiden för belöningen eller i rampen förut kan fortsätta utan att förutspås bort genom det visuella stimulans start. Den pr-beroende aktiviteten som svar på stimulansen bekräftar trots allt sin status som en giltig prediktor. Vidare är en nyckelaspekt av TD [17] att den kopplar förutsägelse till handlingsval genom att använda statens värde som en indikation på de framtida belöningar som är tillgängliga från det staten och därmed dess attraktivitet som ett mål för handling. Ur detta perspektiv, eftersom rampningsaktiviteten uttryckligen inte förutses av den tidigare koden, kan den inte påverka tidiga handlingar, såsom beslutet att spela. Tänk t ex en tävling mellan två handlingar: en leder till en stat med en deterministisk belöning och därför ingen ramp, och den andra leder till en stat följt av en probabilistisk belöning med samma medel och en ramp. Eftersom rampen inte påverkar aktiviteten vid den konditionerade stimulansen, kan den inte användas för att utvärdera eller gynna den andra åtgärden (spel) över den första, trots den extra osäkerheten.

Vi föreslår den alternativa hypotesen att båda dessa avvikande skjutmönster resulterar direkt från de begränsningar som indikeras av DA-neurons (2-4 Hz) låga grundvärdeshastighet vid kodningen av det signerade prediktionsfelet. Som noterat av Fiorillo et al. [15] representeras positiva prediktionsfel av bränningsgrader av ~ 270% över baslinjen, medan negativa fel representeras av en minskning av endast ~ 55% under baslinjen (se även [14,18]). Denna asymmetri är en okomplicerad följd av kodningen av en signerad kvantitet genom bränning som har en låg baslinje, men självklart kan det bara vara positiv. Bränningsgrader över baslinjen kan koda positiva prediktionsfel med hjälp av ett stort dynamiskt intervall, men under baslinjens bränningshastighet kan endast nollställas, vilket innebär att en begränsning av kodning av negativa förutsägelsesfel införs.

Följaktligen måste man vara försiktig med att tolka summan (eller medelvärdet) av peri-stimulus-tid-histogram (PSTH) av aktivitet över olika försök, som gjordes i figur 1a. De asymmetriskt kodade positiva och negativa felsignalerna vid mottagandet eller mottagandet av belöningen borde verkligen inte summeras till noll, även om de representerar korrekta TD-förutsägelsefel. Sammanfattningsvis kommer den låga avfyrningen som representerar de negativa felen i de ombelönade försöken inte att "avbryta" den snabba avfyrningen som kodar för positiva fel i de belönade försöken, och totalt sett visar genomsnittet ett positivt svar. I hjärnan, naturligtvis, eftersom svar inte beräknas i genomsnitt över (belönade och obetalade) försök, utan över neuroner i en prövning, behöver detta inte utgöra ett problem.

Detta förklarar den bestående positiva aktiviteten (i genomsnitt) vid tidpunkten för leverans eller icke-leverans av belöningen. Men hur är det med rampen före den här tiden? Åtminstone i vissa neurala representationer av tiden mellan stimulans och belöning, när prövningar är genomsnittliga, leder denna samma asymmetri TD till att resultera exakt i en rampning av aktivitet mot belöningstiden. TD-inlärningsmekanismen medför att man vid försök till prövning sprider prognosfel som uppstår vid en försöksperiod (till exempel vid belöningstidpunkten) mot potentiella prediktorer (som CS) som uppstår vid tidigare tider inom varje försök. Under den asymmetriska representationen av positiva och negativa prediktionsfel som vi just har diskuterat kommer medelvärdet av dessa förökningsfel över flera försök (som i Figur 1a) att leda till positiva medel för epoker inom en försök före en belöning. Den exakta formen av den resulterande aktivitetsrampen beror på hur stimuli representeras över tid, liksom på lärandens hastighet, vilket kommer att diskuteras nedan.

Figur 2 illustrerar denna vy av härkomst av rampningsaktiviteten. Här är en avlyssnad fördröjningslinjerepresentation av tiden sedan stimulansen används. För detta blir varje enhet ('neuron') aktiv (dvs antar värdet 1) vid en viss fördröjning efter att stimulansen har presenterats, så att varje tidssteg efter stimulusstart konsekvent representeras av utlösning av en enhet. Inlärning baseras på det (dopaminergiskt rapporterade) TD-felet, formaliserat som δ (t) = r (t) + V (t) - V (t - 1), med V (t) den viktade ingången från den aktiva enheten vid tid t och r (t) belöningen erhållen vid tid t. Uppdatering av vikten för enheterna enligt standarduppdateringsregeln för TD med en fast inlärningshastighet gör att V (t) i genomsnitt representerar de förväntade framtida belöningarna (se bild 1 bildtext). Eftersom varje efterföljande tidssteg representeras separat kan TD-förutsägelsefel uppstå när som helst inom rättegången. Figur 2a visar dessa fel i sex på varandra följande simulerade försök där pr = 0.5. I varje försök uppstår ett nytt positivt eller negativt fel vid tidpunkten för belöningen, följt av mottagandet eller mottagandet av belöningen, och steg för steg sprider sig felen från tidigare försök tillbaka till tiden för stimulansen, genom den konstanta uppdateringen av vikterna (t.ex. felet markerat med rött). När medelvärden (eller, som i PSTHs, summerar) över försök, avbryter dessa fel varandra i genomsnitt, vilket resulterar i ett övergripande platt histogram i intervallet efter stimulusstart och leder fram till tiden för belöningen (svart linje i figur 2b, sammanfattas över de tio försöken som visas i tunnblått). När man summerar efter asymmetrisk skalning av de negativa felen med en faktor d = 10/1 (som simulerar asymmetrisk kodning av positiva och negativa förutsägelsefel av DA-neuroner), uppstår en positiv aktivitetsramp, som illustreras av den svarta linjen i figur 6c. Observera att denna omskalning endast är en representativ fråga, som härrör från begränsningarna för att koda ett negativt värde om en låg baslinje avfyringshastighet, och bör inte påverka inlärningen av vikterna för att inte lära sig fel värden (se diskussion). Men eftersom PSTHs är summor av neuronala spikar, beror denna representativa fråga på det resulterande histogrammet.

Figur 2. Backpropagation av prediktionsfel förklarar rampaktivitet.
(a) TD-prediktionsfelet över var och en av sex på varandra följande försök (uppifrån och ned) från simuleringen i figur 1b med pr = 0.5. Markerad i rött är felet vid belöningstidpunkten i försökets första och dess gradvisa återförökning mot stimulans tid i efterföljande prövningar. Blockbokstäver anger resultatet av varje enskild försök (R = belönad; N = ej belönad). Sekvensen av belöningar som föregår dessa försök anges längst upp till höger. (b) TD-felet från dessa sex försök, och fyra efterföljande dem, överlagras. De röda och gröna linjerna illustrerar felets kuvert i dessa försök. Sammanställning över dessa försök resulterar i ingen genomsnittlig aktivitet ovanför baslinjen (svart linje), eftersom positiva och negativa fel inträffar slumpmässigt 50% av tiden och så avbryter varandra. (c) När förutsägelsesfelen är asymmetriskt representerad ovanför och under grundlinjens bränningsgrad (här är negativa fel avskalad asymmetriskt av d = 1 / 6 för att simulera den asymmetriska kodningen av prediktionsfel av DA neuroner), en genomsnittlig aktivitetsrampning framträder när medelvärdet över försök, som illustreras av den svarta linjen. Alla simuleringsparametrar är desamma som i Figur 1b, d.

Figurerna 1b, d visar rampen som härrör från denna kombination av asymmetrisk kodning och inter-trial-medelvärde för jämförelse med experimentdata. Figur 1b visar PSTH beräknad från vår simulerade data genom att jämföra över den asymmetriskt representerade 5 (t) signalen i ~ 50 försök för varje stimulustyp. Figur 1d visar resultaten för pr = 0.5 fallet, uppdelat i belönade och obeställda försök för jämförelse med Figur 1c. De simulerade resultaten liknar de experimentella uppgifterna noga genom att de replikerar det positiva nettoresultatet till de osäkra belöningarna, liksom rampningseffekten, som är störst i pr = 0.5-fallet.

Det är enkelt att härleda det genomsnittliga svaret vid tidpunkten för belöningen (t = N) i försök T, dvs det genomsnittliga TD-felet δT(N), från TD-inlärningsregeln med den förenklade återgivningen av fördröjningslinjetid och en fast inlärningshastighet α. Värdet vid det näst sista tidssteget i ett försök, som funktion av försöksnummer (med initiala värden antagna som noll), är

där r (t) är belöningen i slutet av rättegången t. Felsignalen vid den sista tidpunkten för försök T är helt enkelt skillnaden mellan den erhållna belöningen r (T) och det värde som förutsäger den belöningen VT - 1 (N - 1). Detta fel är positivt med sannolikhet pr och negativt med sannolikhet (1 - pr). Att skala de negativa felen med en faktor d of (0, 1] får vi alltså

För symmetrisk kodning av positiva och negativa fel (d = 1) är det genomsnittliga svaret 0. För asymmetrisk kodning (0 Spårkonditionering: ett testfall

Ett viktigt testfall för vår tolkning uppstår i en variant av Fiorillo et al. [15] uppgift, liksom i den analoga instrumentuppgiften från Morris et al. [16], båda med spårkonditionering. I motsats till fördröjningskonditionering (figur 3a) där belöningen sammanfaller med förskjutningen av den prediktiva stimulansen, finns det här ett väsentligt gap mellan förskjutningen av den prediktiva stimulansen och leveransen av belöningen (figur 3b). Det är uppenbart att i det här fallet kan osäkerheten om belöningen bara bli större på grund av buller vid tidpunkten för intervallet mellan stimulans och belöning [19], så under osäkerhetskontot borde det finnas jämförbara eller till och med större ramper. De experimentella resultaten visar dock att rampningsaktiviteten är mindre eller till och med försumbar (Figur 3c; d). Observera dock att storleken på försöksgenomsnittets aktivitet vid den förväntade tidpunkten för belöning bibehålls, vilket pekar på en dissociation mellan rampens höjd och mängden positiv aktivitet vid den förväntade tidpunkten för belöning.

Figur 3. Spårningskonditionering med probabilistiska belöningar.
(a) En illustration av en prövning av Fiorillo et al. [15]. En rättegång består av en 2-sekunders visuell stimulans, vars förskjutning sammanfaller med leveransen av juicebelöningen, om en sådan belöning är programmerad enligt sannolikheten associerad med den visuella köen. I obelönade försök upphörde stimulansen utan belöning. I båda fallen skiljer ett mellanintervall på 9 sekunder i genomsnitt försök. (b) En illustration av en prövning av Morris et al. [16]. Den avgörande skillnaden är att det nu finns en betydande tidsfördröjning mellan förskjutningen av stimulansen och belöningens början ("spår" -perioden), och ingen extern stimulans indikerar den förväntade belöningstiden. Detta ger ytterligare osäkerhet, eftersom exakt tidpunkt för den förutsagda belöningen måste lösas internt, särskilt i obetalade försök. I denna uppgift, som i [15], presenterades en av flera visuella stimuli (visas inte) i varje försök, och varje stimulans var associerad med en sannolikhet för belöning. Här uppmanades också apan att utföra ett instrumentellt svar (trycka på knappen motsvarande den sida där stimulansen presenterades), vars misslyckande avslutade rättegången utan belöning. Försöken separerades med olika intervall mellan försöken. (c, d) DA-skjutningshastighet (utjämnad) i förhållande till baslinjen, runt den förväntade tiden för belöningen, i belönade försök (c) och i obetalade försök (d). (c, d) Omtryckt från [16] © 2004 med tillstånd från Elsevier. Spåren innebär ett övergripande positivt svar vid den förväntade tiden för belöningen, men med en mycket liten eller ingen ramp före detta. Liknande resultat erhölls i en klassisk konditioneringsuppgift som kort beskrivits i [15], som använde ett spårkonditioneringsförfarande, vilket bekräftade att spårningsperioden och inte den instrumentella karaktären av uppgiften som avbildas i (b) var den avgörande skillnaden från (a) .

TD-modellen av DA förklarar enkelt dessa förbryllande data. Som visas i Figur 4 påverkas rampens form, men inte höjden av sin topp, av inlärningsgraden. Storleken på backspridande förutsägelsesfel bestäms delvis av inlärningsgraden, eftersom dessa fel uppstår som en del av online-inlärningen av nya förutsägelser. Faktum är att det finns en kontinuerlig uppdatering av förutsägelser så att det efter en belönad rättegång finns en högre förväntning om belöning (och därigenom ger nästa belöning ett mindre prediktionsfel) och omvänt efter en icke-belönad rättegång [18] (se figur 2a). Denna uppdatering av förutsägelser är direkt relaterad till inlärningsfrekvensen - ju högre inlärningsfrekvens desto större uppdatering av förutsägelser enligt det aktuella prediktionsfelet, och ju större bråkdelen av prediksionsfelet som förökas tillbaka. På detta sätt, med högre inlärningsnivåer, blir skillnaden i förväntningar efter en belönad mot en obestämd rättegång större och sålunda är prediktionsfelen när nästa belöning är eller inte tillgänglig, större - följaktligen den större och mer gradvisa rampen.

Figur 4. Beroende på rampen på inlärningsfrekvensen.
Rampens form, men inte toppens höjd, är beroende av inlärningsgraden. Diagrammet visar simulerad aktivitet i fallet med pr = 0.5 nära tiden för den förväntade belöningen, för olika inlärningsnivåer, i genomsnitt över både belönade och obeställda försök. Enligt TD-lärande med ihållande asymmetriskt kodade prediktionsfel resulterar medelvärdet över aktivitet i belönade och obestämda försök i en ramp fram till belöningstidpunkten. Höjden av rampens topp bestäms av förhållandet mellan belönade och obestämda försök, dock är rampens bredd bestämd av graden av återförökning av dessa felsignaler från tiden för (förväntad) belöning till tid för den prediktiva stimulansen. En högre inlärningshastighet resulterar i en större del av felet som sprider sig tillbaka, och därmed en högre ramp. Med lägre inlärningsnivåer blir rampen försumbar, även om den positiva aktiviteten (i genomsnitt) vid belöningstillfället fortfarande upprätthålls. Observera att även om inlärningsgraden som användes i simuleringarna avbildad i Figur 1b, var d 0.8, bör detta inte tas som den neurala substratets bokstavliga synaptiska inlärningsgrad, givet vår schematiska representation av stimulansen. I en mer realistisk representation där en population av neuroner är aktiv vid varje tidpunkt, skulle en mycket lägre inlärningsgrad ge liknande resultat.

I själva verket jämfört med fördröjd konditionering är spårkonditionering notoriskt långsam, vilket tyder på att inlärningsgraden är låg, och sålunda att det bör finnas en lägre ramp i enlighet med experimentella resultat. En direkt undersökning av inlärningsgraden i data från Morris et al. [16], vars uppgift krävde överdriven träning, eftersom det inte bara var en spårkonditionering utan också involverat en instrumental handling, bekräftade att den verkligen var mycket låg (Genela Morris - personlig kommunikation, 2004).

Diskussion

Differenskodningen av positiva och negativa värden av DA-neuroner framgår av samtliga studier av den fasiska DA-signalen och kan betraktas som en oundviklig följd av dessa neurons låga baslinjeaktivitet. Faktum är att den senare direkt har inspirerat förslag som en motståndsgenerotransmittor, förmodligen serotonin, är involverad i att representera och därför lär sig de negativa prediktionsfelen [20], så att de också har ett helt kvartal. Här har vi emellertid begränsat oss till att överväga effekterna av asymmetri på försöksgenomsnittanalysen av dopaminaktiviteten och har visat att rampning DA-aktivitet samt ett genomsnittligt positivt svar vid belöningstid resulterar direkt från den asymmetriska kodningen av förutsägelsesfel.

Bortsett från en tydligare bild av felsignalen är den viktigaste konsekvensen av den nya tolkningen att ramparna kan ses som en signatur av ett TD-fenomen som hittills varit extremt svårt. Detta är den progressiva återutbredningen av felsignalen representerad av DA-aktivitet, från tiden för belöning till tidpunkten för prediktorn (Figur 2a). De flesta tidigare studier av dopaminergisk aktivitet har använt pr = 1, vilket gör att denna återförökning i bästa fall endast är ett övergående fenomen som bara är synligt i början av träningen (när det vanligtvis inte har registrerats inspelningar) och potentiellt svår att urskilja i långsamma bränna DA neuroner. Vidare beror backploggen på hur tiden mellan prediktiv stimulans och belöningen är representerad - den är närvarande för en fördröjd fördröjningslinjeposition som i [6], men inte för representationer som spänner över hela förseningar, såsom i [21]. Observera att rampens form också beror på användningen av behörighetsspår och den så kallade TD (λ) inlärningsregeln (simulering ej visad), vilket ger en extra mekanism för överbryggningstiden mellan händelserna under inlärningen. Tyvärr, eftersom formerna av ramparna i data är ganska variabla (figur 1) och bullriga, kan de inte ge starka begränsningar för den exakta TD-mekanismen som används av hjärnan.
Nyare studier med persistenta prediktionsfel visar också aktivitet som tyder på återförökning, särskilt Figur 4 av [13]. I denna studie berodde prediktionsfel av periodiska förändringar i uppgiften, och DA-inspelningar gjordes från träningsutgången, och därigenom är propagationsliknande aktivitet direkt uppenbar, även om denna aktivitet inte kvantifierades.

Vi förväntar oss att ramparna fortsätter under hela träningen endast om inlärningsfrekvensen inte minskar till noll då lärandet fortskrider. Pearce & Halls [22] teori om kontroll av inlärning genom osäkerhet antyder exakt denna uthållighet av inlärning - och det finns bevis från partiella förstärkningsscheman för att inlärningshastigheten kan vara högre när det finns mer osäkerhet i samband med belöningen. Ur en "rationell" statistisk synvinkel borde inlärningen faktiskt bestå när det finns betydande osäkerhet om förhållandet mellan prediktorer och resultat, vilket kan uppstå genom den ständigt närvarande möjligheten till en förändring i de prediktiva relationerna. Denna form av ihållande osäkerhet, tillsammans med osäkerhet på grund av initial okunnighet om uppgiften, har använts för att formalisera Pearce & Halls teori om hur osäkerhet driver inlärning [23]. Således bör vårt påstående om att osäkerhet kanske inte representeras direkt av ramperna inte sägas innebära att dess representation och manipulation inte är viktig. Tvärtom har vi föreslagit att osäkerhet påverkar kortikal inferens och inlärning genom andra neuromodulatoriska system [24], och att det också kan avgöra aspekter av valet av åtgärder [25].

Olika andra egenskaper hos asymmetrin bör noteras. Mest kritiska är effekten av asymmetrin på DA-beroende lärande [26], om den nedan angivna baslinjen DA-aktiviteten självständigt är ansvarig för att minska förutspåringar som är för höga. För att säkerställa att de lärda förutsägelserna förblir korrekta, skulle vi behöva anta att den asymmetriska representationen inte påverkar inlärningen, dvs att en mekanism som olika skalningar för förstärkning och depression av synaptiska styrkor kompenserar för den asymmetriska felsignalen. Naturligtvis skulle detta göras om en motståndsgenerator är involverad i att lära av negativa prediktionsfel. Denna fråga är komplicerad av Bayer [14], att DA-avfyrningsräntor faktiskt liknar alla prediktionsfel under något negativt tröskelvärde, kanske på grund av golvseffekten av lågavfyrningsgraden. Sådan förlustande kodning påverkar inte den kvalitativa bilden av effekterna av inter-trial-medelvärdet på framväxten av ramper, men förstärker behovet av en motståndssignal för det nödvändigtvis symmetriska lärandet.

Slutligen skulle det mest direkta testet av vår tolkning vara en jämförelse av intra- och inter-trial-genomsnitt av DA-signalen. Det skulle vara viktigt att göra detta på ett tidsmässigt sofistikerat sätt för att undvika problem med medelvärdesberäkning av icke-stationära signaler. För att övervinna bullret i neuralavfyrningen och avgöra om det verkligen fanns en gradvis ramp i en rättegång, eller, som vi skulle förutsäga - intermittenta positiva och negativa förutsägelsesfel, skulle det vara nödvändigt att genomsnittligt över många neuroner inspelade samtidigt inom en studie och dessutom neuroner associerade med liknande inlärningshastigheter. Alternativt kan enstaka neuronspår minskas mot backpropagation-svaret som förutses av deras tidigare studier och TD-lärande. En jämförelse av mängden variation som förklaras av en sådan modell, jämfört med den från en regression mot en monoton aktivitetsramp, kan peka på den mest passande modellen. En mindre enkel, men mer testbar förutsägelse är att rampens form ska bero på inlärningshastigheten. Inlärningshastigheter kan bedömas utifrån svaret på de probabilistiska belöningarna, oberoende av rampens form (Nakahara et al. [18] visade på ett sådant sätt att inlärningshastigheten i deras partiella förstärkningsspårkonditionsuppgift var 0.3), och potentiellt manipuleras genom att variera mängden träning eller frekvensen med vilken uppgiftsförutsättningar ändras och lärs om. Faktum är att kvantifiera förekomsten och formen av en ramp i Nakahara et al.: S inspelade DA-aktivitet, skulle mycket väl kunna belysa det nuvarande förslaget.

Konkurrerande intressen
Författaren / deklarationen förklarar att de inte har några konkurrerande intressen.

Författarnas bidrag
YN, MD och PD tänkte gemensamt och utförde denna studie och hjälpte till att utarbeta manuskriptet. Alla författare läste och godkände det slutliga manuskriptet.

Tack
Vi är mycket tacksamma för H. Bergman, C. Fiorillo, N. Daw, D. Joel, P. Tobler, P. Shizgal och W. Schultz för diskussioner och kommentarer, i vissa fall trots varierande tolkning av data. Vi är särskilt tacksamma för Genela Morris för att analysera hennes egna publicerade och opublicerade data i relation till rampning. Arbetet finansierades av EC Thematic Network (YN), Gatsby Charitable Foundation och EU BIBA-projektet.

Referensprojekt

1. Ljungberg T, Apicella P, Schultz W: Responser från apdopaminneuroner under inlärning av beteendereaktioner.
Journal Neurophysiol 1992, 67: 145-163.
Återgå till text
2. Schultz W: Prediktiv belöningssignal för dopaminneuroner. [http://jn.physiology.org/cgi/content/full/80/1/1] webbcitat
Journal of Neurophysiology 1998, 80: 1-27. PubMed Abstract
Återgå till text
3. O'Doherty J, Dayan P, Friston K, Critchley H, Dolan R: Temporala skillnadsmodeller och belöningsrelaterad inlärning i den mänskliga hjärnan.
Neuron 2003, 38: 329-337. PubMed Sammanfattning | Utgivare fullständig text
Återgå till text
4. Seymour B, O'Doherty J, Dayan P, Koltzenburg M, Jones A, Dolan R, Friston K, Frackowiak R: Temporala skillnadsmodeller beskriver inlärning av högre ordning hos människor.
Natur 2004, 429: 664-667. PubMed Sammanfattning | Utgivare fullständig text
Återgå till text
5. Montague PR, Hyman SE, Cohan JD: Beräkningsroller för dopamin i beteendekontroll.
Natur 2004, 431: 760-767. PubMed Sammanfattning | Utgivare fullständig text
Återgå till text
6. Montague PR, Dayan P, Sejnowski TJ: Ett ramverk för mesencefaliska dopaminsystem baserat på prediktiv hebbisk inlärning.
Journal of Neuroscience 1996, 16: 1936-1947. PubMed Sammanfattning | Utgivare fullständig text
Återgå till text
7. Schultz W, Dayan P, Montague PR: Ett neuralt substrat för förutsägelse och belöning.
Vetenskap 1997, 275: 1593-1599. PubMed Sammanfattning | Utgivare fullständig text
Återgå till text
8. Sutton RS: Lära sig att förutsäga med metoden för tidsskillnad.
Maskininlärning 1988, 3: 9-44.
Återgå till text
9. Sutton RS, Barto AG: [http://www.cs.ualberta.ca/~sutton/book/ebook/the-book.html] webbcitat
Förstärkande lärande: En introduktion. MIT Press; 1998.
Återgå till text
10. Hollerman J, Schultz W: Dopaminneuroner rapporterar ett fel i den tidsmässiga förutsägelsen av belöning under inlärning.
Natur Neurovetenskap 1998, 1: 304-309. PubMed Sammanfattning | Utgivare fullständig text
Återgå till text
11. Schultz W, Apicella P, Ljungberg T: Svar från apdopaminneuroner för att belöna och betingade stimuli under successiva steg för att lära sig en fördröjd responsuppgift.
Journal of Neuroscience 1993, 13: 900-913. PubMed Sammanfattning | Utgivare fullständig text
Återgå till text
12. Tobler P, Dickinson A, Schultz W: Coding of Predicted Reward Omission by Dopamine Neurons in a Conditioned Inhibition Paradigm.
Journal of Neuroscience 2003, 23 (32): 10402-10410. PubMed Sammanfattning | Utgivare fullständig text
Återgå till text
13. Takikawa Y, Kawagoe R, Hikosaka O: En möjlig roll för mellanhjärnans dopaminneuroner i kort- och långtidsanpassning av saccader till positionsbelöningskartläggning.
Journal of Neurophysiology 2004, 92: 2520-2529. PubMed Sammanfattning | Utgivare fullständig text
Återgå till text
14. Bayer H: En roll för substantia nigra i inlärning och motorisk kontroll.
Doktorsavhandling, New York University 2004.
Återgå till text
15. Fiorillo C, Tobler P, Schultz W: Diskret kodning av belöningssannolikhet och osäkerhet av dopaminneuroner.
Vetenskap 2003, 299 (5614): 1898-1902. PubMed Sammanfattning | Utgivare fullständig text
Återgå till text
16. Morris G, Arkadir D, Nevet A, Vaadia E, Bergman H: Sammanträffande men distinkta meddelanden från mellanhjärnans dopamin och striatala toniskt aktiva neuroner.
Neuron 2004, 43: 133-143. PubMed Sammanfattning | Utgivare fullständig text
Återgå till text
17. Barto A, Sutton R, Watkins C: Lärande och sekventiellt beslutsfattande. Inlärning och beräkningsneurovetenskap: grunderna för adaptiva nätverk. Redigerad av Gabriel M, Moore J. Cambridge, MA: MIT Press; 1990:539-602.
Återgå till text
18. Nakahara H, Itoh H, Kawagoe R, Takikawa Y, Hikosaka O: Dopaminneuroner kan representera kontextberoende prediktionsfel.
Neuron 2004, 41: 269-280. PubMed Sammanfattning | Utgivare fullständig text
Återgå till text
19. Gallistel CR, Gibbon J: Tid, hastighet och konditionering.
Psykologisk granskning 2000, 107: 289-344. PubMed Sammanfattning | Utgivare fullständig text
Återgå till text
20. Daw ND, Kakade S, Dayan P: Motståndsinteraktioner mellan serotonin och dopamin.
Neurala nätverk 2002, 15 (4-6): 603-616. PubMed Sammanfattning | Utgivare fullständig text
Återgå till text
21. Suri RE, Schultz W: En neural nätverksmodell med dopaminliknande förstärkningssignal som lär sig en rumslig fördröjd responsuppgift.
Neurovetenskap 1999, 91: 871-890. PubMed Sammanfattning | Utgivare fullständig text
Återgå till text
22. Pearce JM, Hall G: En modell för Pavlovsk lärande: Variationer i effektiviteten av betingade men inte av ovillkorade stimuli.
Psykologisk granskning 1980, 87: 532-552. PubMed Sammanfattning | Utgivare fullständig text
Återgå till text
23. Dayan P, Kakade S, Montague PR: Lärande och selektiv uppmärksamhet.
Natur Neurovetenskap 2000, 3: 1218-1223. PubMed Sammanfattning | Utgivare fullständig text
Återgå till text
24. Dayan P, Yu A: Förväntad och oväntad osäkerhet: Ach och NE i neocortex. [http://books.nips.ce/papers/files/nips15/NS08.pdf] webbcitat
Förskott i neurala informationsbehandling Sysytems redigerad av Dietterich T, Becker S, Ghahramani Z. Cambridge, MA: MIT Press; 2002, 14: 189-196.
Återgå till text
25. Daw N, Niv Y, Dayan P: Actions, Policys, Values, and the Basal Ganglia. I de senaste genombrotten i forskning om basala ganglier. Redigerad av Bezard E. New York, USA: Nova Science Publishers, Inc; i pressen.
Återgå till text
26. Wickens J, Kötter R: Cellulära modeller av förstärkning. I modeller för informationsbehandling i basala ganglierna. Redigerad av Houk JC, Davis JL, Beiser DG. MIT Press; 1995:187-214.
Återgå till text