Dopamine Onzekerheid en TD Learning (2005)

OPMERKINGEN: Onzekerheid betekent nieuwheid. Deze complexe studie bevestigt dat nieuwheid dopamine verhoogt. Het legt ook uit dat hoe onzekerder de beloning, hoe sterker het leerproces. Internetporno is anders dan porno uit het verleden vanwege de eindeloze nieuwigheid - wat betekent dat er eindeloos veel dopamine wordt gespoten. Verslaving in de kern is leren en geheugen. Overschakelen naar een nieuw genre van porno activeert dopamine en leren - vanwege de onzekerheid over wat je gaat ervaren. Onzekerheid treedt ook op wanneer pornogebruikers naar porno surfen. Je weet niet wat je gaat zien en dat verhoogt dopamine.
Nieuwigheid, onzekerheid en het zoeken naar alle dopamine activeren

Volledige studie: Dopamine-onzekerheid en TD-leren

Gedrags- en hersenfuncties 2005, 1:6doi:10.1186/1744-9081-1-6

Yael Niv1,2 , Michael O Duff2 en Peter Dayan2
1 Interdisciplinair centrum voor neurale berekeningen, Hebreeuwse universiteit, Jeruzalem, Israël
2 Gatsby Computational Neuroscience Unit, University College London, Londen, Verenigd Koninkrijk
De elektronische versie van dit artikel is de volledige en is online te vinden op: http://www.behavioralandbrainfunctions.com/content/1/1/6
© 2005 Niv et al; licentiehouder BioMed Central Ltd.

Abstract

Aanzienlijk bewijs suggereert dat de fasische activiteiten van dopaminerge neuronen in de primaat-middenhersenen een temporele verschil (TD) -fout vertegenwoordigen in voorspellingen van toekomstige beloning, met stijgingen boven en dalingen onder de basislijn als gevolg van respectievelijk positieve en negatieve voorspellingsfouten. De dopaminecellen hebben echter een zeer lage basisactiviteit, wat impliceert dat de representatie van deze twee soorten fouten asymmetrisch is. We onderzoeken de implicaties van deze schijnbaar onschadelijke asymmetrie voor de interpretatie van dopaminerge vuurpatronen in experimenten met probabilistische beloningen die persistente voorspellingsfouten veroorzaken. In het bijzonder laten we zien dat bij het middelen van de niet-stationaire voorspellingsfouten in proeven, een toename van de activiteit van de dopamine-neuronen duidelijk moet zijn, waarvan de grootte afhankelijk is van de leerfrequentie. Dit exacte fenomeen werd waargenomen in een recent experiment, hoewel het daar in antipodale termen werd geïnterpreteerd als een codering van onzekerheid binnen het proces.

Introductie

Er is een indrukwekkend grote hoeveelheid fysiologische, beeldvormende en psychofarmacologische gegevens met betrekking tot de fasische activiteit van dopaminerge (DA) cellen in de mid-brains van apen, ratten en mensen in klassieke en instrumentele conditioneringstaken met voorspellingen van toekomstige beloningen [1-5]. Deze gegevens zijn gebruikt om [6,7] aan te geven dat de activiteit van DA-neuronen temporele verschil (TD) -fouten vertegenwoordigt in de voorspellingen van toekomstige beloning [8,9]. Deze TD-theorie van dopamine biedt een nauwkeurige computationele basis voor het begrijpen van een groot aantal gedrags- en neurale gegevens. Verder suggereert het dat DA een signaal biedt dat theoretisch geschikt is voor het beheersen van het leren van zowel voorspellingen als beloningsoptimaliserende acties.

Een aantal van de meest overtuigende bewijzen ten gunste van de TD-theorie is afkomstig van onderzoeken naar de fasische activering van dopaminecellen als reactie op willekeurige prikkels (zoals fractale patronen op een monitor) die de onmiddellijke beschikbaarheid van beloningen voorspellen (zoals druppels sap) . In veel varianten hebben deze laten zien dat met training fasische DA-signalen worden overgedragen vanaf het moment van de aanvankelijk onvoorspelbare beloning tot de tijd van de vroegste richtsnoer die een beloning voorspelt. Dit is precies de verwachte uitkomst voor een op tijdsverschil gebaseerde voorspellingsfout (bijv. [1,2,10-13]). De basisbevinding [7] is dat wanneer een beloning onverwacht is (wat onvermijdelijk is in vroege trials), dopamine-cellen er sterk op reageren. Wanneer een beloning wordt voorspeld, reageren de cellen echter op de voorspeller en niet op de nu verwachte beloning.

Als een voorspelde beloning onverwacht wordt weggelaten, worden de cellen op de normale tijd van de beloning fasisch geremd, een remming die de precieze timing van de beloningsvoorspelling onthult [10], en waarvan de temporele meetwaarden momenteel forensisch in de schijnwerpers staan ​​[14]. De verschuiving in activiteit van het moment van beloning naar het moment van de voorspeller lijkt op de verschuiving van de eetlustgevoelige gedragsreactie van het dier vanaf het moment van de beloning (de ongeconditioneerde stimulus) naar die van de geconditioneerde stimulus in klassieke conditioneringsexperimenten [7,10] .

In een meest interessante recente studie, Fiorillo et al. [15] onderzocht het geval van gedeeltelijke versterking, waarbij er een persistente, niet-aflatende, voorspellingsfout is in elke afzonderlijke test. Een eenvoudige interpretatie van de TD-voorspellingsfouthypothese zou suggereren dat in dit geval (a) de dopamineactiviteit op het tijdstip van de voorspellende stimuli zou schalen met de waarschijnlijkheid van beloning, en (b) gemiddeld over proeven, de dopaminerge respons na de stimulus en helemaal naar de tijd van de beloning, zou nul moeten zijn. Hoewel de eerste hypothese in de experimenten werd bevestigd, was de tweede niet. De gemiddelde respons tussen de proefpersonen toonde een duidelijke stijging van de activiteit tijdens de vertraging tussen het begin van de stimulus en de beloning die inconsistent was met de TD-account. Fiorillo et al. veronderstelde dat deze activiteit de onzekerheid in beloninglevering vertegenwoordigt, eerder dan een voorspellingsfout.

In dit artikel bezoeken we het probleem van de aanhoudende voorspellingsfout. We laten zien dat een cruciale asymmetrie in de codering van positieve en negatieve voorspellingsfouten leidt tot een toename van het tussentijdse gemiddelde dopamine-signaal in de studie, en ook goed voor twee verdere kenmerken van het DA-signaal - schijnbare aanhoudende activiteit op het moment van de (potentiële) beloning en verdwijning (of op zijn minst verzwakking) van het oploopsignaal, maar niet het signaal op het moment van beloning, in het aangezicht van sporen in plaats van uitstel van conditionering. Beide fenomenen zijn ook waargenomen in de gerelateerde instrumentele conditioneringsexperimenten van Morris et al. [16]. Ten slotte interpreteren we het ramping-signaal als het beste bewijs dat momenteel beschikbaar is voor de aard van het leermechanisme waardoor de verschuiving in dopamine-activiteit naar de tijd van de voorspellende stimuli plaatsvindt.

Onzekerheid bij het voorkomen van beloningen: stijgende DA

Fiorillo et al. [15] associeerde de presentatie van vijf verschillende visuele stimuli aan makaken met de vertraagde, probabilistische (pr = 0, 0.25, 0.5, 0.75, 1) afgifte van sapbeloningen. Ze gebruikten een paradigma voor vertragingsconditionering, waarbij de stimulus gedurende een vast interval van 2 seconden aanhoudt, waarbij een beloning wordt afgegeven wanneer de stimulus verdwijnt. Na de training gaf het anticiperende likgedrag van de apen aan dat ze zich bewust waren van de verschillende beloningskansen die bij elke stimulus horen.

Figuur 1a toont populatiehistogrammen van extracellulair geregistreerde DA-celactiviteit, voor elke pr. TD-theorie voorspelt dat de fasische activering van de DA-cellen ten tijde van de visuele stimuli overeen zou moeten komen met de gemiddelde verwachte beloning, en dus zou moeten stijgen met pr. Figuur 1a toont precies dit - inderdaad, over de bevolking heen is de toename vrij lineair. Morris et al. [16] rapporteert een vergelijkbaar resultaat in een instrumentele (traceer) conditioneringstaak die ook een probabilistische versterking inhoudt.

Figuur 1. Gemiddelde gemiddelde voorspellingsfouten in een probabilistische beloningstaak
(a) DA-reactie in onderzoeken met verschillende beloningskansen. Populatie peri-stimulus tijdhistogrammen (PSTH's) tonen de opgetelde piekactiviteit van verschillende DA-neuronen over vele onderzoeken, voor elke pr, samengevoegd over beloonde en niet-beloonde onderzoeken met tussenliggende waarschijnlijkheden. (b) TD-voorspellingsfout met asymmetrische schaling. In de gesimuleerde taak werd in elke proef een van de vijf stimuli willekeurig gekozen en weergegeven op tijdstip t = 5. De stimulus werd uitgeschakeld op t = 25, waarna een beloning werd gegeven met een waarschijnlijkheid van pr gespecificeerd door de stimulus. We gebruikten een getikte vertragingslijnweergave van de stimuli (zie tekst), waarbij elke stimulus werd vertegenwoordigd door een andere set eenheden ('neuronen'). De TD-fout was δ (t) = r (t) + w (t - 1) • x (t) - w (t - 1) • x (t - 1), met r (t) de beloning op tijdstip t , en x (t) en w (t) de toestands- en gewichtsvectoren voor de eenheid. Er werd een standaard online TD-leerregel gebruikt met een vast leertempo α, w (t) = w (t - 1) + αδ (t) x (t - 1), dus elk gewicht vertegenwoordigde een verwachte toekomstige beloningswaarde. Net als bij Fiorillo et al., Geven we de voorspellingsfout δ (t) weer, gemiddeld over veel proeven, nadat de taak is geleerd. De representatieve asymmetrie ontstaat doordat negatieve waarden van δ (t) zijn geschaald met d = 1/6 voorafgaand aan de optelling van de gesimuleerde PSTH, hoewel het leren verloopt volgens niet-geschaalde fouten. Ten slotte, om rekening te houden met de kleine positieve reacties op het moment van de stimulus voor pr = 0 en op het moment van de (voorspelde) beloning voor pr = 1 gezien in (a), gingen we uit van een kleine (8%) kans dat a voorspellende stimulus is verkeerd geïdentificeerd. (c) DA-respons in pr = 0.5, 15-onderzoeken, gescheiden in beloonde (links) en niet-beloonde (rechts) onderzoeken. (d) TD-model van (c). (a, c) Overgenomen met toestemming van [2003] © XNUMX AAAS. Toestemming van AAAS is vereist voor al het andere gebruik.

Daarentegen, op het moment van mogelijke beloning, voorspelt de TD-theorie dat er gemiddeld geen activiteit zou moeten zijn, omdat er op dat moment gemiddeld geen voorspellingsfout is. Natuurlijk is er bij het ontwerp van probabilistische bekrachtiging (ten minste voor pr ≠ 0, 1) feitelijk een voorspellingsfout op het moment van levering of niet-bezorging van beloning op elke afzonderlijke proef. Bij onderzoeken waarin een beloning wordt afgeleverd, moet de voorspellingsfout positief zijn (omdat de verkregen beloning groter is dan de verwachte gemiddelde beloning). Omgekeerd moet het bij onderzoeken zonder beloning negatief zijn (zie figuur 1c). Cruciaal is dat onder TD het gemiddelde van deze verschillen, gewogen naar hun waarschijnlijkheid van optreden, nul zou moeten zijn. Als het niet nul is, zou deze voorspellingsfout moeten werken als een plasticiteitssignaal, waardoor de voorspellingen veranderen totdat er geen voorspellingsfout is. In afwijking van deze verwachting laten de gegevens in figuur 1a die worden gemiddeld over zowel beloonde als niet-beloonde studies, zien dat er momenteel sprake is van positief gemiddelde activiteit. Dit is ook duidelijk in de gegevens van Morris et al. [16] (zie figuur 3c). De positieve DA-respons vertoont geen tekenen van verdwijnen, zelfs niet met een substantiële training (in de loop van maanden).

Erger dan dit voor het TD-model, en inderdaad de focus van Fiorillo et al. [15], is de schijnbare toename van DA-activiteit naar het verwachte tijdstip van de beloning. Omdat de grootte van de oploop het grootst is voor pr = 0.5, Fiorillo et al. suggereerde dat het de onzekerheid in beloningafgifte rapporteert in plaats van een voorspellingsfout, en speculeerde dat dit signaal de ogenschijnlijk aantrekkelijke eigenschappen van onzekerheid (zoals te zien bij gokken) zou kunnen verklaren.

Zowel de oplopende activiteit als de activiteit op het verwachte tijdstip van beloning vormen kritische uitdagingen voor de TD-theorie. TD-leren werkt door DA-activiteit in een keer in een proef af te wikkelen om voorspeld te worden door signalen die eerder in die proef beschikbaar waren. Het is dus niet duidelijk hoe een schijnbaar voorspelbare activiteit, zij het dat op het moment van de beloning of op de helling daarvoor, kan voortduren zonder te worden voorspeld door het begin van de visuele stimulus. Immers, de pr-afhankelijke activiteit in reactie op de stimulus bevestigt zijn status als een geldige voorspeller. Verder is een belangrijk aspect van TD [17], dat het voorspelling koppelt aan actiekeuze door de waarde van een staat te gebruiken als een indicatie van de toekomstige beloningen die beschikbaar zijn in die staat, en dus de aantrekkelijkheid ervan als doelwit voor actie. Vanuit dit perspectief, aangezien de ramping-activiteit expliciet niet wordt voorspeld door de eerdere cue, kan deze geen invloed hebben op vroege acties, zoals de beslissing om te gokken. Overweeg bijvoorbeeld een competitie tussen twee acties: de ene leidt uiteindelijk naar een staat met een deterministische beloning en dus geen helling, en de andere leidt naar een staat gevolgd door een probabilistische beloning met hetzelfde gemiddelde en een helling. Omdat de oprit geen invloed heeft op de activiteit op het moment van de geconditioneerde stimulus, kan deze niet worden gebruikt om de tweede actie (kansspelen) te evalueren of te bevoordelen ten opzichte van de eerste, ondanks de extra onzekerheid.

We stellen de alternatieve hypothese voor dat deze beide afwijkende afvuurpatronen rechtstreeks voortvloeien uit de beperkingen geïmpliceerd door de lage baselinewerksnelheid van DA-neuronen (2-4 Hz) op de codering van de ondertekende voorspellingsfout. Zoals opgemerkt door Fiorillo et al. [15], positieve voorspellingsfouten worden weergegeven door activeringssnelheden van ~ 270% boven de basislijn, terwijl negatieve fouten worden weergegeven door een afname van slechts ~ 55% onder de basislijn (zie ook [14,18]). Deze asymmetrie is een rechttoe rechtaan gevolg van de codering van een getekende hoeveelheid door te schieten met een lage basislijn, maar kan natuurlijk alleen maar positief zijn. Vuursnelheden boven de basislijn kunnen positieve voorspellingsfouten coderen door een groot dynamisch bereik te gebruiken, maar onder de baseline-afvuursnelheden kan alleen naar nul worden teruggebracht, waardoor een beperking aan de codering van negatieve voorspellingsfouten wordt opgelegd.

Daarom moet men voorzichtig zijn bij het interpreteren van de sommen (of gemiddelden) van peri-stimulus-tijd-histogrammen (PSTH's) van activiteit over verschillende onderzoeken, zoals werd gedaan in Figuur 1a. De asymmetrisch gecodeerde positieve en negatieve foutsignalen op het moment van wel of niet ontvangen van de beloning zouden inderdaad niet op nul moeten staan, zelfs als ze correcte TD-voorspellingsfouten vertegenwoordigen. Bij elkaar opgeteld, zal het lage vuur dat de negatieve fouten in de niet-beloonde onderzoeken vertegenwoordigt, de snel afvuren die positieve fouten codeert in de beloonde onderzoeken niet “teniet doen”, en over het algemeen zal het gemiddelde een positieve reactie laten zien. In de hersenen, aangezien reacties niet worden gemiddeld over (beloonde en niet-beloonde) proeven, maar over neuronen binnen een proef, hoeft dit geen probleem te zijn.

Dit verklaart de aanhoudende positieve activiteit (gemiddeld) op het moment van levering of niet-levering van de beloning. Maar hoe zit het met de oprit voorafgaand aan deze tijd? Tenminste in bepaalde neurale representaties van de tijd tussen stimulus en beloning, wanneer proeven worden gemiddeld, leidt dezelfde asymmetrie ertoe dat TD precies resulteert in een oplopende activiteit in de richting van het tijdstip van de beloning. Het TD-leermechanisme heeft tot gevolg dat, op basis van een trial-by-trial, voorspellingsfouten die zich tegelijkertijd in een proef voordoen (zoals ten tijde van de beloning) naar potentiële voorspellende factoren (zoals de CS) worden verspreid die zich voordoen op eerdere tijden binnen elke proef. Onder de asymmetrische weergave van positieve en negatieve voorspellingsfouten die we zojuist hebben besproken, zal het middelen van deze voortplantingsfouten over meerdere onderzoeken (zoals in figuur 1a) leiden tot positieve middelen voor tijdvakken binnen een proef vóór een beloning. De precieze vorm van de resulterende oploop van activiteit hangt af van de manier waarop stimuli worden weergegeven in de tijd, evenals van de snelheid van leren, zoals hieronder zal worden besproken.

Figuur 2 illustreert dit beeld van de herkomst van de ramping-activiteit. Hier een getikte vertragingslijnweergave van de tijd sinds de stimulus wordt gebruikt. Hiervoor wordt elke eenheid ('neuron') actief (dwz neemt de waarde 1 aan) met een zekere vertraging nadat de stimulus is aangeboden, zodat elke tijdstap na het begin van de stimulus consistent wordt weergegeven door het afvuren van één eenheid. Leren is gebaseerd op de (dopaminerge) TD-fout, geformaliseerd als δ (t) = r (t) + V (t) - V (t - 1), met V (t) de gewogen invoer van de actieve eenheid op tijdstip t, en r (t) de beloning verkregen op tijdstip t. Door de gewichten van de eenheden bij te werken volgens de standaard TD-updateregel met een vast leertempo, kan V (t) gemiddeld de verwachte toekomstige beloningen vertegenwoordigen (zie het bijschrift van Figuur 1). Aangezien elke volgende tijdstap afzonderlijk wordt weergegeven, kunnen TD-voorspellingsfouten op elk moment tijdens de proef optreden. Figuur 2a toont deze fouten in zes opeenvolgende gesimuleerde proeven waarin pr = 0.5. Bij elke proef doet zich een nieuwe positieve of negatieve fout voor op het moment van de beloning, als gevolg van het wel of niet ontvangen van de beloning, en stap voor stap verspreiden de fouten uit eerdere proeven zich terug naar het moment van de stimulus, via het constant bijwerken van de gewichten (bijv. de fout gemarkeerd in het rood). Bij het middelen (of, zoals in PSTH's, optellen) over proeven, heffen deze fouten elkaar gemiddeld op, wat resulteert in een algemeen vlak histogram in het interval na het begin van de stimulus, en voorafgaand aan het tijdstip van de beloning (zwarte lijn in figuur 2b, opgeteld over de 10 proeven weergegeven in dun blauw). Wanneer echter na asymmetrische schaling van de negatieve fouten wordt opgeteld met een factor d = 1/6 (wat de asymmetrische codering van positieve en negatieve voorspellingsfouten door DA-neuronen simuleert), ontstaat er een positieve stijging van de activiteit, zoals geïllustreerd door de zwarte lijn. in Figuur 2c. Merk op dat deze schaalaanpassing slechts een representatief probleem is, resulterend uit de beperkingen van het coderen van een negatieve waarde over een lage baseline vuursnelheid, en zou het leren van de gewichten niet mogen beïnvloeden, om geen verkeerde waarden te leren (zie discussie). Omdat PSTH's echter directe sommen zijn van neuronale pieken, heeft dit representatieve probleem invloed op het resulterende histogram.

Figuur 2. Backpropagation van voorspellingsfouten verklaart oplopende activiteit.
(a) De TD-voorspellingsfout in elk van de zes opeenvolgende proeven (van boven naar beneden) uit de simulatie in figuur 1b, met pr = 0.5. Gemarkeerd in rood is de fout op het moment van de beloning in de eerste van de proeven en de geleidelijke teruggroei naar de tijd van de stimulus in volgende onderzoeken. Blokletters geven de uitkomst van elke specifieke test aan (R = beloond, N = niet beloond). De volgorde van beloningen voorafgaand aan deze onderzoeken wordt rechtsboven weergegeven. (b) De TD-fout van deze zes proeven, en nog eens vier na hen, gesuperponeerd. De rode en groene lijnen illustreren de omvang van de fouten in deze onderzoeken. Het optellen van deze onderzoeken resulteert gemiddeld in geen activiteit boven de basislijn (zwarte lijn), aangezien positieve en negatieve fouten willekeurig 50% van de tijd optreden en elkaar dus opheffen. (c) Echter, wanneer de voorspellingsfouten asymmetrisch zijn gerepresenteerd boven en onder de basislijn-afvuursnelheid (hier werden negatieve fouten asymmetrisch geschaald door d = 1 / 6 om de asymmetrische codering van voorspellingsfouten door DA-neuronen te simuleren), een gemiddelde toename van activiteit komt tevoorschijn bij het middelen over proeven, zoals wordt geïllustreerd door de zwarte lijn. Alle simulatieparameters zijn dezelfde als in Afbeelding 1b, d.

Figuren 1b, d tonen de hellingshoek die ontstaat door deze combinatie van asymmetrische codering en inter-trial-middeling, ter vergelijking met de experimentele gegevens. Figuur 1b toont de PSTH berekend uit onze gesimuleerde gegevens door middel van middeling over het asymmetrisch gerepresenteerde δ (t) -signaal in ~ 50-proeven voor elk stimulustype. Figuur 1d toont de resultaten voor het geval pr = 0.5, verdeeld in beloonde en niet-beloonde proeven ter vergelijking met figuur 1c. De gesimuleerde resultaten lijken veel op de experimentele gegevens doordat ze de netto positieve respons op de onzekere beloningen nabootsen, evenals het oploopeffect, dat het hoogst is in het geval van pr = 0.5.

Het is eenvoudig om de gemiddelde respons op het moment van de beloning (t = N) in proef T, dwz de gemiddelde TD-fout δT(N) , af te leiden van de TD-leerregel met de vereenvoudigde getapte vertragingslijntijdweergave en een vast leertempo α. De waarde bij de voorlaatste tijdstap in een proef, als functie van het proefnummer (waarbij de beginwaarden nul zijn), is

waarbij r (t) de beloning is aan het einde van de proef t. Het foutsignaal op de laatste tijdstap van proef T is gewoon het verschil tussen de verkregen beloning r (T) en de waarde die die beloning VT - 1 (N - 1) voorspelt. Deze fout is positief met waarschijnlijkheid pr, en negatief met waarschijnlijkheid (1 - pr). Door de negatieve fouten te schalen met een factor d ∈ (0, 1], krijgen we dus

Voor symmetrische codering van positieve en negatieve fouten (d = 1) is de gemiddelde respons 0. Voor asymmetrische codering (0 Trace conditioning: een testcase

Een belangrijke testcase voor onze interpretatie doet zich voor in een variant van de taak van Fiorillo et al. [15], evenals in de analoge instrumentele taak van Morris et al. [16], beide met sporenconditionering. In tegenstelling tot vertraagde conditionering (Figuur 3a) waarin de beloning samenvalt met de offset van de voorspellende stimulus, is er hier een aanzienlijke kloof tussen de offset van de voorspellende stimulus en de levering van de beloning (Figuur 3b). Het is duidelijk dat in dit geval de onzekerheid over de beloning alleen maar groter zou kunnen worden, vanwege de ruis in de timing van het interval tussen stimulus en beloning [19], dus onder de onzekerheidsrekening zouden er vergelijkbare of zelfs grotere hellingen moeten zijn. De experimentele resultaten laten echter zien dat de oplopende activiteit kleiner of zelfs verwaarloosbaar is (Figuur 3c; d). Merk echter op dat de omvang van de proefgemiddelde activiteit op het verwachte tijdstip van beloning wordt gehandhaafd, wat wijst op een dissociatie tussen de hoogte van de helling en de hoeveelheid positieve activiteit op het verwachte tijdstip van beloning.

Figuur 3. Traceer conditionering met probabilistische beloningen.
(a) Een illustratie van een proef van de vertragingsconditioneringstaak van Fiorillo et al. [15]. Een proef bestaat uit een visuele stimulus van 2 seconden, waarvan de compensatie samenvalt met de levering van de sapbeloning, als een dergelijke beloning is geprogrammeerd volgens de waarschijnlijkheid die is gekoppeld aan de visuele aanwijzing. In niet-beloonde onderzoeken stopte de stimulus zonder beloning. In beide gevallen scheidt een interval tussen de proeven van gemiddeld 9 seconden de proeven. (b) Een illustratie van een proef van de traceconditioneringstaak van Morris et al. [16]. Het cruciale verschil is dat er nu een substantiële tijdelijke vertraging is tussen de compensatie van de stimulus en het begin van de beloning (de "trace" -periode), en dat geen enkele externe stimulus de verwachte tijd van beloning aangeeft. Dit geeft extra onzekerheid, aangezien de precieze timing van de voorspelde beloning intern moet worden opgelost, vooral in niet-beloonde onderzoeken. Bij deze taak werd, net als in [15], een van de verschillende visuele stimuli (niet getoond) gepresenteerd in elke proef, en elke stimulus was geassocieerd met een kans op beloning. Ook hier werd de aap verzocht een instrumentele reactie uit te voeren (door op de toets te drukken die correspondeerde met de zijde waarin de stimulus werd aangeboden), waarvan het mislukken de proef beëindigde zonder beloning. De proeven werden gescheiden door variabele intervallen tussen de proeven. (c, d) DA-vuursnelheid (afgevlakt) ten opzichte van de basislijn, rond de verwachte tijd van de beloning, in beloonde proeven (c) en in niet-beloonde proeven (d). (c, d) Overgenomen uit [16] © 2004 met toestemming van Elsevier. De sporen impliceren een algehele positieve reactie op het verwachte tijdstip van de beloning, maar met een zeer kleine of geen ramp die hieraan voorafgaat. Vergelijkbare resultaten werden verkregen in een klassieke conditioneringstaak die kort werd beschreven in [15], die gebruik maakte van een traceerconditioneringsprocedure, waarmee werd bevestigd dat de traceerperiode, en niet de instrumentele aard van de taak weergegeven in (b), het cruciale verschil was met (a) .

Het TD-model van DA legt deze onbegrijpelijke gegevens gemakkelijk uit. Zoals weergegeven in figuur 4, wordt de vorm van de oprijplaat, hoewel niet de hoogte van de piek, beïnvloed door de leerfrequentie. De grootte van de achterpromoterende voorspellingsfouten wordt gedeeltelijk bepaald door de leerfrequentie, aangezien deze fouten optreden als onderdeel van het online leren van nieuwe voorspellingen. Inderdaad, er is een voortdurende actualisering van voorspellingen, zodat na een beloonde proef, er een hogere verwachting is van beloning (en dus de volgende beloning leidt tot een kleinere voorspellingsfout), en omgekeerd na een niet-beloonde proef [18] (zie figuur 2a). Deze bijwerking van voorspellingen houdt rechtstreeks verband met de leerfrequentie - hoe hoger de leerfrequentie, hoe groter de update van voorspellingen volgens de huidige voorspellingsfout en hoe groter de fractie van de voorspellingsfout die wordt doorgegeven. Op deze manier, met hogere leercijfers, zal het verschil in verwachtingen na een beloonde versus een niet-beloonde proef groter zijn, en dus zullen de voorspellingsfouten wanneer de volgende beloning wel of niet beschikbaar is, groter zijn - vandaar de grotere en meer geleidelijke oploop.

Figuur 4. Afhankelijkheid van de oplentelooptijd.
De vorm van de helling, maar niet de hoogte van de top, is afhankelijk van de leerfrequentie. De grafiek toont gesimuleerde activiteit voor het geval van pr = 0.5 in de buurt van het tijdstip van de verwachte beloning, voor verschillende leerresultaten, gemiddeld over zowel beloonde als niet-beloonde studies. Volgens TD-leren met persistente asymmetrisch gecodeerde voorspellingsfouten leidt middeling van activiteit in beloonde en niet-beloonde trials tot een verhoging tot het moment van beloning. De hoogte van de piek van de helling wordt bepaald door de verhouding van beloonde en niet-beloonde proeven, maar de breedte van de helling wordt bepaald door de mate van achterwaartse voortplanting van deze foutsignalen uit de tijd van de (verwachte) beloning voor de tijd van de voorspellende stimulus. Een hogere leersnelheid resulteert in een grotere fractie van de terug voortplantende fout en dus een hogere helling. Bij lagere leerresultaten wordt de opdoeming verwaarloosbaar, hoewel de positieve activiteit (gemiddeld) op het moment van beloning nog steeds wordt gehandhaafd. Merk op dat, hoewel de leerfrequentie die wordt gebruikt in de simulaties afgebeeld in figuur 1b, d 0.8 was, dit niet als de letterlijke synaptische leerfrequentie van het neurale substraat moet worden beschouwd, gezien onze schematische weergave van de stimulus. In een meer realistische weergave waarin een populatie van neuronen actief is op elk tijdstip, zou een veel lagere leersnelheid vergelijkbare resultaten opleveren.

Inderdaad, in vergelijking met conditionering van vertragingen, is conditionering van sporen notoir traag, wat suggereert dat de leersnelheid laag is, en dus dat er een lagere helling zou moeten zijn, in overeenstemming met de experimentele resultaten. Een direct onderzoek van de leersnelheid in de gegevens van Morris et al. [16], wiens taak buitensporige training vereiste omdat het niet alleen een conditionering van sporen was maar ook een instrumentele actie inhield, bevestigde dat het inderdaad erg laag was (Genela Morris - persoonlijke communicatie, 2004).

Discussie

De differentiële codering van positieve en negatieve waarden door DA-neuronen is duidelijk in alle onderzoeken van het fasische DA-signaal en kan worden beschouwd als een onvermijdelijk gevolg van de lage basislijnactiviteit van deze neuronen. Inderdaad, de laatste heeft direct suggesties gesuggereerd dat een neurotransmitter van de tegenstander, vermoedelijk serotonine, betrokken is bij het representeren en dus het leren van de negatieve voorspellingsfouten [20], zodat ze ook een volledig kwart hebben. Hier hebben we ons echter beperkt tot het beschouwen van de effecten van asymmetrie op de proefgemiddelde analyse van de dopamine-activiteit, en hebben we aangetoond dat de oplopende DA-activiteit, evenals een gemiddelde positieve respons op het moment van beloning, rechtstreeks voortvloeit uit de asymmetrische codering van voorspellingsfouten.

Afgezien van een duidelijker beeld van het foutsignaal, is de belangrijkste consequentie van de nieuwe interpretatie dat de ramps kunnen worden gezien als een handtekening van een TD-fenomeen dat tot nu toe buitengewoon ongrijpbaar was. Dit is de progressieve terug-voortplanting van het foutsignaal vertegenwoordigd door DA-activiteit, vanaf het moment van beloning tot het tijdstip van de voorspeller (Figuur 2a). De meeste eerdere studies naar dopaminerge activiteit hebben pr = 1 gebruikt, dus deze terug-propagatie is hoogstens een voorbijgaand verschijnsel dat alleen aan het begin van de training zichtbaar is (wanneer, typisch, opnames nog niet zijn begonnen) en mogelijk moeilijk te onderscheiden in trage DA-neuronen afvuren. Verder, zoals vermeld, is de voortplanting afhankelijk van de manier waarop de tijd tussen de voorspellende stimulus en de beloning wordt weergegeven - deze is aanwezig voor een afgetapte vertragingslijnrepresentatie zoals in [6], maar niet voor weergaven die de hele reeks omvatten vertraging, zoals in [21]. Merk op dat de vorm van de helling ook afhangt van het gebruik van in aanmerking komende sporen en de zogenaamde TD (λ) leerregel (simulatie niet getoond), die een aanvullend mechanisme verschaffen voor het overbruggen van tijd tussen gebeurtenissen tijdens het leren. Helaas, omdat de vormen van de hellingen in de gegevens nogal variabel zijn (figuur 1) en ruis veroorzaken, kunnen ze geen sterke beperkingen aan het exacte TD-mechanisme dat door de hersenen wordt gebruikt, bieden.
Recentere onderzoeken met persistente voorspellingsfouten tonen ook activiteit die op achterwaartse voortplanting wijst, met name figuur 4 van [13]. In deze studie waren voorspellingsfouten het gevolg van periodieke veranderingen in de taak en DA-opnames werden gemaakt vanaf het begin van de training, dus de achterpropagatie-achtige activiteit is direct duidelijk, hoewel deze activiteit niet werd gekwantificeerd.

We verwachten dat de ramps alleen tijdens de training zullen blijven bestaan ​​als de leerfrequentie niet afneemt naar nul als het leren vordert. De theorie van Pearce & Hall [22] over de beheersing van leren door onzekerheid suggereert precies deze volharding van leren - en er zijn aanwijzingen uit schema's voor gedeeltelijke bekrachtiging dat het leertempo hoger kan zijn wanneer er meer onzekerheid is verbonden aan de beloning. Inderdaad, vanuit een 'rationeel' statistisch oogpunt, zou het leren moeten voortduren wanneer er substantiële onzekerheid bestaat over de relatie tussen voorspellers en uitkomsten, zoals kan voortvloeien uit de altijd aanwezige mogelijkheid van een verandering in de voorspellende relaties. Deze vorm van aanhoudende onzekerheid, samen met onzekerheid als gevolg van aanvankelijke onwetendheid over de taak, is gebruikt om de theorie van Pearce & Hall over de manier waarop onzekerheid het leren aanstuurt te formaliseren [23]. Onze bewering dat onzekerheid misschien niet rechtstreeks wordt vertegenwoordigd door de opritten, mag dus zeker niet worden opgevat als een betekenis die de weergave en manipulatie ervan niet belangrijk is. Integendeel, we hebben gesuggereerd dat onzekerheid invloed heeft op corticale inferentie en leren via andere neuromodulerende systemen [24], en dat het ook aspecten van de selectie van acties kan bepalen [25].

Verschillende andere kenmerken van de asymmetrie moeten worden opgemerkt. Het meest kritisch is het effect van de asymmetrie op DA-afhankelijk leren [26], als de DA-activiteit onder de basislijn zelfverantwoordelijk is voor afnemende voorspellingen die te hoog zijn. Om ervoor te zorgen dat de geleerde voorspellingen correct blijven, moeten we aannemen dat de asymmetrische weergave het leren niet beïnvloedt, dwz dat een mechanisme zoals verschillende schaalvergroting voor potentiëring en verlaging van de synaptische sterkten het asymmetrische foutsignaal compenseert. Dit zou natuurlijk gemotigeerd worden als een neurotransmitter van een tegenstander betrokken is bij het leren van negatieve voorspellingsfouten. Dit probleem wordt gecompliceerd door de suggestie van Bayer [14] dat DA-activeringssnelheden eigenlijk vergelijkbaar zijn voor alle voorspellingsfouten onder een bepaalde negatieve drempelwaarde, mogelijk als gevolg van het bodemeffect van de lage balsnelheid. Een dergelijke lossy-codering heeft geen invloed op het kwalitatieve beeld van de effecten van inter-trial-middeling op de opkomst van ramps, maar versterkt wel de behoefte aan een signaal van de tegenstander voor het noodzakelijkerwijs symmetrische leren.

Ten slotte zou de meest directe test van onze interpretatie een vergelijking zijn van intra- en inter-trial middeling van het DA-signaal. Het zou belangrijk zijn om dit op een temporeel geavanceerde manier te doen, om problemen bij het middelen van niet-stationaire signalen te vermijden. Om de ruis in het neurale afvuren te overwinnen en te bepalen of er inderdaad een geleidelijke stijging was binnen een proef, of, zoals we zouden voorspellen - intermitterende positieve en negatieve voorspellingsfouten, zou het nodig zijn om een ​​gemiddelde te nemen over veel neuronen die tegelijkertijd werden geregistreerd binnen een proef, en verder neuronen die geassocieerd zijn met vergelijkbare leercijfers. Als alternatief zouden enkele neuron-sporen kunnen worden teruggedraaid ten opzichte van de terugpropagatierespons die werd voorspeld door hun voorgaande onderzoeken en TD-leren. Een vergelijking van de hoeveelheid variabiliteit die door een dergelijk model wordt verklaard, vergeleken met die van een regressie tegen een monotone stijging van activiteit, zou kunnen wijzen op het meest passende model. Een minder eenvoudige, maar meer toetsbare voorspelling is dat de vorm van de oprit moet afhangen van de leerfrequentie. Leerpercentages kunnen worden beoordeeld aan de hand van de respons op de probabilistische beloningen, onafhankelijk van de vorm van de helling (Nakahara et al. [18] toonden op zo'n manier aan dat in hun taak voor het conditioneren van gedeeltelijke bekrachtigingstracering het leertempo 0.3 was), en mogelijk worden gemanipuleerd door de hoeveelheid training of de frequentie waarmee taakonvoorziene gebeurtenissen worden gewijzigd en opnieuw geleerd te variëren. Het kwantificeren van het bestaan ​​en de vorm van een oprit in de geregistreerde DA-activiteit van Nakahara et al. Zou inderdaad licht kunnen werpen op het huidige voorstel.

Tegenstrijdige belangen
De auteur (s) verklaren dat ze geen concurrerende belangen hebben.

Bijdragen van auteurs
YN, MD en PD hebben deze studie gezamenlijk bedacht en uitgevoerd en hebben geholpen bij het opstellen van het manuscript. Alle auteurs hebben het laatste manuscript gelezen en goedgekeurd.

Danksagung
Wij zijn H. Bergman, C. Fiorillo, N. Daw, D. Joel, P. Tobler, P. Shizgal en W. Schultz zeer dankbaar voor discussies en commentaar, in sommige gevallen ondanks de uiteenlopende interpretatie van de gegevens. We zijn Genela Morris bijzonder dankbaar voor het analyseren van haar eigen gepubliceerde en ongepubliceerde gegevens met betrekking tot ramping. Dit werk werd gefinancierd door het Thematisch Netwerk van de EG (YN), de Gatsby Charitable Foundation en het EU BIBA-project.

Referenties

1. Ljungberg T, Apicella P, Schultz W: Reacties van dopamine-neuronen van apen tijdens het leren van gedragsreacties.
Journal Neurophysiol 1992, 67: 145-163.
Terug naar de tekst
2. Schultz W: Voorspellend beloningssignaal van dopamine-neuronen. [http://jn.physiology.org/cgi/content/full/80/1/1] website
Journal of Neurophysiology 1998, 80: 1-27. PubMed Abstract
Terug naar de tekst
3. O'Doherty J, Dayan P, Friston K, Critchley H, Dolan R: Temporele verschilmodellen en beloningsgerelateerd leren in het menselijk brein.
Neuron 2003, 38: 329-337. PubMed Abstract | Volledige tekst van uitgever
Terug naar de tekst
4. Seymour B, O'Doherty J, Dayan P, Koltzenburg M, Jones A, Dolan R, Friston K, Frackowiak R: Temporele verschilmodellen beschrijven leren van hogere orde bij mensen.
Natuur 2004, 429: 664-667. PubMed Abstract | Volledige tekst van uitgever
Terug naar de tekst
5. Montague PR, Hyman SE, Cohan JD: Computationele rollen voor dopamine bij gedragscontrole.
Natuur 2004, 431: 760-767. PubMed Abstract | Volledige tekst van uitgever
Terug naar de tekst
6. Montague PR, Dayan P, Sejnowski TJ: Een raamwerk voor mesencefale dopaminesystemen gebaseerd op voorspellend Hebbisch leren.
The Journal of Neuroscience 1996, 16: 1936-1947. PubMed Abstract | Volledige tekst van uitgever
Terug naar de tekst
7. Schultz W, Dayan P, Montague PR: Een neuraal substraat van voorspelling en beloning.
Wetenschap 1997, 275: 1593-1599. PubMed Abstract | Volledige tekst van uitgever
Terug naar de tekst
8. Sutton RS: Leren voorspellen volgens de methode van temporele verschillen.
Machine Learning 1988, 3: 9-44.
Terug naar de tekst
9. Sutton RS, Barto AG: [http://www.cs.ualberta.ca/~sutton/book/ebook/the-book.html] website
Reinforcement learning: een inleiding. MIT Druk op; 1998.
Terug naar de tekst
10. Hollerman J, Schultz W: Dopamine-neuronen melden een fout in de temporele voorspelling van beloning tijdens het leren.
Nature Neuroscience 1998, 1: 304-309. PubMed Abstract | Volledige tekst van uitgever
Terug naar de tekst
11. Schultz W, Apicella P, Ljungberg T: Reacties van dopamine-neuronen van apen op beloning en geconditioneerde stimuli tijdens opeenvolgende stappen van het leren van een vertraagde responstaak.
The Journal of Neuroscience 1993, 13: 900-913. PubMed Abstract | Volledige tekst van uitgever
Terug naar de tekst
12. Tobler P, Dickinson A, Schultz W: Codering van voorspelde beloningsweglating door dopamine-neuronen in een geconditioneerd remmingsparadigma.
Journal of Neuroscience 2003, 23 (32): 10402-10410. PubMed Abstract | Volledige tekst van uitgever
Terug naar de tekst
13. Takikawa Y, Kawagoe R, Hikosaka O: Een mogelijke rol van dopamine-neuronen in de middenhersenen bij de aanpassing van saccades op korte en lange termijn aan het in kaart brengen van positie-beloningen.
Journal of Neurophysiology 2004, 92: 2520-2529. PubMed Abstract | Volledige tekst van uitgever
Terug naar de tekst
14. Bayer H: Een rol voor de substantia nigra bij leren en motorische controle.
PhD thesis, New York University 2004.
Terug naar de tekst
15. Fiorillo C, Tobler P, Schultz W: Discrete codering van beloningswaarschijnlijkheid en onzekerheid door dopamine-neuronen.
Wetenschap 2003, 299 (5614): 1898-1902. PubMed Abstract | Volledige tekst van uitgever
Terug naar de tekst
16. Morris G, Arkadir D, Nevet A, Vaadia E, Bergman H: Toevallige maar verschillende boodschappen van dopamine in de middenhersenen en tonisch actieve neuronen in het striatum.
Neuron 2004, 43: 133-143. PubMed Abstract | Volledige tekst van uitgever
Terug naar de tekst
17. Barto A, Sutton R, Watkins C: Leren en opeenvolgende besluitvorming. In leren en computationele neurowetenschappen: grondslagen van adaptieve netwerken. Bewerkt door Gabriel M, Moore J. Cambridge, MA: MIT Press; 1990: 539-602.
Terug naar de tekst
18. Nakahara H, Itoh H, Kawagoe R, Takikawa Y, Hikosaka O: Dopamine-neuronen kunnen contextafhankelijke voorspellingsfouten vertegenwoordigen.
Neuron 2004, 41: 269-280. PubMed Abstract | Volledige tekst van uitgever
Terug naar de tekst
19. Gallistel CR, Gibbon J: Tijd, snelheid en conditionering.
Psychologisch overzicht 2000, 107: 289-344. PubMed Abstract | Volledige tekst van uitgever
Terug naar de tekst
20. Daw ND, Kakade S, Dayan P: Tegenstanderinteracties tussen serotonine en dopamine.
Neurale netwerken 2002, 15 (4-6): 603-616. PubMed Abstract | Volledige tekst van uitgever
Terug naar de tekst
21. Suri RE, Schultz W: Een neuraal netwerkmodel met dopamine-achtig versterkingssignaal dat een ruimtelijke vertraagde responstaak leert.
Neurowetenschappen 1999, 91: 871-890. PubMed Abstract | Volledige tekst van uitgever
Terug naar de tekst
22. Pearce JM, Hall G: Een model voor Pavloviaans leren: variaties in de effectiviteit van geconditioneerde maar niet van ongeconditioneerde stimuli.
Psychologisch overzicht 1980, 87: 532-552. PubMed Abstract | Volledige tekst van uitgever
Terug naar de tekst
23. Dayan P, Kakade S, Montague PR: Leren en selectieve aandacht.
Nature Neuroscience 2000, 3: 1218-1223. PubMed Abstract | Volledige tekst van uitgever
Terug naar de tekst
24. Dayan P, Yu A: Verwachte en onverwachte onzekerheid: Ach en NE in de neocortex. [http://books.nips.ce/papers/files/nips15/NS08.pdf] website
Vooruitgang in Neurale informatieverwerking Sysytems bewerkt door Dietterich T, Becker S, Ghahramani Z. Cambridge, MA: MIT Press; 2002, 14: 189-196.
Terug naar de tekst
25. Daw N, Niv Y, Dayan P: acties, beleid, waarden en de basale ganglia. In recente doorbraken in onderzoek naar basale ganglia. Bewerkt door Bezard E. New York, VS: Nova Science Publishers, Inc; in de pers.
Terug naar de tekst
26. Wickens J, Kötter R: Cellulaire modellen van versterking. In modellen van informatieverwerking in de basale ganglia. Bewerkt door Houk JC, Davis JL, Beiser DG. MIT-pers; 1995: 187-214.
Terug naar de tekst