Dopamien onsekerheid en TD leer (2005)

OPMERKINGS: Onsekerheid beteken nuutheid. Hierdie ingewikkelde studie bevestig dat nuutheid dopamien verhoog. Dit verklaar ook dat hoe meer onseker die beloning is, hoe sterker word die leer. Internetporno verskil van pornografie uit die verlede vanweë die eindelose nuutheid - wat eindelose spuit dopamine beteken. Verslawing in sy kern is leer en geheue. Om oor te skakel na 'n nuwe genre van pornografie, aktiveer dopamien en leer - as gevolg van die onsekerheid wat u gaan beleef. Onsekerheid kom ook voor as porno-gebruikers vir porno soek. U weet nie wat u gaan sien nie, en wat dopamien bevat.
Nuutheid, onsekerheid, en op soek na alle aktiveer dopamien

Volle studie: Dopamien onsekerheid en TD leer

Gedrags- en breinfunksies 2005, 1:6doi:10.1186/1744-9081-1-6

Yael Niv1,2, Michael O Duff2 en Peter Dayan2
1 Interdissiplinêre Sentrum vir Neurale Berekening, Hebreeuse Universiteit, Jerusalem, Israel
2 Gatsby Computational Neuroscience Unit, Universiteitskollege Londen, Londen, Verenigde Koninkryk
Die elektroniese weergawe van hierdie artikel is die volledige en kan aanlyn gevind word by: http://www.behavioralandbrainfunctions.com/content/1/1/6
© 2005 Niv et al; lisensiehouer BioMed Central Ltd.

Abstract

Substantiewe bewyse dui daarop dat die fasiese aktiwiteite van dopaminerge neurone in die primaat middellyn 'n temporale verskil (TD) fout in voorspellings van toekomstige beloning verteenwoordig, met toenames bo en af ​​onder die basislyn as gevolg van onderskeidelik positiewe en negatiewe voorspellingsfoute. Dopamien selle het egter baie lae baseline aktiwiteit, wat impliseer dat die voorstelling van hierdie twee soorte foute asimmetries is. Ons ondersoek die implikasies van hierdie skynbaar onskadelike asimmetrie vir die interpretasie van dopaminerge vuurpatrone in eksperimente met probabilistiese belonings wat aanhoudende voorspellingsfoute tot gevolg het. In die besonder, ons wys dat wanneer die nie-stilstaande voorspellingsfoute oor die proewe word bereken, 'n ramp in die aktiwiteit van die dopamienneurone moet wees, wie se grootte afhanklik is van die leersyfer. Hierdie presiese verskynsel is waargeneem in 'n onlangse eksperiment, alhoewel dit in antipodale terme geïnterpreteer word as 'n binne-proefkodering van onsekerheid.

Inleiding

Daar is 'n indrukwekkende groot liggaam van fisiologiese, beeldende en psigofarmakologiese data aangaande die fasiese aktiwiteit van dopaminerge (DA) selle in die middelgrense van ape, rotte en mense in klassieke en instrumentele kondisioneringstake met voorspellings van toekomstige belonings [1-5]. Hierdie data is geneem om [6,7] voor te stel dat die aktiwiteit van DA neurone tydelike verskil (TD) foute in die voorspellings van toekomstige beloning [8,9] verteenwoordig. Hierdie TD-teorie van dopamien bied 'n akkurate berekeningsgrondslag vir die verstaan ​​van 'n gasheer van gedrags- en neurale data. Verder stel dit voor dat DA 'n sein verskaf wat teoreties geskik is vir die beheer van leer van beide voorspellings en beloningsoptimaliserende aksies.

Van die mees dwingende bewyse ten gunste van die TD-teorie kom uit studies wat die fasiese aktivering van dopamien selle ondersoek in reaksie op arbitrêre stimuli (soos fraktale patrone op 'n monitor) wat die nabye beskikbaarheid van belonings voorspel (soos sap druppels) . In baie variante het dit getoon dat, met opleiding, fasale DA seine oorplaas vanaf die aanvanklike onvoorspelbare beloning tot op die tydstip van die vroegste aand wat 'n beloning voorspel. Dit is presies die verwagte uitkoms vir 'n tydelike verskil gebaseerde voorspellingsfout (bv. [1,2,10-13]). Die basiese bevinding [7] is dat wanneer 'n beloning onverwags is (wat onvermydelik is in vroeë proewe), reageer dopamien selle sterk daarop. Wanneer 'n beloning egter voorspel word, reageer die selle op die voorspeller, en nie op die verwagte beloning nie.

As 'n voorspelde beloning onverwags uitgelaat word, word die selle phasically inhibited by die normale tyd van die beloning, 'n inhibisie wat die presiese tydsberekening van die beloningvoorspelling [10] openbaar, en waarvan die tydelike statistieke tans onder 'n forensiese kollig is [14]. Die verskuiwing in aktiwiteit vanaf die tyd van beloning na die tyd van die voorspeller lyk soos die verskuiwing van die dier se aptytvolle gedragsreaksie vanaf die tyd van die beloning (die onvoorwaardelike stimulus) na die van die gekondisioneerde stimulus in klassieke kondisioneringseksperimente [7,10] .

In 'n mees interessante onlangse studie, Fiorillo et al. [15] het die geval van gedeeltelike versterking ondersoek, waarin daar voortdurend, onafwendbare, voorspellingsfout op elke proeflopie bestaan. 'N Reguit interpretasie van die TD-voorspellingsfouthipotese sal voorstel dat in hierdie geval (a) dopamienaktiwiteit ten tye van die voorspellende stimuli die waarskynlikheid van beloning sal skaal, en (b) gemiddeld oor die proewe die dopaminerge respons na die stimulus en tot en met die beloningstyd, moet nul wees. Alhoewel die eerste hipotese in die eksperimente bevestig is, was die tweede nie. Die tussen-proef gemiddelde reaksies het 'n duidelike verloop van aktiwiteit getoon tydens die vertraging tussen stimulus begin en beloning wat teenstrydig was met die TD-rekening. Fiorillo et al. Veronderstel dat hierdie aktiwiteit die onsekerheid in beloning lewer, eerder as 'n voorspellingsfout verteenwoordig.

In hierdie vraestel besoek ons ​​die kwessie van aanhoudende voorspellingsfout. Ons wys dat 'n belangrike asimmetrie in die kodering van positiewe en negatiewe voorspellingsfoute lei tot die verwagting in die tussen-proef gemiddelde dopamien sein, en reken ook goed op twee verdere kenmerke van die DA sein - oënskynlike aanhoudende aktiwiteit ten tyde van die (potensiële) beloning en verdwyning (of ten minste verswakking) van die rampsein, maar nie die sein ten tye van beloning nie, in die gesig van spoor eerder as om kondisie te vertraag. Albei hierdie verskynsels is ook waargeneem in die verbandhoudende instrumentele kondisioneringseksperimente van Morris et al. [16]. Ten slotte interpreteer ons die rampsein as die beste getuienis wat tans beskikbaar is vir die aard van die leermeganisme waardeur die verskuiwing in dopamienaktiwiteit tot die tyd van die voorspellende stimuli plaasvind.

Onsekerheid in beloning voorkoms: DA ramping

Fiorillo et al. [15] het die aanbieding van vyf verskillende visuele stimuli aan makake geassosieer met die vertraagde, waarskynlike (pr = 0, 0.25, 0.5, 0.75, 1) lewering van sapbelonings. Hulle het 'n vertragingskondisioneringsparadigma gebruik, waarin die stimulus vir 'n vaste interval van 2s voortduur, met beloning wat gelewer word wanneer die stimulus verdwyn. Na die opleiding het die ape se antisiperende lekgedrag aangedui dat hulle bewus was van die verskillende beloningskans wat met elke stimulus gepaard gaan.

Figuur 1a toon bevolkingshistogramme van ekstrasellulêr aangetekende DA-selaktiwiteit, vir elke pr. TD-teorie voorspel dat die fasiese aktivering van die DA-selle ten tye van die visuele stimuli ooreenstem met die gemiddelde verwagte beloning, en sodoende met pr. Figuur 1a toon presies dit - inderdaad, oor die bevolking, is die styging redelik lineêr. Morris et al. [16] rapporteer 'n soortgelyke resultaat in 'n instrumentale (spoor) kondisionering taak wat ook probabilistiese versterking behels.

Figuur 1. Gemiddelde voorspellingsfoute in 'n probabilistiese beloningstaak
(a) DA-reaksie in proewe met verskillende beloningskans. Populasie-peri-stimulustydhistogramme (PSTH's) toon die opgesomde spitsaktiwiteit van verskeie DA-neurone oor baie proewe, vir elke pr, saamgevoeg oor beloonde en onbeloonde proewe teen tussenkans. (b) TD-voorspellingsfout met asimmetriese skaal. In die gesimuleerde taak is in elke proef ewekansig een van vyf stimuli gekies en op tyd t = 5 vertoon. Die stimulus is afgeskakel op t = 25, op welke tydstip 'n beloning gegee is met 'n waarskynlikheid van pr wat deur die stimulus gespesifiseer word. Ons het 'n vertraagde voorstelling van die stimuli gebruik (sien teks), met elke stimulus voorgestel deur 'n ander stel eenhede ('neurone'). Die TD-fout was δ (t) = r (t) + w (t - 1) • x (t) - w (t - 1) • x (t - 1), met r (t) die beloning op tyd t , en x (t) en w (t) die toestand- en gewigsvektore vir die eenheid. 'N Standaard aanlyn TD-leerreël is gebruik met 'n vaste leersnelheid α, w (t) = w (t - 1) + αδ (t) x (t - 1), dus verteenwoordig elke gewig 'n verwagte toekomstige beloningswaarde. Soortgelyk aan Fiorillo et al., Beeld ons die voorspellingsfout δ (t) gemiddeld oor baie proewe uit, nadat die taak geleer is. Die representatiewe asimmetrie ontstaan ​​omdat negatiewe waardes van δ (t) met d = 1/6 voor die opsomming van die gesimuleerde PSTH is afgeskaal, hoewel leer volgens ongekaleerde foute verloop. Ten slotte, om rekening te hou met die klein positiewe reaksies ten tye van die stimulus vir pr = 0 en ten tyde van die (voorspelde) beloning vir pr = 1 gesien in (a), het ons 'n klein (8%) kans aanvaar dat 'n voorspellende stimulus word verkeerd geïdentifiseer. (c) DA-reaksie in pr = 0.5 proewe, geskei in beloonde (links) en onbeloonde (regs) proewe. (d) TD Model van (c). (a, c) Herdruk met toestemming van [15] © 2003 AAAS. Toestemming van AAAS is nodig vir alle ander gebruike.

Daarteenoor, in die tyd van potensiële beloningslewering, stel TD-teorie voor dat daar gemiddeld geen aktiwiteit behoort te wees nie, aangesien daar gemiddeld geen voorspellingsfout is nie. Natuurlik, in die probabilistiese versterkingsontwerp (ten minste vir pr ≠ 0, 1) is daar in werklikheid 'n voorspellingsfout ten tyde van aflewering of nie-aflewering van beloning by elke verhoor. By proewe waarin 'n beloning gelewer word, moet die voorspellingsfout positief wees (aangesien die beloning wat verkry is, groter is as die verwagte gemiddelde beloning). Omgekeerd moet dit sonder negatiewe toetse negatief wees (sien Figuur 1c). Kritiek, onder TD, moet die gemiddelde van hierdie verskille, geweeg deur die waarskynlikheid daarvan, nul wees. As dit nie nul is nie, moet hierdie voorspellingsfout optree as 'n plastisiteitsein, verander die voorspellings totdat daar geen voorspellingsfout is nie. In afwyking van hierdie verwagting, toon die data in Figuur 1a wat gemiddeld oor beide beloonde en onbetaalde proewe is, aan dat daar in werklikheid positiewe gemiddelde aktiwiteit is. Dit blyk ook uit die data van Morris et al. [16] (sien Figuur 3c). Die positiewe DA-reaksies toon geen tekens om te verdwyn nie, selfs met aansienlike opleiding (oor die loop van maande).

Erger as dit vir die TD-model, en inderdaad die fokus van Fiorillo et al. [15], is die skynbare opheffing van DA-aktiwiteit teenoor die verwagte tyd van die beloning. Aangesien die grootte van die oprit die grootste is vir pr = 0.5, Fiorillo et al. het voorgestel dat dit die onsekerheid in beloningslewering, eerder as 'n voorspellingsfout, rapporteer en bespiegel dat hierdie sein die oënskynlik aptytige eienskappe van onsekerheid (soos gesien in dobbel) kan verduidelik.

Beide die rampaktiwiteit en die aktiwiteit op die verwagte tyd van beloning stel kritiese uitdagings vir die TD-teorie voor. TD leer werk deur die reël vir DA-aktiwiteit op 'n keer in 'n verhoor om voorspel te word deur leidrade wat vroeër in die verhoor beskikbaar was. Dit is dus nie duidelik hoe 'n oënskynlik voorspelbare aktiwiteit, dit wil sê op die tyd van die beloning of in die oprit voorheen, kan voortduur sonder om voorspel te word deur die aanvang van die visuele stimulus. Die pr-afhanklike aktiwiteit in reaksie op die stimulus bevestig immers sy status as 'n geldige voorspeller. Verder is 'n sleutelaspek van TD [17] dat dit voorspelling vir aksie keuse maak deur die waarde van 'n staat te gebruik as 'n aanduiding van die toekomstige belonings wat beskikbaar is van daardie staat en dus sy aantreklikheid as 'n teiken vir aksie. Uit hierdie perspektief, aangesien die rampaktiwiteit uitdruklik nie voorspel word deur die vroeëre cue nie, kan dit nie vroeë aksies beïnvloed, soos die besluit om te dobbel nie. Dink byvoorbeeld aan 'n kompetisie tussen twee aksies: een wat uiteindelik lei tot 'n staat met 'n deterministiese beloning en dus geen oprit, en die ander wat lei tot 'n staat wat gevolg word deur 'n probabilistiese beloning met dieselfde gemiddelde en 'n oprit. Aangesien die oprit nie die aktiwiteit op die tydstip van die gekondisioneerde stimulus beïnvloed nie, kan dit nie gebruik word om die tweede aksie (dobbelary) oor die eerste te evalueer of te gun nie, ten spyte van die ekstra onsekerheid.

Ons stel die alternatiewe hipotese voor dat beide hierdie anomale vuurpatrone direk voortspruit uit die beperkinge wat die lae basislyn aktiwiteit van DA neurone (2-4 Hz) impliseer op die kodering van die getekende voorspellingsfout. Soos opgemerk deur Fiorillo et al. [15] word positiewe voorspellingsfoute voorgestel deur vuursnitte van ~ 270% bo basislyn, terwyl negatiewe foute verteenwoordig word deur 'n afname van slegs ~ 55% onder basislyn (sien ook [14,18]). Hierdie asimmetrie is 'n eenvoudige gevolg van die kodering van 'n getekende hoeveelheid deur vuur wat 'n lae basislyn het, maar dit kan natuurlik net positief wees. Vuurpunte bo basislyn kan koördineer positiewe voorspellingsfoute deur 'n groot dinamiese omvang te gebruik, maar onder die basiese vuurpryse kan slegs nul verminder word, wat 'n beperking op die kodering van negatiewe voorspellingsfoute impliseer.

Gevolglik moet 'n mens die somme (of gemiddeldes) van peri-stimulus-tyd-histogramme (PSTH's) van aktiwiteit versigtig interpreteer oor verskillende proewe, soos in Figuur 1a gedoen is. Die asimmetries gekodeerde positiewe en negatiewe foutseine ten tyde van die ontvangs of nie-ontvangs van beloning, moet inderdaad nie tot nul opsom nie, selfs al verteenwoordig dit korrekte TD-voorspellingsfoute. As dit opgesom word, sal die lae afvuur wat die negatiewe foute in die onbeloonde proewe voorstel, nie die vinnige afvuur wat die positiewe foute in die beloonde proewe kodeer, “kanselleer” nie, en oor die algemeen sal die gemiddelde 'n positiewe reaksie toon. In die brein, natuurlik, aangesien reaksies nie gemiddeld is oor (beloon en onbeloonde) proewe nie, maar oor neurone binne 'n proef hoef dit nie 'n probleem te wees nie.

Dit verklaar die aanhoudende positiewe aktiwiteit (gemiddeld) ten tyde van aflewering of nie-aflewering van die beloning. Maar wat van die oprit voor hierdie tyd? Ten minste in sekere neurale voorstellings van die tyd tussen stimulus en beloning, wanneer beproewings gemiddeld word, lei hierdie dieselfde asimmetrie TD tot presies in 'n ramp van aktiwiteit tot die tyd van die beloning. Die TD-leermeganisme het die gevolg van voorspellingsfoute wat op een slag in 'n verhoor ontstaan ​​(soos ten tye van die beloning), na moontlike voorspellers (soos die KS) wat ontstaan op vroeër tye binne elke verhoor. Onder die asimmetriese voorstelling van positiewe en negatiewe voorspellingsfoute wat ons net bespreek het, sal gemiddelde vermeerderingsfoute oor veelvuldige proewe (soos in Figuur 1a) lei tot positiewe middele vir tydperke binne 'n verhoor voor 'n beloning. Die presiese vorm van die gevolglike oprit van aktiwiteit hang af van die wyse waarop stimuli oor tyd, sowel as op die spoed van leer, voorgestel word, soos hieronder bespreek sal word.

Figuur 2 illustreer hierdie siening van die herkoms van die ramping-aktiwiteit. Hier is 'n afgetaste vertraging-lyn-voorstelling van tyd sedert die stimulus gebruik word. Hiervoor word elke eenheid ('neuron') aktief (maw neem die waarde 1 aan) met 'n sekere vertraging nadat die stimulus aangebied is, sodat elke tydstip na die aanvang van die stimulus konsekwent deur die afvuur van een eenheid voorgestel word. Leer is gebaseer op die (dopaminerge gerapporteerde) TD-fout, geformaliseer as δ (t) = r (t) + V (t) - V (t - 1), met V (t) die geweegde insette van die aktiewe eenheid by tyd t, en r (t) die beloning wat op tyd t verkry is. Die opdatering van die gewigte van die eenhede volgens die standaard TD-opdateringsreël met 'n vaste leersnelheid, laat V (t) toe om gemiddeld die verwagte toekomstige belonings te gee (sien Figuur 1 byskrif). Aangesien elke daaropvolgende tydstip afsonderlik voorgestel word, kan TD-voorspellingsfoute te eniger tyd in die verhoor ontstaan. Figuur 2a toon hierdie foute in ses opeenvolgende gesimuleerde proewe waarin pr = 0.5. In elke proefneming ontstaan ​​'n nuwe positiewe of negatiewe fout tydens die beloning, gevolg na ontvangs of nie-ontvangs van die beloning, en stap-vir-stap versprei die foute uit vorige proewe terug na die tyd van die stimulus, deur middel van die konstante opdatering van die gewigte (bv. die fout in rooi uitgelig). By gemiddeldes (of, soos in PSTH's, saamvat) oor proewe, kanselleer hierdie foute mekaar gemiddeld, wat lei tot 'n algehele plat histogram in die interval na die aanvang van die stimulus, en wat lei tot die tyd van die beloning (swart lyn in Figuur 2b, saamgevat oor die tien proewe wat in dun blou getoon is). Wanneer dit egter opgesom word na asimmetriese skaal van die negatiewe foute met 'n faktor d = 10/1 (wat die asimmetriese kodering van positiewe en negatiewe voorspellingsfoute deur DA-neurone simuleer), volg 'n positiewe oplewing van aktiwiteit, soos geïllustreer deur die swart lyn in Figuur 6c. Let daarop dat hierdie herskaalings slegs 'n voorstellingskwessie is wat voortspruit uit die beperkings om 'n negatiewe waarde vir 'n lae skietkoers te baseer, en dat dit nie die gewigsleer moet beïnvloed nie, om verkeerde waardes te leer (sien bespreking). Aangesien PSTH's egter direk 'n som van neuronale spykers is, dra hierdie voorstellingskwessie die gevolg van die gevolglike histogram.

Figuur 2. Terugspringing van voorspellingsfoute verduidelik rampaktiwiteit.
(a) Die TD voorspellingsfout oor elk van ses opeenvolgende proewe (bo na onder) van die simulasie in Figuur 1b, met pr = 0.5. Uitgebeeld in rooi is die fout ten tyde van die beloning in die eerste van die proewe, en die geleidelike teruggroei van die tyd van die stimulus in daaropvolgende proewe. Blokbriewe dui op die uitkoms van elke spesifieke verhoor (R = beloon; N = nie beloon nie). Die volgorde van belonings wat voorafgaan aan hierdie proewe word bo regs gegee. (b) Die TD-fout van hierdie ses proewe, en nog vier daarop volg, word oorgeplaas. Die rooi en groen lyne illustreer die koevert van die foute in hierdie proewe. Opsomming oor hierdie toetse lei nie tot 'n gemiddelde (swart lyn) bo-basislynaktiwiteit nie, aangesien positiewe en negatiewe foute per ewekansige 50% van die tyd voorkom en dus mekaar kanselleer. (c) Wanneer die voorspellingsfoute egter asimmetries voorgestel word bo en onder die basislyn vuurspoed (hier is negatiewe foute asimmetries afgeskaal deur d = 1 / 6 om die asimmetriese kodering van voorspellingsfoute deur DA neurone te simuleer), 'n gemiddelde opwaartse aktiwiteit kom voor as die gemiddelde oor die proewe, soos deur die swart lyn geïllustreer word. Alle simulasie parameters is dieselfde as in Figuur 1b, d.

Syfers 1b, d toon die oprit wat voortspruit uit hierdie kombinasie van asimmetriese kodering en tussen-proefgemiddelde, ter vergelyking met die eksperimentele data. Figuur 1b toon die PSTH bereken uit ons gesimuleerde data deur middel van gemiddeldte oor die asimmetries-verteenwoordigende δ (t) sein in ~ 50 proewe vir elke stimulus tipe. Figuur 1d toon die resultate vir die pr = 0.5 geval, verdeel in beloonde en onbeloonde proewe ter vergelyking met Figuur 1c. Die gesimuleerde resultate lyk baie na die eksperimentele data, aangesien hulle die netto positiewe reaksie op die onsekere belonings herhaal, asook die ophefseffek, wat die hoogste in die pr = 0.5-geval is.

Dit is maklik om die gemiddelde reaksie op die tydstip van die beloning (t = N) in proef T af te lei, nl. Die gemiddelde TD-fout δT (N), van die TD-leerreël met die vereenvoudigde getikte vertraginglyn-tydvoorstelling en 'n vaste leerkoers α. Die waarde langs die laaste tydstip in 'n verhoor, as 'n funksie van proefnommer (met aanvanklike waardes wat nul is), is

waar r (t) die beloning is aan die einde van die verhoor t. Die foutsein op die laaste tydstip van proef T is eenvoudig die verskil tussen die verkreë beloning r (T) en die waarde wat die beloning VT - 1 (N - 1) voorspel. Hierdie fout is positief met waarskynlikheid pr, en negatief met waarskynlikheid (1 - pr). As ons die negatiewe foute met 'n faktor van d ∈ (0, 1] skaal, kry ons dus

Vir simmetriese kodering van positiewe en negatiewe foute (d = 1) is die gemiddelde respons 0. Vir asimmetriese kodering (0 Trace conditioning: 'n toets geval

'N Belangrike toetssaak vir ons interpretasie kom voor in 'n variant van Fiorillo et al. Se [15] taak, sowel as in die analoog instrumentele taak van Morris et al. [16], wat beide spoor-kondisionering behels. In teenstelling met die vertragingskondisionering (Figuur 3a) waarin die beloning saamval met die verrekening van die voorspellende stimulus, is hier 'n aansienlike gaping tussen die verrekening van die voorspellende stimulus en die lewering van die beloning (Figuur 3b). Dit is duidelik dat in hierdie geval onsekerheid oor die beloning net groter kan word as gevolg van geraas tydens die tydsberekening van die interval tussen stimulus en beloning [19], dus onder die onsekerheidsrekening moet daar vergelykende of selfs groter hellings wees. Die eksperimentele resultate toon egter dat die ramping-aktiwiteit kleiner of selfs weglaatbaar is (Figuur 3c; d). Let egter daarop dat die omvang van die proefgemiddelde aktiwiteit op die verwagte tyd van beloning gehandhaaf word, wat dui op 'n dissosiasie tussen die hoogte van die oprit en die hoeveelheid positiewe aktiwiteit op die verwagte tyd van beloning.

Figuur 3. Trace conditionering met probabilistiese belonings.
(a) 'n Illustrasie van een proef van Fiorillo et al. [15]. 'N Proef bestaan ​​uit 'n visuele stimulus van 2 sekondes, waarvan die verrekening saamval met die lewering van die sapbeloning, indien so 'n beloning geprogrammeer word volgens die waarskynlikheid wat verband hou met die visuele aanwysing. In onbeloonde proewe eindig die stimulus sonder beloning. In albei gevalle word 'n tussenverhoorinterval van 9 sekondes gemiddeld geskei. (b) 'n Illustrasie van een proefneming van die spoorversorgingstaak van Morris et al. [16]. Die deurslaggewende verskil is dat daar nou 'n aansienlike tydelike vertraging is tussen die verrekening van die stimulus en die aanvang van die beloning (die "spoor" -periode), en geen eksterne stimulus dui die verwagte tyd van beloning aan nie. Dit verleen bykomende onsekerheid, aangesien presiese tydsberekening van die voorspelde beloning intern opgelos moet word, veral in onbeloonde proewe. In hierdie taak, soos in [15], is een van verskeie visuele stimuli (nie getoon nie) in elke proef aangebied, en elke stimulus het 'n waarskynlikheid van beloning. Ook hier is die aap versoek om 'n instrumentele reaksie uit te voer (druk op die sleutel wat ooreenstem met die kant waarin die stimulus aangebied is), waarvan die mislukking die verhoor beëindig het sonder beloning. Proewe is geskei deur wisselende tussen-proefintervalle. (c, d) DA-afvoersnelheid (glad) ten opsigte van die basislyn, rondom die verwagte tyd van die beloning, in beloonde proewe (c) en in onbeloonde proewe (d). (c, d) Herdruk vanaf [16] © 2004 met toestemming van Elsevier. Die spore impliseer 'n algehele positiewe reaksie op die verwagte tyd van die beloning, maar met 'n baie klein of geen oprit wat voorafgaan nie. Soortgelyke resultate is behaal in 'n klassieke kondisioneringstaak wat kortliks beskryf is in [15], wat gebruik gemaak het van 'n spoor-kondisioneringsprosedure, wat bevestig dat die opsporingstydperk, en nie die instrumentele aard van die taak wat in (b) uitgebeeld word nie, die deurslaggewende verskil was tussen (a) .

Die TD-model van DA verduidelik hierdie raaiselagtige data maklik. Soos in Figuur 4 getoon, word die vorm van die oprit, alhoewel nie die hoogtepunt van die piek, beïnvloed deur die leerkoers. Die grootte van die teruggroeiende voorspellingsfoute word gedeeltelik bepaal deur die leerkoers, aangesien hierdie foute as deel van die aanlyn-aanleer van nuwe voorspellings ontstaan. Inderdaad, daar is 'n voortdurende opdatering van voorspellings sodat daar na 'n beloonde verhoor 'n hoër verwagting van beloning is (en dus die volgende beloning lei tot 'n kleiner voorspellingsfout) en omgekeerd na 'n nie-beloonde verhoor [18] (sien Figuur 2a). Hierdie opdatering van voorspellings is direk verwant aan die leerkoers - hoe hoër die leersyfer, hoe groter die voorspelling van die voorspellings volgens die huidige voorspellingsfout, en hoe groter die breuk van die voorspellingsfout wat teruggegee word. Op hierdie manier sal die verskil in verwagtinge na 'n beloonde teenoor 'n onbetaalde verhoor groter wees, en dus sal die voorspellingsfoute wanneer die volgende beloning beskikbaar is of nie beskikbaar is nie, groter wees - vandaar die groter en meer geleidelike oprit.

Figuur 4. Afhanklikheid van die oprit op leerkoers.
Die vorm van die oprit, maar nie die hoogtepunt van die piek nie, hang af van die leersyfer. Die grafiek toon gesimuleerde aktiwiteit vir die geval van pr = 0.5 naby die tyd van die verwagte beloning, vir verskillende leerkoerse, gemiddeld oor beide beloonde en onbelaste proewe. Volgens TD leer met volgehoue ​​asimmetriesgekodeerde voorspellingsfoute, word gemiddelde vertoning oor aktiwiteit in beloonde en onbelaste proewe tot 'n oprit tot die tyd van beloning. Die hoogtepunt van die hoogtepunt van die oprit word bepaal deur die verhouding van beloonde en onbelaste proewe, maar die breedte van die oprit word bepaal deur die snelheid van teruggroei van hierdie foutseine vanaf die tyd van die (verwagte) beloning na die tyd van die voorspellende stimulus. 'N Hoër leerkoers lei tot 'n groter breuk van die fout wat teruggevoer word, en dus 'n hoër oprit. Met laer leer tariewe word die oprit verwaarloos, hoewel die positiewe aktiwiteit (gemiddeld) ten tyde van die beloning steeds gehandhaaf word. Let daarop dat hoewel die leerkoers wat gebruik word in die simulasies wat in Figuur 1b uitgebeeld word, d 0.8 is, moet dit nie as die letterlike sinaptiese leersyfer van die neurale substraat geneem word nie, gegewe ons skematiese voorstelling van die stimulus. In 'n meer realistiese voorstelling waarin 'n populasie neurone aktief is by elke tydstip, sal 'n baie laer leersyfer soortgelyke resultate lewer.

In vergelyking met die vertraagde kondisionering, is spoorversorging merkwaardig stadig, wat daarop dui dat die leerkoers laag is, en dus dat daar 'n laer oprit moet wees, in ooreenstemming met die eksperimentele resultate. 'N Direkte ondersoek van die leerkoers in die data van Morris et al. [16], wie se taak 'n oormatige opleiding vereis het, aangesien dit nie net 'n spoorverskuiwing was nie, maar ook 'n instrumentele optrede betrek het, het dit bevestig dat dit baie laag was (Genela Morris - persoonlike kommunikasie, 2004).

Bespreking

Die differensiële kodering van positiewe en negatiewe waardes deur DA neurone is duidelik in al die studies van die fasiese DA sein, en kan beskou word as 'n onvermydelike gevolg van die lae basislynaktiwiteit van hierdie neurone. Inderdaad, laasgenoemde het direk voorstelle gemaak dat 'n teenstander-neurotransmitter, putatively serotonin, betrokke is by die voorstelling en dus die negatiewe voorspellingsfoute [20] leer, sodat hulle ook 'n volle kwartaal het. Hier het ons egter beperk tot die oorweging van die gevolge van asimmetrie op die proef-gemiddelde analise van die dopamien-aktiwiteit, en het getoon dat DA-aktiwiteit, sowel as 'n gemiddelde positiewe reaksie ten tye van beloning, direk uit die asimmetriese kodering van voorspellingsfoute.

Afgesien van 'n duideliker siening van die foutsein, is die belangrikste gevolg van die nuwe interpretasie dat die opritte gesien kan word as 'n handtekening van 'n TD-verskynsel wat tot dusver uiters ontwykend was. Dit is die progressiewe teruggroei van die foutsein wat deur DA-aktiwiteit verteenwoordig word, vanaf die tyd van beloning tot die tyd van die voorspeller (Figuur 2a). Die meeste vorige studies van dopaminerge aktiwiteit het gebruik gemaak van pr = 1, dus maak hierdie terugplanting op sy beurt 'n oorgangsverskynsel wat eers aan die begin van die opleiding voorgekom het (wanneer dit tipies nog nie begin is nie) en moontlik moeilik om te onderskei in stadig- brand DA neurone. Verder, soos hierbo genoem, hang die agteruitplanting af van die manier waarop die tyd tussen die voorspellende stimulus en die beloning verteenwoordig word. Dit is teenwoordig vir 'n getikte vertraginglynvoorstelling soos in [6], maar nie vir voorstellings wat die hele vertraag, soos in [21]. Let daarop dat die vorm van die oprit ook afhang van die gebruik van geskiktheidspore en die sogenaamde TD (λ) leerreël (simulasie nie getoon nie), wat 'n bykomende meganisme bied vir die oorbrugging van tyd tussen gebeure tydens die leer. Ongelukkig, aangesien die vorms van die opritte in die data nogal veranderlik is (figuur 1) en raserig, kan hulle nie sterk beperkings op die presiese TD-meganisme wat deur die brein gebruik word, verskaf nie.
Meer onlangse studies met aanhoudende voorspellingsfoute toon ook aktiwiteit wat voorspelbaar is vir teruggroei, veral Figuur 4 van [13]. In hierdie studie is voorspellingsfoute as gevolg van periodieke veranderinge in die taak, en DA-opnames is gemaak van die aanvang van opleiding, en sodoende is voortplantingsagtige aktiwiteit direk duidelik, hoewel hierdie aktiwiteit nie gekwantifiseer is nie.

Ons verwag dat die opritte net deurlopend sal voortduur as die leerkoers nie tot nul as leerprogressies verminder nie. Pearce & Hall [22] se teorie oor die beheersing van leer deur onsekerheid dui presies op hierdie volharding van leer - en daar is bewyse uit gedeeltelike versterkingskedules dat die leersyfer hoër kan wees as daar meer onsekerheid met die beloning is. Uit 'n 'rasionele' statistiese oogpunt moet leer inderdaad voortduur as daar groot onsekerheid bestaan ​​oor die verband tussen voorspellers en uitkomste, wat kan voortvloei uit die ewige moontlikheid van 'n verandering in die voorspellende verhoudings. Hierdie vorm van aanhoudende onsekerheid, tesame met onsekerheid as gevolg van aanvanklike onkunde rakende die taak, is gebruik om Pearce & Hall se teorie oor die manier waarop onsekerheid leer dryf te formaliseer [23]. Ons eis dat onsekerheid moontlik nie direk deur die opritte voorgestel word nie, moet dus beslis nie beteken dat die voorstelling en manipulasie daarvan nie belangrik is nie. Inteendeel, ons het voorgestel dat onsekerheid kortikale afleiding en leer deur ander neuromodulatoriese stelsels beïnvloed [24], en dat dit ook aspekte van die keuse van aksies kan bepaal [25].

Verskeie ander eienskappe van die asimmetrie moet opgemerk word. Die mees kritiese is die uitwerking van die asimmetrie op DA-afhanklike leer [26], as die onderstaande baseline DA-aktiwiteit self verantwoordelik is om voorspellings wat te hoog is, te verminder. Om te verseker dat die geleerde voorspellings korrek bly, moet ons aanvaar dat die asimmetriese voorstelling nie leer beïnvloed nie, dit wil sê dat 'n meganisme soos verskillende skaal vir potensiëring en depressie van die sinaptiese sterkte vergoed vir die asimmetriese foutsein. Dit sal natuurlik wel so wees as 'n teenstander se neurotransmitter betrokke is by die leer van negatiewe voorspellingsfoute. Hierdie kwessie word ingewikkeld deur die voorstel van Bayer [14] dat DA-vuurkoerse eintlik dieselfde is vir alle voorspellingsfoute onder 'n negatiewe drempel, miskien as gevolg van die vloei-effek van die lae vuurkoers. Sulke verlieskodering beïnvloed nie die kwalitatiewe prentjie van die gevolge van interpreterende gemiddeldes op die opkoms van opritte nie, maar versterk die behoefte aan 'n teenstander sein vir die noodwendig simmetriese leer.

Laastens sou die mees direkte toets van ons interpretasie 'n vergelyking wees van die intra- en tussenverhoor-gemiddelde van die DA-sein. Dit is belangrik om dit tydelik gesofistikeerd te doen om probleme met die gemiddelde van nie-stilstaande seine te vermy. Om die geraas in die neurale afvuur te oorkom en vas te stel of daar wel 'n geleidelike oprit binne 'n proef was, of, soos ons sou voorspel - afwisselende positiewe en negatiewe voorspellingsfoute, sou dit nodig wees om baie neurone gelyktydig aangeteken binne een proef, en verder neurone wat verband hou met soortgelyke leersyfers. Alternatiewelik kan enkele neuronspore teruggesak word teen die terugvoering wat deur hul voorafgaande proewe en TD-leer voorspel is. 'N Vergelyking van die hoeveelheid veranderlikes wat deur so 'n model verklaar word, in vergelyking met die van 'n regressie teen 'n monotone oprit van aktiwiteit, kan dui op die mees gepaste model. 'N Minder eenvoudige, maar meer toetsbare voorspelling is dat die vorm van die oprit afhang van die leertempo. Leersyfers kan beoordeel word op grond van die reaksie op die waarskynlike belonings, onafhanklik van die vorm van die oprit (Nakahara et al. [18] het op so 'n manier getoon dat die leersnelheid 0.3 in hul gedeeltelike versterkingstaak-taak) en moontlik gemanipuleer deur die hoeveelheid opleiding of die frekwensie waarmee taakgebeurlikhede verander en weer geleer word, te verander. Om die bestaan ​​en vorm van 'n oprit in Nakahara et al. Se opgetekende DA-aktiwiteit te kwantifiseer, kan inderdaad die huidige voorstel lig werp.

Mededingende belange
Die outeur (s) verklaar dat hulle geen mededingende belange het nie.

Skrywers se bydraes
YN, MD en PD het hierdie studie gesamentlik opgestel en uitgevoer en gehelp om die manuskrip op te stel. Alle outeurs lees en goedgekeur die finale manuskrip.

Bedankings
Ons is baie dankbaar vir H. Bergman, C. Fiorillo, N. Daw, D. Joel, P. Tobler, P. Shizgal en W. Schultz vir besprekings en kommentaar, in sommige gevalle ten spyte van wisselende interpretasie van die data. Ons is veral dankbaar aan Genela Morris vir die ontleding van haar eie gepubliseerde en ongepubliseerde data in verband met ramping. Hierdie werk is befonds deur die EC Thematic Network (YN), die Gatsby Charitable Foundation en die EU BIBA projek.

Verwysings

1. Ljungberg T, Apicella P, Schultz W: Reaksies van aap dopamien neurone tydens leer van gedragsreaksies.
Blaar Neurofysiol 1992, 67: 145-163.
Keer terug na teks
2. Schultz W: Voorspellende beloningsein van dopamienneurone. [http://jn.physiology.org/cgi/content/full/80/1/1] webwerf
Blaar van Neurofisiologie 1998, 80: 1-27. PubMed Abstract
Keer terug na teks
3. O'Doherty J, Dayan P, Friston K, Critchley H, Dolan R: Temporele verskilmodelle en beloningsverwante leer in die menslike brein.
Neuron 2003, 38: 329-337. PubMed Abstract | Uitgewer volledige teks
Keer terug na teks
4. Seymour B, O'Doherty J, Dayan P, Koltzenburg M, Jones A, Dolan R, Friston K, Frackowiak R: Temporele verskilmodelle beskryf hoërorde-leer by mense.
Natuur 2004, 429: 664-667. PubMed Abstract | Uitgewer volledige teks
Keer terug na teks
5. Montague PR, Hyman SE, Cohan JD: Rekenkundige rolle vir dopamien in gedragsbeheer.
Natuur 2004, 431: 760-767. PubMed Abstract | Uitgewer volledige teks
Keer terug na teks
6. Montague PR, Dayan P, Sejnowski TJ: 'n Raamwerk vir mesenfaliese dopamienstelsels gebaseer op voorspellende Hebbiese leer.
Die Tydskrif vir Neurowetenschappen 1996, 16: 1936-1947. PubMed Abstract | Uitgewer volledige teks
Keer terug na teks
7. Schultz W, Dayan P, Montague PR: 'n neurale substraat van voorspelling en beloning.
Wetenskap 1997, 275: 1593-1599. PubMed Abstract | Uitgewer volledige teks
Keer terug na teks
8. Sutton RS: Leer om te voorspel deur die metode van temporele verskil.
Masjienleer 1988, 3: 9-44.
Keer terug na teks
9. Sutton RS, Barto AG: [http://www.cs.ualberta.ca/~sutton/book/ebook/the-book.html] webwerf
Versterking leer: 'n Inleiding. MIT Press; 1998.
Keer terug na teks
10. Hollerman J, Schultz W: Dopamienneurone rapporteer 'n fout in die tydelike voorspelling van beloning tydens leer.
Natuur Neurowetenskap 1998, 1: 304-309. PubMed Abstract | Uitgewer volledige teks
Keer terug na teks
11. Schultz W, Apicella P, Ljungberg T: Reaksies van aap dopamien neurone om te beloon en gekondisioneerde stimuli tydens opeenvolgende stappe van die aanleer van 'n vertraagde reaksie taak.
Die Tydskrif vir Neurowetenschappen 1993, 13: 900-913. PubMed Abstract | Uitgewer volledige teks
Keer terug na teks
12. Tobler P, Dickinson A, Schultz W: Kodering van voorspelde beloning weglating deur dopamienneurone in 'n gekondisioneerde inhibisie-paradigma.
Blaar van Neurowetenschappen 2003, 23 (32): 10402-10410. PubMed Abstract | Uitgewer volledige teks
Keer terug na teks
13. Takikawa Y, Kawagoe R, Hikosaka O: 'n Moontlike rol van middelbrein dopamienneurone in kort- en langtermyn-aanpassing van sakkades na posisie-beloning kartering.
Blaar van Neurofisiologie 2004, 92: 2520-2529. PubMed Abstract | Uitgewer volledige teks
Keer terug na teks
14. Bayer H: 'n Rol vir die substantia nigra in leer en motoriese beheer.
PhD-proefskrif, New York University 2004.
Keer terug na teks
15. Fiorillo C, Tobler P, Schultz W: Diskrete kodering van beloning waarskynlikheid en onsekerheid deur dopamien neurone.
Wetenskap 2003, 299 (5614): 1898-1902. PubMed Abstract | Uitgewer volledige teks
Keer terug na teks
16. Morris G, Arkadir D, Nevet A, Vaadia E, Bergman H: Toevallige maar duidelike boodskappe van middelbrein dopamien en striatale tonies aktiewe neurone.
Neuron 2004, 43: 133-143. PubMed Abstract | Uitgewer volledige teks
Keer terug na teks
17. Barto A, Sutton R, Watkins C: Leer en opeenvolgende besluitneming. In Leer en Rekenkundige Neurowetenskap: Grondslae van Aanpasbare Netwerke. Geredigeer deur Gabriel M, Moore J. Cambridge, MA: MIT Press; 1990:539-602.
Keer terug na teks
18. Nakahara H, Itoh H, Kawagoe R, Takikawa Y, Hikosaka O: Dopamienneurone kan konteksafhanklike voorspellingsfout verteenwoordig.
Neuron 2004, 41: 269-280. PubMed Abstract | Uitgewer volledige teks
Keer terug na teks
19. Gallistel CR, Gibbon J: Tyd, tempo en kondisionering.
Sielkundige Oorsig 2000, 107: 289-344. PubMed Abstract | Uitgewer volledige teks
Keer terug na teks
20. Daw ND, Kakade S, Dayan P: Teenstander interaksies tussen serotonien en dopamien.
Neurale Netwerke 2002, 15 (4-6): 603-616. PubMed Abstract | Uitgewer volledige teks
Keer terug na teks
21. Suri RE, Schultz W: 'n Neurale netwerkmodel met dopamienagtige versterkingsein wat 'n ruimtelike vertraagde reaksietaak leer.
Neurowetenskap 1999, 91: 871-890. PubMed Abstract | Uitgewer volledige teks
Keer terug na teks
22. Pearce JM, Hall G: 'n Model vir Pavloviaanse leer: Variasies in die effektiwiteit van gekondisioneerde maar nie van ongekondisioneerde stimuli nie.
Sielkundige Oorsig 1980, 87: 532-552. PubMed Abstract | Uitgewer volledige teks
Keer terug na teks
23. Dayan P, Kakade S, Montague PR: Leer en selektiewe aandag.
Natuur Neurowetenskap 2000, 3: 1218-1223. PubMed Abstract | Uitgewer volledige teks
Keer terug na teks
24. Dayan P, Yu A: Verwagte en onverwagte onsekerheid: Ach en NE in die neokorteks. [http://books.nips.ce/papers/files/nips15/NS08.pdf] webwerf
In Vooruitgang in Neurale Inligtingverwerking Sysytems Geskryf deur Dietterich T, Becker S, Ghahramani Z. Cambridge, MA: MIT Press; 2002, 14: 189-196.
Keer terug na teks
25. Daw N, Niv Y, Dayan P: Aksies, beleide, waardes en die basale ganglia. In onlangse deurbrake in basale ganglia-navorsing. Geredigeer deur Bezard E. New York, VSA: Nova Science Publishers, Inc; in druk.
Keer terug na teks
26. Wickens J, Kötter R: Sellulêre modelle van versterking. In modelle van inligtingverwerking in die basale ganglia. Geredigeer deur Houk JC, Davis JL, Beiser DG. MIT Press; 1995:187-214.
Keer terug na teks