Dopaminova negotovost in TD učenje (2005)

PRIPOMBE: Negotovost pomeni novost. Ta zapletena študija potrjuje, da novost poveča dopamin. Pojasnjuje tudi, da bolj kot je negotova nagrada, močnejše je učenje. Internetna pornografija se razlikuje od pornografije iz preteklosti zaradi neskončne novosti - kar pomeni neskončne brizge dopamina. Njegova odvisnost je učenje in spomin. Prehod na novo zvrst pornografije aktivira dopamin in učenje - zaradi negotovosti tega, kar boste doživeli. Negotovost se pojavi tudi, ko uporabniki pornografije brskajo za pornografijo. Ne veste, kaj boste videli, in to dvigne dopamin.
Novost, negotovost in iskanje vseh aktivirajo dopamin

Celovita študija: Dopaminova negotovost in TD učenje

Vedenjske in možganske funkcije 2005, 1:6doi:10.1186/1744-9081-1-6

Yael Niv1,2, Michael O Duff2 in Peter Dayan2
Interdisciplinarni center za nevronske izračune 1, Hebrejska univerza, Jeruzalem, Izrael
2 Gatsby Oddelek za računalniško nevroznanost, University College London, London, Velika Britanija
Elektronska različica tega članka je popolna in jo lahko najdete na spletni strani: http://www.behavioralandbrainfunctions.com/content/1/1/6
© 2005 Niv et al; BioMed Central Ltd.

Minimalizem

Znatni dokazi kažejo, da fazne aktivnosti dopaminergičnih nevronov v primarnem srednjem mozgu predstavljajo napako v časovni razliki (TD) pri napovedih prihodnjega nagrajevanja, pri čemer se povečanje nad in zmanjša pod izhodiščno vrednostjo, ki je posledica napak pri pozitivnih in negativnih napovedih. Vendar pa imajo dopaminske celice zelo nizko izhodiščno aktivnost, kar pomeni, da je reprezentacija teh dveh vrst napak asimetrična. Raziskujemo posledice te na videz neškodljive asimetrije za razlago vzorcev dopaminergičnih žganja v poskusih z verjetnostnimi nagradami, ki prinašajo trajne napake pri napovedovanju. Predvsem smo pokazali, da je pri povprečenju nestacionarnih napak napovedi med preskušanji očitno treba razširiti aktivnost dopaminskih nevronov, katerih velikost je odvisna od hitrosti učenja. Ta natančen fenomen je bil opažen v nedavnem eksperimentu, čeprav so ga interpretirali kot antipodalne izraze kot znotraj-poskusno kodiranje negotovosti.

Predstavitev

Obstaja impresivno veliko število fizioloških, slikovnih in psihofarmakoloških podatkov v zvezi s fazno aktivnostjo dopaminergičnih (DA) celic v središčnicah opic, podgan in ljudi pri klasičnih in instrumentalnih opravilih, ki vključujejo napovedi prihodnjih nagrad [1-5]. Ti podatki so bili narejeni, da predlagajo [6,7], da aktivnost DA nevronov predstavlja napake v časovni razliki (TD) v napovedih prihodnje nagrade [8,9]. Ta teorija dopamina zagotavlja natančno računsko podlago za razumevanje množice vedenjskih in živčnih podatkov. Poleg tega predlaga, da DA zagotavlja signal, ki je teoretično primeren za nadzor učenja obeh napovedi in ukrepov za optimizacijo nagrajevanja.

Nekateri najbolj prepričljivi dokazi v prid teoriji TD izhajajo iz študij, ki preučujejo fazno aktivacijo dopaminskih celic kot odgovor na samovoljne dražljaje (kot so fraktalni vzorci na monitorju), ki napovedujejo bližnjo razpoložljivost nagrad (kot so kapljice soka). . V številnih variantah so ti pokazali, da se fazični DA signali s treningom prenašajo iz časa prvotno nepredvidljive nagrade v čas najzgodnejšega napovedi, ki napoveduje nagrado. To je ravno pričakovani rezultat za napoved napovedi na podlagi časovne razlike (npr. [1,2,10-13]). Osnovna ugotovitev [7] je, da ko je nagrada nepričakovana (kar je neizogibno v zgodnjih poskusih), se dopaminske celice močno odzivajo nanj. Ko je napoved predvidena, pa se celice odzovejo na napovedovalec in ne na zdaj pričakovano nagrado.

Če je predvidena nagrada nepričakovano izpuščena, so celice v običajnem času nagrajevanja fazno zavrte, ovira, ki razkrije natančen čas napovedi nagrade [10] in katere časovne meritve so trenutno v forenzičnem središču [14]. Premik aktivnosti od časa nagrade do časa napovedovalca spominja na premik apetitivne vedenjske reakcije živali od časa nagrade (brezpogojni dražljaj) do pogojenega dražljaja v klasičnih poskusih kondicioniranja [7,10] .

V najzanimivejši nedavni študiji, Fiorillo et al. [15] je preučil primer delne ojačitve, v kateri je vsaka poskusna napaka trajna, neizbežna napoved. Neposredna razlaga hipoteze napake pri napovedi TD bi nakazovala, da bi v tem primeru (a) aktivnost dopamina v času napovednih dražljajev obsegala z verjetnostjo nagrajevanja, in (b) v povprečju nad preskusi, dopaminergični odziv po stimulaciji in vse do časa nagrade mora biti nič. Čeprav je bila prva hipoteza potrjena v poskusih, druga ni bila. Izračunani povprečni odzivi so pokazali jasno povečanje aktivnosti med zamikom med začetkom in nagrado, ki se je zdela neskladna z računom TD. Fiorillo et al. domneva, da ta aktivnost predstavlja negotovost pri zagotavljanju nagrajevanja in ne napak napovedi.

V tem prispevku bomo obravnavali vprašanje trajne napake pri napovedovanju. Pokazali smo, da ključna asimetrija pri kodiranju pozitivnih in negativnih napak napovedi pripelje do pričakovanega prehajanja med povprečnim preskusnim dopaminskim signalom, in tudi dobro upošteva dve nadaljnji značilnosti DA signala - navidezno trdovratno aktivnost v času (potencialne) nagrade in izginotje (ali vsaj oslabitev) signala rampiranja, ne pa tudi signala v času plačila, namesto sledenja kondicioniranja. Oba ta pojava sta bila opažena tudi v sorodnih instrumentalnih kondicionih eksperimentih Morrisa et al. [16]. Končno, interpretiramo signal rampiranja kot najboljši dokaz, ki je trenutno na voljo za naravo učnega mehanizma, s katerim se spremeni premik aktivnosti dopamina v času napovednih dražljajev.

Negotovost pri nagrajevanju: DA ramping

Fiorillo et al. [15] je predstavitev petih različnih vizualnih dražljajev makakom povezal z zapoznelo, verjetnostno (pr = 0, 0.25, 0.5, 0.75, 1) nagrado sokov. Uporabili so paradigmo kondicioniranja zakasnitve, pri kateri dražljaj vztraja v določenem intervalu 2 s, pri čemer nagrada prejme, ko dražljaj izgine. Po treningu so opice vnaprej lizale, da so se zavedale različnih verjetnosti nagrajevanja, povezanih z vsakim dražljajem.

Slika 1a prikazuje populacijske histograme zunajcelične aktivnosti DA celic za vsak pr. Teorija TD napoveduje, da bi se fazna aktivacija DA celic v času vizualnih dražljajev morala ujemati s povprečno pričakovano nagrado, zato naj se poveča s pr. Slika 1a kaže natančno to - v celotni populaciji je povečanje precej linearno. Morris et al. [16] poroča o podobnem rezultatu v instrumentalni (sledilni) nalogi, ki vključuje tudi verjetnostno okrepitev.

Slika 1. Povprečne napake napovedi v verjetnostni nalogi nagrajevanja
(a) DA odziv v poskusih z različnimi verjetnostmi nagrajevanja. Periostimulacijski časovni histogrami populacije (PSTH) prikazujejo vsoto povečevalne aktivnosti več DA nevronov v številnih preskušanjih za vsak pr, združene med nagrajenimi in nenagrajenimi preskusi z vmesno verjetnostjo. (b) Napaka napovedi TD z asimetričnim skaliranjem. Pri simulirani nalogi je bil v vsakem preskusu naključno izbran eden od petih dražljajev in prikazan v času t = 5. Dražljaj je bil izklopljen pri t = 25, takrat je bila dodeljena nagrada z verjetnostjo pr, ki jo je dražljaj določil. Uporabili smo prisoten prikaz dražljajev z zakasnitvijo (glej besedilo), pri čemer je bil vsak dražljaj predstavljen z različnim naborom enot („nevroni“). Napaka TD je bila δ (t) = r (t) + w (t - 1) • x (t) - w (t - 1) • x (t - 1), z r (t) nagrado v času t , in x (t) in w (t) vektorja stanja in teže za enoto. Uporabljeno je bilo standardno spletno pravilo učenja TD s fiksno stopnjo učenja α, w (t) = w (t - 1) + αδ (t) x (t - 1), zato je vsaka utež predstavljala pričakovano prihodnjo vrednost nagrade. Podobno kot Fiorillo et al. Prikazujemo napako napovedi δ (t), ki je bila povprečna v mnogih poskusih, potem ko se je naloga naučila. Reprezentacijska asimetrija se pojavi, ko so bile negativne vrednosti δ (t) pred seštevanjem simuliranega PSTH pomanjšane za d = 1/6, čeprav učenje poteka v skladu z nemeriranimi napakami. Nazadnje, da bi upoštevali majhne pozitivne odzive v času dražljaja za pr = 0 in v času (predvidene) nagrade za pr = 1, ki ga vidimo v (a), smo predvidevali majhno (8%) možnost, da napovedni dražljaj je napačno identificiran. (c) DA odziv v preskusih pr = 0.5, ločen na nagrajene (levo) in nenagrajene (desno). (d) TD model (c). (a, c) Ponatis z dovoljenjem [15] © 2003 AAAS. Za vse druge uporabe je potrebno dovoljenje AAAS.

V nasprotju s tem pa v času potencialne dostave nagrade TD teorija napoveduje, da v povprečju ne bi smelo biti dejavnosti, saj v tem času napake napovedi v povprečju ni. Seveda je v verjetnostni konstrukciji ojačitve (vsaj za pr N 0, 1) v času dobave dejansko prišlo do napake pri napovedi ali neplačevanja na vsako posamezno preskušanje. Pri preskusih, v katerih je podeljena nagrada, mora biti napaka napovedi pozitivna (ker je nagrada večja od pričakovane povprečne nagrade). Nasprotno pa mora biti na preskušanjih brez nagrade negativna (glej sliko 1c). Pomembno je, da pod TD velja, da je povprečje teh razlik, tehtanih z verjetnostjo nastanka, enako nič. Če ni nič, potem mora ta napaka napovedi delovati kot signal plastičnosti, spreminja napovedi, dokler napaka napovedi ni. V nasprotju s tem pričakovanjem podatki na sliki 1a, ki so povprečeni za nagrajena in neusklajena preskušanja, kažejo, da je v tem trenutku dejansko pozitivna povprečna aktivnost. To je razvidno tudi iz podatkov Morrisa et al. [16] (glej sliko 3c). Pozitivni odgovori DA ne kažejo nobenih znakov izginjanja, tudi če se usposabljanje izvaja precej mesecev.

Slabše od tega za model TD, in dejansko v središču Fiorillo et al. [15], je navidezno širjenje aktivnosti DA v smeri pričakovanega časa nagrade. Ker je velikost rampe največja za pr = 0.5, Fiorillo et al. Predlagal je, da poroča o negotovosti pri zagotavljanju nagrajevanja, namesto napaki napovedi, in domneval, da bi ta signal lahko pojasnil navidezno privlačne lastnosti negotovosti (kot je razvidno iz iger na srečo).

Obe dejavnosti in aktivnost ob pričakovanem času nagrajevanja predstavljata kritični izziv za teorijo TD. TD učenje deluje tako, da organizira dejavnost DA naenkrat v poskusu, ki ga je mogoče predvideti s pomočjo znakov, ki so bili na voljo prej v tem preskušanju. Torej ni jasno, kako lahko vsaka na videz predvidljiva aktivnost, pa naj bo to v času nagrajevanja ali na rampi pred tem, vztraja, ne da bi bila napovedana z začetkom vizualnega dražljaja. Konec koncev, pr-odvisna aktivnost kot odziv na dražljaj potrjuje njen status kot veljaven napovedovalec. Poleg tega je ključni vidik TD [17] to, da združuje napovedovanje z izbiro dejanja z uporabo vrednosti države kot indikatorja prihodnjih nagrad, ki so na voljo v tej državi, in zato njegove privlačnosti kot cilja za ukrepanje. Iz te perspektive, ker se zgodnja napovedna aktivnost ne predvideva izrecno, ne more vplivati ​​na zgodnje ukrepanje, kot je odločitev za igranje. Na primer, razmislite o tekmovanju med dvema dejanjima: eno, ki na koncu vodi do stanja z deterministično nagrado in torej ne z rampo, drugo pa do stanja, ki mu sledi verjetnostna nagrada z isto srednjo vrednostjo in rampo. Ker rampa ne vpliva na aktivnost v času pogojenega dražljaja, se ne more uporabiti za ovrednotenje ali naklonjenost drugega dejanja (igre na srečo) nad prvo, kljub dodatni negotovosti.

Predlagamo alternativno hipotezo, da oba anomalna vzorca streljanja izvirajo neposredno iz omejitev, ki jih navaja nizka izhodiščna stopnja aktivnosti nevronov DA (2 – 4 Hz) na kodiranje podpisane napake napovedi. Kot navajajo Fiorillo et al. [15], pozitivne napake napovedi so prikazane s hitrostjo streljanja ~ 270% nad osnovno linijo, medtem ko so negativne napake predstavljene z zmanjšanjem le za ~ 55% pod osnovno linijo (glej tudi [14,18]). Ta asimetrija je neposredna posledica kodiranja podpisane količine z žganjem, ki ima nizko izhodiščno vrednost, čeprav je očitno lahko le pozitivno. Stopnje žganja nad izhodiščno vrednostjo lahko kodirajo napake pozitivnih napovedi z uporabo velikega dinamičnega razpona, vendar pa se lahko pod izhodiščno hitrostjo žganja znižajo le na nič, kar pomeni omejitev kodiranja napak pri negativnih napovedih.

Posledično je treba biti previden pri razlagi vsote (ali povprečja) histogramov perim stimulus-time-histograms (PSTH) v različnih preskušanjih, kot je bilo to storjeno na sliki 1a. Asimetrično kodirani pozitivni in negativni signali napak v času prejema ali prejema nagrade se v resnici ne bi smeli sešteti na nič, tudi če predstavljajo pravilne napake napovedi TD. Če povzamemo, nizko streljanje, ki predstavlja negativne napake v nenagrajenih preizkusih, ne bo "izničilo" hitrega streljanja, ki kodira pozitivne napake v nagrajenih poskusih, na splošno pa bo povprečje pokazalo pozitiven odziv. Seveda v možganih, saj odzivi niso povprečni po (nagrajenih in nenagrajenih) preskušanjih, temveč po nevronih v preskusu, to ne bi smelo predstavljati težav.

To pojasnjuje vztrajno pozitivno aktivnost (v povprečju) v času dostave ali neizročitve. Toda kaj je z rampo pred tem časom? Vsaj v nekaterih nevronskih predstavitvah časa med dražljajem in nagrado, ko se preskusi povprečijo, ta ista asimetrija vodi do tega, da TD nastane prav v naraščanju aktivnosti proti času nagrajevanja. Mehanizem učenja TD ima učinek, da na poskusni osnovi razširja napake pri napovedovanju, ki se pojavijo naenkrat v preskušanju (kot na primer v času plačila), do potencialnih napovedovalcev (kot je CS), ki se pojavijo. v zgodnejših časih znotraj vsakega preskušanja. Pod asimetrično reprezentacijo pozitivnih in negativnih napak napovedi, o katerih smo pravkar razpravljali, povprečenje teh propagacijskih napak v več poskusih (kot na sliki 1a) vodi do pozitivnih sredstev za epohe v poskusu pred nagrado. Natančna oblika nastale rampi aktivnosti je odvisna od načina predstavljanja dražljajev v času, kakor tudi od hitrosti učenja, kot bo obravnavano spodaj.

Slika 2 prikazuje ta pogled na izvor rampe. Tu je prisoten prikaz časa zakasnitvene črte, odkar je uporabljen dražljaj. Za to vsaka enota ('nevron') postane aktivna (tj. Prevzame vrednost 1) z določenim zamikom po predstavitvi dražljaja, tako da je vsak časovni korak po nastopu dražljaja dosledno predstavljen s sprožitvijo ene enote. Učenje temelji na napaki TD (o dopaminergičnem poročanju), ki je formalizirana kot δ (t) = r (t) + V (t) - V (t - 1), z V (t) tehtanim vhodom iz aktivne enote pri čas t in r (t) nagrada, pridobljena v času t. Posodabljanje uteži enot v skladu s standardnim pravilom posodobitve TD s fiksno hitrostjo učenja omogoča, da V (t) v povprečju predstavlja pričakovane prihodnje nagrade (glej napis 1 na sliki 2). Ker je vsak naslednji časovni korak predstavljen ločeno, se lahko napake napovedi TD pojavijo kadar koli v preskusu. Slika 0.5a prikazuje te napake v šestih zaporednih simuliranih preskusih, v katerih je pr = 2. V vsakem poskusu se ob nagradi pojavi nova pozitivna ali negativna napaka, ki nastane ob prejemu ali prejemu nagrade, postopoma pa se napake iz prejšnjih poskusov razširijo nazaj v čas dražljaja skozi stalno posodabljanje uteži (npr. napaka, označena z rdečo). Pri povprečenju (ali, tako kot pri PSTH-jih, seštevanju) po poskusih, se te napake v povprečju medsebojno prekličejo, kar ima za posledico splošni ravni histogram v intervalu po nastopu dražljaja in vodi do časa nagrade (črna črta na sliki 10b, povzeto po 1 preskusih, prikazanih v tanki modri barvi). Ko pa se po asimetričnem skaliranju negativnih napak seštejejo s faktorjem d = 6/2 (ki simulira asimetrično kodiranje pozitivnih in negativnih napak napovedi z nevroni DA), nastane pozitivna rampa aktivnosti, kar ponazarja črna črta na sliki XNUMXc. Upoštevajte, da je to spreminjanje skale le reprezentativna težava, ki izhaja iz omejitev kodiranja negativne vrednosti glede nizke izhodiščne stopnje streljanja in ne sme vplivati ​​na učenje uteži, da se ne bi naučili napačnih vrednosti (glejte razpravo). Ker pa so PSTH neposredno vsote nevronskih konic, to reprezentativno vprašanje temelji na nastalem histogramu.

Slika 2. Razkritje napak napovedi pojasnjuje aktivnost.
(a) Napaka napovedi TD za vsako od šestih zaporednih preskusov (od zgoraj navzdol) iz simulacije na sliki 1b s pr = 0.5. Poudarjeno v rdeči barvi je napaka v času nagrajevanja v prvem preskušanju in njeno postopno nazadovanje v smeri časa spodbude v naslednjih poskusih. Črke črke označujejo izid vsakega posameznega preskušanja (R = nagrajen; N = ni nagrajen). Zaporedje nagrajevanj pred temi preskusi je navedeno zgoraj desno. (b) Napaka TD iz teh šestih preizkusov in še štiri, ki so sledile, so se prekrivale. Rdeče in zelene črte ponazarjata ovojnico napak v teh poskusih. Če povzamemo ta preskušanja, rezultati povprečne aktivnosti niso preseženi (črna črta), saj se pozitivne in negativne napake pojavijo naključno v 50% časa in se tako medsebojno prekličejo. (c) Če pa so napake napovedi nesimetrično predstavljene nad in pod osnovno hitrostjo žganja (v tem primeru so bile negativne napake asimetrično pomanjšane z d = 1 / 6, da simulira asimetrično kodiranje napak napovedi z DA nevroni), povprečno povečanje aktivnosti nastaja pri povprečenju preskusov, kar je prikazano s črno črto. Vsi simulacijski parametri so enaki kot na sliki 1b, d.

Številke 1b, d prikazujejo rampo, ki izhaja iz te kombinacije asimetričnega kodiranja in povprečja med poskusi, za primerjavo s poskusnimi podatki. Slika 1b prikazuje PSTH, izračunano iz naših simuliranih podatkov, s povprečenjem preko asimetrično predstavljenega signala δ (t) v preskusih ~ 50 za vsak tip dražljaja. Na sliki 1d so prikazani rezultati za primer pr = 0.5, razdeljen na nagrajene in neusklajene preskuse za primerjavo s sliko 1c. Simulirani rezultati so zelo podobni eksperimentalnim podatkom, saj posnemajo neto pozitivni odziv na negotove nagrade in učinek rampiranja, ki je najvišji v primeru pr = 0.5.

Povprečni odziv v času nagrade (t = N) v poskusu T, tj. povprečno napako TD δT(N), je enostavno izpeljati iz pravila učenja TD s poenostavljeno predstavitev časa zakasnitve in fiksna stopnja učenja α. Vrednost v predzadnjem časovnem koraku v poskusu, kot funkcija števila poskusov (z začetnimi vrednostmi, ki so enake nič), je

kjer je r (t) nagrada na koncu preizkusa t. Signal napake na zadnjem časovnem koraku preizkusa T je preprosto razlika med pridobljeno nagrado r (T) in vrednostjo, ki napoveduje to nagrado VT - 1 (N - 1). Ta napaka je pozitivna pri verjetnosti pr in negativna pri verjetnosti (1 - pr). Tako izračunamo negativne napake s faktorjem d ∈ (0, 1]

Za simetrično kodiranje pozitivnih in negativnih napak (d = 1) je povprečni odziv 0. Za asimetrično kodiranje (0 Kondicioniranje sledi: testni primer

Pomemben testni primer za našo interpretacijo se pojavi v različici naloge Fiorillo et al. [15], pa tudi v analogni instrumentalni nalogi Morrisa et al. [16], oba vključujeta kondicioniranje sledi. V nasprotju s pogojevanjem zakasnitve (slika 3a), pri kateri nagrada sovpada z odmikom napovednega dražljaja, tukaj obstaja precejšnja vrzel med odmikom napovednega dražljaja in oddajo nagrade (slika 3b). Jasno je, da bi se lahko v tem primeru negotovost glede nagrade le povečala zaradi hrupa pri določanju časovnega intervala med dražljajem in nagrado [19], zato bi morale biti pod računom negotovosti primerljive ali celo večje rampe. Vendar pa eksperimentalni rezultati kažejo, da je aktivnost rampanja manjša ali celo zanemarljiva (slika 3c; d). Upoštevajte pa, da se obseg poskusne povprečne aktivnosti v pričakovanem času nagrade ohrani, kar kaže na disociacijo med višino klančine in količino pozitivne aktivnosti v pričakovanem času nagrade.

Slika 3. Kondicioniranje sledi z verjetnostnimi nagradami.
(a) Ilustracija enega preizkusa naloge kondicioniranja zakasnitve Fiorillo et al. [15]. Preskus je sestavljen iz 2-sekundnega vizualnega dražljaja, katerega odmik sovpada z dostavo nagrade za sok, če je taka nagrada programirana glede na verjetnost, povezano z vidnim znakom. V nenagrajenih preizkusih se dražljaj konča brez nagrade. V obeh primerih preskušanje v povprečju ločuje interval med preskusi, ki traja 9 sekund. (b) Ilustracija enega preskusa naloge kondicioniranja sledov Morrisa et al. [16]. Ključna razlika je v tem, da je zdaj med odmikom dražljaja in začetkom nagrade (obdobje »sledi«) precejšnja časovna zamuda, noben zunanji dražljaj pa ne kaže na pričakovani čas nagrade. To prinaša dodatno negotovost, saj je treba natančen čas predvidene nagrade rešiti interno, zlasti v nenagrajenih preizkušnjah. Pri tej nalogi je bil, tako kot v [15], v vsakem poskusu predstavljen eden od več vizualnih dražljajev (ni prikazan), vsak dražljaj pa je bil povezan z verjetnostjo nagrade. Tudi tu so od opice zahtevali, da izvede instrumentalni odziv (pritisne tipko, ki ustreza strani, na kateri je bil predstavljen dražljaj), katere neuspeh je poskus zaključil brez nagrade. Poskusi so bili ločeni s spremenljivimi preskusnimi intervali. (c, d) hitrost streljanja DA (zglajena) glede na izhodišče, približno pričakovani čas nagrade, v nagrajenih poskusih (c) in v nenagrajenih poskusih (d). (c, d) Ponatis iz [16] © 2004 z dovoljenjem Elsevierja. Sledi pomenijo splošen pozitiven odziv v pričakovanem času nagrade, vendar pred zelo majhno ali brez rampe. Podobni rezultati so bili pridobljeni pri klasični nalogi za kondicioniranje, na kratko opisani v [15], ki je uporabila postopek kondicioniranja sledi, ki potrjuje, da je bilo obdobje sledenja in ne instrumentalna narava naloge, prikazane v (b), bistvena razlika od .

TD model DA zlahka razloži te zmedene podatke. Kot je prikazano na sliki 4, učinek učenja vpliva na obliko rampe, čeprav ne na višino njenega vrha. Velikost napak napovedi, ki se širi nazaj, je deloma določena s stopnjo učenja, saj se te napake pojavijo kot del spletnega učenja novih napovedi. Dejansko obstaja nenehno posodabljanje napovedi, tako da po nagrajenem preskušanju obstaja višje pričakovanje za nagrado (in s tem naslednja nagrada povzroči manjšo napoved napovedi) in obratno po ne-nagrajenem sojenju [18] (glej sliko) 2a). To posodabljanje napovedi je neposredno povezano s hitrostjo učenja - večja je stopnja učenja, večja je posodobitev napovedi glede na trenutno napako napovedi in večji je delež napake napovedi, ki se posreduje nazaj. Na ta način, z višjimi stopnjami učenja, bo razlika v pričakovanjih po nagrajenem nasprotujočem poskusu večja, zato bodo napake pri napovedi, ko je naslednja nagrada na voljo ali ni na voljo, večje - zato je večja in bolj postopna rampa.

Slika 4. Odvisnost rampe od stopnje učenja.
Oblika klančine, vendar ne višina njenega vrha, je odvisna od stopnje učenja. Graf prikazuje simulirano aktivnost za primer pr = 0.5 blizu časa pričakovane nagrade, za različne stopnje učenja, povprečje na obeh nagrajenih in neusklajenih preskušanjih. Glede na TD učenje z vztrajnimi asimetrično kodiranimi napakami napovedi, se povprečje nad aktivnostmi v nagrajenih in nevračenih poskusih doseže v rampi do časa nagrajevanja. Višina vrha rampe je določena z razmerjem med nagrajenimi in neusklajenimi poskusi, vendar je širina rampe določena s hitrostjo povratnega prenosa teh signalov napake od časa (pričakovane) nagrade do čas napovednega dražljaja. Višja stopnja učenja povzroči večji delež napake, ki se širi nazaj, in s tem višjo ploščad. Z nižjimi stopnjami učenja postane rampa zanemarljiva, čeprav se pozitivna aktivnost (v povprečju) v času plačila še vedno ohranja. Upoštevajte, da čeprav je bila stopnja učenja, uporabljena v simulacijah, prikazanih na sliki 1b, d 0.8, to ne bi smeli vzeti kot literarno sinaptično stopnjo učenja nevralnega substrata glede na našo shematično predstavitev dražljaja. V bolj realističnem prikazu, v katerem je populacija nevronov aktivna ob vsakem času, bi veliko nižja stopnja učenja prinesla podobne rezultate.

V primerjavi z zakasnitvijo kondicioniranja je sledljivost notorično počasna, kar nakazuje, da je stopnja učenja nizka in da bi zato morala biti v skladu z eksperimentalnimi rezultati nižja rampa. Neposredno preverjanje stopnje učenja v podatkih Morrisa in sod. [16], čigar naloga je zahtevala prekomerno usposabljanje, saj ni bila le naprava za sledenje, ampak je vključevala tudi instrumentalno akcijo, je potrdila, da je resnično zelo nizka (Genela Morris - osebna komunikacija, 2004).

Razprava

Diferencirano kodiranje pozitivnih in negativnih vrednosti z DA nevroni je razvidno iz vseh študij faznega DA signala in se lahko obravnava kot neizogibna posledica nizke izhodiščne aktivnosti teh nevronov. Pravzaprav je slednji neposredno navdihnil predloge, da je nasprotnik nevrotransmiter, domnevno serotonin, vključen v predstavljanje in zato učenje negativnih napak napovedi [20], tako da imajo tudi polno četrtino. Pri tem smo se omejili le na preučevanje učinkov asimetrije na analizo povprečne dopaminske aktivnosti v preskušanju in pokazali, da naraščajoča aktivnost DA in povprečni pozitivni odziv v času nagrajevanja izhajajo neposredno iz asimetrično kodiranje napak napovedi.

Poleg jasnejšega pogleda na signal o napaki je najpomembnejša posledica nove razlage, da so rampe mogoče razumeti kot podpis TD pojava, ki je bila doslej izjemno izmuzljiva. To je progresivno povratno širjenje signala napake, ki ga predstavlja aktivnost DA, od časa nagrajevanja do časa prediktorja (slika 2a). Večina prejšnjih študij dopaminergičnega delovanja je uporabila pr = 1, tako da je ta povratna propagacija v najboljšem primeru prehodni pojav, ki je očiten šele na začetku usposabljanja (ko običajno še niso začeli snemanja) in potencialno težko razločiti v počasi sprožitev DA nevronov. Nadalje, kot smo že omenili, je povratno širjenje odvisno od tega, kako je predstavljen čas med napovednim dražljajem in nagrado - prisoten je za prikazano zakasnitveno linijo kot v [6], ne pa tudi za predstavitve, ki zajemajo celotno zakasnitev, na primer v [21]. Upoštevajte, da je oblika rampe odvisna tudi od uporabe sledi upravičenosti in tako imenovanega TD (λ) pravila učenja (simulacija ni prikazana), ki zagotavljajo dodaten mehanizem za premostitev časa med dogodki med učenjem. Na žalost, ker so oblike ramp v podatkih precej spremenljive (slika 1) in hrupne, ne morejo zagotoviti močnih omejitev na natančen TD mehanizem, ki ga uporabljajo možgani.
Novejše študije, ki vključujejo trajne napake pri napovedovanju, kažejo tudi na aktivnost, ki kaže na povratno širjenje, zlasti na sliko 4 [13]. V tej študiji so napake pri napovedovanju nastale zaradi rednih sprememb v nalogi, zapiski DA pa so bili narejeni od začetka usposabljanja, zato je aktivnost, podobna povratni propagaciji, očitna, čeprav ta aktivnost ni bila kvantificirana.

Pričakujemo, da bodo rampe nadaljevale skozi celotno usposabljanje samo, če se stopnja učenja ne zmanjša na nič, ko bo učenje napredovalo. Pearce & Hallova teorija [22] o nadzoru učenja z negotovostjo nakazuje točno to vztrajnost učenja - in iz delnih urnikov okrepitve obstajajo dokazi, da je stopnja učenja lahko višja, če je večja negotovost, povezana z nagrado. Z 'racionalnega' statističnega vidika bi moralo učenje nadaljevati, kadar obstaja precejšnja negotovost glede razmerja med napovedovalci in rezultati, kar lahko izhaja iz vedno prisotne možnosti sprememb v napovednih odnosih. Ta oblika vztrajne negotovosti, skupaj z negotovostjo zaradi začetnega neznanja v zvezi z nalogo, je bila uporabljena za formalizacijo Pearce & Hallove teorije o načinu, kako negotovost poganja učenje [23]. Zato naše trditve, da negotovosti rampe morda ne predstavljajo neposredno, vsekakor ne bi smeli razumeti, da njegova predstavitev in manipulacija nista pomembni. Nasprotno, predlagali smo, da negotovost vpliva na sklepanje skorje in učenje prek drugih nevromodulatornih sistemov [24] in da lahko določa tudi vidike izbire ukrepov [25].

Upoštevati je treba različne druge značilnosti asimetrije. Najbolj kritičen je učinek asimetrije na učenje, odvisno od DA [26], če je spodnja osnovna aktivnost DA sama odgovorna za zmanjšanje napovedi, ki so previsoke. Da bi zagotovili, da bodo naučili napovedi pravilne, bi morali domnevati, da asimetrična reprezentacija ne vpliva na učenje, tj. Da mehanizem, kot je različno skaliranje za potenciranje in depresijo sinaptičnih jakosti, kompenzira asimetrični signal napake. Seveda bi bilo to sporno, če bi se nasprotni nevrotransmiter vključil v učenje iz negativnih napak napovedi. To vprašanje je zapleteno s predlogom Bayerja [14], da so stopnje sprožitve DA dejansko podobne za vse napake napovedi pod nekaterim negativnim pragom, morda zaradi učinka nizke stopnje sprožitve. Takšno kodiranje z izgubo ne vpliva na kvalitativno sliko učinkov medpredmetnega povprečja na pojav ramp, vendar krepi potrebo po nasprotnem signalu za nujno simetrično učenje.

Na koncu bi bil najbolj neposreden test naše interpretacije primerjava povprečja signala DA znotraj in med preskusi. Pomembno bi bilo, da to storimo začasno prefinjeno, da se izognemo težavam s povprečenjem nestacionarnih signalov. Da bi premagali hrup pri nevronskem streljanju in ugotovili, ali je v preskusu res prišlo do postopne rampe, ali, kot bi predvidevali - občasne pozitivne in negativne napake napovedi, bi bilo treba povprečje več nevronov, zabeleženih hkrati eno preskušanje in poleg tega nevroni, povezani s podobnimi stopnjami učenja. Lahko pa bi tudi sledi posameznih nevronov regresirali glede na odziv povratnega razmnoževanja, ki so ga napovedovali predhodni poskusi in učenje TD. Primerjava velikosti variabilnosti, ki jo je razložil tak model, v primerjavi s primerjavo regresije proti monotoni rampi aktivnosti bi lahko pokazala na najbolj primeren model. Manj neposredna, a bolj preizkusljiva napoved je, da mora biti oblika klančine odvisna od stopnje učenja. Stopnje učenja je mogoče oceniti na podlagi odziva na verjetnostne nagrade, neodvisno od oblike klančine (Nakahara in sod. [18] so pokazali tako, da je bila pri njihovi nalogi delne kondicije za okrepitev stopnja učenja 0.3), in z njimi lahko manipuliramo s spreminjanjem obsega treninga ali pogostosti spreminjanja in ponovnega učenja nepredvidenih dogodkov. Dejansko bi lahko količinska opredelitev obstoja in oblike klančine v evidentirani dejavnosti DA Nakahara et al. Dobro osvetlila sedanji predlog.

Konkurenčni interesi
Avtor (ji) izjavlja, da nima nobenih konkurenčnih interesov.

Prispevki avtorjev
YN, MD in PD so skupaj pripravili in izvedli to študijo in pomagali pripraviti rokopis. Vsi avtorji so prebrali in odobrili končni rokopis.

Priznanja
Zelo smo hvaležni H. Bergmanu, C. Fiorillu, N. Daw, D. Joelu, P. Toblerju, P. Shizgalu in W. Schultzu za razprave in pripombe, v nekaterih primerih kljub različni razlagi podatkov. Zlasti smo hvaležni Geneli Morris za analizo lastnih objavljenih in neobjavljenih podatkov v zvezi z rampingom. To delo so financirali Tematska mreža ES (YN), Dobrodelna fundacija Gatsby in projekt EU BIBA.

Reference

1. Ljungberg T, Apicella P, Schultz W: Odzivi opičjih dopaminskih nevronov med učenjem vedenjskih reakcij.
Journal Neurophysiol 1992, 67: 145-163.
Vrnitev na besedilo
2. Schultz W: Prediktivni signal nagrajevanja dopaminskih nevronov. [http://jn.physiology.org/cgi/content/full/80/1/1] spletna stran
Časopis za nevrofiziologijo 1998, 80: 1-27. PubMed Povzetek
Vrnitev na besedilo
3. O'Doherty J, Dayan P, Friston K, Critchley H, Dolan R: Modeli časovne razlike in z nagrajevanjem povezano učenje v človeških možganih.
Nevron 2003, 38: 329-337. PubMed Povzetek | Celotno besedilo založnika
Vrnitev na besedilo
4. Seymour B, O'Doherty J, Dayan P, Koltzenburg M, Jones A, Dolan R, Friston K, Frackowiak R: Modeli časovne razlike opisujejo učenje višjega reda pri ljudeh.
Narava 2004, 429: 664-667. PubMed Povzetek | Celotno besedilo založnika
Vrnitev na besedilo
5. Montague PR, Hyman SE, Cohan JD: Računalniške vloge za dopamin pri nadzoru vedenja.
Narava 2004, 431: 760-767. PubMed Povzetek | Celotno besedilo založnika
Vrnitev na besedilo
6. Montague PR, Dayan P, Sejnowski TJ: Ogrodje za mezencefalne dopaminske sisteme, ki temeljijo na napovednem Hebbovem učenju.
Journal of Neuroscience 1996, 16: 1936-1947. PubMed Povzetek | Celotno besedilo založnika
Vrnitev na besedilo
7. Schultz W, Dayan P, Montague PR: Živčni substrat napovedovanja in nagrajevanja.
Znanost 1997, 275: 1593-1599. PubMed Povzetek | Celotno besedilo založnika
Vrnitev na besedilo
8. Sutton RS: Učenje napovedovanja po metodi časovne razlike.
Strojno učenje 1988, 3: 9-44.
Vrnitev na besedilo
9. Sutton RS, Barto AG: [http://www.cs.ualberta.ca/~sutton/book/ebook/the-book.html] spletna stran
Krepitev učenja: uvod. MIT Press; 1998.
Vrnitev na besedilo
10. Hollerman J, Schultz W: Dopaminski nevroni poročajo o napaki v časovni napovedi nagrajevanja med učenjem.
Narava Nevroznanost 1998, 1: 304-309. PubMed Povzetek | Celotno besedilo založnika
Vrnitev na besedilo
11. Schultz W, Apicella P, Ljungberg T: Odzivi opičjih dopaminskih nevronov na nagrajevanje in pogojene dražljaje med zaporednimi koraki učenja naloge z zakasnjenim odzivom.
Journal of Neuroscience 1993, 13: 900-913. PubMed Povzetek | Celotno besedilo založnika
Vrnitev na besedilo
12. Tobler P, Dickinson A, Schultz W: Kodiranje predvidene opustitve nagrade z dopaminskimi nevroni v paradigmi pogojne inhibicije.
Journal of Neuroscience 2003, 23 (32): 10402-10410. PubMed Povzetek | Celotno besedilo založnika
Vrnitev na besedilo
13. Takikawa Y, Kawagoe R, Hikosaka O: Možna vloga dopaminskih nevronov srednjih možganov pri kratkoročnem in dolgoročnem prilagajanju sakad na preslikavo nagrajevanja položaja.
Časopis za nevrofiziologijo 2004, 92: 2520-2529. PubMed Povzetek | Celotno besedilo založnika
Vrnitev na besedilo
14. Bayer H: Vloga črne snovi pri učenju in nadzoru motorike.
Doktorska disertacija, New York University 2004.
Vrnitev na besedilo
15. Fiorillo C, Tobler P, Schultz W: Diskretno kodiranje verjetnosti in negotovosti nagrade z dopaminskimi nevroni.
Znanost 2003, 299 (5614): 1898-1902. PubMed Povzetek | Celotno besedilo založnika
Vrnitev na besedilo
16. Morris G, Arkadir D, Nevet A, Vaadia E, Bergman H: Sovpadajoča, a različna sporočila dopamina srednjih možganov in striatnih tonično aktivnih nevronov.
Nevron 2004, 43: 133-143. PubMed Povzetek | Celotno besedilo založnika
Vrnitev na besedilo
17. Barto A, Sutton R, Watkins C: Učenje in zaporedno odločanje. V Učenje in računalniška nevroznanost: Temelji prilagodljivih omrežij. Uredil Gabriel M, Moore J. Cambridge, MA: MIT Press; 1990: 539-602.
Vrnitev na besedilo
18. Nakahara H, Itoh H, Kawagoe R, Takikawa Y, Hikosaka O: Dopaminski nevroni lahko predstavljajo kontekstno odvisno napovedno napako.
Nevron 2004, 41: 269-280. PubMed Povzetek | Celotno besedilo založnika
Vrnitev na besedilo
19. Gallistel CR, Gibbon J: Čas, hitrost in kondicioniranje.
Psihološki pregled 2000, 107: 289-344. PubMed Povzetek | Celotno besedilo založnika
Vrnitev na besedilo
20. Daw ND, Kakade S, Dayan P: Nasprotne interakcije med serotoninom in dopaminom.
Nevronske mreže 2002, 15 (4-6): 603-616. PubMed Povzetek | Celotno besedilo založnika
Vrnitev na besedilo
21. Suri RE, Schultz W: Model nevronske mreže z dopaminu podobnim ojačevalnim signalom, ki se nauči naloge prostorskega zakasnjenega odziva.
Nevroznanost 1999, 91: 871-890. PubMed Povzetek | Celotno besedilo založnika
Vrnitev na besedilo
22. Pearce JM, Dvorana G: Model Pavlovskega učenja: Spremembe v učinkovitosti pogojnih, vendar ne brezpogojnih dražljajev.
Psihološki pregled 1980, 87: 532-552. PubMed Povzetek | Celotno besedilo založnika
Vrnitev na besedilo
23. Dayan P, Kakade S, Montague PR: Učenje in selektivna pozornost.
Narava Nevroznanost 2000, 3: 1218-1223. PubMed Povzetek | Celotno besedilo založnika
Vrnitev na besedilo
24. Dayan P, Yu A: Pričakovana in nepričakovana negotovost: Ach in NE v neokorteksu. [http://books.nips.ce/papers/files/nips15/NS08.pdf] spletna stran
V napredku pri obdelavi nevronskih informacij Sysytems Uredil Dietterich T, Becker S, Ghahramani Z. Cambridge, MA: MIT Press; 2002, 14: 189-196.
Vrnitev na besedilo
25. Daw N, Niv Y, Dayan P: Dejanja, politike, vrednote in bazalni gangliji. V nedavnih prebojih v raziskavah bazalnih ganglijev. Uredil Bezard E. New York, ZDA: Nova Science Publishers, Inc; v tisku.
Vrnitev na besedilo
26. Wickens J, Kötter R: Cellular models of reinforcememnt. V Modeli obdelave informacij v bazalnih ganglijih. Uredili Houk JC, Davis JL, Beiser DG. MIT Press; 1995: 187-214.
Vrnitev na besedilo