Necerteco pri Dopamino kaj Lernado de TD (2005)

KOMENTOJ: Necerteco signifas novecon. Ĉi tiu kompleksa studo konfirmas, ke noveco pliigas dopaminon. Ĝi ankaŭ klarigas, ke ju pli necerta estas la rekompenco, des pli forta estas la lernado. Interreta porno diferencas de porno de la pasinteco pro la senfina noveco - kio signifas senfinajn ŝprucojn de dopamino. Dependeco ĉe ĝia kerno estas lernado kaj memoro. Ŝanĝi al nova ĝenro de porno aktivigas dopaminon kaj lernadon - pro la necerteco pri tio, kion vi spertos. Necerteco ankaŭ okazas kiam uzantoj de porno serĉas por porno. Vi ne scias, kion vi estas vidonta, kaj tio forprenas dopaminon.
Noveco, necerteco, kaj serĉado ĉiuj aktivigas dopaminon

Plena Studo: Dopamina Necerteco kaj TD-Lernado

Kondutaj kaj Cerbaj Funkcioj 2005, 1:6doi:10.1186/1744-9081-1-6

Yael Niv1,2, Michael O Duff2 kaj Peter Dayan2
1 Interdisciplinar Centro por Neŭra Komputado, Hebrea Universitato, Jerusalemo, Israelo
2 Gatsby Computational Neuroscience Unit, University College London, Londono, UK
La elektronika versio de ĉi tiu artikolo estas la kompleta kaj troveblas rete ĉe: http://www.behavioralandbrainfunctions.com/content/1/1/6
© 2005 Niv et al; licencito BioMed Central Ltd.

abstrakta

Substantiva evidenteco sugestas, ke la fazaj agadoj de dopaminergiaj neŭronoj en la primata mez-cerbo reprezentas tempan diferencon (TD) eraro en antaŭdiroj de estonta rekompenco, kun pliigoj supre kaj malkreskoj sub la bazlinio sekve de pozitivaj kaj negativaj prognozaj eraroj respektive. Tamen, dopaminaj ĉeloj havas tre malaltan bazan agadon, kio implicas, ke la reprezentado de ĉi tiuj du specoj de eraroj estas nesimetria. Ni esploras la implicojn de ĉi tiu ŝajne senkulpa malsimetrio por la interpreto de dopaminergiaj pafaj ŝablonoj en eksperimentoj kun probabilistikaj rekompencoj, kiuj provokas konstantajn prognozajn erarojn. Precipe ni montras, ke kiam oni mezuras la ne-staciajn prognozajn erarojn tra provoj, devas ŝajni rampado en la agado de la dopaminaj neŭronoj, kies grando dependas de la lernokosto. Ĉi tiu ĝusta fenomeno estis observita en freŝa eksperimento, kvankam interpretite tie en antipodaj terminoj kiel en-prova kodado de necerteco.

Enkonduko

Estas imprese granda korpo de fiziologiaj, bildigaj, kaj psikofarmakologiaj datumoj pri la fazika agado de dopaminergiaj (DA) ĉeloj en la mezaj katenoj de simioj, ratoj kaj homoj en klasikaj kaj instrumentaj kondiĉaj taskoj kun prognozoj pri estontaj rekompencoj [1-5]. Ĉi tiuj datumoj prenis por sugesti [6,7], ke la agado de DA-neŭronoj reprezentas tempajn diferencajn (TD) erarojn en la antaŭdiroj de estonta rekompenco [8,9]. Ĉi tiu TD-teorio de dopamino provizas precizan komputan fundamenton por komprenado de amaso da kondutaj kaj neŭralaj datumoj. Plue, ĝi sugestas, ke DA provizas signalon, kiu teorie taŭgas por kontroli lernadon de ambaŭ antaŭdiroj kaj rekompenc-optimumigaj agoj.

Iuj el la plej konvinka evidenteco en favoro de la TD-teorio venas de studoj esplorantaj la fazan aktivadon de dopaminaj ĉeloj en respondo al arbitraj stimuloj (kiel fractalaj ŝablonoj sur monitoro), kiuj antaŭdiras proksimuman haveblecon de rekompencoj (kiel gutoj da suko) . En multaj variantoj, ĉi tiuj montris, ke per trejnado, fazaj DA-signaloj translokiĝas de la tempo de la komence neantaŭvidebla rekompenco, al la tempo de la plej frua prognozo de rekompenco. Ĉi tio estas ĝuste la atendita rezulto por temp-diferenca bazita prognoza eraro (ekz. [1,2,10-13]). La baza trovo [7] estas, ke rekompenco neatendita (kio estas neevitebla en fruaj provoj), dopaminaj ĉeloj respondas forte al ĝi. Tamen oni rekomendas rekompencon, tamen la ĉeloj respondas al la antaŭdiro, kaj ne al la nun atendata rekompenco.

Se antaŭvidita rekompenco estas neatendite preterlasita, tiam la ĉeloj estas fiaske malhelpitaj en la normala tempo de la rekompenco, inhibicio, kiu malkaŝas la precizan tempon de la antaŭdiro de rekompenco [10], kaj kies tempaj metrikoj estas nuntempe sub krimmedicina atento [14]. La ŝanĝo de agado de la tempo de rekompenco al la tempo de la antaŭdiro similas al la ŝanĝo de la apetita konduta reago de la besto de la tempo de la rekompenco (la senkondiĉa stimulo) al tiu de la kondiĉita stimulo en klasikaj kondiĉoj de eksperimentoj [7,10] .

En plej interesa lastatempa studo, Fiorillo et al. [15] ekzamenis la kazon de parta plifortigo, en kiu ekzistas konstanta, neelektebla, prognoza eraro pri ĉiu unuopa provo. Rekta interpreto de la antaŭdiro de erara hipotezo sugestas, ke en ĉi tiu kazo (a) dopamina agado tiutempe de la prognozaj stimuloj skalus kun la probablo de rekompenco, kaj (b) averaĝe super provoj, la dopaminergia respondo post la stimulo. kaj la tuta vojo ĝis la tempo de la rekompenco estu nula. Kvankam la unua hipotezo estis konfirmita en la eksperimentoj, la dua ne estis. La intertempaj averaĝaj respondoj montris klaran rampadon de la agado dum la malfruo inter stimula komenco kaj rekompenco, kiuj ŝajnis malkonsekvencaj kun la TD-konto. Fiorillo et al. hipotezis, ke ĉi tiu aktiveco reprezentas la necertecon en liveraĵo de rekompenco, prefere ol prognoza eraro.

En ĉi tiu papero, ni vizitas la aferon de konstanta prognoza eraro. Ni montras, ke kerna malsimetrio en la kodado de pozitivaj kaj negativaj prognozaj eraroj kondukas, ke oni atendu la rampadon en la interproceza mezuma dopamina signalo, kaj ankaŭ bone montras du pliajn funkciojn de la DA-signalo - ŝajna konstanta agado en la momento de la (ebla) rekompenco, kaj malapero (aŭ almenaŭ malfortiĝo) de la rampanta signalo, sed ne la signalo en la momento de rekompenco, en la vizaĝo de spuro anstataŭ malfrua kondiĉado. Ambaŭ ĉi tiuj fenomenoj ankaŭ estis observitaj en la rilataj instrumentaj kondiĉaj eksperimentoj de Morris et al. [16]. Fine ni interpretas la rampan signalon kiel la plej bonan evidentecon disponeblan nuntempe por la naturo de la lernadmekanismo per kiu okazas la translokiĝo de dopamina aktiveco al la tempo de la prognozaj stimuloj.

Necerteco en rekompenco: DA rampado

Fiorillo et al. [15] asociis la prezenton de kvin malsamaj vidaj stimuloj al makakoj kun la malfrua, probabla (pr = 0, 0.25, 0.5, 0.75, 1) liverado de sukaj rekompencoj. Ili uzis malfruan kondiĉigan paradigmon, en kiu la stimulo daŭras dum fiksita intervalo de 2s, kun rekompenco donita kiam la stimulo malaperas. Post trejnado, la anticipa lekado de la simioj indikis, ke ili konscias pri la malsamaj rekompencaj probabloj asociitaj kun ĉiu stimulo.

Figuro 1a montras popolajn histogramojn de eksterĉelule registrita DA-ĉela aktiveco, por ĉiu pr. TD-teorio antaŭdiras, ke la faza aktivigo de la DA-ĉeloj en la momento de la vidaj stimuloj devas korespondi kun la averaĝa atendata rekompenco, kaj do devas pliiĝi kun pr. Figuro 1a montras ĝuste tion - ja, en la tuta loĝantaro, la kresko estas sufiĉe lineara. Morris et al. [16] raportas similan rezulton en instrumenta (spura) kondiĉiga tasko ankaŭ implikanta probabilisman plifortigon.

Figuro 1. Komencaj prognozaj eraroj en probabilisma rekompenca tasko
(a) DA-respondo en provoj kun malsamaj rekompencaj probabloj. Populaciaj peri-stimulaj tempaj histogramoj (PSTHoj) montras la sumigitan spikan agadon de pluraj DA-neŭronoj dum multaj provoj, por ĉiu pr, kunigitaj super rekompencitaj kaj rekompencitaj provoj ĉe interaj probabloj. (b) TD-prognozo-eraro kun nesimetria grimpado. En la simulita tasko, en ĉiu provo unu el kvin stimuloj estis hazarde elektita kaj montrata en la tempo t = 5. La stimulo estis malŝaltita ĉe t = 25, tiam rekompenco estis donita kun probablo de pr specifita de la stimulo. Ni uzis frapitan prokrastlinian reprezentadon de la stimuloj (vidu tekston), kun ĉiu stimulo reprezentita de malsama aro de unuoj ('neŭronoj'). La TD-eraro estis δ (t) = r (t) + w (t - 1) • x (t) - w (t - 1) • x (t - 1), kun r (t) la rekompenco samtempe t , kaj x (t) kaj w (t) la stataj kaj pezaj vektoroj por la unuo. Norma interreta TD-lerno-regulo estis uzata kun fiksa lern-indico α, w (t) = w (t - 1) + αδ (t) x (t - 1), do ĉiu pezo reprezentis atendatan estontan rekompencan valoron. Simile al Fiorillo k.a., ni prezentas la prognozan eraron δ (t) mezumitan dum multaj provoj, post kiam la tasko estis lernita. La reprezenta malsimetrio ekestas kiel negativaj valoroj de δ (t) estis skalitaj per d = 1/6 antaŭ sumigo de la ŝajniga PSTH, kvankam lernado enspezas laŭ neskalitaj eraroj. Fine, por kalkuli la malgrandajn pozitivajn respondojn en la momento de la stimulo por pr = 0 kaj en la tempo de la (antaŭvidita) rekompenco por pr = 1 vidita en (a), ni supozis malgrandan (8%) ŝancon, ke prognoza stimulo estas misidentigita. (c) DA-respondo en pr = 0.5-provoj, disigitaj en rekompencitaj (maldekstraj) kaj nerekompensitaj (dekstraj) provoj. (d) TD-Modelo de (c). (a, c) Represita kun permeso de [15] © 2003 AAAS. Permeso de AAAS necesas por ĉiuj aliaj uzoj.

Kontraŭe, en la momento de ebla rekompenco, TD-teorio antaŭdiras, ke averaĝe ne devas esti agado, ĉar, averaĝe, ne ekzistas antaŭdira eraro tiutempe. Kompreneble, en la probabilisma plifortiga dezajno (almenaŭ por pr ≠ 0, 1) estas fakte prognoza eraro en la momento de liverado aŭ ne liverado de rekompenco en ĉiu unu elprovo. En provoj en kiuj oni donas rekompencon, la prognoza eraro estu pozitiva (ĉar la rekompenco akirita estas pli granda ol la meza rekompenco atendita). Male, ĉe provoj sen rekompenco ĝi devas esti negativa (vidu Figuron 1c). Laŭvice, sub TD, la mezumo de ĉi tiuj diferencoj, pezitaj de iliaj probabloj de okazi, devas esti nulo. Se ĝi ne estas nulo, tiam ĉi tiu prognoza eraro devas agi kiel plasta signalo, ŝanĝante la prognozojn ĝis ne estos antaŭdira eraro. Kun diferenco kun ĉi tiu atendo, la datumoj en Figuro 1a, kiuj estas averaĝe kaj rekompencitaj kaj nerekomenditaj provoj, montras, ke en ĉi tiu tempo ekzistas fakte pozitiva meznivela agado. Ĉi tio ankaŭ estas evidenta en la datumoj de Morris et al. [16] (vidu Figuron 3c). La pozitivaj respondoj de DA montras neniujn signojn de malaperado eĉ kun grava trejnado (dum la monatoj).

Pli malbona ol ĉi tio por la TD-modelo, kaj efektive la fokuso de Fiorillo et al. [15], estas la ŝajna rampado de DA-agado al la atendata tempo de la rekompenco. Ĉar la grando de la ramplo estas plej granda por pr = 0.5, Fiorillo et al. sugestis, ke ĝi raportu la necertecon pri rekompenco-liverado, anstataŭ antaŭdira eraro, kaj spekulis, ke ĉi tiu signalo povus klarigi la ŝajne apetitajn proprietojn de necerteco (kiel vidite en vetludado).

Ambaŭ la rampada agado kaj la agado en la atendita tempo de rekompenco prezentas kritikajn defiojn al la TD-teorio. TD-lernado funkcias aranĝante DA-agadon samtempe en provo esti antaŭdirita for per sugestoj disponeblaj pli frue en tiu proceso. Tiel, estas ne klare, kiel ajnaspektebla antaŭvidebla agado, ĉu en la momento de la rekompenco aŭ en la ramplo antaŭe povas persisti sen esti antaŭdirita de la ekapero de la vida stimulo. Post ĉio, la pr-dependa agado en respondo al la stimulo konfirmas sian statuson kiel valida antaŭdiro. Plue, ŝlosila aspekto de TD [17] estas, ke ĝi kunigas antaŭdiron al elekta agado per uzado de la valoro de ŝtato kiel indiko de la estontaj rekompencoj haveblaj de tiu ŝtato, kaj tial ĝia allogo kiel celo por agado. De ĉi tiu perspektivo, ĉar la rampada agado ne estas eksplicite antaŭdirita de la pli frua celo, ĝi ne povas influi fruajn agojn, kiel la decido ludi. Ekzemple, pripensu konkurencon inter du agoj: unu eventuale kondukanta al ŝtato kun determinisma rekompenco kaj tial neniu ramplo, kaj la alia kondukanta al ŝtato sekvita de probabilisma rekompenco kun la sama mezumo, kaj ramplo. Ĉar la ramplo ne influas la agadon en la momento de la kondiĉita stimulo, ĝi ne povas esti uzata por taksi aŭ favori la duan agadon (vetludado) super la unua, malgraŭ la kroma necerteco.

Ni sugestas la alternativan hipotezon, ke ambaŭ ĉi tiuj anomalaj pafaj ŝablonoj rezultas rekte de la limigoj implicitaj de la malalta basa indico de aktiveco de DA neŭronoj (2-4 Hz) pri kodado de la subskribita antaŭdira eraro. Kiel rimarkis Fiorillo et al. [15], pozitivaj prognozaj eraroj estas reprezentitaj per pafado de ~ 270% super bazlinio, dum negativaj eraroj estas reprezentitaj de malpliigo de nur ~ 55% sub bazlinio (vidu ankaŭ [14,18]). Ĉi tiu nesimetrio estas rekta konsekvenco de la kodado de subskribita kvanto per pafo, kiu havas malaltan bazlinion, kvankam evidente nur povas esti pozitiva. Pafadaj indicoj super baslinio povas kodigi pozitivajn prognozajn erarojn per uzado de granda dinamika gamo, tamen sub basliniaj pafaj rapidecoj nur povas malsupreniri al nulo, trudante limigon al kodado de negativaj prognozaj eraroj.

Sekve, oni devas zorgi interpretante la sumojn (aŭ mezumojn) de peri-stimulo-tempo-histogramoj (PSTHoj) de agado dum malsamaj provoj, kiel oni faris en Figuro 1a. La nesimetrie koditaj pozitivaj kaj negativaj erarsignaloj en la momento de la ricevo aŭ ne-ricevo de rekompenco ja ne devas sumiĝi ĝis nulo, eĉ se ili reprezentas ĝustajn TD-prognozajn erarojn. Resumite, la malalta pafado reprezentanta la negativajn erarojn en la rekompencitaj provoj ne "nuligos" la rapidan pafadon kodantan pozitivajn erarojn en la rekompencitaj provoj, kaj, ĝenerale, la mezumo montros pozitivan respondon. En la cerbo, kompreneble, ĉar respondoj ne estas mezumitaj dum provoj (rekompencitaj kaj rekompencitaj), sed pri neŭronoj en provo, ĉi tio ne bezonas problemon.

Ĉi tio klarigas la konstantan pozitivan agadon (averaĝe) en la momento de liverado aŭ ne liverado de la rekompenco. Sed kio pri la ramplo antaŭ ĉi tiu tempo? Almenaŭ en iuj neŭralaj reprezentadoj de la tempo inter stimulo kaj rekompenco, kiam provoj estas mezumitaj, ĉi tiu sama nesimetrio kondukas al TD rezulti ĝuste en rampado de aktiveco al la tempo de la rekompenco. La mekanismo de lernado de TD havas kiel efikon propagi, laŭprobleme, prognozajn erarojn, kiuj ekestas samtempe en provo (kiel ekzemple en la momento de la rekompenco) al eblaj antaŭdiroj (kiel CS). en pli fruaj tempoj ene de ĉiu proceso. Sub la malsimetria reprezentado de pozitivaj kaj negativaj prognozaj eraroj, kiujn ni ĵus diskutis, averaĝe tiuj propagantaj eraroj dum multoblaj provoj (kiel en Figuro 1a) kondukos al pozitivaj rimedoj por epokoj ene de provo antaŭ rekompenco. La preciza formo de la rezulta rampa agado dependas de la maniero kiel reprezentas stimulojn laŭlonge de la tempo, same kiel de la rapideco de lernado, kiel oni diskutos pli sube.

Figuro 2 ilustras ĉi tiun vidpunkton pri la deveno de la rampanta agado. Ĉi tie, frapita prokrastlinia reprezentado de tempo ekde la stimulo estas uzata. Por ĉi tio, ĉiu unuo ('neŭrono') aktiviĝas (t.e. supozas la valoron 1) ĉe certa malfruo post kiam la stimulo estis prezentita, tiel ke ĉiu tempopaso post la komenco de la stimulo estas konstante reprezentata per la pafado de unu unuo. Lernado baziĝas sur la (dopaminergie raportita) TD-eraro, formaligita kiel δ (t) = r (t) + V (t) - V (t - 1), kun V (t) la pezita enigo de la aktiva unuo ĉe tempo t, kaj r (t) la rekompenco akirita en tempo t. Ĝisdatigi la pezojn de la unuoj laŭ la norma TD-ĝisdatiga regulo kun fiksa lernrapideco, permesas al V (t) averaĝe reprezenti la atendatajn estontajn rekompencojn (vidu Bildon 1-ĉapitron). Ĉar ĉiu posta tempo-paŝo estas aparte reprezentita, TD-prognozaj eraroj povas aperi iam ajn ene de la provo. Figuro 2a montras ĉi tiujn erarojn en ses sinsekvaj simulitaj provoj, en kiuj pr = 0.5. En ĉiu provo, nova pozitiva aŭ negativa eraro ekestas dum la rekompenco, sekve de ricevo aŭ ne-ricevo de la rekompenco, kaj paŝon post paŝo la eraroj de antaŭaj provoj disvastiĝas reen al la tempo de la stimulo, tra la konstanta ĝisdatigo de la pezoj (ekz. la eraro reliefigita ruĝe). Dum averaĝado (aŭ, kiel en PSTH-oj, sumigado) super provoj, ĉi tiuj eraroj nuligas unu la alian averaĝe, rezultigante ĝeneralan platan histogramon en la intervalo post la stimula komenco, kaj kondukante ĝis la tempo de la rekompenco (nigra linio en Figuro 2b, sumigita super la 10 provoj montritaj en maldika bluo). Tamen, se sumigite post nesimetria grimpado de la negativaj eraroj per faktoro de d = 1/6 (kiu simulas la nesimetrian kodigon de pozitivaj kaj negativaj prognozaj eraroj de DA-neŭronoj), pozitiva deklivirejo rezultiĝas, kiel ilustrite per la nigra linio en Figuro 2c. Rimarku, ke ĉi tiu skalado estas nur reprezenta afero, rezultanta de la limoj kodigi negativan valoron pri malalta baza linio-pafado, kaj ne devas influi la lernadon de la pezoj, por ne lerni malĝustajn valorojn (vidu diskuton). Tamen, ĉar PSTHoj estas rekte sumoj de neuronaj pikiloj, ĉi tiu reprezenta afero efikas sur la rezulta histogramo.

Figuro 2. Backpropagation de prognozaj eraroj klarigas rampan agadon.
(a) La antaŭdiro de TD-eraro tra ĉiu el ses sinsekvaj provoj (de supre al sube) de la simulado en Figuro 1b, kun pr = 0.5. Emfazita en ruĝo estas la eraro en la momento de la rekompenco en la unuaj el la provoj, kaj ĝia laŭgrada malantaŭa disvastiĝo al la tempo de la stimulo en postaj provoj. Bloko-leteroj indikas la rezulton de ĉiu specifa elprovo (R = rekompencita; N = ne rekompencita). La vico de rekompencoj antaŭ ĉi tiuj provoj estas donita dekstre supre. (b) La TD-eraro de ĉi tiuj ses provoj, kaj kvar pliaj post ili, supermetitaj. La ruĝaj kaj verdaj linioj ilustras la koverton de la eraroj en ĉi tiuj provoj. Resumado de ĉi tiuj provoj rezultigas neniun supre-bazan agadon averaĝe (nigra linio), ĉar pozitivaj kaj negativaj eraroj okazas hazarde 50% de la tempo, kaj do nuligas unu la alian. (c) Tamen, kiam la prognozaj eraroj estas malsimetrie reprezentitaj super kaj sub la baseline-pafo-ritmo (ĉi tie negativaj eraroj estis asimetriaj skalitaj per d = 1 / 6 por simuli la nesimetrian kodadon de prognozaj eraroj de DA-neŭronoj), mezuma rampado de aktiveco aperas dum averaĝeco de provoj, kiel ilustras la nigra linio. Ĉiuj simuladaj parametroj samas kiel en Figuro 1b, d.

Figuroj 1b, d montras la rampon, kiu rezultas de ĉi tiu kombinaĵo de nesimetria kodado kaj intertempa mezumo, por komparo kun la eksperimentaj datumoj. Figuro 1b montras la PSTH kalkulitan el niaj simulitaj datumoj per mezumo super la malsimetria-reprezentita δ (t) signalo en ~ 50-provoj por ĉiu stimula tipo. Figuro 1d montras la rezultojn por la pr = 0.5-kazo, dividita en rekompencitajn kaj nerekomenditajn provojn por komparo kun Figuro 1c. La simulitaj rezultoj proksime similas la eksperimentajn datumojn, ĉar ili replikas la netan pozitivan respondon al la necertaj rekompencoj, same kiel la rampan efikon, kiu estas plej alta en la pr = 0.5-kazo.

Estas simple derivi la mezan respondon en la momento de la rekompenco (t = N) en la provo T, t.e., la averaĝa TD-eraro δT (N), de la TD-lernado-regulo kun la simpligita frapita malfrua tempo-reprezenta tempo kaj fiksita lernokosto α. La valoro je la sekva aŭ lasta tempotempo en provo, kiel funkcio de provnombro (kun komencaj valoroj prenitaj al nulo), estas

kie r (t) estas la rekompenco fine de provo t. La erara signalo ĉe la lasta tempopaso de provo T estas simple la diferenco inter la akirita rekompenco r (T), kaj la valoro antaŭdiranta tiun rekompencon VT-1 (N-1). Ĉi tiu eraro estas pozitiva kun probablo pr, kaj negativa kun probablo (1 - pr). Skalante la negativajn erarojn per faktoro de d ∈ (0, 1], ni tiel ricevas

Por simetria kodado de pozitivaj kaj negativaj eraroj (d = 1), la meza respondo estas 0. Por nesimetria kodado (0) Spurkondiĉo: prova kazo

Grava provokazo por nia interpreto aperas en varianto de la tasko [15] de Fiorillo kaj aliaj, same kiel en la analoga instrumenta tasko de Morris kaj aliaj. [16], ambaŭ implikantaj spurkondiĉigon. Kontraste al malfrua kondiĉado (Figuro 3a), en kiu la rekompenco koincidas kun la ofseto de la prognoza stimulo, ĉi tie estas granda interspaco inter la kompenso de la prognozo-stimulo kaj la transdono de la rekompenco (Figuro 3b). Klare, en ĉi tiu kazo, necerteco pri la rekompenco povus nur pligrandiĝi, pro bruo dum tempigo de la intervalo inter stimulo kaj rekompenco [19], do laŭ la necerteco, devas esti kompareblaj aŭ eĉ pli grandaj deklivirejoj. Tamen la eksperimentaj rezultoj montras, ke la rampanta agado estas pli malgranda aŭ eĉ nekonsiderinda (Figuro 3c; d). Rimarku, tamen, ke la grandeco de la prov-averaĝa agado ĉe la atendata tempo de rekompenco estas konservita, montrante disiĝon inter la alteco de la deklivirejo kaj la kvanto de pozitiva agado en la atendita tempo de rekompenco.

Figuro 3. Spuri kondiĉadon kun probabilistikaj rekompencoj.
(a) Ilustraĵo de unu provo pri la malfrua kondiĉiga tasko de Fiorillo kaj aliaj. [15]. Provo konsistas el 2-sekunda vida stimulo, kies kompenso koincidas kun la liverado de la suka rekompenco, se tia rekompenco estas programita laŭ la probablo asociita kun la vida signalvorto. En senpremiaj provoj la stimulo finiĝis sen rekompenco. Ambaŭkaze interprova intervalo de 9 sekundoj averaĝe disigas provojn. (b) Ilustraĵo de unu provo pri la spuro-kondiĉiga tasko de Morris et al. [16]. La kerna diferenco estas, ke nun ekzistas granda tempa malfruo inter la ofseto de la stimulo kaj la komenco de la rekompenco (la "spuro" periodo), kaj neniu ekstera stimulo indikas la atendatan tempon de rekompenco. Ĉi tio donas aldonan necertecon, ĉar preciza tempigo de la antaŭvidita rekompenco devas esti interne solvita, precipe en ne rekompencitaj provoj. En ĉi tiu tasko, kiel en [15], unu el pluraj vidaj stimuloj (ne montritaj) estis prezentita en ĉiu provo, kaj ĉiu stimulo estis asociita kun probablo de rekompenco. Ĉi tie ankaŭ la simio estis petita plenumi instrumentan respondon (premante la klavon respondan al la flanko en kiu la stimulo estis prezentita), kies malsukceso finis la provon sen rekompenco. Provoj estis apartigitaj per variaj inter-provaj intervaloj. (c, d) DA-pafado (mildigita) rilate al baza linio, ĉirkaŭ la atendita tempo de la rekompenco, en rekompencitaj provoj (c) kaj en rekompencitaj provoj (d). (c, d) Represita de [16] © 2004 kun permeso de Elsevier. La spuroj implicas ĝeneralan pozitivan respondon en la atendita tempo de la rekompenco, sed kun tre malgranda aŭ neniu deklivirejo antaŭanta ĉi tion. Similaj rezultoj estis akiritaj en klasika kondiĉiga tasko nelonge priskribita en [15], kiu uzis spuran kondiĉigan proceduron, konfirmante ke la spura periodo, kaj ne la instrumenta naturo de la tasko prezentita en (b) estis la kerna diferenco de (a) .

La TD-modelo de DA facile klarigas ĉi tiujn enigmajn datumojn. Kiel montrite en Figuro 4, la formo de la ramplo, kvankam ne la alteco de ĝia pinto, estas influita per la lernokosto. La grandeco de la malantaŭaj propagantaj eraroj estas determinita, parte, de la lernokosto, ĉar ĉi tiuj eraroj ekestas kiel parto de la interreta lernado de novaj antaŭdiroj. Efektive, estas kontinua ĝisdatigo de prognozoj tia, ke post rekompenca provo, ekzistas pli alta atendo de rekompenco (kaj tiel la sekva rekompenco havas pli malgrandan prognozan eraron), kaj inverse post ne-rekompencita provo [18] (vidu Figuron 2a). Ĉi tiu ĝisdatigo de prognozoj rilatas rekte al la lernokosto - ju pli alta la lernokosto estas pli granda la ĝisdatigo de prognozoj laŭ la aktuala prognoza eraro, kaj pli granda estos la frakcio de la antaŭdira eraro, kiu propagas reen. Tiamaniere, kun pli altaj lernokvantoj, la diferenco en atendoj post rekompenco kontraŭ nerekomendita provo estos pli granda, kaj tiel la prognozaj eraroj kiam la sekva rekompenco estas aŭ ne havebla estos pli granda - tial la pli granda kaj laŭgrada ramplo.

Figuro 4. Dependeco de la ramplo sur lernokvanto.
La formo de la ramplo, sed ne la alteco de ĝia pinto, dependas de la lernokosto. La grafeo montras simulitan agadon por la kazo de pr = 0.5 proksime al la tempo de la atendata rekompenco, por malsamaj lernokvantoj, averaĝe ambaŭ rekompencitajn kaj nerekomenditajn provojn. Laŭ TD-lernado kun konstantaj malsimetriaj koditaj prognozaj eraroj, averaĝe pli ol aktiveco en rekompencaj kaj nerekomenditaj provoj rezultigas rampon ĝis la tempo de rekompenco. La alteco de la pinto de la ramplo estas determinita de la rilatumo de rekompencitaj kaj nerekomenditaj provoj, tamen la larĝo de la ramplo estas determinita per la indico de malantaŭa disvastigo de ĉi tiuj eraraj signaloj de la tempo de la atendata rekompenco ĝis la tempo de la prognoza stimulo. Pli alta lernokvanto rezultigas pli grandan frakcion de la eraro propagante reen, kaj tiel pli altan rampon. Kun pli malaltaj lernokvantoj, la ramplo fariĝas neglektebla, kvankam la pozitiva agado (averaĝe) je la rekompenco ankoraŭ konserviĝas. Notu, ke kvankam la lernokosto uzita en la simuladoj bildigitaj en Figuro 1b, d estis 0.8, ĉi tio ne devas esti konsiderata kiel la laŭvorta sinaptika lernado de la neŭra substrato, konsiderante nian skematan reprezentadon de la stimulo. En pli realisma reprezentado, en kiu populacio de neŭronoj aktivas ĉe ĉiu tempesto, multe pli malalta lernokvanto produktus similajn rezultojn.

Efektive, kompare kun malfrua kondiĉado, trakondiĉado estas notinde malrapida, sugestante, ke la lernadkosto estas malalta, kaj tiel devas esti pli malalta ramplo, konforme al la eksperimentaj rezultoj. Rekta ekzameno de la lernokvanto en la datumoj de Morris et al. [16], kies tasko postulis troan trejnadon, ĉar ĝi ne nur estis spura kondiĉo sed ankaŭ implikis instrumentan agadon, konfirmis ĝin vere tre malalta (Genela Morris - persona komunikado, 2004).

diskuto

La diferenca kodigo de pozitivaj kaj negativaj valoroj de DA-neŭronoj estas evidenta en ĉiuj studoj de la fazo DA-signalo, kaj ĝi povas esti konsiderata kiel neevitebla konsekvenco de la malalta baza agado de ĉi tiuj neŭronoj. Efektive, ĉi-lasta rekte inspiris sugestojn, ke kontraŭa neurotransmisilo, putative serotonina, okupiĝu pri reprezentado kaj sekve lernado de la negativaj prognozaj eraroj [20], tiel ke ili ankaŭ havas plenan kvaronon. Ĉi tie tamen ni limigis nin al konsidero de la efikoj de nesimetrio sur la prov-meza analizo de la dopamina aktiveco, kaj montris, ke rampa DA-agado, same kiel averaĝa pozitiva respondo en la momento de rekompenco, rezultas rekte el la malsimetria kodado de prognozaj eraroj.

Krom pli klara vido de la erara signalo, la plej grava konsekvenco de la nova interpreto estas, ke la rampoj povas esti vidataj kiel subskribo de TD-fenomeno, kiu ĝis nun estis ege malfacila. Ĉi tiu estas la progresiva malantaŭa disvastigo de la erara signalo reprezentita de DA-agado, de la tempo de rekompenco ĝis la tempo de la prognozilo (Figuro 2a). Plej multaj antaŭaj studoj pri dopaminergia agado uzis pr = 1, tial ĉi tiu malantaŭa disvastigo plej bone estas transira fenomeno evidenta nur komence de trejnado (kiam, kutime, registradoj ankoraŭ ne komenciĝis), kaj eble malfacile konstati malrapide. pafante DA-neŭronojn. Plue, kiel menciite, la malantaŭa disvastiĝo dependas de la maniero, kiel estas reprezentata la tempo inter la antaŭdira stimulo kaj la rekompenco - ĝi ĉeestas por frapita prokrasto-linio kiel en [6], sed ne por reprezentoj, kiuj ampleksas la tutan malfruo, kiel en [21]. Rimarku, ke la formo de la ramplo dependas ankaŭ de la uzo de elekteblaj spuroj kaj de la tiel nomata TD (λ) lernado-regulo (simulaĵo ne montrita), kiuj donas aldonan mekanismon por interligi tempon inter eventoj dum lernado. Bedaŭrinde, ĉar la formoj de la rampoj en la datumoj estas sufiĉe ŝanĝiĝemaj (figuro 1) kaj bruaj, ili ne povas provizi fortajn limojn pri la preciza TD-mekanismo uzata de la cerbo.
Pli lastatempaj studoj implikantaj persistajn prognozajn erarojn montras ankaŭ aktivecon sugestan pri malantaŭa disvastigo, precipe Figuron 4 de [13]. En ĉi tiu studo, prognozaj eraroj rezultis de periodaj ŝanĝoj en la tasko, kaj registradoj de DA estis faritaj de la komenco de trejnado, tiel dors-simila propagado estas rekte ŝajna, kvankam ĉi tiu aktiveco ne estis kvantigita.

Ni atendas, ke la rampoj daŭros dum trejnado nur se la lernokosto ne malpliiĝas ĝis nulo dum lernado progresas. La teorio de Pearce & Hall [22] pri la kontrolo de lernado per necerteco sugestas ĝuste ĉi tiun persiston de lernado - kaj estas evidenteco de partaj plifortigaj horaroj, ke la lernado povas esti pli alta, kiam estas pli necerteco asociita kun la rekompenco. Efektive, laŭ "racia" statistika vidpunkto, lernado devas daŭri kiam ekzistas granda necerteco pri la rilato inter antaŭdiroj kaj rezultoj, kiel povas ekesti de la ĉiamĉeesta eblo de ŝanĝo en la prognozaj rilatoj. Ĉi tiu formo de persista necerteco, kune kun necerteco pro komenca nescio pri la tasko, estis uzata por formaligi la teorion de Pearce & Hall pri la maniero, ke necerteco pelas lernadon [23]. Tiel, nia aserto, ke necerteco eble ne rekte reprezentas la deklivirejojn, certe ne devas esti konsiderata, ke ĝia reprezentado kaj manipulado ne gravas. Male, ni sugestis, ke necerteco influas kortikan inferencon kaj lernadon per aliaj neŭromodulaj sistemoj [24], kaj ke ĝi ankaŭ povas determini aspektojn de la elekto de agoj [25].

Estas rimarkindaj diversaj aliaj ecoj de la nesimetrio. Plej maltrankviliga estas la efiko de la nesimetrio sur DA-dependa lernado [26], se la suba bazlinia DA-agado respondecas per si mem pri malpliiĝantaj antaŭdiroj tro altaj. Por certigi, ke la lernitaj antaŭdiroj restos ĝustaj, ni devos supozi, ke la nesimetria reprezentado ne influas lernadon, t.e., ke mekanismo kiel diferenca skalo por potenco kaj deprimo de la sinaptaj fortoj kompensas la nesimetrian eraran signalon. Kompreneble, ĉi tio fariĝus senmova se kontraŭa neurotransmisilo okupiĝas pri lernado de negativaj prognozaj eraroj. Ĉi tiu afero estas komplikita per la sugesto de Bayer [14], ke DA-pafaj tarifoj efektive similas por ĉiuj prognozaj eraroj sub iu negativa sojlo, eble pro la ebena efiko de la malalta pafo. Tia perforta kodado ne influas la kvalitan bildon de la efikoj de interprocezo sur la apero de rampoj, sed plifortigas la bezonon de kontraŭa signalo por la nepre simetria lernado.

Fine, la plej rekta testo de nia interpreto estus komparo de intra kaj interprova averaĝo de la DA-signalo. Estus grave fari tion laŭ tempe altnivela maniero, por eviti problemojn de averaĝado de senmovaj signaloj. Por venki la bruon en la neŭrala pafado, kaj determini ĉu efektive estis laŭgrada deklivirejo ene de provo, aŭ, kiel ni antaŭdirus - intermitaj pozitivaj kaj negativaj prognozaj eraroj, necesus averaĝi super multaj neŭronoj registritaj samtempe ene unu provo, kaj krome neŭronoj asociitaj kun similaj lernaj rapidoj. Alternative, unuopaj neŭronaj spuroj povus regresi kontraŭ la respondo de malkaŝa antaŭdiro antaŭdirita de iliaj antaŭaj provoj kaj TD-lernado. Komparo de la kvanto de ŝanĝebleco klarigita per tia modelo, kompare kun tiu de regreso kontraŭ monotona deklivirejo, povus indiki la plej taŭgan modelon. Malpli simpla, sed pli testebla antaŭdiro estas, ke la formo de la deklivirejo devas dependi de la lernado. Lernaj rapidoj povas esti taksitaj de la respondo al la probablaj kompensoj, sendepende de la formo de la deklivirejo (Nakahara et al. [18] montris tiamaniere, ke en ilia parta plifortiga spuro-kondiĉiga tasko, la lernado-rapideco estis 0.3), kaj eble manipulita per variigo de la kvanto de trejnado aŭ la ofteco kun kiu taskokazaĵoj estas ŝanĝitaj kaj relernitaj. Efektive, kvantigi la ekziston kaj formon de deklivirejo en la registrita DA-agado de Nakahara et al., Povus bone lumigi la nunan proponon.

Konkurantaj interesoj
La aŭtoro deklaras, ke ili ne havas konkurencajn interesojn.

Kontribuoj de aŭtoroj
YN, MD kaj PD kune konceptis kaj efektivigis ĉi tiun studon, kaj helpis redakti la manuskripton. Ĉiuj aŭtoroj legis kaj aprobis la finan manuskripton.

Dankoj
Ni tre dankas H. Bergman, C. Fiorillo, N. Daw, D. Joel, P. Tobler, P. Shizgal kaj W. Schultz pro diskutoj kaj komentoj, en iuj kazoj malgraŭ diversaj interpretoj de la datumoj. Ni aparte dankas Genela Morris pro analizado de siaj propraj publikigitaj kaj nepublikigitaj datumoj rilate rampadon. Ĉi tiu laboro estis financita de la EC-Temática Reto (YN), la Gatsby Bonfara Fundamento kaj la projekto EU BIBA.

Referencoj

1. Ljungberg T, Apicella P, Schultz W: Respondoj de simiaj dopaminaj neŭronoj dum lernado de kondutismaj reagoj.
Journal Neurophysiol 1992, 67: 145-163.
Reiri al teksto
2. Schultz W: Antaŭdira rekompenca signalo de dopaminaj neŭronoj. [http://jn.physiology.org/cgi/content/full/80/1/1] retejo
Revuo por Neŭrofiziologio 1998, 80: 1-27. PubMed Abstract
Reiri al teksto
3. O'Doherty J, Dayan P, Friston K, Critchley H, Dolan R: Tempaj diferencomodeloj kaj rekompenc-rilata lernado en la homa cerbo.
Neŭra 2003, 38: 329-337. PubMed Abstract | Kompleta Teksto de Eldonisto
Reiri al teksto
4. Seymour B, O'Doherty J, Dayan P, Koltzenburg M, Jones A, Dolan R, Friston K, Frackowiak R: Tempaj diferencomodeloj priskribas pli altan ordan lernadon en homoj.
Naturo 2004, 429: 664-667. PubMed Abstract | Kompleta Teksto de Eldonisto
Reiri al teksto
5. Montague PR, Hyman SE, Cohan JD: Komputilaj roloj por dopamino en konduta kontrolo.
Naturo 2004, 431: 760-767. PubMed Abstract | Kompleta Teksto de Eldonisto
Reiri al teksto
6. Montague PR, Dayan P, Sejnowski TJ: Kadro por mesencefalaj dopaminaj sistemoj bazitaj sur prognoza hebbia lernado.
The Journal of Neuroscience 1996, 16: 1936-1947. PubMed Abstract | Kompleta Teksto de Eldonisto
Reiri al teksto
7. Schultz W, Dayan P, Montague PR: Neŭrala substrato de antaŭdiro kaj rekompenco.
Scienco 1997, 275: 1593-1599. PubMed Abstract | Kompleta Teksto de Eldonisto
Reiri al teksto
8. Sutton RS: Lernante antaŭdiri per la metodo de tempa diferenco.
Maŝina Lernado 1988, 3: 9-44.
Reiri al teksto
9. Sutton RS, Barto AG: [http://www.cs.ualberta.ca/~sutton/book/ebook/the-book.html] retejo
Plifortiga lernado: Enkonduko. MIT Gazetaro; 1998
Reiri al teksto
10. Hollerman J, Schultz W: Dopaminaj neŭronoj raportas eraron en la tempa antaŭdiro de rekompenco dum lernado.
Naturo-Neŭroscienco 1998, 1: 304-309. PubMed Abstract | Kompleta Teksto de Eldonisto
Reiri al teksto
11. Schultz W, Apicella P, Ljungberg T: Respondoj de simiaj dopaminaj neŭronoj por rekompenci kaj kondiĉigitajn stimulojn dum sinsekvaj paŝoj de lernado de malfrua responda tasko.
The Journal of Neuroscience 1993, 13: 900-913. PubMed Abstract | Kompleta Teksto de Eldonisto
Reiri al teksto
12. Tobler P, Dickinson A, Schultz W: Kodigado de Antaŭdirita Rekompenco-Forlaso de Dopaminaj Neŭronoj en Kondiĉita Inhibicia Paradigmo.
Journal of Neuroscience 2003, 23 (32): 10402-10410. PubMed Abstract | Kompleta Teksto de Eldonisto
Reiri al teksto
13. Takikawa Y, Kawagoe R, Hikosaka O: Ebla rolo de mezcerbaj dopaminaj neŭronoj en mallonga kaj longtempa adapto de sakadoj al pozicio-rekompenca mapado.
Revuo por Neŭrofiziologio 2004, 92: 2520-2529. PubMed Abstract | Kompleta Teksto de Eldonisto
Reiri al teksto
14. Bayer H: Rolo por la substantia nigra en lernado kaj mova kontrolo.
Doktora tezo, Universitato de Novjorko 2004.
Reiri al teksto
15. Fiorillo C, Tobler P, Schultz W: Diskreta Kodigo de Rekompenca Probablo kaj Necerteco de Dopaminaj Neŭronoj.
Scienco 2003, 299 (5614): 1898-1902. PubMed Abstract | Kompleta Teksto de Eldonisto
Reiri al teksto
16. Morris G, Arkadir D, Nevet A, Vaadia E, Bergman H: Koincidaj sed apartaj mesaĝoj de mezcerbaj dopamino kaj striatalaj tonike aktivaj neŭronoj.
Neŭra 2004, 43: 133-143. PubMed Abstract | Kompleta Teksto de Eldonisto
Reiri al teksto
17. Barto A, Sutton R, Watkins C: Lernado kaj sinsekva decidiĝo. En Lernado kaj Komputila Neŭroscienco: Fundamentoj de Adaptaj Retoj. Redaktite fare de Gabriel M, Moore J. Cambridge, MA: MIT Press; 1990:539-602.
Reiri al teksto
18. Nakahara H, Itoh H, Kawagoe R, Takikawa Y, Hikosaka O: Dopaminaj neŭronoj povas reprezenti kuntekst-dependan prognozan eraron.
Neŭra 2004, 41: 269-280. PubMed Abstract | Kompleta Teksto de Eldonisto
Reiri al teksto
19. Gallistel CR, Gibbon J: Tempo, indico kaj kondiĉado.
Psikologia Revizio 2000, 107: 289-344. PubMed Abstract | Kompleta Teksto de Eldonisto
Reiri al teksto
20. Daw ND, Kakade S, Dayan P: Kontraŭuloj interagoj inter serotonino kaj dopamino.
Neŭralaj Retoj 2002, 15 (4 – 6): 603-616. PubMed Abstract | Kompleta Teksto de Eldonisto
Reiri al teksto
21. Suri RE, Schultz W: modelo de neŭrala reto kun dopamin-simila plifortiga signalo, kiu lernas spacan prokrastitan respondtaskon.
Neŭroscienco 1999, 91: 871-890. PubMed Abstract | Kompleta Teksto de Eldonisto
Reiri al teksto
22. Pearce JM, Hall G: Modelo por Pavloviana lernado: Varioj en la efikeco de kondiĉigitaj sed ne de nekondiĉitaj stimuloj.
Psikologia Revizio 1980, 87: 532-552. PubMed Abstract | Kompleta Teksto de Eldonisto
Reiri al teksto
23. Dayan P, Kakade S, Montague PR: Lernado kaj selektema atento.
Naturo-Neŭroscienco 2000, 3: 1218-1223. PubMed Abstract | Kompleta Teksto de Eldonisto
Reiri al teksto
24. Dayan P, Yu A: Atendita kaj neatendita necerteco: Ach kaj NE en la novkortekso. [http://books.nips.ce/papers/files/nips15/NS08.pdf] retejo
En Antaŭenigoj en Neŭrala Informado-Sysytems Redaktita de Dietterich T, Becker S, Ghahramani Z. Cambridge, MA: MIT Press; 2002, 14: 189-196.
Reiri al teksto
25. Daw N, Niv Y, Dayan P: Agoj, Politikoj, Valoroj kaj la Bazaj Ganglioj. En Recent Breakthroughs in Basal Ganglia Research. Redaktis Bezard E. New York, Usono: Nova Science Publishers, Inc; en gazetaro.
Reiri al teksto
26. Wickens J, Kötter R: Ĉelaj modeloj de reinforcememnt. En Models of Information Processing in the Bazaj Ganglioj. Redaktite fare de Houk JC, Davis JL, Beiser DG. MIT-gazetaro; 1995:187-214.
Reiri al teksto