Dopamino neapibrėžtumas ir TD mokymasis (2005)

PASTABOS: Netikrumas reiškia naujumą. Šis kompleksinis tyrimas patvirtina, kad naujumas padidina dopaminą. Tai taip pat paaiškina, kad kuo neaiškesnis atlygis, tuo stipresnis yra mokymasis. Interneto pornografija skiriasi nuo praeities pornografijos dėl begalinio naujumo - tai reiškia nesibaigiančius dopamino šlakelius. Priklausomybė yra mokymasis ir atmintis. Perėjimas prie naujo pornografijos žanro suaktyvina dopaminą ir mokymąsi dėl nežinomybės, ką jūs patirsite. Neapibrėžtumas atsiranda ir tada, kai pornografijos vartotojai ieško pornografijos. Jūs nežinote, ką ketinate pamatyti, ir tai padidina dopaminą.
Naujovė, netikrumas ir visų aktyvaus dopamino paieška

Visas tyrimas: Dopamino neapibrėžtumas ir TD mokymasis

Elgesio ir smegenų funkcijos 2005, 1:6doi:10.1186/1744-9081-1-6

Yael Niv1,2, Michael O Duff2 ir Peter Dayan2
1 tarpdisciplininis neuronų skaičiavimo centras, hebrajų universitetas, Jeruzalė, Izraelis
2 Gatsby skaičiavimo neurologijos skyrius, Londono universiteto koledžo Londono universitetas
Šio straipsnio elektroninė versija yra išsami ir ją galima rasti internete adresu: http://www.behavioralandbrainfunctions.com/content/1/1/6
© 2005 Niv et al; licencijos turėtojas BioMed Central Ltd.

Abstraktus

Esminiai įrodymai rodo, kad dopaminerginių neuronų fazinis aktyvumas primityviame vidurio smegenyje yra laikinojo skirtumo (TD) klaida ateities atlygio prognozėse, o padidėjimas viršija ir sumažėja žemiau bazinės linijos, atitinkamai, atsižvelgiant į teigiamas ir neigiamas prognozavimo klaidas. Tačiau dopamino ląstelių bazinis aktyvumas yra labai mažas, o tai reiškia, kad šių dviejų klaidų rūšių atvaizdavimas yra asimetriškas. Ištyrinėjame, kaip atrodo, nekenksminga asimetrija, aiškinant dopaminerginius šaudymo modelius eksperimentuose su tikimybiniais pranašumais, kurie sukelia nuolatines prognozavimo klaidas. Konkrečiai kalbant, mes parodome, kad vidutiniškai ne stacionarių prognozavimo klaidų bandymuose turėtų būti matomas dopamino neuronų aktyvumas, kurio dydis priklauso nuo mokymosi greičio. Šis tikslus reiškinys buvo pastebėtas neseniai atlikto eksperimento metu, nors jis buvo interpretuojamas antipodaliais terminais kaip neapibrėžties bandymas.

Įvadas

Yra daugybė fiziologinių, vaizdavimo ir psichofarmakologinių duomenų apie dopaminerginių (DA) ląstelių, veikiančių beždžionių, žiurkių ir žmonių, fazinį aktyvumą klasikinėse ir instrumentinėse kondicionavimo užduotyse, kuriose numatomos būsimos premijos [1-5]. Šie duomenys buvo pateikti siekiant pasiūlyti [6,7], kad DA neuronų aktyvumas yra laikinojo skirtumo (TD) klaidos būsimų premijų prognozėse [8,9]. Ši TD dopamino teorija suteikia tikslų skaičiavimo pagrindą, skirtą suprasti daugybę elgesio ir nervų duomenų. Be to, siūloma, kad DA pateiktų signalą, kuris teoriškai yra tinkamas kontroliuoti tiek prognozes, tiek optimizuojančius veiksmus.

Kai kurie iš labiausiai įtikinamų TD teorijos įrodymų yra iš tyrimų, kuriuose tiriamas dopamino ląstelių aktyvinis aktyvavimas reaguojant į savavališkus stimulus (pvz., Monitoriaus fractal modelius), kurie numato artimą atlygio (pvz., Sulčių lašų) prieinamumą. . Daugelyje variantų jie parodė, kad mokydamiesi fazinis DA signalas perduodamas nuo pradinio nenuspėjamo atlygio momento iki to laiko, kada prognozuojamas atlygis. Tai yra tikėtinas rezultatas laikinojo skirtumo prognozės klaidai (pvz., [1,2,10-13]). Pagrindinė išvada [7] yra ta, kad, kai atlygis yra netikėtas (kuris neišvengiamas ankstyvuosiuose tyrimuose), dopamino ląstelės labai reaguoja į jį. Numatant atlygį, ląstelės reaguoja į prognozę, o ne į tikėtiną atlygį.

Jei numatomas atlygis netikėtai praleistas, ląstelės faziškai slopinamos įprastu atlygio laiku, slopinimas, kuris atskleidžia tikslų atlygio numatymo laiką [10] ir kurio laiko metrika šiuo metu yra teismo dėmesio centre [14]. Aktyvumo pokytis nuo atlygio iki nuspėjamojo laiko primena gyvūno apetiškos elgesio reakcijos perėjimą nuo atlygio (besąlygiško dirgiklio) iki sąlyginio dirgiklio klasikinių sąlygojimo eksperimentų metu [7,10] .

Įdomiausią neseniai atliktą tyrimą Fiorillo ir kt. [15] išnagrinėjo dalinio sutvirtinimo atvejį, kuriame kiekviename bandyme yra nuolatinė, neišvengiama prognozavimo klaida. Paprastas TD prognozavimo klaidos hipotezės aiškinimas rodo, kad šiuo atveju (a) dopamino aktyvumas nuspėjamųjų stimulų metu būtų proporcingas atlygio tikimybei, ir (b) vidutiniškai per bandymus dopaminerginis atsakas po stimulo ir iki pat atlygio laiko turėtų būti nulis. Nors pirmoji hipotezė buvo patvirtinta eksperimentuose, antroji nebuvo. Vidutiniai bandymai tarp bandymų parodė aiškų veiklos pakilimą per vėlavimą tarp stimulo pradžios ir atlygio, kuris atrodė nesuderinamas su TD sąskaita. Fiorillo et al. hipotezė, kad ši veikla atspindi atlygio teikimo neapibrėžtumą, o ne prognozavimo klaidą.

Šiame dokumente mes aptariame nuolatinio prognozavimo klaidos klausimą. Mes parodome, kad lemiama teigiamų ir neigiamų prognozavimo klaidų kodavimo asimetrija leidžia tikėtis, kad vidutinis dopamino signalas tarp bandymų bus bandomas, taip pat gerai įvertina dvi papildomas DA signalo savybes - akivaizdų nuolatinį aktyvumą (potencialus) atlygio metu ir išnykimo (arba bent jau silpnėjimo) signalą, bet ne signalą atlyginimo metu, vietoj trasos, o ne atidėlioti kondicionavimą. Abu šie reiškiniai taip pat buvo pastebėti susijusiuose Morris et al. [16]. Galiausiai, aiškinamąjį signalą interpretuojame kaip geriausius šiuo metu turimus įrodymus apie mokymosi mechanizmo pobūdį, kuriuo atsiranda dopamino aktyvumo perėjimas į prognozuojamų stimulų laiką.

Neapibrėžtumas dėl atlygio atsiradimo: DA rampos

Fiorillo ir kt. [15] penkių skirtingų regos dirgiklių pateikimas makakoms susietas su uždelstu, tikėtinu (pr = 0, 0.25, 0.5, 0.75, 1) sulčių atlygio pristatymu. Jie naudojo uždelsimo sąlygojimo paradigmą, kai dirgiklis išlieka fiksuotą 2s intervalą, o atlygis suteikiamas, kai stimulas dingsta. Po treniruotės beždžionių išankstinis laižymas parodė, kad jie žino skirtingas atlygio tikimybes, susijusias su kiekvienu dirgikliu.

1a parodo ekstraląsteliniu būdu užregistruotos DA ląstelių aktyvumo populiacijos histogramas kiekvienam pr. TD teorija prognozuoja, kad fazinis DA ląstelių aktyvinimas vizualinių stimulų metu turėtų atitikti vidutinį laukiamą atlygį, todėl turėtų didėti su pr. 1a paveikslas rodo tiksliai - iš tiesų, visose populiacijose padidėjimas yra gana linijinis. Morris ir kt. [16] praneša apie panašų rezultatą instrumentinės (trasos) kondicionavimo užduotyje, kuri apima ir tikimybinę sustiprinimą.

1 pav. Vidutinės prognozės klaidos tikimybinėje užduotyje
a) DA atsakas bandymuose su skirtinga atlygio tikimybe. Populiacijos dirgiklio laiko histogramos (PSTH) parodo kelių DA neuronų sumuojamą aktyvumą per daugelį tyrimų, kiekvienam pr, sujungtą su atlyginamais ir neatlygintinais tyrimais, esant vidutinei tikimybei. b) TD prognozavimo paklaida su asimetriniu masteliu. Modeliuojamoje užduotyje kiekviename bandyme atsitiktinai buvo pasirinktas vienas iš penkių dirgiklių ir parodytas tuo metu t = 5. Dirgiklis buvo išjungtas, kai t = 25, tuo metu buvo suteiktas atlygis su stimulo nurodyta pr tikimybe. Mes naudojome paspaustą vėlavimo linijos dirgiklių vaizdą (žr. Tekstą), kiekvieną stimulą vaizduodami skirtingą vienetų rinkinį („neuronai“). TD paklaida buvo δ (t) = r (t) + w (t - 1) • x (t) - w (t - 1) • x (t - 1), o r (t) atlygis metu t ir x (t) ir w (t) būsenos ir svorio vektoriai vienetui. Buvo naudojama standartinė internetinė TD mokymosi taisyklė su fiksuota mokymosi norma α, w (t) = w (t - 1) + αδ (t) x (t - 1), todėl kiekvienas svoris atspindėjo numatomą atlygio vertę ateityje. Panašiai kaip Fiorillo ir kt., Mes pavaizduojame prognozavimo paklaidą δ (t), apskaičiuotą per daugelį bandymų, išmokus užduotį. Reprezentacinė asimetrija atsiranda, nes neigiamos δ (t) reikšmės buvo apskaičiuotos d = 1/6 prieš imituojant PSTH, nors mokymasis vyksta pagal neskaičiuojamas klaidas. Galiausiai, norėdami atsižvelgti į nedidelius teigiamus atsakymus stimulo metu pr = 0 ir (a) punkte numatyto (numatomo) atlygio už pr = 1 metu, laikėme nedidelę (8%) tikimybę, kad numatomas dirgiklis yra neteisingai nustatytas. c) DA atsakas pr = 0.5 bandymuose, suskirstytas į atlyginamus (kairėje) ir neatlygintinus (dešinėje) tyrimus. d) c punkto TD modelis. (a, c) Perspausdinta gavus [15] © 2003 AAAS leidimą. AAAS leidimas reikalingas visoms kitoms reikmėms.

Priešingai, potencialaus atlygio pristatymo metu TD teorija prognozuoja, kad vidutiniškai neturėtų būti jokios veiklos, nes tuo metu vidutiniškai nėra prognozavimo klaidos. Žinoma, tikimybinio armatūros dizaino atveju (bent jau pr ≠ 0, 1) pristatymo arba atlyginimo nepateikimo metu kiekviename bandyme iš tikrųjų yra prognozavimo klaida. Atliekant bandymus, kuriuose suteikiamas atlygis, prognozavimo klaida turėtų būti teigiama (kadangi gautas atlygis yra didesnis nei tikėtinas vidutinis atlygis). Atvirkščiai, bandymuose, kuriuose nėra atlygio, jis turėtų būti neigiamas (žr. 1c pav.). Svarbiausia, kad pagal TD, šių skirtumų vidurkis, įvertintas pagal jų atsiradimo tikimybę, turėtų būti nulis. Jei tai nulinė, tada ši prognozavimo klaida turėtų veikti kaip plastiškumo signalas, keičiantis prognozes, kol nebus numatymo klaidos. Skirtingai nuo šio lūkesčio, 1a paveiksle pateikti duomenys, kurie yra vidutiniškai apskaičiuoti tiek už atlygį, tiek be bandymų, rodo, kad šiuo metu yra teigiamas vidutinis aktyvumas. Tai matyti ir Morris et al. [16] (žr. 3c pav.). Pozityvūs DA atsakymai nerodo, kad net išnyktų daug mokymų (per keletą mėnesių).

Blogiau nei TD modelio atveju ir Fiorillo et al. [15] - tai akivaizdus DA veiklos pakilimas į numatomą atlygio laiką. Kadangi rampos dydis yra didžiausias pr = 0.5, Fiorillo ir kt. pasiūlė, kad ji praneša apie neapibrėžtumą už atlygį, o ne į prognozavimo klaidą, ir spėliojo, kad šis signalas galėtų paaiškinti akivaizdžiai netinkamas netikrumo savybes (kaip matyti lošimuose).

Tiek rampos aktyvumas, tiek aktyvumas numatomu atlygio laiku sukelia kritinius iššūkius TD teorijai. TD mokymasis vyksta tuo, kad DA veikla vienu metu bandyme bus nuspėjama anksčiau minėtame tyrime. Taigi, nėra aišku, kaip atrodo, kad būtų galima nuspėti, ar atlyginimų metu, ar prieš tai buvusio rampos metu, gali išlikti be prognozuojamo vizualinio stimulo pradžios. Galų gale, pr-priklausomas aktyvumas, atsakas į stimulą, patvirtina jo statusą kaip galimą prognozę. Be to, vienas iš svarbiausių TD [17] aspektų yra tas, kad jis susieja prognozes su veiksmų pasirinkimu, naudodamas valstybės vertę kaip būsimos naudos, gautos iš tos valstybės, nuorodą ir todėl jos patrauklumą kaip veiksmų tikslą. Atsižvelgiant į tai, kadangi ankstesnė eilutė aiškiai nenurodo rampos veiklos, ji negali daryti įtakos ankstyviems veiksmams, pvz., Sprendimui lošti. Pavyzdžiui, apsvarstykite konkurenciją tarp dviejų veiksmų: galiausiai tai lemia valstybę, turinčią deterministinį atlygį, taigi ir ne rampą, o kitą - į valstybę, po kurios seka tikimybinis atlygis, turintis tą pačią reikšmę, ir rampą. Kadangi rampa neturi įtakos veiklai stimuliuojamo stimulo metu, ji negali būti naudojama antrojo veiksmo (azartinių lošimų) vertinimui ar pirmenybei, nepaisant papildomo neapibrėžtumo.

Mes siūlome alternatyvią hipotezę, kad abu šie anomalūs šaudymo modeliai yra tiesiogiai susiję su apribojimais, kuriuos sąlygoja žemas pradinio DA neuronų aktyvumo greitis (2 – 4 Hz) pasirašyto prognozavimo klaidos kodavimui. Kaip pažymėjo Fiorillo ir kt. [15], teigiamos prognozės klaidos yra pateikiamos ~ 270% viršijant pradinius rodiklius, o neigiamos klaidos - tik ~ 55% mažesnis už bazinę liniją (taip pat žr. [14,18]). Ši asimetrija yra tiesioginis pasirašyto kiekio kodavimo padarinys šaudant, kuris turi mažą bazinę liniją, nors, žinoma, gali būti tik teigiamas. Šaudymo sparta, viršijanti bazinę liniją, gali užkoduoti teigiamas prognozavimo klaidas, naudojant didelį dinaminį diapazoną, tačiau žemiau pradinės linijos šaudymo spartos gali nukristi tik iki nulio, nustatant neigiamų prognozavimo klaidų kodavimo apribojimą.

Taigi reikia atsargiai interpretuoti peri-stimulo-laiko-histogramų (PSTH) sumas (arba vidurkius) per įvairius bandymus, kaip buvo padaryta 1a paveiksle. Asimetriškai užkoduoti teigiami ir neigiami klaidų signalai atlygio gavimo ar negavimo metu iš tikrųjų neturėtų būti lygūs nuliui, net jei jie rodo teisingas TD prognozavimo klaidas. Apibendrinant, žemas šaudymas, reiškiantis neigiamas neatlygintinų bandymų klaidas, „nepanaikins“ greito šaudymo, užkoduojančio teigiamas klaidas atlyginamuose bandymuose, ir apskritai vidurkis parodys teigiamą atsakymą. Be abejo, smegenyse, nes atsakymai nėra vidutiniai (atlygintini ir neatlygintini) bandymai, bet neuronai tyrimo metu, tai neturi kelti problemų.

Tai paaiškina nuolatinį teigiamą aktyvumą (vidutiniškai) pristatymo metu arba neatlyginant atlygio. Bet kas apie rampą prieš šį laiką? Bent tam tikruose neuronų reprezentaciniuose laiko tarpo tarp stimulo ir atlygio, kai bandymai vidutiniškai apskaičiuojami, tas pats asimetrija lemia, kad TD tiksliai sukelia aktyvumą į atlygio laiką. TD mokymosi mechanizmas išbando kiekvieną bandymą atskirai į prognozes, atsirandančias vienu metu bandyme (pvz., Atlygio metu) į galimus nuspėjamuosius (pvz., CS), kurie atsiranda ankstesniais laikais kiekviename bandyme. Pagal asimetrinį teigiamų ir neigiamų prognozių klaidų vaizdavimą, ką mes ką tik aptarėme, šių dauginimo klaidų vidurkis per kelis bandymus (kaip pavaizduota 1a) lems teigiamas priemones epochoms per bandymą prieš atlygį. Tikslus susidariusios veiklos rampos forma priklauso nuo to, kaip stimulai yra atstovaujami laikui bėgant, taip pat nuo mokymosi greičio, kaip bus aptarta toliau.

2 paveiksle pavaizduotas šis perėjimo veiklos pradžios vaizdas. Čia yra paspausta vėlavimo eilutė, rodanti laiką nuo stimulo naudojimo. Tam kiekvienas vienetas („neuronas“) tampa aktyvus (ty prisiima 1 reikšmę) tam tikru atsilikimu po to, kai buvo pateiktas stimulas, todėl kiekvienas laiko žingsnis po stimulo atsiradimo yra nuosekliai parodomas vieno vieneto iššaudymu. Mokymasis grindžiamas (dopaminergiškai pranešta) TD paklaida, įforminta kaip δ (t) = r (t) + V (t) - V (t - 1), o V (t) yra svertinis aktyviojo vieneto įėjimas laikas t ir r (t) atlygis, gautas t metu. Vienetų svorių atnaujinimas pagal standartinę TD atnaujinimo taisyklę su fiksuota mokymosi norma leidžia V (t) vidutiniškai atspindėti numatomą naudą ateityje (žr. 1 pav. Antraštę). Kadangi kiekvienas sekantis laiko žingsnis pateikiamas atskirai, TD prognozavimo klaidos gali atsirasti bet kuriuo bandymo metu. 2a paveiksle šios klaidos parodytos šešiuose iš eilės imituojamuose bandymuose, kurių pr = 0.5. Kiekviename bandyme atlygio metu atsiranda nauja teigiama arba neigiama klaida, atsirandanti gavus ar negaunant atlygio, o žingsnis po žingsnio ankstesnių bandymų klaidos vėl plinta į stimulo laiką. nuolatinis svorių atnaujinimas (pvz., raudonai paryškinta klaida). Vidutiniškai (arba, kaip PSTH, sumuojant) atliekant bandymus, šios klaidos vidutiniškai atšaukia viena kitą, todėl po stimulo atsiradimo intervale susidaro bendra plokščia histograma ir iki atlygio laiko (juoda linija paveiksle) 2b, apibendrintas per 10 bandymų, parodytų plona mėlyna spalva). Tačiau susumavus neigiamą klaidų asimetrinį mastelį koeficientu d = 1/6 (kuris imituoja asimetrinį teigiamų ir neigiamų prognozavimo klaidų kodavimą DA neuronuose), atsiranda teigiamas aktyvumas, kaip parodyta juoda linija 2c paveiksle. Atkreipkite dėmesį, kad šis mastelio keitimas yra tik reprezentacinis klausimas, atsirandantis dėl neigiamos vertės, susijusios su mažu pradiniu šaudymo greičiu, kodavimo apribojimų ir neturėtų turėti įtakos svorių mokymuisi, kad neišmoktų neteisingų verčių (žr. Diskusiją). Tačiau, kadangi PSTH yra tiesiogiai neuronų šuolių suma, ši reprezentacinė problema susijusi su gauta histograma.

2 pav. Prognozavimo klaidų pranašumas paaiškina rampos aktyvumą.
(a) TD prognozavimo klaida kiekviename iš šešių iš eilės atliktų bandymų (iš viršaus į apačią) iš modeliavimo 1b paveiksle su pr = 0.5. Raudona spalva yra klaida pirmojo bandymo metu, kai buvo atlyginta, ir jo palaipsniui nukreipta link paskesnių bandymų. Blokinės raidės nurodo kiekvieno konkretaus tyrimo rezultatus (R = apdovanotas; N = nėra atlyginta). Apdovanojimų, einančių prieš šiuos bandymus, seka yra pateikta dešinėje. (b) Šių šešių bandymų TD klaida ir dar keturios jų paklaidos, viršytos. Raudonos ir žalios linijos iliustruoja šių bandymų klaidų voką. Apibendrinant šiuos tyrimus, vidutinis rodiklis nesukelia pagrindinės veiklos (juoda linija), nes teigiamos ir neigiamos klaidos atsiranda atsitiktinai 50% laiko, ir tokiu būdu nutraukia viena kitą. (c) Tačiau, kai prognozavimo paklaidos yra asimetriškai nurodytos virš ir žemiau bazinio šaudymo spartos (čia neigiamos klaidos buvo asimetrinės skalės pagal d = 1 / 6, kad imituotų DA neuronų prognozavimo klaidų asimetrinį kodavimą), vidutinis veiklos pakilimas atsiranda, kai vidutiniškai per bandymus, kaip parodyta juoda linija. Visi modeliavimo parametrai yra tokie patys kaip 1b paveiksle, d.

1b, d paveiksluose parodyta rampa, atsirandanti dėl šio asimetrinio kodavimo ir vidutinio vidurkinimo derinio, palyginimo su eksperimentiniais duomenimis. 1b paveiksle parodytas PSTH, apskaičiuotas iš mūsų imituotų duomenų, vidutiniškai per asimetriškai atstovaujamą δ (t) signalą ~ 50 bandymuose kiekvienam stimulo tipui. 1d paveiksle parodomi pr = 0.5 atvejo rezultatai, padalinti į atlygintinus ir nepanaudotus bandymus, palyginus su 1c pav. Imituoti rezultatai glaudžiai panašūs į eksperimentinius duomenis, nes jie atkartoja grynąjį teigiamą atsaką į neapibrėžtus atlygius, taip pat peržengimo efektą, kuris yra didžiausias pr = 0.5 atveju.

Paprasta nustatyti vidutinį atsakymą atlygio (t = N) metu T bandyme, ty vidutinę TD klaidą δT (N), iš TD mokymosi taisyklės su supaprastintu paleidimo laiko linijos laiko vaizdavimu ir fiksuotas mokymosi tempas α. Vertė, esanti kitame bandymo paskutiniame laiko taške, kaip bandomojo numerio funkcija (pradinės reikšmės yra nulinės), yra

kur r (t) yra atlygis t bandymo pabaigoje. Klaidos signalas paskutiniame bandymo T etape yra tiesiog skirtumas tarp gauto atlygio r (T) ir vertės, numatančios tą atlygį VT - 1 (N - 1). Ši klaida yra teigiama, kai tikimybė pr, ir neigiama, kai tikimybė (1 - pr). Sumažinę neigiamas klaidas d ∈ koeficientu (0, 1], taip gauname

Simetriniam teigiamų ir neigiamų klaidų kodavimui (d = 1) vidutinis atsakas yra 0. Asimetriniam kodavimui (0 Trace kondicionavimas: bandomasis atvejis

Svarbus bandymo atvejis mūsų interpretacijai kyla Fiorillo ir kt. [15] užduoties variante, taip pat analogiškoje instrumentinėje Morriso ir kt. [16], abu susiję su pėdsakų kondicionavimu. Skirtingai nuo uždelsimo sąlygojimo (3a pav.), Kai atlygis sutampa su prognozuojamo stimulo kompensavimu, čia yra didelis atotrūkis tarp prognozuojamo stimulo kompensavimo ir atlygio pristatymo (3b pav.). Akivaizdu, kad šiuo atveju neapibrėžtumas dėl atlygio gali tik padidėti dėl triukšmo, nustatant laiko tarpą tarp stimulo ir atlygio [19], todėl pagal neapibrėžtumo sąskaitą turėtų būti palyginamos ar net didesnės rampos. Tačiau eksperimentiniai rezultatai rodo, kad perėjimo aktyvumas yra mažesnis arba net nereikšmingas (3c pav. D). Tačiau atkreipkite dėmesį, kad bandymo metu vidutinis aktyvumas numatytu atlygio laiku išlieka, o tai rodo atsiribojimą tarp rampos aukščio ir teigiamo aktyvumo kiekio numatomu atlygio metu.

3 pav. Trace kondicionavimas su tikimybėmis.
(a) Vieno Fiorillo ir kt. [15]. Bandymas susideda iš 2 sekundžių vizualinio stimulo, kurio kompensavimas sutampa su sulčių atlygio pristatymu, jei toks atlygis užprogramuojamas atsižvelgiant į tikimybę, susijusią su regėjimo ženklu. Atlygintinų bandymų metu stimulas nutrūko be atlygio. Abiem atvejais bandymus skiria vidutiniškai 9 sekundžių intervalas. b) Morriso ir kt. pėdsakų kondicionavimo užduoties vieno bandymo iliustracija. [16]. Esminis skirtumas yra tas, kad tarp dirgiklio kompensavimo ir atlygio pradžios („pėdsakų“ laikotarpis) dabar yra didelis laiko uždelsimas, o joks išorinis stimulas nerodo numatomo atlygio laiko. Tai suteikia papildomo netikrumo, nes tikslus numatomo atlygio laikas turi būti išspręstas viduje, ypač neatlygintinų bandymų metu. Šioje užduotyje, kaip ir [15], kiekviename bandyme buvo pateiktas vienas iš kelių regimų dirgiklių (neparodytas), o kiekvienas dirgiklis buvo susijęs su atlygio tikimybe. Be to, beždžionės buvo paprašyta atlikti instrumentinį atsakymą (paspausti mygtuką, atitinkantį tą pusę, kurioje buvo pateiktas stimulas), kurio nesėkmė nutraukė bandymą be atlygio. Tyrimai buvo atskirti skirtingais tarpinių tyrimų intervalais. (c, d) DA šaudymo dažnis (išlygintas), palyginti su pradiniu lygiu, maždaug per numatomą atlygio laiką, atlyginamuose bandymuose (c) ir neatlygintiniuose bandymuose (d). (c, d) Perspausdinta nuo [16] © 2004, gavus Elsevier leidimą. Pėdsakai reiškia bendrą teigiamą atsakymą numatomu atlygio suteikimo laiku, tačiau prieš tai labai nedidelis arba visai nebrangus. Panašūs rezultatai buvo gauti atliekant klasikinę sąlygojimo užduotį, trumpai aprašytą [15], kurioje buvo naudojama pėdsakų kondicionavimo procedūra, patvirtinanti, kad esminis skirtumas nuo (a) pėdsakų laikotarpis, o ne instrumentinis užduoties, apibūdintos b punkte, pobūdis .

DA modelis TD lengvai paaiškina šiuos mįslingus duomenis. Kaip parodyta 4 paveiksle, rampos forma, nors ir ne jos smailės aukštis, priklauso nuo mokymosi greičio. Grįžtamojo sklaidos prognozavimo klaidų dydį iš dalies lemia mokymosi tempas, nes šios klaidos atsiranda kaip internetinių naujų prognozių dalis. Iš tiesų, yra nuolat atnaujinama prognozės, kad po apdovanoto teismo, yra didesnė tikimybė gauti atlygį (taigi kitam atlygiui kyla mažesnė prognozavimo klaida), ir atvirkščiai, po neapmokamo bandymo [18] (žr. Pav. 2a). Šis prognozių atnaujinimas yra tiesiogiai susijęs su mokymosi greičiu - kuo didesnis mokymosi greitis, tuo didesnis prognozių atnaujinimas pagal dabartinę prognozavimo klaidą, ir kuo didesnė prognozės paklaidos dalis, kuri yra dauginama atgal. Tokiu būdu, su aukštesniu mokymosi tempu, lūkesčių skirtumas po apdovanojimų ir nepanaudotų bandymų bus didesnis, todėl prognozės paklaidos, kai kitas atlygis bus ar nėra, bus didesnės - taigi didesnis ir laipsniškesnis rampas.

4 pav. Rampos priklausomybė nuo mokymosi greičio.
Rampos forma, bet ne jo smailės aukštis, priklauso nuo mokymosi greičio. Grafike parodyta imituojama veikla pr = 0.5 atveju, artimiausiu numatomo atlygio laikui, skirtingiems mokymosi rodikliams, vidutiniškai apskaičiuotiems tiek už atlygį, tiek ir be atlygio. Pagal TD mokymąsi su nuolatinėmis asimetriškai koduotomis prognozavimo klaidomis, vidutiniškai prilyginant atlygiui ir nepagrįstai atliekamiems bandymams, atsiranda perėjimas iki atlygio. Rampos smailės aukštis nustatomas pagal apdovanojimų ir nenaudojamų bandymų santykį, tačiau rampos plotis nustatomas pagal šių klaidų signalų grąžinimo greitį nuo (tikėtino) atlygio iki prognozavimo stimulo laikas. Didesnis mokymosi greitis sukelia didesnę dalį klaidos, kuri daugėja atgal, taigi ir didesnę rampą. Dėl mažesnio mokymosi lygio rampos tampa nereikšmingos, nors teigiama veikla (vidutiniškai) atlyginimo metu vis dar išlieka. Atkreipkite dėmesį, kad nors 1b pavaizduotuose modeliavimuose naudojamas mokymosi greitis d buvo 0.8, tai neturėtų būti laikoma pažodiniu neuroninio substrato sinchroniniu mokymosi greičiu, atsižvelgiant į mūsų scheminį stimulo vaizdą. Realistiškesniame vaizde, kuriame neuronų populiacija yra aktyvi kiekvienu laiko momentu, daug mažesnis mokymosi tempas duotų panašių rezultatų.

Iš tiesų, lyginant su vėlesniu kondicionavimu, pėdsakų kondicionavimas yra žinomas lėtai, o tai rodo, kad mokymosi greitis yra mažas, taigi, kad būtų galima atlikti žemesnę rampą, atitinkančią eksperimentinius rezultatus. Tiesioginis mokymosi greičio tyrimas Morris et al. [16], kurio užduotis reikalavo pernelyg didelių mokymų, nes tai buvo ne tik pėdsakų kondicionavimo priemonė, bet ir instrumentinis veiksmas, patvirtino, kad tai labai maža (Genela Morris - asmeninė komunikacija, 2004).

Diskusija

DA neuronų teigiamų ir neigiamų verčių diferencinis kodavimas akivaizdus visuose fazinio DA signalo tyrimuose ir gali būti laikomas neišvengiama šių neuronų pradinio aktyvumo pasekmėmis. Iš tiesų, pastaroji tiesiogiai įkvėpė pasiūlymus, kad priešininko neurotransmiteris, tariamai serotoninas, dalyvauja atstovaujant ir todėl mokantis neigiamų prognozavimo klaidų [20], kad jie taip pat turėtų visą ketvirtį. Tačiau šiuo atveju apsiribojame asimetrijos poveikio bandymų vidutinei dopamino aktyvumo analizei, ir parodėme, kad didėjanti DA veikla, taip pat vidutinis teigiamas atsakas atlygio metu yra tiesiogiai gaunamas iš asimetrinis prognozavimo klaidų kodavimas.

Išskyrus aiškesnį klaidos signalo vaizdą, svarbiausia naujojo aiškinimo pasekmė yra ta, kad rampos gali būti laikomos TD fenomeno, kuris iki šiol buvo labai sunkus, parašu. Tai yra laipsniškas DA aktyvumo klaidos signalo propagavimas nuo atlygio iki prognozavimo laiko (2a pav.). Dauguma ankstesnių dopaminerginio aktyvumo tyrimų buvo panaudoti pr = 1, todėl šis nugaros sklidimas geriausiu atveju yra pereinamasis reiškinys, pasireiškiantis tik mokymo pradžioje (kai paprastai įrašai dar neprasidėjo), ir galbūt sunku pastebėti lėtai DA neuronų deginimas. Be to, kaip minėta, nugaros sklidimas priklauso nuo to, kaip yra rodomas laikas tarp nuspėjamojo stimulo ir atlygio - jis pateikiamas užlaikytam uždelsimo linijos vaizdui, kaip ir [6], bet ne visoms reprezentacijoms, kurios apima visą vėlavimą, pvz., [21]. Atkreipkite dėmesį, kad rampos forma taip pat priklauso nuo tinkamumo pėdsakų ir vadinamosios TD (λ) mokymosi taisyklės (nerodomos modeliavimo), kurios suteikia papildomą mechanizmą, skirtą pereiti laiką tarp įvykių mokymosi metu. Deja, kadangi duomenų rampų formos yra gana įvairios (1 pav.) Ir triukšmingos, jos negali suteikti stiprių smegenų naudojamų TD mechanizmų apribojimų.
Naujausi tyrimai, susiję su nuolatinėmis prognozavimo klaidomis, taip pat rodo aktyvumą, rodantį daugialypę sklaidą, ypač 4 iš 13. Šiame tyrime numatomos klaidos, atsiradusios dėl periodinių užduočių pokyčių, o DA įrašai buvo atlikti nuo mokymo pradžios, taigi nugaros sklidimas panašus yra akivaizdus, ​​nors ši veikla nebuvo kiekybiškai įvertinta.

Tikimės, kad rampos išliks per visą treniruotę tik tuo atveju, jei mokymosi tempas nesumažės iki nulio. Pearce & Hallo [22] teorija apie mokymosi kontrolę neapibrėžtumu rodo būtent tokį mokymosi atkaklumą - ir iš dalinių sustiprinimo tvarkaraščių yra duomenų, kad mokymosi lygis gali būti didesnis, kai yra daugiau neapibrėžtumo, susijusio su atlygiu. Iš tiesų, „racionaliu“ statistiniu požiūriu, mokymasis turėtų tęstis, kai yra didelis netikrumas dėl predikatorių ir rezultatų santykio, kaip gali atsirasti dėl nuolatinės prognozuojamų santykių pasikeitimo galimybės. Ši nuolatinio neapibrėžtumo forma kartu su neapibrėžtumu dėl pradinio nežinojimo dėl užduoties buvo naudojama formalizuojant Pearce & Hall teoriją, kaip neapibrėžtumas skatina mokytis [23]. Taigi, mūsų teiginys, kad neapibrėžtumas negali būti tiesiogiai pavaizduotas rampomis, neturėtų būti suprantamas kaip nereiškiantis, kad jo vaizdavimas ir manipuliavimas nėra svarbus. Priešingai, mes siūlėme, kad neapibrėžtumas daro įtaką žievės išvadai ir mokymuisi per kitas neuromoduliacines sistemas [24] ir kad tai taip pat gali nulemti veiksmų pasirinkimo aspektus [25].

Reikėtų pažymėti įvairias kitas asimetrijos savybes. Svarbiausia yra asimetrijos įtaka DA priklausomam mokymuisi [26], jei žemiau pradinė DA veikla yra atsakinga už pernelyg didelių prognozių mažėjimą. Norint užtikrinti, kad išgautos prognozės išliktų teisingos, mes turėtume daryti prielaidą, kad asimetrinis reprezentavimas neturi įtakos mokymuisi, ty kad toks mechanizmas, kaip skirtingas mastelio keitimas sinchroninių stiprių stiprinimui ir depresijai, kompensuoja asimetrinį klaidos signalą. Žinoma, tai būtų ginčytina, jei priešininko neurotransmiteris dalyvauja mokantis iš neigiamų prognozavimo klaidų. Šis klausimas yra sudėtingas dėl Bayer [14] pasiūlymo, kad DA šaudymo sparta iš tikrųjų yra panaši į visas prognozavimo klaidas, žemesnes už tam tikrą neigiamą slenkstį, galbūt dėl ​​mažo degimo greičio poveikio. Toks prarastas kodavimas neturi įtakos kokybiniam vaizdui apie vidinių bandymų, susijusių su vidiniais bandymais, poveikį rampų atsiradimui, tačiau sustiprina priešininko signalą būtinai simetriniam mokymuisi.

Galiausiai, tiesiausias mūsų interpretacijos testas būtų DA signalo vidurkio palyginimas tarp bandymų ir tarp jų. Svarbu tai padaryti laikinai sudėtingai, kad būtų išvengta nestacionarių signalų vidurkinimo problemų. Norint įveikti nervinio šaudymo keliamą triukšmą ir nustatyti, ar bandymo metu iš tikrųjų buvo laipsniškas pakilimas, arba, kaip spėtume, protarpinės teigiamos ir neigiamos prognozavimo klaidos, reikėtų apskaičiuoti daugelį neuronų, užfiksuotų vienu metu vienas tyrimas, be to, neuronai, susiję su panašiu mokymosi lygiu. Be to, pavienius neuronų pėdsakus galima būtų regresuoti prieš ankstesnio bandymo ir TD mokymosi numatytą atsaką į nugaros dauginimąsi. Palyginus tokiu modeliu paaiškintą kintamumo dydį, palyginti su regresija prieš monotonišką veiklos pakilimą, galima nurodyti tinkamiausią modelį. Ne tokia paprasta, bet labiau patikrinama prognozė, kad rampos forma turėtų priklausyti nuo mokymosi greičio. Mokymosi rodiklius galima vertinti atsižvelgiant į atsaką į tikimybinį atlygį, neatsižvelgiant į rampos formą (Nakahara ir kt. [18] taip parodė, kad atliekant dalinę sustiprinimo pėdsakų užduotį mokymosi greitis buvo 0.3), ir gali būti manipuliuojama keičiant mokymų dydį arba dažnumą, kuriuo keičiami ir iš naujo mokomasi užduočių nenumatytų atvejų. Iš tiesų, kiekybiškai įvertinus rampos egzistavimą ir formą Nakahara ir kt. Užregistruotoje DA veikloje, galima gerai išaiškinti dabartinį pasiūlymą.

Konkuruojantys interesai
Autorius (-ai) pareiškia, kad neturi jokių konkuruojančių interesų.

Autorių įnašai
YN, MD ir PD kartu sukūrė ir atliko šį tyrimą, padėjo parengti rankraštį. Visi autoriai perskaitė ir patvirtino galutinį rankraštį.

Padėka
Labai dėkingi H. Bergmanui, C. Fiorillo, N. Daw, D. Joel, P. Tobler, P. Shizgal ir W. Schultz diskusijoms ir komentarams, kai kuriais atvejais, nepaisant skirtingo duomenų aiškinimo. Ypač dėkingi Genelai Morriui už savo paskelbtų ir nepaskelbtų duomenų analizę, susijusią su rampomis. Šį darbą finansavo EB teminis tinklas (YN), Gatsby labdaros fondas ir ES BIBA projektas.

Nuorodos

1. Ljungberg T, Apicella P, Schultz W: Beždžionių dopamino neuronų atsakai mokantis elgesio reakcijų.
Žurnalas Neurophysiol 1992, 67: 145-163.
Grįžti į tekstą
2. Schultz W: Nuspėjamas dopamino neuronų atlygio signalas. [http://jn.physiology.org/cgi/content/full/80/1/1] interneto svetainė
Neurofiziologijos žurnalas 1998, 80: 1-27. PubMed Santrauka
Grįžti į tekstą
3. O'Doherty J, Dayan P, Friston K, Critchley H, Dolan R: Laiko skirtumo modeliai ir su atlygiu susijęs mokymasis žmogaus smegenyse.
Neuronas 2003, 38: 329-337. PubMed Santrauka | Leidėjo visas tekstas
Grįžti į tekstą
4. Seymour B, O'Doherty J, Dayan P, Koltzenburg M, Jones A, Dolan R, Friston K, Frackowiak R: Laiko skirtumo modeliai apibūdina aukštesnės eilės mokymąsi žmonėms.
Gamta 2004, 429: 664-667. PubMed Santrauka | Leidėjo visas tekstas
Grįžti į tekstą
5. Montague PR, Hyman SE, Cohan JD: Dopamino skaičiavimo vaidmenys elgesio kontrolėje.
Gamta 2004, 431: 760-767. PubMed Santrauka | Leidėjo visas tekstas
Grįžti į tekstą
6. Montague PR, Dayan P, Sejnowski TJ: Mesencefalinių dopamino sistemų pagrindas, pagrįstas nuspėjamuoju hebbian mokymu.
Neurologijos žurnalas 1996, 16: 1936-1947. PubMed Santrauka | Leidėjo visas tekstas
Grįžti į tekstą
7. Schultz W, Dayan P, Montague PR: Numatymo ir atlygio neuroninis substratas.
Mokslas 1997, 275: 1593-1599. PubMed Santrauka | Leidėjo visas tekstas
Grįžti į tekstą
8. Sutton RS: Mokymasis numatyti taikant laiko skirtumo metodą.
1988, 3: 9-44.
Grįžti į tekstą
9. Sutton RS, Barto AG: [http://www.cs.ualberta.ca/~sutton/book/ebook/the-book.html] interneto svetainė
Sustiprinimas: įvadas. MIT Press; 1998.
Grįžti į tekstą
10. Hollerman J, Schultz W: Dopamino neuronai praneša apie klaidą laiko prognozuojant atlygį mokymosi metu.
Gamtos neurologija 1998, 1: 304-309. PubMed Santrauka | Leidėjo visas tekstas
Grįžti į tekstą
11. Schultz W, Apicella P, Ljungberg T: Beždžionių dopamino neuronų atsakas į atlygį ir sąlyginius dirgiklius nuosekliai mokantis uždelsto atsako užduoties.
Neurologijos žurnalas 1993, 13: 900-913. PubMed Santrauka | Leidėjo visas tekstas
Grįžti į tekstą
12. Tobler P, Dickinson A, Schultz W: Dopamino neuronų prognozuojamo atlygio praleidimo kodavimas sąlyginio slopinimo paradigmoje.
Neurologijos žurnalas 2003, 23 (32): 10402-10410. PubMed Santrauka | Leidėjo visas tekstas
Grįžti į tekstą
13. Takikawa Y, Kawagoe R, Hikosaka O: Galimas vidurinių smegenų dopamino neuronų vaidmuo trumpalaikiam ir ilgalaikiam sakadų pritaikymui prie padėties ir atlygio kartografavimo.
Neurofiziologijos žurnalas 2004, 92: 2520-2529. PubMed Santrauka | Leidėjo visas tekstas
Grįžti į tekstą
14. Bayer H: juodosios medžiagos vaidmuo mokymuisi ir motorikos valdymui.
Daktaro disertacija, Niujorko universitetas 2004.
Grįžti į tekstą
15. Fiorillo C, Tobler P, Schultz W: Diskretus atlygio tikimybės ir neapibrėžtumo kodavimas dopamino neuronais.
Mokslas 2003, 299 (5614): 1898-1902. PubMed Santrauka | Leidėjo visas tekstas
Grįžti į tekstą
16. Morris G, Arkadir D, Nevet A, Vaadia E, Bergman H: Sutampantys, bet skirtingi pranešimai apie vidurinę smegenis dopamino ir striatalinius toniškai aktyvius neuronus.
Neuronas 2004, 43: 133-143. PubMed Santrauka | Leidėjo visas tekstas
Grįžti į tekstą
17. Barto A, Sutton R, Watkins C: Mokymasis ir nuoseklus sprendimų priėmimas. Mokymasis ir skaičiavimo neuromokslas: adaptyviųjų tinklų pagrindai. Redagavo Gabriel M, Moore J. Cambridge, MA: MIT Press; 1990:539-602.
Grįžti į tekstą
18. Nakahara H, Itoh H, Kawagoe R, Takikawa Y, Hikosaka O: Dopamino neuronai gali būti nuo konteksto priklausoma prognozavimo klaida.
Neuronas 2004, 41: 269-280. PubMed Santrauka | Leidėjo visas tekstas
Grįžti į tekstą
19. Gallistel CR, Gibbon J: Laikas, greitis ir kondicionavimas.
Psichologinė apžvalga 2000, 107: 289-344. PubMed Santrauka | Leidėjo visas tekstas
Grįžti į tekstą
20. Daw ND, Kakade S, Dayan P: priešininkų sąveika tarp serotonino ir dopamino.
Neuroniniai tinklai 2002, 15 (4 – 6): 603-616. PubMed Santrauka | Leidėjo visas tekstas
Grįžti į tekstą
21. Suri RE, Schultz W: Neuroninio tinklo modelis su į dopaminą panašiu sustiprinimo signalu, kuris išmoksta erdvinio uždelsto atsako užduotį.
Neurologija 1999, 91: 871-890. PubMed Santrauka | Leidėjo visas tekstas
Grįžti į tekstą
22. Pearce JM, G salė: Pavloviško mokymosi modelis: sąlyginių, bet ne besąlyginių dirgiklių efektyvumo svyravimai.
Psichologinė apžvalga 1980, 87: 532-552. PubMed Santrauka | Leidėjo visas tekstas
Grįžti į tekstą
23. Dayan P, Kakade S, Montague PR: Mokymasis ir selektyvus dėmesys.
Gamtos neurologija 2000, 3: 1218-1223. PubMed Santrauka | Leidėjo visas tekstas
Grįžti į tekstą
24. Dayan P, Yu A: Tikėtinas ir netikėtas neapibrėžtumas: Ach ir NE neokortekse. [http://books.nips.ce/papers/files/nips15/NS08.pdf] svetainė
Pažanga neuronų informacijos apdorojimo sistemose Redagavo Dietterich T, Becker S, Ghahramani Z. Cambridge, MA: MIT Press; 2002, 14: 189-196.
Grįžti į tekstą
25. Daw N, Niv Y, Dayan P: veiksmai, politika, vertybės ir baziniai ganglijai. Naujausiuose bazinių ganglijų tyrimų laimėjimuose. Redagavo Bezard E. Niujorkas, JAV: Nova Science Publishers, Inc; spaudoje.
Grįžti į tekstą
26. Wickens J, Kötter R: Cellular models of armatūra. In Models of Information Processing in the Basal Ganglia. Redagavo Houk JC, Davis JL, Beiser DG. MIT spauda; 1995:187-214.
Grįžti į tekstą