Dópamínóvissa og TD-nám (2005)

Athugasemdir: Óvissa þýðir nýjung. Þessi flókna rannsókn staðfestir að nýjung eykur dópamín. Það skýrir einnig að því óvístari sem umbunin er því sterkari er námið. Netaklám er frábrugðið klám fyrri tíma vegna endalausrar nýjungar - sem þýðir endalausar sprettur af dópamíni. Fíkn í kjarna þess er nám og minni. Að skipta yfir í nýjar tegundir klám virkjar dópamín og nám - vegna óvissu um það sem þú ert að fara að upplifa. Óvissa á sér einnig stað þegar klámnotendur vafra eftir klám. Þú veist ekki hvað þú ert að fara að sjá og það jakkar dópamín.
Nýjung, óvissa og leita allra virkja dópamín

Heil rannsókn: Dópamínóvissa og TD nám

Hegðunar- og heilaaðgerðir 2005, 1:6doi:10.1186/1744-9081-1-6

Yael Niv1,2, Michael O Duff2 og Peter Dayan2
1 þverfagleg miðstöð fyrir taugaútreikninga, Hebreska háskólann, Jerúsalem, Ísrael
2 Gatsby Computational Neuroscience Unit, University College London, London, UK
Rafræna útgáfan af þessari grein er í heild sinni og hún er að finna á netinu á: http://www.behavioralandbrainfunctions.com/content/1/1/6
© 2005 Niv o.fl.; leyfishafi BioMed Central Ltd.

Abstract

Miklar vísbendingar benda til þess að fasísk virkni dópamínvirkra taugafrumna í aðalhjúpnum í aðalhlutverki tákni tímabundinn mismun (TD) villu í spám um framtíðarlaun, með hækkunum yfir og lækkar undir grunngildi vegna jákvæðra og neikvæðra spáskekkja, hver um sig. Samt sem áður hafa dópamínfrumur mjög litla virkni í upphafi, sem þýðir að framsetning þessara tveggja tegunda villna er ósamhverf. Við kannum afleiðingar þessarar virðist sakleysislegu ósamhverfu við túlkun dópamínvirkra hleypimynstra í tilraunum með líkindaleg umbun sem leiða til viðvarandi spávillna. Einkum sýnum við að þegar meðaltal er um forspávillur sem ekki eru í kyrrstöðu í samanburði við rannsóknir ætti að koma í ljós að virkni dópamíns taugafrumna er, en umfang hennar er háð námshraða. Þetta nákvæmlega fyrirbæri kom fram í nýlegri tilraun, þó að það hafi verið túlkað þar í mótvægislegum skilmálum sem kóðun óvissu innan rannsóknar.

Hvernig gengur lífið dag frá degi? Er það í jafnvægi og allt eins og það á að vera? Er jafnvægi hvort sem litið er á veraldlega stöðu eða andlega? Lífið er eins og það er. Það er ekki alltaf sólskyn. Það koma reglulega lægðir með rok og rigningu. Við vitum að í heildar samhenginu er lægð hluti af vistkerfi að leita að jafnvægi. Stundum erum við stödd í miðju lægðarinnar. Þar er logn og gott veður, sama hvað gengur á þar sem stormurinn er mestur. Sama lögmál gildir varðandi þitt eigið líf. Ef þú ert í þinn miðju, þínum sannleik þá heldur þú alltaf jafnvægi átakalaust. Sama hvað gustar mikið frá þér þegar þú lætur til þín taka. Huldufólk hefur gefið okkur hugleiðslu sem hjálpar okkur að finna þessa miðju, finna kjarna okkar og sannleikann sem í honum býr. Þegar þú veist hver þú ert og hvers vegna þú ert hér, mun líf þitt vera í flæðandi jafnvægi. Hugleiðslan virkjar þekkinguna sem er í vitund jarðar og færir hana með lífsorkunni inn í líkama okkar. Þar skoðar hún hugsana og hegðunar munstrið og athugar hvort það myndar átakalausu flæðandi jafnvægi. Hinn möguleikinn er falskt jafnvægi sem hafa þarf fyrir að viðhalda með tilheyrandi striti, áhyggjum og ótta. Síðan leiðbeinir þessi þekking okkur að því jafnvægi sem er okkur eðlilegt. Við blómstrum átakalaust, líkt og planta sem vex átakalaut frá fræi í fullþroska plöntu sem ber ávöxt.

Það er til stórkostlegur fjöldi lífeðlisfræðilegra, myndgreina og sálarlyfjafræðilegra gagna varðandi fasísk virkni dópamínvirkra frumna (DA) í miðhjúpum á öpum, rottum og mönnum í klassískum og tæknilegum skilyrðaverkum sem fela í sér spár um umbun í framtíðinni [1-5]. Þessar upplýsingar hafa verið teknar til að benda [6,7] til þess að virkni DA taugafrumna tákni tímabundin mismunur (TD) villur í spám um framtíðarlaun [8,9]. Þessi TD kenning um dópamín veitir nákvæman reikniaðstöðu til að skilja fjölda atferlis- og taugagagna. Ennfremur bendir það til þess að DA veiti merki sem sé fræðilega viðeigandi til að stjórna námi á bæði spám og hagræðingaraðgerðum.

Sumar sannfærandi sannanir í þágu TD-kenningarinnar koma frá rannsóknum sem rannsökuðu fasískt virkjun dópamínfrumna til að bregðast við handahófskenndu áreiti (svo sem brotamynstri á skjá) sem spá fyrir um nálægð umbunar (svo sem dropar af safa) . Í mörgum afbrigðum hafa þetta sýnt að með þjálfun, fasísk DA merki flytja frá þeim tíma sem upphaflega ófyrirsjáanleg umbun, til þess tíma þegar fyrsta vísbendingin spáir um umbun. Þetta er nákvæmlega áætluð niðurstaða fyrir tímabundna mismun byggða spávillu (td. [1,2,10-13]). Grunnuppgötvunin [7] er sú að þegar umbun er óvænt (sem er óhjákvæmilegt í fyrstu rannsóknum), svara dópamínfrumur því sterklega. Þegar spáð er umbun, svara frumurnar hins vegar spámanninum, en ekki umbuninni sem nú er búist við.

Ef spáð er umbun sem óvænt er sleppt, eru frumurnar hindraðar fasískt á venjulegum tíma umbunarinnar, hömlun sem sýnir nákvæma tímasetningu um umbun um umbun [10] og tímabundin mælikvarði hennar er nú undir réttarljósi [14]. Breyting á virkni frá umbunartíma til tíma spámannsins líkist breytingu á lystarlegu hegðunarviðbrögðum dýrsins frá þeim tíma sem umbunin (óskilyrta áreitið) yfir í það skilyrta áreiti í klassískum skilyrðingartilraunum [7,10] .

Í áhugaverðustu nýlegri rannsókn, Fiorillo o.fl. [15] skoðaði málið um styrkingu að hluta, þar sem viðvarandi, óafmáanleg, spávillu er við hverja einustu rannsókn. Einföld túlkun á tilgátu um TD-forspávillu myndi benda til þess að í þessu tilfelli (a) myndi dópamínvirkni þegar spáávinningurinn væri aukinn með líkum á umbun, og (b) að meðaltali yfir rannsóknir, dópamínvirka svörun eftir áreiti og allt til tímans umbunin ætti að vera núll. Þrátt fyrir að fyrsta tilgátan hafi verið staðfest í tilraununum var önnur ekki. Meðaltalssvörun rannsóknanna sýndi skýra umsvif á virkni meðan seinkunin var á milli upphafs örvunar og umbunar sem virtist vera í ósamræmi við TD reikninginn. Fiorillo o.fl. tilgáta að þessi starfsemi tákni óvissuna í umbun afhendingu, frekar en spávillu.

Í þessari grein heimsækjum við málið um viðvarandi spávillu. Við sýnum að lykilatriði ósamhverfu við kóðun jákvæðra og neikvæðra spávillna leiða til þess að maður getur búist við því að hlaupið verði á meðaltali dópamínmerki, og skýrir einnig vel tvo viðbótareinkenni DA merkisins - augljós viðvarandi virkni þegar (hugsanleg) umbun og hvarf (eða að minnsta kosti veikingu) rampa merkisins, en ekki merkið þegar umbunin er, í ljósi snefils frekar en að seinka skilyrðum. Bæði þessi fyrirbæri hafa einnig sést í tengdum tilraunaaðstæðum með skurðaðgerð Morris o.fl. [16]. Að lokum túlkum við skábrautarmerkið sem besta sönnunargögn sem nú liggja fyrir um eðli námsins sem breytingin á dópamínvirkni til tíma spáörvunarinnar á sér stað.

Óvissa í umbunartilvikum: DA ramping

Fiorillo o.fl. [15] tengdi kynningu á fimm mismunandi sjónrænum áreitum við makaka með seinkaðri, líklegri (pr = 0, 0.25, 0.5, 0.75, 1) afhendingu safaverðlauna. Þeir notuðu töfunarskilyrðingarhugtak, þar sem áreitið er viðvarandi í fasta millibili 2s, þar sem umbun er afhent þegar áreitið hverfur. Eftir þjálfun benti tilhlökkunarhegðun apanna á að þeir væru meðvitaðir um mismunandi umbunarlíkur sem tengdust hverju áreiti.

Mynd 1a sýnir súlurit íbúa af utanfrumugerðri DA frumuvirkni, fyrir hvert pr. TD kenning spáir því að fasísk virkjun DA frumanna við sjónræn áreiti ætti að samsvara meðaltali væntanlegra umbuna og ætti einnig að aukast með pr. Mynd 1a sýnir nákvæmlega þetta - jafnt og þétt, á fjölgun íbúanna, er fjölgunin nokkuð línuleg. Morris o.fl. [16] tilkynna um svipaða niðurstöðu í tæknilegu (snefil) skilyrðingarverkefni sem felur einnig í sér líkindastyrkingu.

Mynd 1. Meðaltal spávillur í líkindarlaunverkefni
(a) DA viðbrögð í rannsóknum með mismunandi umbunarlíkur. Stafræn tígræðisgreiningartími (PSTH) sýnir samanlagða virkni nokkurra DA taugafrumna yfir margar tilraunir, fyrir hverja pr, sameinuð um verðlaunaðar og ólaunaðar rannsóknir á millilíkindum. (b) TD spá villa með ósamhverfar stigstærð. Í eftirlíkinu var eitt af fimm áreitum valið af handahófi í hverri rannsókn og sýnd á tíma t = 5. Áfallið var slökkt við t = 25, en þá var veitt umbun með líkum á pr tilgreint af áreitinu. Við notuðum tappaða töfarlínu framsetning áreitis (sjá texta), með hverju áreiti táknað með mismunandi einingum („taugafrumum“). TD-villan var δ (t) = r (t) + w (t - 1) • x (t) - w (t - 1) • x (t - 1), með r (t) umbun á hverjum tíma t , og x (t) og w (t) ástands- og þyngdarveigar fyrir eininguna. Venjuleg TD námsregla á netinu var notuð með föstu námshlutfalli α, w (t) = w (t - 1) + αδ (t) x (t - 1), þannig að hver þyngd táknaði vænt verðlaunagildi í framtíðinni. Líkt og Fiorillo o.fl., sýnum við spávilluna δ (t) að meðaltali yfir margar rannsóknir, eftir að verkefnið hefur verið lært. Tákn ósamhverfan myndast þar sem neikvæð gildi δ (t) hafa verið stigstærð með d = 1/6 fyrir samantekt á herma PSTH, þó að nám gangi samkvæmt óstærðum villum. Að lokum, til að gera grein fyrir litlu jákvæðu svörunum á þeim tíma sem áreitið er fyrir pr = 0 og á þeim tíma sem (spáð) umbun fyrir pr = 1 sést í (a), gerðum við ráð fyrir litlum (8%) líkum á að forspárörvun er misgreind. (c) DA viðbrögð í pr = 0.5 rannsóknum, aðskilin í verðlaunaðar (vinstri) og ólaunaðar (hægri) rannsóknir. (d) TD líkan af (c). (a, c) Endurprentað með leyfi frá [15] © 2003 AAAS. Leyfi frá AAAS er krafist fyrir alla aðra notkun.

Hins vegar spáir TD kenning á þeim tíma sem möguleg verðlaun afhendist að að meðaltali ætti ekki að vera nein virkni, þar sem að meðaltali er engin spávilla á þeim tíma. Auðvitað, í líkindarsterkuhönnuninni (að minnsta kosti fyrir pr ≠ 0, 1) er í raun spávilla við afhendingu eða ekki afhent umbun í hverri einustu rannsókn. Í rannsóknum þar sem umbun er afhent ætti spávillan að vera jákvæð (þar sem umbunin sem er fengin er stærri en meðallaunin sem búist var við). Hins vegar ætti það að vera neikvætt í rannsóknum án umbunar (sjá mynd 1c). Afgerandi, samkvæmt TD ætti meðaltal þessara muna, vegið með líkum þeirra á að verða, að vera núll. Ef það er ekki núll, þá ætti þessi spávilla að virka sem mýkingarmerki og breyta spám þar til engin spáskekkja er til. Í samræmi við þessa væntingu sýna gögnin á mynd 1a, sem eru að meðaltali bæði verðlaunuð og óverðskuldaðar rannsóknir, að í raun er um að ræða jákvæða meðalvirkni á þessum tíma. Þetta er einnig áberandi í gögnum Morris o.fl. [16] (sjá mynd 3c). Jákvæð DA viðbrögð sýna engin merki um að hverfa jafnvel með talsverðri þjálfun (yfir mánuðina).

Verra en þetta fyrir TD líkanið, og raunar áherslur Fiorillo o.fl. [15], er augljós hröðun DA virkni í átt að væntanlegum tíma verðlaunanna. Þar sem umfang pallsins er mest fyrir pr = 0.5, Fiorillo o.fl. lagði til að það tilkynni óvissuna um verðlaun afhendingu, frekar en spávillu, og vangaveltur um að þetta merki gæti útskýrt augljóslega lystandi eiginleika óvissunnar (eins og sést í fjárhættuspilum).

Bæði hömluvirkni og athafnir á áætluðum umbunartímabil eru mikilvægar áskoranir fyrir TD kenninguna. TD nám starfar með því að skipuleggja DA virkni í einu í rannsókn til að spá í burtu með vísbendingum sem voru tiltækar fyrr í þeirri rannsókn. Þannig er ekki ljóst hvernig einhver virðist fyrirsjáanleg virkni, hvort sem umbunin eða á pallinum á undan, geta varað án þess að vera spáð í burtu við upphaf sjónræns áreiti. Þegar öllu er á botninn hvolft, er háð virkni sem svar við áreiti staðfesta stöðu þess sem gilt spá. Enn fremur, lykilatriði TD [17], er að það parar spá í aðgerðarval með því að nota gildi ríkis sem vísbendingu um framtíðarlaun sem í boði eru frá því ríki og þess vegna aðdráttarafl þess sem markmiðs aðgerða. Frá þessu sjónarhorni, þar sem hömluvirkni er beinlínis ekki spáð af fyrri vísbendingunni, getur hún ekki haft áhrif á snemma aðgerðir, svo sem ákvörðun um fjárhættuspil. Hugleiddu til dæmis samkeppni á milli tveggja aðgerða: önnur leiðir að lokum til ríkis með ákvörðunarleg umbun og þar af leiðandi engin skábraut, og hin leiðir til ríkis og fylgir því eftir líkindalaus umbun með sömu meðaltali og skábraut. Þar sem pallurinn hefur ekki áhrif á virkni þegar skilyrt áreiti er, er ekki hægt að nota það til að meta eða greiða fyrir aðgerðina (fjárhættuspil) í fyrstu, þrátt fyrir aukna óvissu.

Við leggjum til að sú tilgáta verði að bæði þessi fráviksmetningarmynstur komi beint af þeim takmörkunum sem lágmark grunnvirkni DA taugafrumna bendir til (2 – 4 Hz) við kóðun undirritaðs spávillu. Eins og fram kemur af Fiorillo o.fl. [15], jákvæðar spávillur eru táknaðar með hleðsluhlutfalli sem er ~ 270% yfir grunnlínu, en neikvæðar villur eru táknaðar með lækkun aðeins ~ 55% undir grunnlínu (sjá einnig [14,18]). Þessi ósamhverfa er einföld afleiðing af erfðaskráningu undirritaðs magns með skothríð sem hefur lága grunnlínu, en augljóslega getur aðeins verið jákvæð. Hraðahraði yfir grunnlínu getur umritað jákvæðar spávillur með því að nota stórt kraftmikið svið, en undir grunnlínunni getur hraðastig aðeins farið niður í núll og sett takmörkun á kóðun á neikvæðum spávillum.

Þar af leiðandi verða menn að vera varkárir við að túlka summur (eða meðaltöl) perí-áreitis tíma-histograms (PSTHs) af virkni yfir mismunandi rannsóknir, eins og gert var á mynd 1a. Ósamhverfu kóðuðu jákvæðu og neikvæðu villumerkin við móttöku eða ekki móttöku umbunar ættu sannarlega ekki að vera allt að núll, jafnvel þó þau tákni réttar TD spávillur. Þegar þetta er tekið saman mun lágt skothríð sem táknar neikvæðar villur í óbættar tilraunir ekki „hætta“ við hraðskothríð sem kóðar jákvæðar villur í verðlaunuðu prófunum og að öllu jöfnu mun meðaltalið sýna jákvætt svar. Í heilanum, að sjálfsögðu, þar sem viðbrögð eru ekki meðaltal yfir (umbunaðar og ólaunaðar) rannsóknir, heldur yfir taugafrumur í rannsókn, þetta þarf ekki að vera vandamál.

Þetta skýrir viðvarandi jákvæða virkni (að meðaltali) við afhendingu eða umbun ekki afhent. En hvað um rampinn fyrir þennan tíma? Að minnsta kosti í ákveðnum taugafrumvörpum tímans á milli áreitis og umbunar, þegar rannsóknir eru að meðaltali, leiðir þessi sama ósamhverfa til að TD leiði nákvæmlega til virkni í átt að umbunartímanum. TD námsaðferðin hefur þau áhrif að fjölga, á grundvelli prufu og prufa, spávillur sem koma upp í einu í rannsókn (svo sem á verðlaunatímanum) gagnvart hugsanlegum spám (svo sem CS) sem koma upp á fyrri tímum innan hverrar rannsóknar. Undir ósamhverfri framsetningu jákvæðra og neikvæðra villuspána sem við höfum rætt við, að meðaltali þessar fjölgunarvillur yfir margar rannsóknir (eins og á mynd 1a) mun leiða til jákvæðra aðferða fyrir tímabil innan prófs fyrir umbun. Nákvæm lögun virkjunarrampans sem myndast fer eftir því hvernig áreiti er táknað með tímanum, svo og námshraða, eins og fjallað verður um hér að neðan.

Mynd 2 sýnir þessa sýn á uppruna rampunar. Hér er tappað töfarlínu framsetning tíma síðan áreitið er notað. Fyrir þetta verður hver eining („taugafruma“) virk (þ.e. gerir ráð fyrir gildinu 1) við ákveðna töf eftir að áreitið hefur verið sett fram, þannig að hvert tímastig eftir upphaf áreitis er stöðugt táknað með því að skjóta eina einingu. Nám er byggt á (dópamínvirkri) TD villu, formfest sem δ (t) = r (t) + V (t) - V (t - 1), með V (t) vegið inntak frá virku einingunni kl. tíma t, og r (t) umbunin sem fæst á tíma t. Uppfærsla á lóðum eininganna samkvæmt stöðluðu TD uppfærslureglu með föstu námshlutfalli gerir V (t) að meðaltali til að tákna vænt verðlaun í framtíðinni (sjá mynd 1 myndatexta). Þar sem hvert tímaskeið er sýnt fram á nýtt geta TD spávillur komið upp hvenær sem er innan prufunnar. Mynd 2a sýnir þessar villur í sex eftirlíkingum í röð þar sem pr = 0.5. Í hverri prufu kemur upp ný jákvæð eða neikvæð villa við umbunina, afleiðing við móttöku eða ekki móttöku verðlaunanna, og skref fyrir skref breiðast villurnar frá fyrri tilraunum aftur til tímans hvata, í gegnum stöðug uppfærsla lóðanna (td villa sem auðkennd er með rauðu). Þegar meðaltöl (eða, eins og í PSTH, samanlagt) yfir tilraunir, hætta þessar villur hvor aðra að meðaltali, sem leiðir til heildar flatrar súlurits á bilinu eftir upphaf áreitis, og leiðir til verðlaunatímabilsins (svarta línan á mynd 2b, dregin saman yfir tíu tilraunirnar sem sýndar voru þunnbláar). Hins vegar, þegar það er tekið saman eftir ósamhverfar stigstærð á neikvæðu villunum með stuðlinum d = 10/1 (sem líkir eftir ósamhverfri kóðun jákvæðra og neikvæðra spávillna af DA taugafrumum), kemur jákvæður rampur af virkni, eins og sýnt er með svörtu línunni á mynd 6c. Athugaðu að þessi umbreyting er aðeins táknræn mál, sem stafar af þeim takmörkunum að kóða neikvætt gildi um lágt upphafshraða og ætti ekki að hafa áhrif á þyngdarnám, til að læra ekki rangt gildi (sjá umfjöllun). Hins vegar, þar sem PSTH eru beinlínis samtölur taugafrumuknúpa, ber þetta framsetningarmálefni söguritið sem myndast.

Mynd 2. Afturhlutun spávillna skýrir virkni hömlu.
(a) TD spávillan í öllum sex rannsóknum í röð (frá toppi til botns) frá uppgerðinni á mynd 1b, með pr = 0.5. Auðkennd með rauðu er skekkjan á þeim tíma sem umbunin var í fyrstu prófunum og smám saman afturútbreiðsla þess í átt að áreiti í síðari rannsóknum. Bálkabókstafir gefa til kynna niðurstöðu hverrar sérstakrar rannsóknar (R = verðlaun; N = ekki verðlaun). Röð verðlauna á undan þessum rannsóknum er gefin upp til hægri. (b) TD-villan frá þessum sex rannsóknum, og fjórum í viðbót í kjölfar þeirra, lögð ofan á. Rauðu og grænu línurnar sýna umslag villanna í þessum rannsóknum. Samantekt yfir þessar rannsóknir skilar sér í neinu gildi að meðaltali yfir grunnlínu (svörtu línunni), þar sem jákvæðar og neikvæðar villur eiga sér stað af handahófi 50% tímans og hætta því hver annan. (c) Þegar spávillurnar eru táknaðar ósamhverfar fyrir ofan og undir grunngildishraða (hér voru neikvæðar villur ósamhverfar kvarðaðar með d = 1 / 6 til að líkja eftir ósamhverfu kóðun forspárvillna með DA taugafrumum), að meðaltali hömlun á virkni kemur fram þegar meðaltal er yfir rannsóknum, eins og sést af svarta línunni. Allar hermir færibreytur eru þær sömu og á mynd 1b, d.

Myndir 1b, d sýna skábrautina sem stafar af þessari samsetningu ósamhverfrar kóðunar og meðalmeðferðarmeðferðar, til samanburðar við tilraunagögnin. Mynd 1b sýnir PSTH reiknað út frá hermdu gögnum okkar með því að meðaltali yfir ósamhverfar táknaða δ (t) merki í ~ 50 rannsóknum fyrir hverja áreiti tegund. Mynd 1d sýnir niðurstöður fyrir pr = 0.5 málinu, skipt í verðlaun og ósamþykktar rannsóknir til samanburðar við mynd 1c. Líkuðu niðurstöðurnar líkjast tilraunagögnum að því leyti að þær endurtaka jákvæða nettó svar við óvissum umbun, svo og hömluáhrifunum, sem eru hæst í pr = 0.5 tilvikinu.

Það er einfalt að fá meðaltal svar við umbun (t = N) í prufu T, þ.e. meðaltal TD skekkju δT (N), frá TD námsreglunni með einfaldaðri töf á tafarlínutíma og a fastur námshlutfall α. Gildið á næst síðasta tímapunkti í prufu, sem fall prufunúmera (með upphafsgildin talin vera núll), er

þar sem r (t) er umbunin í lok prufu t. Villumerkið á síðasta tímapunkti prufu T er einfaldlega munurinn á fenginni umbun r (T) og gildinu sem spáir fyrir um umbun VT - 1 (N - 1). Þessi villa er jákvæð með líkindum pr og neikvæð með líkindum (1 - pr). Skalaðu neikvæðu villurnar með stuðlinum d ∈ (0, 1], fáum við þannig

Við samhverf kóðun jákvæðra og neikvæðra villna (d = 1) er meðaltalssvar 0. Fyrir ósamhverfar erfðaskrá (0 Rekja skilyrðingu: prófmál

Mikilvægt prófdæmi fyrir túlkun okkar kemur upp í afbrigði af verkefni Fiorillo o.fl. [15], sem og í hliðstæðu hljóðverkefni Morris o.fl. [16], sem báðar fela í sér snefilskilyrði. Öfugt við seinkunarskilyrðingu (mynd 3a) þar sem umbunin fellur saman við móti spááreynslunnar, hér er verulegt bil á milli offors spááreitis og afhendingar umbunarinnar (mynd 3b). Ljóst er að í þessu tilfelli gæti óvissa um umbun aðeins orðið meiri vegna hávaða við tímasetningu tímabilsins milli áreitis og umbunar [19], þannig að undir óvissureikningnum ættu að vera sambærilegir eða jafnvel stærri rampar. Samt sem áður sýna tilraunaniðurstöður að rampandi virkni er minni, eða jafnvel hverfandi (mynd 3c; d). Athugaðu þó að umfangi meðaltals virkni prufunnar á væntanlegum umbunartíma er viðhaldið og vísar til aðgreiningar milli hæðar rampsins og magn jákvæðrar virkni á áætluðum umbunartíma.

Mynd 3. Rekja skilyrðingu með líkum umbun.
(a) Myndskreyting á einni rannsókn á seinkunarverkefni Fiorillo o.fl. [15]. Rannsókn samanstendur af 2 sekúndna sjónrænu áreiti, en mótfallið fellur að afhendingu safaverðlauna, ef slík umbun er forrituð í samræmi við líkurnar sem fylgja sjónrænu vísbendingunni. Í ólaunuðum rannsóknum lauk áreitinu án umbunar. Í báðum tilvikum skilur rannsókn á bilinu 9 sekúndur að meðaltali aðgreiningu. (b) Myndskreyting á einni réttarhæfingu um sporleifsverkefni Morris o.fl. [16]. Mikilvægi munurinn er sá að nú er veruleg tímabundin seinkun á milli áreitis og upphafs umbunar („ummerki“ tímabilið) og ekkert ytra áreiti gefur til kynna væntanlegan tíma umbunar. Þetta veitir viðbótaróvissu þar sem leysa þarf nákvæma tímasetningu á umbuninni, sérstaklega í ólaunuðum rannsóknum. Í þessu verkefni, eins og í [15], var eitt af nokkrum sjónrænum áreitum (ekki sýnt) kynnt í hverri rannsókn og hvert áreiti tengdist líkum á umbun. Hér var einnig beðið um að apinn framkvæmdi hljóðfærissvörun (ýtti á takkann sem samsvarar hliðinni þar sem áreitið var sett fram), en bilunin sló réttarhöldin upp án umbunar. Réttarhöld voru aðskilin með breytilegu millibili milli rannsókna. (c, d) DA skothlutfall (sléttað) miðað við upphafsgildi, um áætlaðan tíma umbunar, í umbunuðum tilraunum (c) og í ólaunuðum tilraunum (d). (c, d) Endurprentað frá [16] © 2004 með leyfi Elsevier. Sporin fela í sér jákvæð viðbrögð í heild á væntanlegum tíma umbunar, en með mjög litlum eða engum rampi á undan þessu. Svipaðar niðurstöður fengust í klassísku skilyrðisverkefni sem lýst var stuttlega í [15], þar sem notast var við snefilæðuaðferð, sem staðfestir að ummerki tímabilið, en ekki tæknilegt eðli verkefnisins sem lýst er í (b), var afgerandi munur frá (a) .

TD líkan DA skýrir auðveldlega þessi furðulegu gögn. Eins og sést á mynd 4 hefur námshraðinn áhrif á lögun skábrautarinnar, þó ekki hæð toppsins. Stærð skekkjuvillanna sem eru að aukast er ákvörðuð að hluta af námshlutfallinu, þar sem þessar villur koma upp sem hluti af netnámi nýrra spáa. Reyndar er stöðug uppfærsla á spám þannig að eftir verðlaunaða rannsókn er meiri búist við umbun (og þar með fylgir næsta verðlaun minni spávillu), og öfugt eftir rannsókn sem ekki er verðlaunuð [18] (sjá mynd 2a). Þessi uppfærsla spár er í beinu samhengi við námshlutfallið - því hærra sem námshlutfallið er, því stærri sem uppfærsla spárinnar er í samræmi við núverandi spávillu og því stærra brot spávillunnar sem er dreift til baka. Með þessum hætti, með hærra námshlutfalli, munurinn á væntingum eftir verðlaun á móti ósamþykktri rannsókn verður meiri og því verða spárvillurnar þegar næsta verðlaun eru eða eru ekki tiltækar - þar af leiðandi stærri og stigvaxandi hlaði.

Mynd 4. Háð skábrautarinnar af námshlutfalli.
Lögun pallsins, en ekki hæð hámarksins, er háð námshraða. Grafið sýnir herma virkni þegar um er að ræða pr = 0.5 nálægt þeim tíma sem umbunin var væntanleg, fyrir mismunandi námshlutfall, að meðaltali bæði á verðlaunaðar og óbeðnar rannsóknir. Samkvæmt TD námi með viðvarandi ósamhverfar kóðaðar spávillur, að meðaltali yfir virkni í verðlaunuðum og ósamþykktum rannsóknum, leiðir það til rampa fram að umbunartíma. Hæð toppsins á pallinum er ákvörðuð af hlutfalli verðlaunaðra og ósamþykktra rauna, en breidd pallsins er ákvörðuð af tíðni afturútbreiðslu þessara villumerkja frá tíma (væntanlegra) umbóta til tími forspárörvunarinnar. Hærra námshlutfall skilar sér í stærra broti af villunni sem breiðist út aftur og þar með hærri hlaði. Með lægra námshlutfalli verður hlaði hverfandi, þó að jákvæð virkni (að meðaltali) þegar umbunin er viðhaldið. Athugaðu að þrátt fyrir að námshraði sem notaður var í hermunum sem sýndar eru á mynd 1b, d hafi verið 0.8, ætti þetta ekki að taka sem bókstaflega samstillta námshraða tauga undirlagsins, miðað við skýringarmynd okkar á áreiti. Í raunhæfari framsetningu þar sem fjöldi taugafrumna er virkur á hverjum tíma myndi mun lægra námshlutfall skila svipuðum árangri.

Reyndar, samanborið við seinkun á skilyrðum, er snyrtiaðköst alræmd hægt, sem bendir til þess að námshlutfallið sé lítið og því ætti að vera lægri hlaði, í samræmi við tilraunaniðurstöður. Bein skoðun á námshraða í gögnum Morris o.fl. [16], þar sem verkefni þeirra krafðist óhóflegrar þjálfunar þar sem það var ekki aðeins snefilokun heldur einnig fólgin í tæknilegum aðgerðum, staðfesti það örugglega að vera mjög lítið (Genela Morris - persónuleg samskipti, 2004).

Discussion

Mismunur kóðunar jákvæðra og neikvæðra gilda hjá DA taugafrumum er augljós í öllum rannsóknum á fasískum DA merki og má líta á það sem óhjákvæmilega afleiðingu lágs grunnlínu virkni þessara taugafrumna. Sá síðarnefndi hefur raunar beint innblástur ábendingar um að andstæðingur taugaboðefni, óeðlilega serótónín, taki þátt í að tákna og læra því neikvæðar spávillur [20], svo að þeir hafi líka fullan fjórðung. Hér höfum við hins vegar einskorðað okkur við að fjalla um áhrif ósamhverfu á meðaltal rannsóknar á greiningunni á dópamínvirkni og sýnt fram á að ramping DA virkni, sem og jákvæð viðbrögð að meðaltali þegar umbunin kemur fram, beint frá ósamhverfar kóðun spávillna.

Burtséð frá skýrari sýn á villumerkið er mikilvægasta afleiðing nýju túlkunarinnar að líta má á rampana sem undirskrift TD fyrirbrigðis sem hingað til hefur verið mjög fimmti. Þetta er framsækin afturútbreiðsla villumerkisins sem er táknuð með DA virkni, frá því að umbun er til tíma spámannsins (mynd 2a). Flestar fyrri rannsóknir á dópamínvirkni hafa notað pr = 1, þannig að þessi afturútbreiðsla er í besta falli tímabundin fyrirbæri sem kom í ljós fyrst í upphafi þjálfunar (þegar venjulega eru upptökur ekki enn hafnar) og mögulega erfitt að greina það hægt hleypa DA taugafrumum úr. Ennfremur, eins og getið er, veltur afturútbreiðslan af því hvernig tíminn á milli forspárörvunar og umbunarinnar er táknaður - hann er til staðar fyrir tappaða töflínu framsetningu eins og í [6], en ekki fyrir framsetning sem spannar allt seinkun, svo sem í [21]. Athugið að lögun skábrautar er einnig háð notkun hæfileika og svokallaðrar TD (λ) námsreglu (uppgerð ekki sýnd), sem veitir viðbótarbúnað til að brúa tíma milli atburða meðan á námi stendur. Því miður, þar sem form rampa í gögnunum er frekar breytilegt (mynd 1) og hávaðasöm, geta þau ekki veitt sterkar skorður við nákvæman TD vélbúnað sem heilinn notar.
Nýlegri rannsóknir sem innihalda þrálátar spáskekkjur sýna einnig virkni sem bendir til fjölgunar á bakinu, einkum mynd 4 af [13]. Í þessari rannsókn leiddu til spávillur vegna reglubundinna breytinga á verkefninu og DA-upptökur voru gerðar frá upphafi þjálfunar, þannig að afturútbreiðsla eins virkni er beinlínis augljós, þó að þessi virkni væri ekki magngreind.

Við reiknum með að ramparnir haldi áfram meðan á þjálfun stendur ef námshlutfallið lækkar ekki í núll þegar líður á námið. Kenning Pearce & Hall [22] um stjórnun lærdóms með óvissu bendir nákvæmlega til þessarar þrautseigju náms - og vísbendingar eru um hlutfall styrktaráætlana um að námshlutfall geti verið hærra þegar meiri óvissa er tengd umbuninni. Reyndar, frá "skynsamlegu" tölfræðilegu sjónarhorni, ætti nám að vera viðvarandi þegar veruleg óvissa ríkir um tengsl spámanna og niðurstaðna, eins og getur stafað af stöðugum möguleika á breytingu á forspár samböndunum. Þetta form viðvarandi óvissu, ásamt óvissu vegna upphafsþekkingar varðandi verkefnið, hefur verið notað til að formfesta kenningu Pearce & Hall um það hvernig óvissan knýr nám [23]. Þannig að fullyrðing okkar um að óvissan sé kannski ekki beinlínis táknuð með rampunum ætti vissulega ekki að þýða að framsetning hennar og meðferð sé ekki mikilvæg. Þvert á móti höfum við lagt til að óvissa hafi áhrif á barkstýrð ályktun og nám í gegnum önnur taugastjórnunarkerfi [24] og að hún geti einnig ráðið úrslitum um val á aðgerðum [25].

Taka skal fram ýmsa aðra eiginleika ósamhverfunnar. Mikilvægust eru áhrif ósamhverfunnar á DA-háð nám [26], ef undirvirkni DA virkni er sjálf ábyrg fyrir minnkandi spám sem eru of miklar. Til þess að tryggja að lært spár haldist réttar, verðum við að gera ráð fyrir að ósamhverfar framsetningin hafi ekki áhrif á nám, þ.e. að fyrirkomulag eins og mismunandi stigstærð til styrkingar og þunglyndis á samstillta styrkleika bæti ósamhverfar villumerki. Auðvitað, þetta yrði látið í ljós ef andstæðingur taugaboðefni tekur þátt í að læra af neikvæðum spávillum. Þetta mál er flókið af ábendingu Bayer [14] um að skothraði DA sé í raun svipaður fyrir allar spávillur undir einhverjum neikvæðum þröskuld, kannski vegna gólfáhrifa lága skothríðsins. Slík kóðun hefur ekki áhrif á eigindlega mynd af áhrifum millirannsókna að meðaltali á tilkomu rampa, en styrkir þörfina fyrir merki andstæðingsins fyrir samhverft nám.

Að lokum, beinasta próf túlkunar okkar væri samanburður á meðalmeðferð meðaltals DA merkisins. Mikilvægt væri að gera þetta á tímabundinn háþróaðan hátt til að forðast vandamál með að meðaltali óstöðvandi merki. Til þess að vinna bug á hávaða í taugaskotinu og ákvarða hvort örugglega hafi verið smám saman rampur í rannsókn, eða, eins og við myndum spá - hléum á jákvæðum og neikvæðum spávillum, væri nauðsynlegt að meðaltal yfir margar taugafrumur skráðar samtímis ein rannsókn, og ennfremur taugafrumur sem tengjast svipuðum námshlutfalli. Að öðrum kosti gæti ummerki um taugafrumur dregist aftur úr svörun við bakvexti sem spáð var í fyrri rannsóknum þeirra og TD námi. Samanburður á magnbreytileikanum sem skýrður er með slíku líkani, samanborið við það frá aðhvarfi á móti einhæfri sviðsvirkni, gæti bent til hentugasta líkansins. Minna beinskeyttari en prófanlegri próf er að lögun rampsins ætti að ráðast af námshraða. Námshlutfall er hægt að meta út frá svörun við líklegum umbun, óháð lögun skábrautarinnar (Nakahara o.fl. [18] sýndi á þann hátt að námshlutfall þeirra var að hluta til styrktar rekja, 0.3), og hugsanlega meðhöndluð með því að breyta magni þjálfunar eða hversu oft verkefnum er breytt og endurlærð. Reyndar að mæla tilvist og lögun rampa í skráðri DA-starfsemi Nakahara o.fl. gæti vel varpað ljósi á núverandi tillögu.

hagsmuna
Höfundur / -aðilar lýsa því yfir að þeir hafi ekki hagsmuni í samkeppni.

Framlög höfunda
YN, MD og PD ímynduðu í sameiningu og framkvæmdu þessa rannsókn og hjálpuðu að semja handritið. Allir höfundar lásu og samþykktu lokahandritið.

Þakkir
Við erum mjög þakklát H. Bergman, C. Fiorillo, N. Daw, D. Joel, P. Tobler, P. Shizgal og W. Schultz fyrir umræður og athugasemdir, í sumum tilvikum þrátt fyrir misjafna túlkun gagnanna. Við erum sérstaklega þakklát Genela Morris fyrir að greina eigin útgefin og óbirt gögn í tengslum við skábraut. Þessi vinna var styrkt af EB Thematic Network (YN), Gatsby Charity Foundation og ESB BIBA verkefninu.

Meðmæli

1. Ljungberg T, Apicella P, Schultz W: Viðbrögð af dópamín taugafrumum apa við nám á hegðunarviðbrögðum.
Tímarit Neurophysiol 1992, 67: 145-163.
Aftur í texta
2. Schultz W: Forspár verðlaunamerki dópamín taugafrumna. [http://jn.physiology.org/cgi/content/full/80/1/1] vefsíða
Journal of Neurophysiology 1998, 80: 1-27. PubMed ágrip
Aftur í texta
3. O'Doherty J, Dayan P, Friston K, Critchley H, Dolan R: Tímamunalíkön og umbunartengt nám í mannsheilanum.
Neuron 2003, 38: 329-337. PubMed ágrip | Fullur texti útgefanda
Aftur í texta
4. Seymour B, O'Doherty J, Dayan P, Koltzenburg M, Jones A, Dolan R, Friston K, Frackowiak R: Tímamunalíkön lýsa námi af hærri röð hjá mönnum.
Náttúra 2004, 429: 664-667. PubMed ágrip | Fullur texti útgefanda
Aftur í texta
5. Montague PR, Hyman SE, Cohan JD: Reiknihlutverk fyrir dópamín í hegðunarstjórnun.
Náttúra 2004, 431: 760-767. PubMed ágrip | Fullur texti útgefanda
Aftur í texta
6. Montague PR, Dayan P, Sejnowski TJ: Rammi fyrir mesencephalic dópamín kerfi byggt á spávísandi hebbísku námi.
Journal of Neuroscience 1996, 16: 1936-1947. PubMed ágrip | Fullur texti útgefanda
Aftur í texta
7. Schultz W, Dayan P, Montague PR: Tauga undirlag spá og umbun.
Vísindi 1997, 275: 1593-1599. PubMed ágrip | Fullur texti útgefanda
Aftur í texta
8. Sutton RS: Að læra að spá með aðferðinni um tímamun.
Vélanám 1988, 3: 9-44.
Aftur í texta
9. Sutton RS, Barto AG: [http://www.cs.ualberta.ca/~sutton/book/ebook/the-book.html] vefsíða
Styrkingarnám: kynning. MIT Press; 1998.
Aftur í texta
10. Hollerman J, Schultz W: Dópamín taugafrumur tilkynna um villu í tímabundna spá um verðlaun meðan á námi stendur.
Náttúrur taugavísindi 1998, 1: 304-309. PubMed ágrip | Fullur texti útgefanda
Aftur í texta
11. Schultz W, Apicella P, Ljungberg T: Viðbrögð apa dópamín taugafrumna til að verðlauna og skilyrt áreiti á eftirtöldum skrefum til að læra seinkaða svörunarverkefni.
Journal of Neuroscience 1993, 13: 900-913. PubMed ágrip | Fullur texti útgefanda
Aftur í texta
12. Tobler P, Dickinson A, Schultz W: Erfðaskrá fyrir spáð verðlaunaleysi af dópamíntaugafrumum í skilyrtri hömlunarmynd.
Journal of Neuroscience 2003, 23 (32): 10402-10410. PubMed ágrip | Fullur texti útgefanda
Aftur í texta
13. Takikawa Y, Kawagoe R, Hikosaka O: Mögulegt hlutverk dópamíntaugafrumna í miðheila í skammtíma- og langtímaaðlögun saccades að kortlagningu stöðuverðlauna.
Journal of Neurophysiology 2004, 92: 2520-2529. PubMed ágrip | Fullur texti útgefanda
Aftur í texta
14. Bayer H: Hlutverk fyrir substantia nigra í námi og hreyfistjórnun.
PhD ritgerð, New York University 2004.
Aftur í texta
15. Fiorillo C, Tobler P, Schultz W: Stöðug kóðun um verðlaunalíkur og óvissu af dópamíntaugafrumum.
Vísindi 2003, 299 (5614): 1898-1902. PubMed ágrip | Fullur texti útgefanda
Aftur í texta
16. Morris G, Arkadir D, Nevet A, Vaadia E, Bergman H: Tilviljun en aðgreind skilaboð um miðheila dópamín og striatal tónvirkar taugafrumum.
Neuron 2004, 43: 133-143. PubMed ágrip | Fullur texti útgefanda
Aftur í texta
17. Barto A, Sutton R, Watkins C: Nám og ákvarðanatöku í röð. In Learning and Computational Neuroscience: Foundations of Adaptive Networks. Ritstýrt af Gabriel M, Moore J. Cambridge, MA: MIT Press; 1990:539-602.
Aftur í texta
18. Nakahara H, Itoh H, Kawagoe R, Takikawa Y, Hikosaka O: Dópamín taugafrumur geta táknað samhengisháða spávillu.
Neuron 2004, 41: 269-280. PubMed ágrip | Fullur texti útgefanda
Aftur í texta
19. Gallistel CR, Gibbon J: Tími, hraði og skilyrðing.
Sálfræðileg úttekt 2000, 107: 289-344. PubMed ágrip | Fullur texti útgefanda
Aftur í texta
20. Daw ND, Kakade S, Dayan P: Andstæðingur milliverkanir milli serótóníns og dópamíns.
Taugakerfi 2002, 15 (4 – 6): 603-616. PubMed ágrip | Fullur texti útgefanda
Aftur í texta
21. Suri RE, Schultz W: Taugakerfislíkan með dópamínlíku styrkingarmerki sem lærir staðbundið seinkun viðbragðsverkefnis.
Taugavísindi 1999, 91: 871-890. PubMed ágrip | Fullur texti útgefanda
Aftur í texta
22. Pearce JM, Hall G: Líkan fyrir Pavlovískt nám: Breytingar í virkni skilyrts en ekki óskilyrts áreitis.
Sálfræðileg úttekt 1980, 87: 532-552. PubMed ágrip | Fullur texti útgefanda
Aftur í texta
23. Dayan P, Kakade S, Montague PR: Nám og sértæk athygli.
Náttúrur taugavísindi 2000, 3: 1218-1223. PubMed ágrip | Fullur texti útgefanda
Aftur í texta
24. Dayan P, Yu A: Vænt og óvænt óvissa: Ach og NE í nýberki. [http://books.nips.ce/papers/files/nips15/NS08.pdf] vefsíða
Í framþróun í taugagreiðslu upplýsingavinnslukerfa ritstýrð af Dietterich T, Becker S, Ghahramani Z. Cambridge, MA: MIT Press; 2002, 14: 189-196.
Aftur í texta
25. Daw N, Niv Y, Dayan P: Actions, Policys, Values, and the Basal Ganglia. Í nýlegum byltingum í rannsóknum á basal ganglia. Ritstýrt af Bezard E. New York, Bandaríkjunum: Nova Science Publishers, Inc; í prentun.
Aftur í texta
26. Wickens J, Kötter R: Cellular módel af styrkingum. Í Models of Information Processing in the Basal Ganglia. Ritstýrt af Houk JC, Davis JL, Beiser DG. MIT Press; 1995:187-214.
Aftur í texta