Kuongezeka kwa Saliency na Majibu ya Novelty kutoka kwa Kanuni za Kujifunza Kuimarisha (2008)

MAONI: Utafiti mwingine unaoonyesha kuwa riwaya ni thawabu yake mwenyewe. Moja ya mambo ya kupendeza ya ponografia ya mtandao ni riwaya na anuwai isiyo na mwisho, uwezo wa kubonyeza haraka kutoka eneo moja hadi lingine, na kutafuta picha / video inayofaa. Hizi zote huongeza dopamine. Hii ndio inafanya porn za mtandao kuwa tofauti na majarida au DVD za kukodi.

Utafiti kamili: Kuibuka kwa Majibu ya Uangalifu na Riwaya kutoka kwa kanuni za Kuimarisha Utekelezaji

Mtandao wa Neural. 2008 Disemba; 21 (10): 1493-1499.

Iliyochapishwa mtandaoni 2008 Septemba 25. doi: 10.1016 / j.neunet.2008.09.004

Patryk A. Laurent, Chuo Kikuu cha Pittsburgh;

Anwani anwani yote kwa: Patryk Laurent, Chuo Kikuu cha Pittsburgh, 623 LRDC, 3939 O'Hara St., Pittsburgh, PA 15260 USA, E-mail: [barua pepe inalindwa], Ofisi: (412) 624-3191, Faksi: (412) 624-9149

abstract

Majaribio ya hivi karibuni ya mifano ya ujifunzaji wa msingi wa ramani, kama Kuimarisha Kujifunza [17], kwa ubongo ni msingi wa uchunguzi kwamba phasic inaongezeka na hupungua katika spiking ya dopamine-kutolewa neurons ishara kati ya alitabiri na kupokea malipo [16,5]. Walakini, kosa hili la utabiri wa tuzo ni moja tu ya ishara kadhaa zilizowasilishwa na shughuli hiyo ya phasic; nyingine ni pamoja na kuongezeka kwa spiking dopaminergic, kuonyesha muonekano wa kichocheo lakini cha kutabirika kisicho cha thawabu [4,6,13], haswa wakati kiumbe baadaye kinapolenga kuelekea kichocheo [16]. Kuelezea matokeo haya, Ke na Dayan [7] na wengine wameandika riwaya hiyo, kuchochea isiyotarajiwa ni thawabu kubwa. Uigaji ulioripotiwa katika nakala hii unaonyesha kwamba dhana hii sio lazima kwa sababu athari iliyokusudiwa kukamata inaibuka kutoka kwa ujifunzaji wa ujifunzaji wa malipo ya utabiri wa Kujifunza. Kwa hivyo, kanuni za Kujifunza za kuimarisha zinaweza kutumika kuelewa sio tu shughuli zinazohusiana na thawabu za neuropu ya dopaminergic ya gangal ya basal, lakini pia baadhi ya shughuli zao zinazoonekana zisizo na thawabu.

Kuimarisha Kujifunza (RL) inazidi kuwa muhimu katika ukuzaji wa mifano ngumu ya kujifunza kwa msingi wa thawabu katika ubongo. RL ni darasa la algorithms ya kupindukia ambayo inabainisha jinsi "wakala" wa bandia (kwa mfano, roboti halisi au iliyoingiliana) inaweza kujifunza kuchagua vitendo ili kuongeza jumla ya thawabu inayotarajiwa [17]. Katika algorithms hizi, wakala huweka vitendo vyake juu ya maadili ambayo hujifunza kushirikiana na majimbo mbali mbali (kwa mfano, dalili za mtazamo zinazohusiana na kichocheo). Thamani hizi zinaweza kujifunza hatua kwa hatua kupitia ujifunzaji wa tofauti za kidunia, ambayo inabadilisha viwango vya hali kulingana na tofauti kati ya utabiri wa malipo wa wakala wa hali hiyo na malipo halisi ambayo hupatikana baadaye kutoka kwa mazingira. Tofauti hii iliyokadiriwa, inayoitwa kosa la utabiri wa malipo, imeonyeshwa kuendana vizuri sana na shughuli ya phasic ya dopamine-kutolewa neurons inayojitokeza kutoka kwaantigea nigra katika primates zisizo za kibinadamu [16]. Kwa kuongezea, kwa wanadamu, striatum, ambayo ni shabaha muhimu ya dopamine, inadhihirisha ishara ya FMRI BOLD ambayo inaonekana kuonyesha kosa la utabiri wa malipo wakati wa kazi za kujifunza ujira [10,12,18]. Kupatikana kwa fMri hii kunasababisha data ya fiziolojia kwa sababu BONI ya striatal inadhaniwa kutafakari, angalau kwa sehemu, shughuli za ushirika wa synaptic [9] na mradi wa neuropu ya dopamine sana kwa striatum.

Ingawa majibu ya kisaikolojia yaliyotajwa hapo juu yanaonekana kuwa yanahusiana na utabiri wa utabiri wa malipo ya RL, kuna ongezeko la shughuli za dopaminergic phasic kujibu kuchochea na / au riwaya ya kusisimua ambayo inaonekana hahusiani na thawabu [4,6,14,3]. Hali kama hiyo imeonekana hivi karibuni kwa wanadamu kwa kutumia fMRI [2]. Kuna sababu kadhaa kwa nini jibu hili la "riwaya" au "mshituko" linasemekana kuwa lisilohusiana na kosa la utabiri wa malipo: (1) linaonekana mapema sana, kabla utambulisho wa kichocheo hicho haukutathminiwa, ili utabiri sahihi wa malipo hauwezi kuzalishwa; (2) inalingana na kuongezeka kwa shughuli za neural (yaani, ni chanya) kwa uchochezi wote wa wasikilizaji na wenye hamu ya kula; na (3) inaishi [13]. Hakika, majibu haya ya ujinga / riwaya ya dopamine-kutolewa neuroni ni ya kuaminika sana wakati kuchochea hakutabiriwa na kusababisha mwelekeo na / au tabia ya mbinu [16] bila kujali matokeo ya mwishowe, ikionyesha ukweli kwamba wao ni wenye sifa tofauti na thawabu iliyojifunza utabiri. Changamoto, kwa hivyo, imekuwa kuelezea kitendawili hiki dhahiri (yaani, jinsi riwaya inavyoathiri kosa la utabiri wa malipo) katika mfumo wa kinadharia wa RL.

Basi na Dayan [7] walijaribu kufanya hii haswa; katika kifungu chao, wanachapisha njia mbili ambazo majibu ya riwaya yanaweza kuingizwa katika mifano ya RL ya dopaminergic-zote mbili zinajumuisha kuingizwa kwa mawazo mpya ya nadharia. Dhana ya kwanza, inayojulikana kama mafao mapya, inajumuisha kuanzisha malipo ya ziada wakati riwaya za riwaya zipo, hapo juu na zaidi ya malipo ya kawaida yaliyopokelewa na wakala. Thawabu hii ya ziada huingia kwenye hesabu ili ujifunze ni msingi wa tofauti kati ya utabiri wa malipo wa wakala uliopo na jumla ya thawabu ya kawaida kutoka kwa mazingira na bonasi mpya. Kwa hivyo, riwaya inakuwa sehemu ya thawabu ambayo wakala anajaribu kuongeza. Dhana ya pili, inayoitwa mafao ya kuchagiza, inaweza kutekelezwa kwa kuongeza bandia maadili ya majimbo yanayohusiana na uchochezi wa riwaya. Kwa sababu sheria ya kutofautisha ya kidunia iliyotumiwa katika RL inatokana na utabiri wa utabiri wa malipo kati ya majimbo yanayofuata, kuongezewa kwa maandamano ya mara kwa mara kwa majimbo yanayohusika na uchochezi wa riwaya hakuna athari kwa tabia ya mwisho ya wakala. Walakini, majibu ya riwaya bado yanaibuka wakati wakala anaingia katika sehemu ya nafasi ya serikali ambayo "imeundwa" (ie, ambayo inahusishwa na riwaya).

Ijapokuwa kuongezewa kwa kila moja ya dhana hizi kunatosha kuelezea athari nyingi za riwaya, mawazo hayo pia yanaingilia maendeleo ya kujifunza. Kama Kale na Dayan [7] wanavyoelekeza, bonasi za riwaya zinaweza kupotosha kazi ya dhamana (yaani, maadili yanayohusiana na kila jimbo na wakala) na kuathiri kile ambacho hujifunza baadaye kwa sababu zinatekelezwa kama malipo ya ziada ambayo yanahusiana na riwaya. majimbo. Shida ni kwamba wakala hujifunza kutabiri vitu vya msingi na vya riwaya vya tuzo. Ingawa kale na Dayan wanadokeza kwamba kuchagiza mafao hayasababishi shida ya aina hii kwa sababu inaingizwa kwenye utabiri wa malipo kutoka kwa majimbo yaliyotangulia, nyongeza yao bado ni shida kwa sababu kuchagiza mafao huanzisha upendeleo kwa njia ambayo wakala atakachunguza nafasi yake ya serikali. Kwa hivyo, ingawa mawazo haya ya ziada yanaweza kuelezea jinsi riwaya inavyoathiri kosa la utabiri wa malipo katika RL, ni shida. Zaidi ya hayo, maelezo huja kwa gharama ya kupunguza kazi ya mfano ambayo inajaribu kutumia RL kuelewa tabia ya viumbe hai vya kibaolojia.

Ulinganisho uliyoripotiwa hapo chini ulifanyika ili kujaribu nadharia kwamba wakala rahisi wa RL, bila mawazo yoyote ya ziada, angeendeleza majibu ya utabiri wa malipo ambayo ni sawa na majibu ya dopamini isiyo na tuzo ambayo huzingatiwa katika viumbe hai. . Wakala wa RL alipewa jukumu la kuingiliana na aina mbili za kitu - moja chanya na nyingine hasi — ambayo ilionekana katika sehemu za bahati nasibu katika mazingira yake. Ili kuongeza thawabu yake, wakala alilazimika kujifunza kukaribia na "kuteketeza" kitu kizuri, na epuka (yaani, sio "kuteketeza") kitu hasi. Kulikuwa na utabiri kuu kuu wa simulizi.

Utabiri wa kwanza ni kwamba, ili kuzidisha ujira wake, kwa kweli wakala angejifunza kukaribia na "kuteketeza" vitu chanya, vyenye thawabu wakati huo huo akijifunza kujiepusha na vitu vibaya, vya kuadhibu. Utabiri wa pili ulikuwa wazi kidogo: kwamba wakala angeonyesha mwitikio unaoelekeza (yaani, jifunze kugeuza mwelekeo wake) kuelekea vitu viwili hasi na vyema. Utabiri huo ulitengenezwa kwa sababu ingawa wakala huyo anaweza "kuona" muonekano wa kitu na eneo lake, utambulisho mzuri au hasi wa kitu hicho (kwa mfano, fumbo ambalo wakala huyo baadaye angejifunza kuhusishwa na dhamana ya malipo ya kitu) haikuweza kudhaminiwa na wakala hadi baada ya wakala ameelekeza kwa kitu hicho. Mwishowe, utabiri wa tatu (na muhimu zaidi) ulihusiana na mwitikio wa phasic wa dopaminergic katika mfano; Utabiri huu ni kwamba, wakati kitu kitatokea, wakala angeonyesha kosa la utabiri wa thawabu ambalo lilikuwa la kushangaza kwa mwitikio wa dopamine wa phasic unaonekana katika viumbe vya kibaolojia, kuwa mzuri kwa vitu vizuri na vibaya. Jibu hili pia lilitabiriwa kutofautiana kama kazi ya umbali kati ya wakala na kichocheo, ambacho kwa muktadha wa simulizi ilikuwa kipimo cha wakala wa uhamasishaji "nguvu" au usiti. Kama inavyoonyeshwa hapa chini, utabiri huu ulithibitishwa na matokeo ya simulizi, kuonyesha kwamba majibu ya dopamine ambayo hayana malipo yoyote kwa kanuni yanaweza kutoka kwa kanuni za msingi za RL. Ishara za nadharia za matokeo haya kwa kutumia RL kuelewa shughuli zisizo na thawabu katika viumbe hai zitajadiliwa katika sehemu ya mwisho ya nakala hii.

Method

Kama ilivyotajwa tayari, algorithms za RL zinaelezea jinsi wakala anaweza kutumia thawabu za hesabu za muda mfupi ili kujifunza ni hatua gani inapaswa kuchukua ili kuongeza jumla ya thawabu ambayo hupokea. Katika uundaji mwingi, ujifunzaji huu unapatikana kwa kutumia makosa ya utabiri wa malipo (km., Utofauti kati ya utabiri wa sasa wa wakala na tuzo halisi inayopatikana) kusasisha utabiri wa malipo ya wakala. Kadiri utabiri wa malipo unavyojifunza, utabiri unaweza pia kutumiwa na wakala kuchagua hatua yake inayofuata. Sera ya kawaida (iliyoelezwa katika equation 2) ni kwa wakala kuchagua hatua ambayo inabiriwa kusababisha thawabu kubwa. Thawabu halisi ambayo hutolewa kwa wakala wakati wowote ni jumla ya malipo ya haraka pamoja na sehemu fulani ya thamani ya hali ambayo wakala huingia wakati hatua imekamilika. Kwa hivyo, ikiwa wakala atapata thawabu nzuri baada ya kuwa katika hali fulani, wakala atachagua hatua katika siku zijazo ambazo zinaweza kusababisha nchi hizo zilizopewa thawabu; kwa upande wake, ikiwa wakala atapata thawabu mbaya (yaani, adhabu) itaepuka vitendo katika siku zijazo ambazo zitasababisha mataifa hayo "kuadhibiwa".

Algorithm maalum ambayo huamua utabiri wa thawabu ambao umejifunza kwa majimbo anuwai (yaani, kazi ya thamani V) huitwa Thamani ya Mchanganyiko [Kifungu cha 1] na inaweza kuelezewa rasmi kama:

Kwa majimbo yote yanayowezekana,

(Equation 1)

ambapo s inalingana na hali ya sasa, V (s) ni utabiri wa sasa wa malipo kwa hali ambayo imejifunza na wakala, maxaction∈M {} ni mwendeshaji kwa thamani ya juu ya wingi uliowekwa alama juu ya seti ya vitendo vyote M inapatikana kwa wakala, V (s ′) ni utabiri wa malipo wa sasa wa wakala kwa hali inayofuata s ′, cy ni kiwango fulani cha masomo (kati ya 0 na 1), na γ ni kipunguzo kinachoonyesha jinsi tuzo za baadaye zinavyopaswa uzani jamaa na ujira wa haraka. Kazi ya thamani ya awali iliwekwa ili V (s) ilikuwa 0 kwa majimbo yote.

Kazi ya thamani V (s) ilitekelezwa kama meza ya ukaguzi, ambayo ni sawa na dhana ya kumbukumbu kamili. Ingawa vipimo vya kazi kama mitandao ya neural vimetumiwa na mafanikio fulani kuwakilisha kazi za thamani [1], meza ya ukaguzi ilitumiwa kuhakikisha kuwa matokeo hayategemei aina ya utaratibu wa jumla ambao hutolewa na warekebishaji anuwai wa kazi. Wakala huyo alipewa mafunzo ya ujifunzaji wa 1,500 juu ya nafasi yake ya serikali. Kwa sababu ya kutabiri kwa utambulisho wa vitu, param ya sasisho la utendaji wa chini ya moja (α = 0.01) ilitumiwa wakati wa ujifunzaji ili kuruhusu kuzunguka kwa matokeo tofauti. Mwishowe, sababu ya punguzo iliwekwa γ = 0.99 kumhimiza wakala kutafuta malipo mapema badala ya kuchelewesha tabia yake ya mbinu hadi mwisho wa jaribio (ingawa kuibadilisha kutoka kwa dhamana ya msingi wa 1 hakukuwa na athari kwa matokeo yaliyoripotiwa hapa. ) Ili kuamua kwa uhuru ikiwa itikadi za kujifunza za 1,500 zilitosha kujifunza kukamilisha, kiwango cha wastani cha mabadiliko katika kilichojifunza kilizingatiwa na iligundulika kuwa ilibadilishwa kabla ya idadi hii ya matabaka.

Baada ya mafunzo, algorithm maalum ambayo inasimamia tabia ya wakala (yaani, sera ya hatua ambayo inachukua kutoka kwa kila jimbo) ni:

(Equation 2)

ambapo π (s) ni hatua ambayo wakala atachagua kutoka kwa serikali, na upande wa kulia wa equation unarudisha kitendo (mfano, mabadiliko ya mwelekeo, harakati, au hakuna hatua) ambayo inakuza jumla ya thawabu na thamani iliyopunguzwa ya hali inayosababisha.

Katika masimulizi ambayo yameripotiwa hapo chini, majimbo yote ambayo yalitembelewa na wakala yalifungwa kama viini vyenye umbo la 7 ambavyo viliwakilisha habari kuhusu hali ya nje ya "wakala" wa wakala na hali yake ya "maarifa" ya ndani. Habari ya mwili ni pamoja na msimamo wa sasa wa wakala katika nafasi na mwelekeo wake. Habari ya maarifa ni pamoja na msimamo wa kitu (ikiwa mtu alikuwepo) na utambulisho wa kitu hicho (ikiwa imedhamiriwa na wakala). Aina maalum ya habari ambayo iliwakilishwa na wakala imeonyeshwa kwenye Jedwali 1.

Meza 1

Vipimo vilivyotumika kwenye simu za RL na maadili yanayowezekana ya vipimo hivyo.

Kulikuwa na jumla ya majimbo ya 21,120 kwenye simulation [Kifungu cha 2]. Walakini, majimbo ambayo kulikuwa na kitu kisicho sahihi na kisichojulikana ni kwa mtazamo wa wakala, kufanana, kwa hivyo kuna tu majimbo tofauti ya 16,280. Kwa hivyo, wakati wa kila upendeleo wa kujifunza, ilikuwa ni lazima kutembelea baadhi ya majimbo yale “yanayofanana” mara mbili ili kuruhusu ukweli kwamba nusu ya wakati wanaweza kufuatwa na ugunduzi wa kitu kizuri, na nusu ya wakati wanaweza ifuatwe na ugunduzi wa kitu hasi [Kifungu cha 3].

Mwanzoni mwa kila jaribio la majaribio la kugeuza, wakala aliwekwa katikati ya kituo kilichowekwa mstari 11 x 1 kufuatilia na nafasi tano za "mashariki" (yaani, kulia) ya wakala na nafasi tano kuelekea "magharibi" ”(Km, kushoto) ya wakala. Kama Jedwali la 1 linavyoonyesha, vector ya serikali ya wakala huyo ni pamoja na kitu kinachoonyesha eneo lake la sasa kwenye wimbo (yaani, nambari kutoka 0 hadi 10), na pia kipengee (yaani, mhusika "n", "s", " e ", au" w ") inayowakilisha mwelekeo wake wa sasa (km. kaskazini, kusini, mashariki, au magharibi, mtawaliwa). Mageuzi ya mwanzoni ya wakala kila wakati yalikuwa yanatakiwa kuwa "kaskazini", na hakuna kitu kingine kilikuwepo katika mazingira (yaani, thamani ya "OBJECT" katika dawati la wakala wa serikali iliwekwa sawa na "0").

Wakati wa kila hatua ya kuiga, wakala anaweza kufanya moja ya vitendo vifuatavyo: (1) haifanyi chochote, na kubaki katika eneo la sasa na mwelekeo; (2) upande wa kaskazini, kusini, mashariki au magharibi; au (3) hoja nafasi moja katika mazingira (mashariki au magharibi). Matokeo ya kila hatua yalifanyika kwa hatua iliyofuata ya hatua. Mabadiliko yote katika eneo na / au mwelekeo wa wakala katika nafasi ilitokea kupitia uteuzi wa vitendo na wakala. Walakini, wakati wa kila hatua ya simulizi, hata wakati hatua ya "kufanya hakuna chochote" ilichaguliwa, wakati uliongezewa na 1 hadi mwisho wa jaribio (yaani, hatua ya 20).

Mazingira ya wakala yameundwa ili nusu ya wakati huo, kitu kilionekana katika eneo lisilo na bahati nasibu (lakini sio katika eneo sawa na wakala) baada ya hatua kumi za wakati; 50% ya vitu vilikuwa vyema (viliwakilishwa na "+"; tazama Jedwali 1) na 50% ya vitu vilikuwa vibaya (vilivyowakilishwa na "-"). Kuchelewesha kabla ya kitu kuonekana hakujaletwa ili kuruhusu uchunguzi wa tabia yoyote ambayo wakala anaweza alionesha kabla ya kuonekana kwa kitu hicho. Ikiwa wakala hakuelekezwa kwa kitu wakati kilionekana, basi kitu kinachowakilisha kitambulisho cha "OBJECT" katika daftari la serikali ya wakala kilibadilishwa kutoka "0" kuwa "?" Kuonyesha ukweli wa kitambulisho cha kitu ambacho kilikuwa sasa sasa haikujulikana. Walakini, ikiwa wakala alielekezwa kwenye kitu, basi kwa hatua inayofuata ya muda wa "OBJECT" kitu kiliwekwa sawa na utambulisho wa kitu hicho, ili "0" iwe "+" au "-" kwa chanya na vitu hasi, mtawaliwa.

Ikiwa wakala amehamia kwenye eneo la kitu, basi wakati wa pili hatua ya kitu ikatoweka. Ikiwa kitu kilikuwa kizuri, basi bendera ya "CONSUMED" ya wakala imewekwa sawa na kweli na wakala alipewa (thawabu = + 10); Walakini, ikiwa kitu hicho kimekuwa hasi, basi bendera ya "SHOCKED" iliwekwa kweli na wakala akaadhibiwa (tuzo = −10). (Kumbuka kuwa bendera ziliwekwa kwa njia hii bila kujali kama wakala alikuwa na au alikuwa hajagundua kitu hicho; kwa mfano, wakala anaweza kutumia kitu bila kuelekeza kwake.) Kwenye hatua inayofuata ya wakati, "SHOCKED" au Bendera ya "YALIYOONEKANA" ilifutwa. Wakala pia alipewa adhabu ndogo (kuimarisha = −1) kwa kila harakati au hatua ya kuelekeza, na hakupokea thawabu yoyote au adhabu (kuimarisha = 0) ikiwa haikufanya vitendo.

Tabia zote mbili (yaani, mwelekeo na harakati) na kipimo cha makosa ya utabiri wa malipo vilitengwa kwa wakala. Tabia iliyozidi (yaani, orodha ya hatua iliyochaguliwa na wakala) ilitumiwa kama ishara ya ikiwa kazi hiyo imejifunza. Kipimo cha kosa la utabiri wa malipo ilitumika kujaribu nadharia juu ya kutokea kwa ishara ya phasic isiyo ya thawabu. Kosa la utabiri wa malipo, δ, lilipimwa wakati wa kuonekana kwa kitu kwa kutoa utabiri wa malipo katika hatua ya wakati uliopita, yaani, V (s) kwa hatua ya saa t − 1, kutoka kwa utabiri wa malipo wakati kitu kilionekana, yaani, V (s) kwa wakati t, ikitoa idadi δ = V (st) - V (st − 1).

Matokeo
Tabia ya Kuiga

Tabia iliyozidi ya mawakala ilipangiwa kwanza. Matokeo ya uchambuzi huu yalionyesha kuwa, baada ya mafunzo, wakala alikaribia na kupata uimarishaji mzuri kutoka kwa vitu vyote vizuri na hakuwahi kukaribia yoyote ya vitu vibaya. Kwa pamoja, matokeo haya hutoa uthibitisho wa tabia kwamba mawakala walijifunza kufanya kazi hiyo kwa usahihi. Hitimisho hili linaungwa mkono na uchunguzi wa ziada kwamba, wakati wa majaribio wakati hakuna kitu kilionekana, wakala alibaki bila mwendo. Kama ilivyotabiriwa, wakala huyo ameelekeza kwa vitu viwili vyema na vibaya.

Kosa la Utabiri wa malipo

Maneno kuu ya karatasi hii ni kwamba muonekano wa kichocheo kisichobadilika utaleta kila wakati hitilafu nzuri ya utabiri wa malipo, hata ikiwa kitu hicho kitatokea kuwa kitu "hasi" ambacho huwaadhibu kila wakati. Kwa kuunga mkono dhana hii, wakala alionyesha hitilafu nzuri ya utabiri wa malipo wakati kitu (kisichojulikana) kinatokea, lakini sio wakati hakuna kitu kilitokea. Pia inaambatana na nadharia kuu ni ukweli kwamba ukubwa wa majibu ya phasic ya wakala (δ, kipimo kama ilivyoelezewa katika sehemu ya Njia) ilikuwa nyeti kwa "nguvu" ya kichocheo kilichoingizwa. hufafanuliwa kutumia umbali kati ya wakala na kitu (angalia Kielelezo 1). Uchunguzi wa ukandamizaji ulionyesha kuwa ukubwa wa δ ulikuwa unahusiana kinyume na umbali kutoka kwa kitu, kwa hivyo vitu vya karibu vilisababisha majibu yenye nguvu (r = -0.999, p <0.001; β = 0.82). Uwiano huu hasi ulisababishwa na adhabu ndogo (uimarishaji = -1) ambayo ilitolewa kwa kila harakati ambayo wakala alitakiwa kufanya ili kuhamia kwenye kitu chanya, kuitumia, na hivyo kupata tuzo.

Kielelezo 1

Takwimu hii inaonyesha kosa la utabiri wa malipo (yaani, δ) wakati kitu kilionekana kama kazi ya eneo la kitu kinachohusiana na eneo la wakala. Majibu yanafanana kwa vitu chanya na hasi. Wakati hakuna kitu (zaidi…)

Kwa kuzingatia kwamba vitu vizuri na hasi vilionekana kwenye simulation hii na uwezekano sawa (p = .25), swali linatokea: Je! Ni kwanini ishara ya utabiri wa kosa la wakala ilikuwa nzuri wakati wa kuonekana kwa kitu hicho? Kuhoji pamoja na mistari ya Kale na Dayan [7], mtu anaweza kutabiri kwamba ishara inapaswa kuonyesha wastani wa thawabu zote zilizojifunza kutoka kwa hali kama hizi, na kwa hivyo kuwa sawa na sifuri. Ufunguo wa kuelewa matokeo haya ni kugundua kuwa sio tu kwamba RL hufanya wakala kukosa uwezo wa kuchagua vitendo ambavyo husababisha uimarishaji hasi, pia inafanya uwezekano wa wakala kuingia katika majimbo ambayo hatimaye husababisha uimarishaji hasi. Hii inasababisha aina ya kujifunza kwa “hali ya juu” ambayo inaonyeshwa kwenye Mchoro 2 na kuelezewa ifuatayo.

Kielelezo 2

Kielelezo kinachoonyesha jinsi wakala wa RL anavyokuza makosa mazuri ya utabiri wa thawabu wakati anafundishwa na vichocheo vyote vyenye thawabu na kuadhibu katika mazingira yake na anaweza kuchagua ikiwa atazikaribia na kuzitumia. (A) Hali kabla ya kujifunza: (zaidi…)

Mwanzoni mwa kujifunza (ona Kielelezo 2A), wakala huelekeza kwa vitu "+" na "-", huwasiliana nao, na wote hulipwa na kuadhibiwa kwa kula kila aina ya kitu. Ikiwa maadili ya hali ya wakala yameshindwa kushawishi vitendo vya wakala (tazama Kielelezo 2B), basi wakala angeendelea kukaribia na kuteketeza vitu. Kuonekana kwa cue basi kutabiri malipo ya wastani ya 0 na kutakuwa na ongezeko la ghafla la kosa la utabiri wa malipo. Walakini, wakala katika uigaji huu hutumia maadili ya hali ya kujifunza kushawishi vitendo vyake (ona Mchoro 2C), na ingawa wakala bado hana budi kuelekeza kwa kitu kisichojulikana ili kutambua kitambulisho chake, hakitatumia kitu hasi ikiwa kitakaribia (kwa kadri itakavyofundishwa na algorithm ya upelelezi isiyo ya kawaida kama sampuli ya kielelezo [Kifungu cha 1]). Kwa kuongezea, kwa sababu kujifunza kwa tofauti ya kidunia inaruhusu utabiri mbaya wa malipo ya "kueneza" kurudi katika nchi zilizotangulia, na kwa sababu kuna gharama ndogo ya kusonga mbele katika nafasi, wakala hujifunza kuzuia kukaribia kitu hasi kabisa. Kwa hivyo, baada ya habari hii kujifunza, thamani ya hali wakati kitu kinatokea kwanza (kilichoonyeshwa kama "V" kwenye mduara wa kwanza katika kila mlolongo) sio kwa msingi wa wastani wa maadili mazuri na mabaya ya hali, lakini ni badala yake kwa msingi wa wastani wa matokeo mazuri na "ya kutokulaani" ambayo hupatikana mara tu wakala anajifunza kuzuia vitu vibaya. Hii ndio sababu wastani wa tuzo zote zilizopatikana na wakala aliyefundishwa zilikuwa kubwa kuliko sifuri, na inaelezea kwa nini utabiri wa malipo ya wakala (na kwa hivyo kosa la utabiri wa tuzo wakati kitu hicho kinatokea ghafla) kilikuwa chanya. Hii imeonyeshwa kwenye Mchoro 3. Kwa kweli, kwa muda mrefu kama wakala anaweza kujifunza kubadili tabia yake na kujiepusha na kitu hasi, thamani ya kitu hasi haina maana kwa tabia ya mwisho ya wakala na ukubwa wa majibu ya riwaya / mshono.

Kielelezo 3

(A) Inaonyesha mabadiliko katika utabiri wa malipo ambayo yangetokea ikiwa RL haikusababisha ujifunzaji wa hali ya juu (yaani, ikiwa wakala hangeweza kuchukua hatua za kuzuia matokeo mabaya), ili wakala alazimishwe kutumia vitu (zaidi…)

Matokeo ya simulizi yanategemea sana dhana tatu. Kwanza, kuchochea ilibidi "iwe wazi" kwa kuwa ukubwa wa kuimarisha uliotabiriwa na cue wa kwanza ulikuwa mkubwa wa kutosha (kwa mfano, + 10) kulingana na gharama ya kuelekeza na inakaribia (kwa mfano, −1). Ikiwa ukubwa ungekuwa mdogo, wakala asingejifunza kuelekeza, wala isingetoa majibu mazuri ya utabiri wa malipo. Pili, kuchelewesha kabla ya kutambua kuchochea pia ilikuwa muhimu. (Kuchelewesha ni wakala wa "riwaya" chini ya hoja kwamba kichocheo kinachofahamika kitatambuliwa haraka.) Bila kuchelewesha, wakala angetoa tu kosa sahihi la utabiri mzuri au mbaya wa utabiri unaofaa kwa kitu halisi. Mwishowe, tabia ya wakala ilibidi imedhamiriwa na maadili ambayo yamejifunza. Ikiwa wakala hakuweza kudhibiti tabia yake mwenyewe (yaani, kukaribia kuchochea), basi utabiri wa malipo yake wakati kitu kitatokea kingekuwa sawa 0, wastani wa matokeo mazuri na mabaya.

Majadiliano Mkuu

Uigaji uliyoripotiwa katika nakala hii ulionyesha kuwa kosa zuri la utabiri wa malipo hutokea wakati kichocheo kisichobashiri, iwe cha thawabu au adhabu, kinatokea lakini hakiwezi kutambuliwa mara moja. Kwa kuongezea, simulation ilionyesha kuwa ukubwa wa kosa la utabiri wa malipo huongezeka na ukaribu wa kichocheo kwa wakala, ambayo katika muktadha wa simulizi ni kipimo cha wakala kwa nguvu ya kichocheo na kwa hivyo inahusiana na usiti. Katika mfumo wa kinadharia wa RL, utabiri wa thawabu kawaida hueleweka kuonyesha dhamana ya kujifunza ya kusisimua inayotambuliwa, au ya hali ya mwili na / au ya utambuzi ya wakala [15]. Walakini, kosa la utabiri wa thawabu iliyoripotiwa hapa ina tafsiri tofauti kwa sababu inasababishwa kabla ya wakala kutambua jambo. Pamoja, matokeo haya yanaunga mkono wazo la kwamba kanuni za RL zinatosha kutoa majibu ambayo inaonekana kuwa hayahusiani na tuzo, lakini badala yake yanahusiana na mali ya riwaya na usiti. Hitimisho hili lina vielelezo kadhaa muhimu kwa ufahamu wetu wa jumla wa RL na kwa tafsiri yetu ya RL kama akaunti ya ujifunzaji wa thawabu katika viumbe halisi vya kibaolojia.

Kwanza, utabiri wa thawabu ambayo imetolewa na wakala wa RL wakati kichocheo kisichojulikana kitaonekana sio wastani kamili wa tuzo zinazopatikana kama ilivyopendekezwa na pele na Dayan [7], lakini kwa kweli inaweza kuwa kubwa zaidi kuliko ile wastani. Basi na Dayan wangetabiri kwamba utabiri wa malipo ya wastani unapaswa kuwa sawa na sifuri kwa sababu, kwa sababu majaribio yalipewa thawabu na kuadhibiwa sawasawa mara kwa mara. Matokeo haya ya kushangaza yakaibuka kwa sababu wakala huyo alijifunza kwa njia ya "sera-juu"; Hiyo ni, wakala hakujifunza tu juu ya matokeo hasi, lakini pia juu ya uwezo wake wa kuzuia matokeo hayo. Uwezo huu wa mfumo wa malipo ya kusababisha wakala aepuke matokeo hasi inapaswa kuzingatiwa kwa uangalifu katika kutafsiri uelewa wetu wa RL kwa viumbe halisi. Ukweli huu ni muhimu zaidi hata ukizingatia asymmetry inayoonekana katika uwezo wa majibu ya phasic ya dopaminergic kuwakilisha ishara chanya ya utabiri wa malipo bora kuliko kosa mbaya la utabiri wa malipo [11]. Inaweza kutosha kuonyesha kuwa mlolongo fulani wa matukio husababisha matokeo mabaya, lakini kwamba kwa madhumuni ya uteuzi wa hatua, ukubwa wa matokeo hayo sio muhimu.

Malengo ya pili ya simulizi ya sasa ni kwamba majibu ya riwaya yanaweza kutokea kutoka kwa mwingiliano kati ya mifumo ya usindikaji wa ukweli na mifumo ya utabiri wa tuzo. Hasa, majibu ya riwaya yanaweza kuwa ni kwa sababu ya kufanana kwa vitu vya riwaya na vitu ambavyo bado havijafanya usindikaji kamili wa kielelezo [Kifungu cha 4]. Katika hesabu hii, riwaya ilitekelezwa kwa kuanzisha kuchelewesha kabla ya kitambulisho cha kitu hicho (na kwa sababu hiyo, asili yake ya kufadhili au ya kuadhibu) ilidhihirika kwa wakala. Hii ilifanywa chini ya dhana kwamba vitu vya riwaya huchukua muda mrefu kutambua, lakini wazo hili pia lilisababisha vitu vizuri na hasi vigundulike vivyo hivyo wakati vinatokea kwa mara ya kwanza (yaani, wote wawili waliwekwa kumbukumbu kama "?"). Kwa kulinganisha, kwanza na Dayan [7] wanapendekeza majibu ya riwaya na majibu ya "ujumuishaji" ni tofauti kabisa licha ya kudhihirishwa sawa katika data ya neurophysiology.

Uthibitisho wa tatu wa matokeo ya sasa ya simulizi ni kwamba zinaonyesha kuwa dhana za ziada za bonasi za riwaya na kuchagiza ambazo zilipendekezwa na Ke na Dayan [7] sio lazima. Badala yake, majibu kama ya riwaya yanaweza kutokea kwa upungufu wa usindikaji wa ukweli na ufahamu wa kuweza kuzuia matokeo mabaya. Hii ni bahati nzuri kwa sababu, kama ilivyoonyeshwa na Ke na Dayan, mafaida ya riwaya hupotosha kazi ya thamani ambayo hujifunza na wakala, na mafao ya kuchagiza yanaathiri njia ambayo mawakala huchunguza nafasi zao za serikali. Kuingizwa kwa moja ya mawazo haya kwa hivyo kunapunguza kiwango cha mifano kulingana na nadharia ya RL. Kwa kufurahisha, matokeo yaliyotolewa hapa pia yanasaidia kuelezea kwa nini majibu ya riwaya ya kibaolojia yanaweza kuwa yasiyoweza kuleta uvumbuzi kwa msingi wa thawabu ya kujifunza kwa viumbe vya kweli: majibu ya riwaya kwa kweli yametabiriwa na RL. Hiyo ni, majibu ya riwaya huonyesha tabia na utabiri wa thawabu ambayo ni ya asili katika wakala ambayo tayari amejifunza kitu kuhusu mazingira yake.

Tafsiri mbadala (lakini sio ya kipekee) tafsiri ya matokeo ya simulizi ya sasa ni kwamba hakika kuna thawabu (labda ya utambuzi) ambayo mawakala hupata kwa kuelekeza nguvu na kutambua vitu. Katika masomo ya shughuli za dopaminergic, majibu mazuri ya phasic yanaweza kutokea kwa njia ambazo hazijatarajiwa ambazo zinajulikana kutabiri tuzo. Uigaji huu, hata hivyo, unaonyesha jinsi aina hizi za majibu zinaweza pia kutokea katika kukabiliana na fumbo ambalo linaweza kutabiri malipo au adhabu. Faida thabiti tu ambayo inatabiriwa na cue ni faida katika habari inayopatikana wakati wakala anapoamua kitambulisho cha kitu hicho. Kwa hivyo, ikiwa kuna "utabiri wa malipo" halali, umejifunza, wakati kitu kisichojulikana kitatokea, ni ambacho kinaridhika baada ya wakala kupata maarifa juu ya kukaribia au kuzuia kichocheo. Thamani ya habari hii haitegemei wastani wa matokeo yanayopatikana, lakini ni kwa msingi wa ufahamu wa matokeo madhubuti - kwamba wakala anaweza kutumia tuzo nzuri au aepuka malipo hasi (ona Mchoro 2).

Mwishowe, ni muhimu kutambua kwamba fursa za kuchukua hatua fulani (kwa mfano, mwelekeo) zinaweza wenyewe kuchukua mali zenye thawabu kupitia ujanibishaji au utaratibu wa kujifunza uliojumuishwa kwenye simulizi hii. Kwa mfano, kitendo cha kuelekeza na kuamua "ni nini huko nje" kinaweza kuwa thawabu kwa kiumbe kulingana na ushirika kati ya kitendo hicho na mtu aliyeibuka aliyeonyeshwa hapo awali, makosa ya utabiri wa tuzo la wakati wote wakati ushawishi mpya unaonekana. Wazo kama hilo limetengenezwa hivi karibuni na Redgrave na Gurney [13] ambao wanadokeza kwamba kusudi muhimu la majibu ya dopamine ya phasic ni kuimarisha vitendo ambavyo vinatokea kabla ya matukio ya kutabiri. Matokeo hapa hayaendani na dhana hiyo, lakini ikumbukwe kuwa nadharia ya Redgrave na Gurney hajapimwa moja kwa moja kwenye simulizi hii kwa sababu hakuna vitendo (yaani, upelelezi) vinahitajika kwa wakala ili tukio hafla (kuonekana kwa kitu) kutokea. Walakini, ishara iliyoimbwa ya phasic ilifungamana na wakati wa majibu unaoelekeza kupendekeza kwamba mbili zinaweza kuhusishwa sana.

Kwa kumalizia, nakala hii imeonyesha kwamba kanuni za RL zinaweza kutumiwa kuelezea aina ya shughuli zinazoonekana zisizo na thawabu za neuropu ya dopaminergic. Matokeo haya yalitokana na ukweli kwamba kanuni ya kujifunza tofauti ya kidunia (kama ile inayotumiwa na Basi na Dayan [7]) ilisisitizwa kwa simulation ambayo wakala angeweza kuchagua vitendo ambavyo vina athari kwenye matokeo ya mwishowe. Katika masimulizi, wakala alijifunza kuwa matokeo ya kuelekeza kwa kitu ambacho kilijitokeza ghafla kinaweza kuwa na baraka au kutokuwa sawa kwa sababu matokeo hasi yanaweza kuepukwa. Kwa hivyo wakati wakala alipokuwa na fursa ya kuelekeza, kosa lake la utabiri wa tuzo lilikuwa nzuri kila wakati, kwa kushawishi majibu ya riwaya na ya usisitizo yaliyoonekana katika viumbe vya kibaolojia.

Shukrani

Kazi iliyoelezewa katika nakala hii iliungwa mkono na NIH R01 HD053639 na na NSF Training Grant DGE-9987588. Napenda kumshukuru Erik Reichle, Tessa Warren, na mhakiki asiyejulikana kwa maoni yanayosaidia juu ya toleo la mapema la nakala hii.

Usisitizaji wa 1Another Kujifunza algorithm, inayoitwa Sampuli ya Sampuli [17], hutumika mara nyingi badala ya Thamani ya Mchanganyiko wakati nafasi ya serikali inakuwa kubwa sana kwamba haiwezi kuzungushwa au kuhifadhiwa kwa urahisi katika kumbukumbu ya kompyuta. Badala ya kuhuzunika juu ya kila jimbo katika nafasi ya serikali na kutumia suluhisho la usasishaji wa kazi kulingana na vitendo vinavyoonekana kusababisha thawabu zaidi, Sampuli ya Trajectory inafanya kazi kwa kufuata njia kupitia nafasi ya serikali. Vivyo hivyo kwa Ukosefu wa Thamani, vitendo vinavyoongoza kwa thawabu zaidi kawaida huchaguliwa kutoka kwa kila jimbo, lakini mara kwa mara hatua ya upelelezi ya bila malipo huchaguliwa kwa uwezekano mdogo. Kwa hivyo algorithm ni: Kutoka kwa hali zingine za kuanza, chagua kitendo kinachoongoza kupata thawabu zaidi [kwa mfano, thawabu + γV (s ′) na uwezekano wa hit, au chagua hatua ya kuchungulia bila mpangilio na uwezekano wa 1 - bec. Omba V (s) → V (s) + α [thawabu + γV (s ′) - V (s)] wakati wa vitendo visivyo vya uchunguzi kutoka kwa serikali s.

Licha ya kushinda mapungufu ya kiufundi ya wakati wa kumbukumbu na kumbukumbu, Sampuli za Kuonyesha zinaweza kupendeza kwa sababu inaweza kuonyesha vyema jinsi viumbe halisi hujifunza: kwa kutafuta njia katika nafasi ya serikali. Kwenye kazi iliyoelezewa kwenye karatasi hii, Sampuli ya Sampuli ya Matokeo inaleta matokeo ambayo yanafanana kabisa na yale yaliyopatikana na Thamani ya Thamani. Walakini, kwa ukweli matokeo hayo hayajaripotiwa hapa kwa undani. Thamani ya Thamani ilichaguliwa kwa masimulizi kwenye karatasi hii kwa sababu mbili kuu. Kwanza, kwa sababu Sampuli ya Utaftaji inajumuisha uimara katika uteuzi wa vijikaratasi, idadi kubwa ya matawi ambayo ni kwa sababu ya mlolongo mwingi wa vitendo katika kazi hii inaweza kusababisha mawakala ambao wanakosa uzoefu na majimbo mengine isipokuwa parameta ya utafutaji. chas-uchoyo [17]) huchaguliwa kwa uangalifu. Ukosefu huu wa uzoefu na majimbo fulani unaweza kuwa wa usumbufu wa utendaji wa wakala wakati muundo wa kumbukumbu ya meza unayotumiwa kwa sababu ya kukosekana kwa jumla ya dhamana kwa nchi zinazofanana (lakini labda ambazo hazipatikani). Kwa hivyo, ilipendelea kuchukua fursa ya utafutaji kamili wa nafasi ya serikali ambayo imehakikishwa na Itera ya Thamani. Pili, matumizi ya Iteration ya Thamani yalipunguza haja ya kutaja kwamba parameta ya nyongeza ya unyonyaji, na hivyo kurahisisha simulizi. Kumbuka kuwa Sampuli ya Trajectory inaweza kukadiri Kiwango cha Thamani kwani idadi ya traomsories inakaribia infinity [17].

2Nambari ya majimbo ya 21,120 inaweza kuhesabiwa kama ifuatavyo: 11 mahali pa wakala mahali x 4 uwezekano wa mwelekeo wa wakala × (hatua za wakati wa 10 kabla ya kitu inaweza kuonekana + hatua za wakati wa 10 ambapo hakuna kitu kilionekana + hatua za wakati wa 10 imesisitizwa vizuri + hatua za muda za 10 ambapo kitu kilikuwa kimeimarishwa vibaya + maeneo ya 11 ya kitu kinachowezekana * (hatua za wakati wa 10 na kitu chanya kinachotambuliwa + hatua za wakati wa 10 na hatua mbaya ya kutambuliwa + hatua za 10 na hatua isiyojulikana + Hatua za wakati wa 10 na kitu kibaya ambacho hakijajulikana))].

3Ukuwepo wa nchi hizi “zilizofichwa” lazima zizingatiwe wakati wa mafunzo kwa sababu Thamani Iteration inaonekana tu “hatua moja mbele” kutoka kwa kila jimbo katika nafasi ya serikali. Ukweli kwamba majimbo yaliyo na vitu hasi na vyema havijatambuliwa vilifanana vingeweza kuzuia kujifunza juu ya na kuongeza maadili katika majimbo mawili ya baadaye ambayo kitu chanya au hasi kinatambuliwa. Mbinu ya Kuiga Mfano kwa upande mwingine inashikilia habari ya hali ya siri (yaani, kitambulisho cha kichocheo kisichojulikana) wakati wote wa kesi na kwa hivyo na tofauti hiyo ya RL majimbo yaliyofichwa sio jambo la wasiwasi.

Shida inayowezekana ya kupinga kazi ya sasa ni kwamba mwitikio unaoelekeza unaonekana kuwa mgumu katika ubongo wa mamalia, kwa mfano, kwa makadirio kutoka kwa colliculus mkuu [4]. Katika masimulizi ya sasa, mawakala hawakuwa na bidii ya kuelekeza vitu lakini badala yake walijifunza tabia ya kuelekeza ambayo iliruhusu uteuzi wa kitendo (mfano, njia au uepukaji) ulioongeza thawabu. Vile vile kwa majibu ya waya ngumu, tabia hizi zinazoelekeza zilitokea haraka sana, kabla ya vitu kutambuliwa, na vilielekezwa kwa vitu vyote. Kusudi la kazi hii haikuwa kufanya madai kwamba majibu yote kama haya yanajifunza, lakini badala yake wanaweza kushirikiana katika mfumo wa RL. Walakini, itakuwa ya kufurahisha kuchunguza ikiwa mifumo inayohusiana na thawabu inaweza kuhusishwa katika kuanzisha unganisho katika maeneo ya mfumo wa akili ili kutoa mwitikio wa dopamine wa phasic.

Huu ndio faili ya PDF ya maandishi yasiyotarajiwa ambayo yamekubaliwa kwa kuchapishwa. Kama huduma kwa wateja wetu tunawasilisha toleo hili la awali la maandishi. Kitabu hiki kitashirikiwa kuchapishwa, kuchapisha, na kuchunguza uthibitisho uliofuata kabla ya kuchapishwa kwa fomu yake ya mwisho inayofaa. Tafadhali kumbuka kuwa wakati wa makosa ya mchakato wa uzalishaji yanaweza kugunduliwa ambayo yanaweza kuathiri maudhui, na kukataa kisheria kwa kila kisheria inayohusu.

Marejeo

1. Baird LC. Algorithms ya mabaki: Kuimarisha Usimamizi na Ukaribu wa Kazi. Katika: Priedetis A, Russell S, wahariri. Kujifunza Mashine: Utaratibu wa Mkutano wa Kumi na Wawili wa Mkutano; 9-12 Julai.1995.

2. Bunzeck N, Düzel E. Kukodisha utunzi wa riwaya ya kichocheo katika kibinadamu / VTA ya binadamu. Neuron. 2006; 51 (3): 369-379. [Iliyochapishwa]

3. Dommett E, Coizet V, CD Blaha CD, Martindale J, Lefebvre V, Walton N, Mayhew JEW, Overton PG, Redgrave P. Jinsi ya kutazama ya kuamsha neurons dopaminergic kwa latency fupi. Sayansi. 2005; 307 (5714): 1476-1479. [Iliyochapishwa]

4. Doya K. Usanidi na neuromodulation. Mitandao ya Neural. 2002 Jun-Jul; 15 (4-6): 495-506. [Iliyochapishwa]

5. Gillies A, Arbuthnott G. Aina za ngumu za gangal basal. Shida za Harakati. 2000; 15 (5): 762-770. [Iliyochapishwa]

6. Horvitz JC. Majibu ya dolamine ya Mesolimbocortical na nigrostriatal kwa hafla zisizo za malipo. Neuroscience. 2000; 96 (4): 651-656. [Iliyochapishwa]

7. Kale S, Dayan P. Dopamine: generalization na mafao. Mitandao ya Neural. 2002; 15 (4-6): 549-559. [Iliyochapishwa]

8. Knutson B, Cooper JC. Mtego wa haijulikani. Neuron. 2006; 51 (3): 280-282. [Iliyochapishwa]

9. Logothetis NK, Pauls J, Augath M, Trinath T, Oeltermann A. uchunguzi wa neurolojia wa msingi wa ishara ya fMRI. Asili. 2001; 412 (6843): 150-157. [Iliyochapishwa]

10. McClure SM, Berns GS, Montague PR. Makosa ya utabiri wa muda katika kazi ya kujifunza ya kuamsha huamsha ubinadamu. Neuron. 2003; 38 (2): 339-346. [Iliyochapishwa]

11. Niv Y, Duff MO, Dayan P. Dopamine, kutokuwa na uhakika na kujifunza kwa TD. Kazi za Kujishughulisha na Ubongo. 2005 Mei 4; 1: 6. [Nakala ya bure ya PMC] [PubMed]

12. O'Doherty JP, Dayan P, Friston K, Critchley H, Dolan RJ. Aina tofauti za muda na ujifunzaji unaohusiana na thawabu katika ubongo wa mwanadamu. Neuron. 2003; 38 (2): 329-337. [Iliyochapishwa]

13. Redgrave P, Gurney K. Ishara dopamine ya latency fupi: jukumu la kugundua vitendo vya riwaya? Mapitio ya Mazingira 2006 Des; 7 (12): 967-975.

14. Redgrave P, Prescott TJ, Gurney K. Je, majibu mafupi ya dopamine fupi pia ni ya ishara ya makosa ya malipo? Mwenendo katika Neurosciences. 1999 Aprili; 22 (4): 146-151. [Iliyochapishwa]

15. Reichle ED, Laurent PA. Kutumia ujumuishaji wa kujifunza kuelewa kuibuka kwa tabia ya “akili” wakati wa kusoma. Mapitio ya Saikolojia. 2006; 113 (2): 390-408. [Iliyochapishwa]

16. Schultz W. Utabiri wa malipo ya ishara ya neuropu ya dopamine. Jarida la Neurophysiology. 1998; 80 (1): 1-27. [Iliyochapishwa]

17. Sutton RS, Barto AG. Kuimarisha Kujifunza: Utangulizi. Vyombo vya habari vya MIT; Cambridge: 1998.

18. Tanaka SC, Doya K, Okada G, Ueda K, Okamoto Y, Yamawaki S. Utabiri wa tuzo za haraka na za baadaye tofauti huajiri matanzi ya cortico-basal ganglia. Neuroscience ya Asili. 2004; 7 (8): 887-893.