Dopamin qeyri-müəyyənliyi və TD öyrənilməsi (2005)

ŞƏRHLƏR: Qeyri-müəyyənlik yenilik deməkdir. Bu kompleks araşdırma yeniliyin dopamini artırdığını təsdiqləyir. Həm də izah edir ki, mükafat nə qədər qeyri-müəyyən olsa, öyrənmə o qədər güclü olur. İnternet pornoları, sonsuz bir yeniliyə görə keçmişdəki pornodan fərqlənir - bu, sonsuz dopamin fışqırıqları deməkdir. Əsas olan asılılıq öyrənmə və yaddaşdır. Pornonun yeni janrına keçmək, dopamin və öyrənməyi aktivləşdirir - yaşamaq istədiyiniz şeyin qeyri-müəyyənliyi üzündən. Pornoqrafiya istifadəçiləri porno axtararkən qeyri-müəyyənlik də baş verir. Nə görmək istədiyinizi bilmirsiniz və bu da dopamini gücləndirir.
Yenilik, qeyri-müəyyənlik və bütün dopamini aktivləşdirmək istəyir

Tam öyrənmə: Dopamin qeyri-müəyyənliyi və TD öyrənilməsi

Davranış və Brain funksiyaları 2005, 1:6doi:10.1186/1744-9081-1-6

Yael Niv1,2, Michael O Duff2 və Peter Dayan2
1 Disiplinlerarası Sinir Hesablama Mərkəzi, İvrit Universiteti, Qüds, İsrail
2 Gatsby Hesablama Nörobilim Ünitesi, University College London, London, Böyük Britaniya
Bu məqalənin elektron versiyası tamdır və onlayn olaraq əldə edilə bilər: http://www.behavioralandbrainfunctions.com/content/1/1/6
© 2005 Niv və digərləri; lisenziya sahibi BioMed Mərkəzi Ltd.

mücərrəd

Əhəmiyyətli sübutlar, primat midbrainindəki dopaminergik nöronların fasik fəaliyyətlərinin, gələcək mükafatların proqnozlaşdırılmasında təxmin edilən bir müvəqqəti fərq (TD) xarakterli olduğunu göstərir və yuxarıdakı artımlar ilə müvafiq olaraq müsbət və mənfi proqnozlaşdırma səhvlərinə əsasən aşağıda azalır. Bununla belə, dopamin hüceyrələri çox aşağı bazal fəaliyyətə malikdir və bu iki növ səhvlərin asimmetrik olduğunu göstərir. Davamlı proqnozlaşdırma səhvlərinə gətirib çıxaran probabilistic mükafatları ilə təcrübələrdə dopaminergik atəş nümunələrini şərh etmək üçün bu zahirən zərərsiz asimmetrinin təsirlərini araşdırırıq. Xüsusilə, biz göstərir ki, sınaqdan qeyri-stasionar proqnozlaşdırma səhvlərini ortadan qaldıran zaman, dopamin nöronların fəaliyyətində bir pilləli görünmə olmalıdır ki, bu da qüvvəsi öyrənmə dərəcəsinə asılıdır. Bu dəqiq bir fenomen son sınaqda müşahidə olundu, baxmayaraq ki, antipodal cəhətdən qeyri-müəyyənliyin şifrələnməsində kodlaşdırılıb.

giriş

Maymunların, sıçanların və insanların midbrains'lərində dopaminergik (DA) hüceyrələrin phasic aktivliyi ilə bağlı gələcək mükafatların [1-5] proqnozlarını əhatə edən klassik və instrumental kondisyon vəzifələrində təsirli bir böyük fizyoloji, görüntüləmə və psixofaroqoqrafik məlumatlar var. Bu məlumatlar [6,7] DA nöronların fəaliyyətinin gələcək mükafatın [8,9] proqnozlarında müvəqqəti fərq (TD) səhvlərini təmsil etdiyini təklif etmək üçün götürülmüşdür. Dopaminin bu TD nəzəriyyəsi davranış və neyron məlumatların əksəriyyətini anlamaq üçün dəqiq hesablama əsasını təmin edir. Bundan əlavə, DA həm proqnozlar və mükafatlandırıcı optimallaşdırma tədbirlərinin öyrənilməsini nəzarət etmək üçün nəzəri cəhətdən uyğun bir siqnal təqdim edir.

TD nəzəriyyəsinin lehinə olan ən mürəkkəb dəlillərdən bəziləri mükafatların (məsələn, bir monitorda fraktal nümunələri kimi) mükafatlarına cavab olaraq dopamin hüceyrələrinin fasik aktivasiyasını tədqiq edən tədqiqatlardan (məsələn, suyun damcıları kimi) . Bir çox variantda bunlar göstərir ki, təlim ilə, fasik DA, başlanğıcda gözlənilməz mükafatın vaxtından bir mükafatı öngörən ən erkən nişanlanma vaxtına köçürür. Bu, temporal-fərqi əsaslı bir proqnozlaşdırma səhvi üçün gözlənilən nəticədir (məsələn, [1,2,10-13]). Əsas tapıntı [7] bir mükafatın gözlənilməz olduğu zaman (erkən sınaqlarda qaçılmazdır), dopamin hüceyrələri ona güclü cavab verir. Bir mükafat tahmin edildikten sonra, hücreler öngörücüye cavab verir və hazırda beklenen mükafata deyil.

Bir proqnozlaşdırılan mükafat gözlənilmədən atıldığı təqdirdə, hüceyrələr mükafatın normal vaxtında, mükafat proqnozunun dəqiq vaxtını göstərən bir inhibisiya [10] və müvəqqəti ölçümləri hazırda məhkəmə mərkəzindədir [14]. Mükafat vaxtından proqnozlaşdırıcı vaxta qədər fəaliyyətin dəyişməsi heyvanın iştahaaçan davranış reaksiyasının mükafat vaxtından (şərtsiz stimul) klassik kondisioner təcrübələrində şərtləndirilmiş stimula keçməsinə bənzəyir [7,10] .

Ən maraqlı bir son tədqiqatda Fiorillo et al. [15] hər bir sınaqda davamlı, qaçılmaz, proqnozlaşdırma səhvi olan qismən gücləndirilmə işini araşdırdı. TD proqnozlaşdırma səhvi hipotezinin sadə bir təfsiri bu halda (a) proqnozlaşdırıcı stimullar zamanı dopamin aktivliyinin mükafat ehtimalı ilə ölçüləcəyini və (b) sınaqlardan orta hesabla stimulundan sonra dopaminergik reaksiya mükafatın vaxtı ilə bütün yol sıfır olmalıdır. İlk fərziyyələr təcrübələrdə təsdiqlənsə də, ikincisi də yox idi. Arasındaki ortalama cavablar arasında TD hesabı ilə uyumsuz görünen stimul başlaması ve mükafat arasında gecikme süresince etkin bir rampa gösterildi. Fiorillo et al. bu fəaliyyətin proqnozlaşdırma səhvindən çox, mükafat çatdırılmasında qeyri-müəyyənliyini əks etdirdiyini fərz edir.

Bu məqalədə biz davamlı proqnozlaşdırma səhvinə baxırıq. Biz göstərir ki, müsbət və mənfi proqnozlaşdırma səhvlərinin kodlaşdırılmasında mühüm asimmetrlər arasında mühüm orta dopamin siqnalındakı rampinqin gözlənilməsinə səbəb olur, həmçinin DA siqnalının daha iki xüsusiyyətini də yaxşı hesab edirlər - mükafatın (potensial) mükafatın vaxtı və səmərəliliyinin siqnalının yox olması (və ya ən azı zəifləməsi) zamanı, kondisionerə gecikdirmək əvəzinə iz qarşısında. Bu hadisələrin hər ikisi də Morris et al. [16]. Nəhayət, rampinq siqnalını dopamin aktivliyindəki dəyişiklik proqnozlaşdırıcı stimulların vaxtı keçdiyi zaman öyrənmə mexanizminin təbiəti üçün mövcud olan ən yaxşı sübut kimi qiymətləndiririk.

Mükafatın baş verməsində qeyri-müəyyənlik: DA rampinq

Fiorillo et al. [15] beş fərqli vizual stimulun makakalara təqdim edilməsini təxirə salınmış, ehtimal olunan (pr = 0, 0.25, 0.5, 0.75, 1) meyvə suyu mükafatlarının çatdırılması ilə əlaqələndirdi. Stimulun sabit bir 2s aralığında davam etdiyi gecikmə kondisioner paradiqmasından istifadə etdilər və stimul yox olduqda mükafat verildi. Təlimdən sonra meymunların gözlənilən yalama davranışı, hər bir stimulla əlaqəli fərqli mükafat ehtimallarından xəbərdar olduqlarını göstərdi.

Şəkil 1a, hər pr üçün, hüceyrə hüceyrəsindəki qeydə alınmış DA hücresinin populyar histogramlarını göstərir. TD nəzəriyyəsi, vizual stimullar zamanı DA hüceyrələrinin fasik aktivliyinin orta gözlənilən mükafata uyğun gəlməsi lazım olduğunu nəzərdə tutur və buna görə pr. Şəkil 1a tam olaraq bunu göstərir - həqiqətən, əhali arasında artım çox xətti olur. Morris və ark. [16] ehtimal olunan möhkəmləndirməni də əhatə edən instrumental (iz) kondisioner vəzifəsində oxşar bir nəticə bildirir.

Şəkil 1. Probabilistic mükafat vəzifəsində ortalama proqnozlaşdırma səhvləri
(a) Fərqli mükafat ehtimalları olan sınaqlarda DA reaksiyası. Əhalinin peri-stimul vaxt histogramları (PSTH), aralıq ehtimallarda mükafatlandırılmış və mükafatlandırılmamış sınaqlar üzərində toplanan hər pr üçün bir çox sınaq üzərində bir neçə DA neyronunun cəmlənmiş sünbül fəaliyyətini göstərir. (b) Asimetrik miqyaslı TD proqnoz xətası. Süni tapşırıqda, hər sınaqda beş stimuldan biri təsadüfi olaraq seçildi və t = 5 vaxtında göstərildi. Stimul t = 25-də söndürüldü və bu zaman stimul tərəfindən təyin olunan bir ehtimal ilə mükafat verildi. Hər bir stimul fərqli bir vahid dəsti ('neyronlar') ilə təmsil olunan stimulların bir toxunuşlu gecikmə xətti nümayişi istifadə etdik (mətnə ​​bax). TD xətası δ (t) = r (t) + w (t - 1) • x (t) - w (t - 1) • x (t - 1) idi, t vaxtında mükafat r (t) ilə. , və x (t) və w (t) vahid üçün vəziyyət və ağırlıq vektorları. Standart bir onlayn TD öyrənmə qaydası sabit bir öyrənmə dərəcəsi α, w (t) = w (t - 1) + αδ (t) x (t - 1) ilə istifadə olundu, buna görə hər çəki gözlənilən gələcək mükafat dəyərini təmsil etdi. Fiorillo və digərlərinə bənzər bir şəkildə tapşırıq öyrənildikdən sonra bir çox sınaqda ortalama proqnoz səhvini () təsvir edirik. Təmsil asimmetriyası, simulyasiya edilmiş PSTH-nin cəmlənməsindən əvvəl t (t) -ın mənfi dəyərlərinin d = 1/6 ilə miqyaslandığı üçün yaranır, baxmayaraq ki, öyrənmə miqyassız səhvlərə görə davam edir. Nəhayət, pr = 0 üçün stimul vaxtında və (a) 'da görünən pr = 1 üçün (proqnozlaşdırılan) mükafat zamanı kiçik müsbət cavabları nəzərə almaq üçün kiçik (% 8) şans qəbul etdik. proqnozlaşdırıcı stimul səhv müəyyənləşdirilir. (c) pr = 0.5 sınaqlarında DA reaksiyası, mükafatlandırılmış (solda) və mükafatlandırılmamış (sağda) sınaqlara ayrıldı. (d) (c) TD modeli. (a, c) [15] © 2003 AAAS-dan icazə ilə yenidən çap edilmişdir. Bütün digər istifadə üçün AAAS-dan icazə tələb olunur.

Əksinə, potensial mükafat təsdiqi zamanı TD nəzəriyyəsi orta hesabla heç bir fəaliyyət olmamalıdır ki, orta hesabla həmin dövrdə heç bir proqnozlaşdırma xətası yoxdur. Əlbəttə, probabilistic reinforcement dizaynında (ən azı pr ≠ 0, 1 üçün) əslində hər sınaqda çatdırılma və ya mükafat verilmədikdə bir proqnozlaşdırma səhvi var. Bir mükafatın verildiyi sınaqlarda proqnozlaşdırma səhvi müsbət olmalıdır (əldə olunan mükafat gözlənilən orta mükafatdan daha böyükdür). Bunun əvəzinə, mükafatsız sınaqlarda bu mənfi olmalıdır (baxın Şəkil 1c). Əksər hallarda, TD-də baş verən ehtimalı ilə ölçülmüş bu fərqlərin ortalaması sıfır olmalıdır. Bu sıfır deyilsə, bu proqnozlaşdırma səhvi proqnozlaşdırma xətti olmadığı qədər proqnozları dəyişən bir plastisitmə siqnalı kimi çıxış etməlidir. Bu gözləmələrə zidd olaraq, həm də mükafatlandırılmış və əsassız sınaqlara görə ortalama olan Şəkil 1a məlumatları göstərir ki, bu anda əslində müsbət orta fəaliyyətdir. Bu da Morris və b. [16] (Şəkil 3c bax). Müsbət DA cavabları əhəmiyyətli bir təlimlə (ay ərzində) yoxa çıxma əlamətlərini göstərmir.

TD modelindən daha pisdir və həqiqətən Fiorillo və digərlərinin diqqət mərkəzindədir. [15], mükafatın gözlənilən vaxtı istiqamətində DA fəaliyyətinin görünüşüdür. Rampanın böyüklüyü pr = 0.5 üçün ən çox olduğu üçün, Fiorillo et al. bir proqnozlaşdırma səhvi deyil, mükafat çatdırılmasında qeyri-müəyyənliyi bildirdiyini və bu siqnalın qeyri-müəyyənliyin görünüşlü iştah xüsusiyyətlərini (qumarlarda görüldüyü kimi) izah edə biləcəyini fərz etdi.

Həm rampinq fəaliyyəti, həm də mükafatın gözlənilən vaxtında fəaliyyəti TD nəzəriyyəsinə kritik problemlər yaradır. TD tədqiqatı, DA tədqiqatında daha əvvəl mövcud olan tapşırıqlarla təxmin ediləcək sınaqda bir dəfə DA fəaliyyətini təşkil edərək fəaliyyət göstərir. Beləliklə, görüləcək bir proqnozlaşdırma fəaliyyəti, necə ki, mükafat və ya rampa zamanı vizual stimulun başlaması ilə təxmin edilmədən davam edə bilər. Bütün bunlara baxmayaraq, stimulun reaksiyasına olan pr-bağımlı fəaliyyəti statusu etibarlı bir proqnoz kimi təsdiq edir. Bundan başqa, TD [17] -in əsas cəhəti, dövlətin dəyərini həmin dövlətdən əldə edilən gələcək mükafatların göstəricisi və bu səbəbdən cəlbediciliyinin fəaliyyət üçün bir hədəf kimi göstərilməsi ilə hərəkət seçiminə proqnozlaşdırmaqdır. Bu baxımdan, rampinq fəaliyyəti daha əvvəlki nizamla dəqiq şəkildə proqnozlaşdırılmasından bəri, qumar qərarı kimi erkən tədbirlərə təsir göstərə bilməz. Məsələn, iki hərəkət arasındakı rəqabəti nəzərdən keçirin: nəticədə bir deterministik mükafatı olan bir dövlətə və buna görə də heç bir irəliləməyə yol verən bir dövlətə, ikincisi isə bir dövlətə gedərək ehtimal olunan bir mükafatla eyni mənada və bir rampa sahibdir. Rampanın kondisyonlu stimul zamanı fəaliyyətə təsir etmədiyindən, əlavə qeyri-müəyyənliyə baxmayaraq, ikinci hərəkətləri (qumar) qiymətləndirmək və ya üstün etmək üçün istifadə edilə bilməz.

Həm bu anormal atəş nümunələrinin birbaşa DA neyronlarının (2-4 Hz) aşağı başlanğıc dərəcəsi ilə imzalanan proqnozlaşdırma xətasının kodlaşdırılmasına dair məhdudiyyətlərdən birbaşa nəticələnəcəyini təklif edirik. Fiorillo və digərlərinin qeyd etdiyi kimi. [15], müsbət proqnozlaşdırma səhvləri əsas xəttin yuxarıdan ~% 270% dərəcələri ilə ifadə edilir, mənfi səhvlər yalnız əsas xətt aşağıda ~ 55% azaldılır (həmçinin [14,18]). Bu asimmetriya, aşağı səviyyədə olan atəş tərəfindən imzalandığı bir miqdarı kodlaşdırmanın sadə bir nəticəsidir, baxmayaraq ki, yalnız müsbət ola bilər. Başlanğıcdan yuxarı atış dərəcələri, böyük bir dinamik aralığın istifadə edərək, müsbət proqnozlaşdırma səhvlərini şifrələndirə bilər, lakin, əsas atış dərəcələrinin aşağıda yalnız sıfıra endirilməsi, mənfi proqnozlaşdırma səhvlərinin kodlaşdırılmasına məhdudiyyət qoyulması mümkündür.

Nəticə olaraq, peri-stimul-zaman-histogramlarının (PSTH) fəaliyyətlərinin cəmlərini (və ya ortalamalarını) müxtəlif sınaqlar üzərində, Şəkil 1a-da edildiyi kimi, diqqətlə şərh etmək lazımdır. Mükafatın alınması və ya alınmaması zamanı asimmetrik olaraq kodlanmış müsbət və mənfi səhv siqnalları, düzgün TD proqnoz səhvlərini təmsil etsələr də, həqiqətən sıfıra çatmamalıdır. Xülasə edildikdə, mükafatlandırılmamış sınaqlardakı mənfi səhvləri təmsil edən aşağı atəş mükafatlandırılmış sınaqlarda müsbət səhvləri kodlayan sürətli atəşi "ləğv etməyəcək" və ümumilikdə ortalama müsbət cavab verəcəkdir. Əlbəttə ki, beyində cavablar (mükafatlandırılmış və mükafatlandırılmamış) sınaqlar üzərində deyil, bir sınaq içərisindəki neyronlar üzərində ortalama olduğundan bu problem yaratmamalıdır.

Bu, mükafatın çatdırılmaması və ya çatdırılmaması halında davamlı müsbət fəaliyyətin (ortalama) açıqlanmasıdır. Amma bu vaxtdan əvvəl rampa nədir? Ən azı stimul və mükafat arasındakı vaxtın müəyyən neyron təmsilçiliyində, sınaqların ortalaması orta hesabla, eyni asimmetriya TD-nin mükafat vaxtı istiqamətində fəaliyyət göstərməsinə səbəb olur. TD təlim mexanizmi məhkəmə prosesində (məsələn, mükafat zamanı) potensial proqnozlaşdırıcılara (məsələn, CS) qarşı çıxan proqnozlaşdırma səhvlərini məhkəmə prosesində təbliğ etmək təsirinə malikdir hər bir sınaq müddətində əvvəllər. Yalnızca müzakirə etdiyimiz müsbət və mənfi proqnozlaşdırma səhvlərinin asimmetrik təqdimatı altında, bu yayılma səhvlərini bir neçə sınaqdan ortaqlaşdırmaq (Şəkil 1a kimi) bir mükafat qarşısında bir sınaq içərisində dövrlər üçün müsbət vasitələrə gətirib çıxaracaqdır. Nəticədə fəaliyyətin rampasının dəqiq forması stimulun zamanla, eləcə də aşağıda müzakirə ediləcəyi kimi öyrənmə sürətinə bağlıdır.

Şəkil 2, genişlənmə fəaliyyətinin sübut olunmasına dair bu görünüşü təsvir edir. Burada stimuldan istifadə edildiyi üçün vaxt tapılan bir gecikmə xətti nümayişi. Bunun üçün hər bir vahid ('neyron') stimul təqdim edildikdən sonra müəyyən bir gecikmədə aktivləşir (yəni 1 dəyəri qəbul edir), beləliklə stimulun başlanmasından sonrakı hər zaman kəsiyi bir vahidin atəşi ilə təmsil olunur. Öyrənmə δ (t) = r (t) + V (t) - V (t - 1) şəklində rəsmiləşdirilmiş (dopaminerjik olaraq bildirilən) TD səhvinə əsaslanır, V (t) ilə aktiv vahiddən çəkili giriş t vaxtı və r (t) t vaxtında alınan mükafat. Standart TD yeniləmə qaydalarına uyğun olaraq vahidlərin ağırlıqlarını sabit bir öyrənmə dərəcəsi ilə yeniləmək, V (t) -ın orta hesabla gözlənilən gələcək mükafatları təmsil etməsinə imkan verir (bax Şəkil 1 başlığı). Hər sonrakı zaman kəsiyi ayrı-ayrılıqda təmsil olunduğundan, TD proqnoz səhvləri sınaq müddətində hər an ortaya çıxa bilər. Şəkil 2a bu səhvləri pr = 0.5 olduğu ardıcıl altı süni sınaqda göstərir. Hər sınaqda mükafat alındıqda və ya alınmadığında nəticələnən yeni bir müsbət və ya mənfi səhv meydana gəlir və əvvəlki sınaqlardan gələn səhvlər addım-addım stimul vaxtına qədər yayılır. ağırlıqların daim yenilənməsi (məsələn, qırmızı ilə vurğulanan səhv). Sınaqlar üzərində orta hesabla (və ya PSTH-lərdə olduğu kimi), bu səhvlər orta hesabla bir-birini ləğv edir və stimul başlandıqdan sonra intervalda ümumi düz histoqramla nəticələnir və mükafat vaxtına qədər gəlir (Şəkildə qara xətt 2b, nazik mavi ilə göstərilən 10 sınaqdan cəmləndi). Bununla birlikdə, mənfi səhvlərin d = 1/6 əmsalı ilə assimetrik miqyaslandıqdan sonra (DA neyronları tərəfindən müsbət və mənfi proqnoz səhvlərinin asimmetrik kodlaşdırılmasını simulyasiya edən) yekun vurulduqda, qara xəttlə göstərildiyi kimi müsbət bir fəaliyyət rampası baş verir. Şəkil 2c-də. Diqqət yetirin ki, bu azaltma yalnız təməl bir məsələdir, aşağı səviyyəli atəş nisbətinə görə mənfi bir dəyərin kodlaşdırılması məhdudiyyətlərindən qaynaqlanır və səhv dəyərləri öyrənməmək üçün ağırlıqların öyrənilməsinə təsir etməməlidir (müzakirəyə bax). Lakin PSTH-lər birbaşa neyron tırmanışlarının cəmləri olduğundan, bu təmsil məsələsi ortaya çıxan histoqram üzərində dayanır.

Şəkil 2. Proqnozlaşdırma səhvlərinin arxa planlaşdırılması rampinq fəaliyyətini izah edir.
(a) Şəkil 1b-də, pr = 0.5 ilə simulyasiyadan altı ardıcıl sınaqdan (yuxarıdan aşağıya) hər birində TD proqnozlaşdırılması səhvidir. Qırmızı rəngli işıqlandırmalar, sınaqların ilkində mükafat zamanı səhvdir və sonrakı sınaqlarda stimulun vaxtına doğru tədricən geri yayılmasıdır. Block məktubları hər bir xüsusi sınaqın nəticəsini göstərir (R = ödüllendirilir; N = ödüllendirilmez). Bu sınaqlardan əvvəlki mükafatlar sırası yuxarı sağda verilir. (b) bu ​​altı məhkəmə prosesindən TD səhvi və dördüncü təqibi daha üst-üstə düşmüşdür. Qırmızı və yaşıl xətləri bu sınaqlarda səhvlərin zərfini göstərir. Bu sınaqları yekunlaşdırmaq, ortalama (qara xətt) yuxarı bazlı fəaliyyətə gətirib çıxarır, çünki müsbət və mənfi səhvlər zamanın təsadüfi 50% -də baş verir və bir-birlərini ləğv edir. (c) Lakin, proqnozlaşdırma səhvləri əsas atış dərəcəsinin yuxarıda və aşağıda göstərildikdə (burada mənfi səhvlər DA neyronları tərəfindən proqnozlaşdırma səhvlərinin assimetrik kodlanmasının simulyasiyası üçün d = 1 / 6 tərəfindən asimmetrik olaraq ölçülmüşdür) Qara xətt ilə təsvir olunduğu kimi, sınaqların üzərində ortalama olduqda ortaya çıxır. Bütün simulyasiya parametrləri Şəkil 1b, d.

Rəqəmlər 1b, d, eksperimental məlumatlarla müqayisədə asimmetrik kodlaşdırma və aralararası ortalamaların bu birləşməsindən yaranan rampanı göstərir. Şəkil 1b hər stimul tipi üçün ~ 50 sınaqlarında asimmetrik olaraq göstərilən δ (t) siqnalının ortalaması ilə simulyasiya edilən məlumatlardan hesablanmış PSTH-ni göstərir. Şəkil 1d, pr = 0.5 halda, 1c ilə müqayisə edilmək üçün mükafatlandırılmış və unrewarded sınaqlara bölünən nəticələr göstərir. Sadələşdirilmiş nəticələr, eksperimental məlumatları, pr = 0.5 halda ən yüksək olan rampinq təsiri ilə yanaşı, qeyri-müəyyən mükafatların xalis müsbət cavabını təkrarlamaqla yaxından bənzəyir.

Sadələşdirilmiş tapılmış gecikmə xətti vaxtının göstərilməsi ilə TD öyrənmə qaydasından TT sınaqında (yəni, orta TD səhvi δT (N)) mükafatın (t = N) orta cavabını əldə etmək sadədir sabit təhsil dərəcəsi α. Məhkəmə prosesində sonuncu müddətin yanında, sınaq nömrəsinin funksiyası kimi (sıfır olan ilk dəyərlər ilə),

burada r (t) sınaq sonundakı mükafatdır. T sınağının son zamanında səhv siqnalı sadəcə alınan mükafat r (T) ilə bu mükafatı VT - 1 (N - 1) ilə proqnozlaşdıran dəyər arasındakı fərqdir. Bu səhv pr ehtimalına görə müsbətdir və ehtimala görə mənfi (1 - pr). Mənfi səhvləri d ∈ (0, 1] əmsalı ilə böyütməklə əldə edirik

Müsbət və mənfi səhvlərin simmetrik kodlanması üçün (d = 1) orta reaksiya 0-dir. Asimetrik kodlaşdırma (0 İzləmə kondisyonu: bir sınaq halında

Təfsirimiz üçün əhəmiyyətli bir test hadisəsi, Fiorillo və digərlərinin [15] tapşırığının bir variantında və Morris və digərlərinin analoji alət tapşırıqlarında ortaya çıxır. [16], hər ikisi də iz kondisionerini əhatə edir. Mükafatın proqnozlaşdırıcı stimulun əvəzləşdirilməsi ilə üst-üstə düşdüyü gecikmə şərtindən (Şəkil 3a) fərqli olaraq, burada proqnozlaşdırıcı stimulun əvəzləşdirilməsi ilə mükafatın çatdırılması arasında əhəmiyyətli bir boşluq var. Aydındır ki, bu halda mükafatla bağlı qeyri-müəyyənlik stimul və mükafat arasındakı intervalın vaxtında səs-küy səbəbindən daha da böyüyə bilər [3], buna görə də qeyri-müəyyənlik hesabında müqayisə edilə bilən və ya daha da böyük rampalar olmalıdır. Bununla birlikdə, təcrübə nəticələri ramping fəaliyyətinin daha kiçik və ya hətta əhəmiyyətsiz olduğunu göstərir (Şəkil 19c; d). Bununla birlikdə, rampanın hündürlüyü ilə gözlənilən mükafat vaxtındakı müsbət fəaliyyətin miqdarı arasındakı bir ayrılığa işarə edərək, gözlənilən mükafat vaxtında sınağın ortalama fəaliyyətinin böyüklüyünün qorunub saxlanmasına diqqət yetirin.

Şəkil 3. Olası ehtimalları olan kondisyon.
(a) Fiorillo və digərlərinin gecikmə şərtləndirmə tapşırığının bir sınaq nümunəsi. [15]. Bir sınaq 2 saniyəlik bir vizual stimuldan ibarətdir, əvəzləşdirmə suyu mükafatının çatdırılması ilə üst-üstə düşür, əgər belə bir mükafat görmə işarəsi ilə əlaqəli ehtimala görə proqramlaşdırılırsa. Ödənilməmiş sınaqlarda stimul mükafat olmadan ləğv edildi. Hər iki halda da sınaqları orta hesabla 9 saniyəlik bir aralıq sınaqları ayırır. (b) Morris və digərlərinin izləmə şərtləndirmə tapşırığının bir sınaq nümunəsi. [16]. Həlledici fərq ondadır ki, stimulun əvəzləşdirilməsi ilə mükafatın başlanğıcı arasında ("izləmə" dövrü) arasında əhəmiyyətli dərəcədə müvəqqəti bir gecikmə var və heç bir xarici stimul gözlənilən mükafat vaxtını göstərmir. Bu, əlavə bir qeyri-müəyyənlik yaradır, çünki proqnozlaşdırılan mükafatın dəqiq vaxtı daxili olaraq həll edilməlidir, xüsusən də mükafatlandırılmamış sınaqlarda. Bu tapşırıqda, [15] də olduğu kimi, hər sınaqda bir neçə görmə stimulundan biri (göstərilmir) təqdim edildi və hər stimul mükafat ehtimalı ilə əlaqələndirildi. Burada, eyni zamanda, meymundan instrumental cavab (stimulun təqdim olunduğu tərəfə uyğun düyməni basaraq) yerinə yetirməsi istənildi, uğursuzluğu məhkəməni mükafatsız dayandırdı. Sınaqlar dəyişən sınaqlar arası fasilələrlə ayrıldı. (c, d) mükafatlandırmanın gözlənilən vaxtı ətrafında, mükafatlandırılmış sınaqlarda (c) və mükafatlandırılmamış sınaqlarda (d) başlanğıc səviyyəsinə nisbətən DA atəş dərəcəsi (düzəldilmişdir). (c, d) [16] © 2004-cü ildən Elsevier-in icazəsi ilə yenidən çap edilmişdir. İzlər mükafatın gözlənilən vaxtında ümumi bir müsbət cavab deməkdir, lakin bundan əvvəl çox kiçik və ya heç bir rampa yoxdur. Bənzər nəticələr, [15] -də qısaca təsvir olunan klassik bir kondisioner tapşırığında əldə edilmiş və izləmə kondisioner proseduru tətbiq edilmiş və (b) -də göstərilən tapşırığın instrumental xarakterinin deyil, (a) .

DA-nın TD modeli bu şaşırtıcı məlumatları asanlıqla izah edir. Şəkil 4-də göstərildiyi kimi, rampanın forması onun zirvəsinin hündürlüyünə baxmayaraq, öyrənmə dərəcəsindən təsirlənir. Geri təbliğ edən proqnozlaşdırma səhvlərinin ölçüsü qismən, öyrənmə dərəcəsi ilə müəyyən edilir, çünki bu səhvlər yeni proqnozların onlayn öyrənilməsinin bir hissəsi kimi yaranır. Həqiqətən, proqnozların davamlı bir şəkildə yenilənməsi var ki, mükafatlandırılmış sınaqdan sonra mükafatın daha yüksək gözləntəsi (və beləliklə növbəti mükafat daha kiçik bir proqnozlaşdırma səhvinə səbəb olur), əksinə, mükafatlandırılmamış sınaqdan sonra [18] (bax Şəkil 2a). Proqnozların bu yenilənməsi birbaşa öyrənmə dərəcəsi ilə bağlıdır - öyrənmə dərəcəsi nə qədər yüksəkdirsə, cari proqnozlaşdırma səhvinə görə proqnozların yenilənməsi nə qədər böyükdür və daha çox yayılmış olan proqnozlaşdırma səhvinin böyük hissəsi. Bu yolla, ali təhsil nisbətləri ilə, bir mükafatlandırılmamış sınaq qarşı bir gözlənilən fərq sonra daha böyük olacaq və növbəti mükafat mövcud deyil və ya mövcud deyil zaman belə proqnozlaşdırma səhvlər - beləliklə daha böyük və daha tədricən ramp.

Şəkil 4. Rampanın öyrənmə dərəcəsindən asılılığı.
Rampanın forması, lakin zirvəsinin hündürlüyü deyil, öyrənmə dərəcəsindən asılıdır. Grafiğin, pr = 0.5 halda gözlənilən mükafatın yaxınlığında simulyasiya fəaliyyəti, fərqli öyrənmə dərəcələri üçün, həm də mükafatlandırılmış və təhqirsiz sınaqlara görə ortalama göstərilir. TD tədqiqatına davamlı asimmetrik kodlu proqnozlaşdırma səhvləri ilə uyğun olaraq, təltif və iradəsiz sınaqlarda fəaliyyətin ortalaması mükafat vaxtı qədər rampada olur. Rampanın zirvəsinin hündürlüyü, ödüllendirilmiş və unrewarded sınaqların nisbəti ilə müəyyən edilir, lakin rampanın eni, bu səhv sinyallerin təkrar yayılması dərəcəsi ilə (gözlənilən) mükafatın vaxtı proqnozlaşdırıcı stimulun vaxtı. Daha yüksək təhsil nisbəti daha çox yayılmaqda olan səhvlərin daha böyük hissəsini və daha yüksək bir rampanın nəticəsini verir. Tədqiqatın aşağı səviyyədə olmasına baxmayaraq, mükafat zamanı müsbət fəaliyyət (orta hesabla) hələ də saxlanılsa da, rampa əhəmiyyətsizdir. Şəkil 1b-də təsvir edilən simulyasiyalarda istifadə olunan öyrənmə dərəcəsi 0.8 idi, baxmayaraq ki, stimulun sxematik göstərilməsini nəzərə alaraq, bu neytral substratın sinfi sinfi öyrənmə dərəcəsi kimi qəbul edilməməlidir. Neyronların əhalisinin hər bir timestada aktiv olduqları daha real bir təmsilçilikdə, daha aşağı bir təhsil nisbəti oxşar nəticələr çıxaracaqdı.

Həqiqətən, kondisionerin gecikdirilməsi ilə müqayisədə kondisiyalaşdırma dərəcəsi yavaş yavaş, öyrənmə dərəcəsi aşağı olduğunu göstərir və nəticədə eksperimental nəticələrə uyğun olaraq daha aşağı bir rampa olmalıdır. Morris et al. Məlumatlarında tədris nisbətinin birbaşa araşdırılması. [16], vəzifəsi həddindən artıq təhsili tələb edirdi, çünki yalnız bir izləmə kondisioneri deyil, həm də instrumental bir hərəkət idi, həqiqətən, çox aşağı səviyyədə olduğunu təsdiqlədi (Generala Morris - şəxsi ünsiyyət, 2004).

Müzakirə

DA nöronları tərəfindən pozitiv və mənfi dəyərlərin diferensial kodlaşdırması fasik DA siqnalının bütün tədqiqatlarında aşkardır və bu nöronların aşağı bazal fəaliyyətinin qaçılmaz nəticəsi kimi qəbul edilə bilər. Həqiqətən, sonuncu birbaşa, rəqib nörotransmitter, təxminən serotonin, mənfi proqnozlaşdırma səhvlərini (20) təmsil etmək və bununla da öyrənməkdə iştirak etməklə yanaşı, onlar da tam dörddə birinə malik olmasını təklif edir. Bununla belə, biz özümüzü assimetriyanın dopamin aktivliyinin sınaq-orta təhlili üzərində nəzərə alınması ilə məhdudlaşdırdıq və göstərdik ki, DA-nın aktivliyi, mükafat zamanı orta müsbət cavab, proqnozlaşdırma səhvlərinin assimetrik kodlanması.

Xəta siqnalının daha aydın görünüşündən başqa, yeni şərhin ən mühüm nəticəsi rampaların indiyə qədər olduqca çətin olan bir TD fenomeninin imzası kimi görünə biləcəyidır. Bu, DA fəaliyyətinin təmsil etdiyi səhv siqnalının mükəmməl vaxtdan proqnozlaşdırma vaxtı (Şəkil 2a) dövrünə qədər irəliləyişli təkrar yayılmasıdır. Dopaminergik aktivliyin əvvəlki tədqiqatları pr = 1-dan istifadə edirdi. Beləliklə, bu təkrar təbliğatın yalnız başlanğıcda (adətən, qeydlər hələ başlamadıqda) və potensial olaraq, yavaş- DA nöronları atəşə tutub. Əlavə olaraq qeyd edildiyi kimi, arxa təbliğat, proqnozlaşdırıcı stimul və mükafat arasındakı müddətin təmsil olunduğundan asılıdır - bu, [6] -də olduğu kimi bir tapped gecikmə xətti təqdimatında mövcuddur, lakin bütün gecikmə, məsələn, [21]. Qeyd edək ki, rampanın forması təhsil zamanı baş verən hadisələr arasında vaxt keçirməsi üçün əlavə mexanizm təmin edən uyğunluq izlərinin və TD (λ) öyrənmə qayda (simulyasiya göstərilməməsi) adlı təlimatın tətbiqindən asılıdır. Təəssüf ki, data rampalarının formaları olduqca dəyişkəndir (şəkil 1) və səs-küylü, onlar beyin tərəfindən istifadə edilən dəqiq TD mexanizminə güclü məhdudiyyətlər təmin edə bilməzlər.
Davamlı proqnozlaşdırma səhvlərini ehtiva edən daha son tədqiqatlar həmçinin geri-təbliğatın, xüsusən də [4] -dən olan Şəkil 13-in fəaliyyət göstərdiyini göstərir. Bu işdə, proqnozlaşdırma səhvləri vəzifədə periyodik dəyişikliklər ilə nəticələndi və DA qeydləri təlimin başlanmasından əldə edildi, beləliklə, bu fəaliyyət miqyaslı olmadıqda geri-təbliğat kimi birbaşa fəaliyyət göstərir.

Rampaların tədris boyunca davam etməsini gözləyirik ki, öyrənmə sürəti öyrənmə prosesində sıfıra düşməsin. Pearce & Hall-un [22] qeyri-müəyyənliklə öyrənməyə nəzarət nəzəriyyəsi məhz bu öyrənmənin davamlılığını təklif edir - və qismən möhkəmləndirmə cədvəllərindən mükafatla əlaqəli daha çox qeyri-müəyyənlik olduqda öyrənmə nisbətinin daha yüksək ola biləcəyinə dair dəlillər mövcuddur. Doğrudan da, 'rasional' statistik baxımdan, əvvəlcədən müəyyən edən əlaqələrdəki dəyişmə ehtimalından irəli gələ biləcəyi kimi, proqnozlaşdırıcılar və nəticələr arasındakı əlaqədə əhəmiyyətli bir qeyri-müəyyənlik olduqda öyrənmə davam etməlidir. Davamlı qeyri-müəyyənliyin bu forması, tapşırıqla əlaqəli ilkin cəhalət üzündən baş verən qeyri-müəyyənliklə birlikdə, Pearce & Hall-un qeyri-müəyyənliyin öyrənməyə sövq etdiyi nəzəriyyəsini rəsmiləşdirmək üçün istifadə edilmişdir [23]. Beləliklə, qeyri-müəyyənliyin birbaşa rampalarla təmsil oluna bilməyəcəyinə dair iddiamız, əlbəttə ki, onun nümayişi və manipulyasiyasının vacib olmadığı anlamına gəlməməlidir. Əksinə, qeyri-müəyyənliyin digər nöromodulyator sistemlər vasitəsilə kortikal nəticə çıxarmağı və öyrənməyi təsir etdiyini və bunun da hərəkətlərin seçilməsinin aspektlərini təyin edə biləcəyini düşündük [24].

Assimetriyanın müxtəlif xüsusiyyətləri qeyd edilməlidir. Aşağıdakı əsas DA fəaliyyətinin çox yüksək olan proqnozların azaldılması üçün özü tərəfindən məsuliyyət daşıyırsa, ən vacib məsələ asimmetriyanın DA-bağımlı öyrənilməsinə təsiridir [26]. Öyrənilən proqnozların doğru olmasını təmin etmək üçün, assimetrik nümayəndəliyin öyrənməyə təsir etməyəcəyini, yəni sinaptik güclərin potensiasiya və depressiya üçün müxtəlif miqyaslı bir mexanizmin asimmetrik səhv siqnalı üçün kompensasiya edəcəyini fərz etməliyik. Əlbəttə ki, rəqib nörotransmitterin mənfi proqnozlaşdırma səhvlərindən öyrənilməsində iştirak edəcəyi təqdirəlayiq haldır. Bu məsələ Bayer [14] təklifi ilə çətinləşdirilir ki, DA atəş dərəcələri, təxminən, aşağı atəş dərəcəsinin zəmin təsirindən ötəri bəzi mənfi eşikin altındakı bütün proqnozlaşdırma səhvləri üçün həqiqətən bənzərdir. Belə kayıtsız kodlaşdırma, rampaların ortaya çıxması üzərinə ortalıq arası ortalama təsirlərinin niteliksel görüntüsünü təsir etmir, lakin mütləq simmetrik öyrənmə üçün bir rəqib siqnalının ehtiyacını gücləndirir.

Nəhayət, şərhimizin ən birbaşa testi, DA siqnalının daxili və məhkəmə arası ortalamasının müqayisəsi olacaqdır. Bunu qeyri-sabit siqnalların ortalaması problemlərindən qaçınmaq üçün müvəqqəti olaraq inkişaf etmiş bir şəkildə etmək vacib olardı. Sinir atışlarındakı səs-küyün öhdəsindən gəlmək və həqiqətən bir sınaq içərisində tədricən bir rampanın olub olmadığını və ya proqnozlaşdırdığımız kimi - fasilələrlə müsbət və mənfi proqnoz səhvlərini müəyyənləşdirmək üçün, eyni zamanda qeyd olunan bir çox neyron üzərində ortalama bir nəticə əldə etmək lazımdır. bir sınaq və daha çox oxşar öyrənmə nisbətləri ilə əlaqəli neyronlar. Alternativ olaraq, tək nöron izləri əvvəlki sınaqları və TD öyrənmələri ilə proqnozlaşdırılan backpropagation cavabına qarşı geriləyə bilər. Belə bir modelin izah etdiyi dəyişkənlik miqdarının, monotonik bir fəaliyyət rampasına qarşı reqresiya ilə müqayisədə ən uyğun modeli göstərə bilər. Daha az sadə, lakin daha çox test edilə bilən bir proqnoz, rampanın formasının öyrənmə sürətindən asılı olmasıdır. Öyrənmə dərəcələri, rampanın şəklindən asılı olmayaraq ehtimal olunan mükafatlandırmalara verilən cavabdan qiymətləndirilə bilər (Nakahara və digərləri. [18] elə göstərdi ki, qismən möhkəmləndirmə izləmə kondisioner tapşırıqlarında öyrənmə nisbəti 0.3 idi), və potensial olaraq təlim miqdarını və ya vəzifə ehtimallarının dəyişdirilmə və yenidən öyrənilmə tezliyini dəyişdirməklə idarə olunur. Həqiqətən, Nakahara və digərlərinin qeydə alınmış DA fəaliyyətində bir rampanın mövcudluğunu və formasını kəmiyyət olaraq müəyyənləşdirmək, mövcud təklifə aydınlıq gətirə bilər.

Rəqabət maraqları
Müəllif (lər) onların heç bir rəqabət marağı olmadığını bəyan edir.

Müəlliflərin fəaliyyətləri
YN, MD və PD bu işi birgə hazırladı və icra etdi və əl yazmasını hazırladı. Bütün yazarlar son əlyazma oxumuş və təsdiq etmişlər.

Təşəkkürlər
H. Bergman, C. Fiorillo, N. Daw, D. Joel, P. Tobler, P. Shizgal və W. Schultz, müzakirələr və şərhlər üçün, bəzi hallarda məlumatların müxtəlif şərhlərinə baxmayaraq, çox minnətdarıq. Başa Morris üçün rampinq ilə bağlı öz nəşr olunan və nəşr edilməyən məlumatları təhlil etmək üçün xüsusilə minnətdarıq. Bu iş EC Tematik Network (YN), Gatsby Xeyriyyə Fondu və AB BIBA layihəsi tərəfindən maliyyələşdirilmişdir.

References

1. Ljungberg T, Apicella P, Schultz W: Davranış reaksiyalarının öyrənilməsi zamanı meymun dopamin neyronlarının cavabları.
Journal Neurophysiol 1992, 67: 145-163.
Mətnə qayıdın
2. Schultz W: Dopamin neyronlarının proqnozlaşdırıcı mükafat siqnalı. [http://jn.physiology.org/cgi/content/full/80/1/1] vebsayt
Nörofizioloji 1998 jurnalı, 80: 1-27. PubMed Abstract
Mətnə qayıdın
3. O'Doherty J, Dayan P, Friston K, Critchley H, Dolan R: Temporal fərq modelləri və insan beynində mükafatla əlaqəli öyrənmə.
Neuron 2003, 38: 329-337. PubMed Abstract | Yayımcının Tam Mətnidir
Mətnə qayıdın
4. Seymour B, O'Doherty J, Dayan P, Koltzenburg M, Jones A, Dolan R, Friston K, Frackowiak R: Temporal fərq modelləri insanlarda daha yüksək səviyyəli öyrənməni təsvir edir.
Təbiət 2004, 429: 664-667. PubMed Abstract | Yayımcının Tam Mətnidir
Mətnə qayıdın
5. Montague PR, Hyman SE, Cohan JD: Davranışa nəzarətdə dopamin üçün hesablama rolları.
Təbiət 2004, 431: 760-767. PubMed Abstract | Yayımcının Tam Mətnidir
Mətnə qayıdın
6. Montague PR, Dayan P, Sejnowski TJ: Proqnozlaşdırılan Hebbian öyrənməsinə əsaslanan mezensefalik dopamin sistemləri üçün çərçivə.
1996, 16: 1936-1947 sinirbilim jurnalı. PubMed Abstract | Yayımcının Tam Mətnidir
Mətnə qayıdın
7. Schultz W, Dayan P, Montague PR: Proqnoz və mükafatın sinir substratı.
Elm 1997, 275: 1593-1599. PubMed Abstract | Yayımcının Tam Mətnidir
Mətnə qayıdın
8. Sutton RS: Vaxt fərqi üsulu ilə proqnozlaşdırmağı öyrənmək.
1988, 3: 9-44 öyrənmək.
Mətnə qayıdın
9. Sutton RS, Barto AG: [http://www.cs.ualberta.ca/~sutton/book/ebook/the-book.html] vebsayt
Gücləndirici öyrənmə: Giriş. MIT Press; 1998.
Mətnə qayıdın
10. Hollerman J, Schultz W: Dopamin neyronları öyrənmə zamanı mükafatın müvəqqəti proqnozlaşdırılmasında səhv olduğunu bildirir.
Təbiət neuroscience 1998, 1: 304-309. PubMed Abstract | Yayımcının Tam Mətnidir
Mətnə qayıdın
11. Schultz W, Apicella P, Ljungberg T: Gecikmiş cavab tapşırığını öyrənmək üçün ardıcıl addımlar zamanı meymun dopamin neyronlarının mükafatlandırma və şərtləndirilmiş stimullara cavabları.
1993, 13: 900-913 sinirbilim jurnalı. PubMed Abstract | Yayımcının Tam Mətnidir
Mətnə qayıdın
12. Tobler P, Dickinson A, Schultz W: Dopamin Neyronları tərəfindən Proqnozlaşdırılan Mükafat Ehtimalının Kodlaşdırılması Şərti İnhibisyon Paradiqmasında.
2003, 23 (32) sinirbilim jurnalı: 10402-10410. PubMed Abstract | Yayımcının Tam Mətnidir
Mətnə qayıdın
13. Takikawa Y, Kawagoe R, Hikosaka O: Orta beyin dopamin neyronlarının sakkadların mövqe-mükafat xəritəsinə qısa və uzunmüddətli uyğunlaşmasında mümkün rolu.
Nörofizioloji 2004 jurnalı, 92: 2520-2529. PubMed Abstract | Yayımcının Tam Mətnidir
Mətnə qayıdın
14. Bayer H: Öyrənmə və motor nəzarətində qara maddənin rolu.
Doktorluq dissertasiyası, Nyu-York Universiteti 2004.
Mətnə qayıdın
15. Fiorillo C, Tobler P, Schultz W: Dopamin Neyronları tərəfindən Mükafat Ehtimalının və Qeyri-müəyyənliyin Diskret Kodlaşdırılması.
Elm 2003, 299 (5614): 1898-1902. PubMed Abstract | Yayımcının Tam Mətnidir
Mətnə qayıdın
16. Morris G, Arkadir D, Nevet A, Vaadia E, Bergman H: Orta beyin dopamin və striatal tonik olaraq aktiv neyronların təsadüfi, lakin fərqli mesajları.
Neuron 2004, 43: 133-143. PubMed Abstract | Yayımcının Tam Mətnidir
Mətnə qayıdın
17. Barto A, Sutton R, Watkins C: Öyrənmə və ardıcıl qərarların qəbulu. Öyrənmə və Hesablama Neyrologiyasında: Adaptiv Şəbəkələrin Əsasları. Qabriel M, Moore J. Cambridge, MA tərəfindən redaktə edilib: MIT Press; 1990:539-602.
Mətnə qayıdın
18. Nakahara H, Itoh H, Kawagoe R, Takikawa Y, Hikosaka O: Dopamin neyronları kontekstdən asılı proqnozlaşdırma səhvini təmsil edə bilər.
Neuron 2004, 41: 269-280. PubMed Abstract | Yayımcının Tam Mətnidir
Mətnə qayıdın
19. Gallistel CR, Gibbon J: Zaman, dərəcə və kondisioner.
Psixoloji Baxış 2000, 107: 289-344. PubMed Abstract | Yayımcının Tam Mətnidir
Mətnə qayıdın
20. Daw ND, Kakade S, Dayan P: Serotonin və dopamin arasında opponent qarşılıqlı əlaqə.
Sinir şəbəkələri 2002, 15 (4-6): 603-616. PubMed Abstract | Yayımcının Tam Mətnidir
Mətnə qayıdın
21. Suri RE, Schultz W: Məkan gecikmiş cavab tapşırığını öyrənən dopamin kimi gücləndirici siqnalı olan neyron şəbəkə modeli.
Nörobilim 1999, 91: 871-890. PubMed Abstract | Yayımcının Tam Mətnidir
Mətnə qayıdın
22. Pearce JM, Hall G: Pavlovian öyrənmə modeli: Şərti, lakin şərtsiz stimulların effektivliyindəki dəyişikliklər.
Psixoloji Baxış 1980, 87: 532-552. PubMed Abstract | Yayımcının Tam Mətnidir
Mətnə qayıdın
23. Dayan P, Kakade S, Montague PR: Öyrənmə və seçmə diqqət.
Təbiət neuroscience 2000, 3: 1218-1223. PubMed Abstract | Yayımcının Tam Mətnidir
Mətnə qayıdın
24. Dayan P, Yu A: Gözlənilən və gözlənilməz qeyri-müəyyənlik: neokorteksdə Ach və NE. [http://books.nips.ce/papers/files/nips15/NS08.pdf] vebsayt
Sinir İnformasiya Qenerasiya Sistemlərində Avanslar Dietterich T, Becker S, Ghahramani Z. Cambridge, MA: MIT Press; 2002, 14: 189-196.
Mətnə qayıdın
25. Daw N, Niv Y, Dayan P: Fəaliyyətlər, Siyasətlər, Dəyərlər və Bazal Qanqliya. Bazal qanqliya tədqiqatında son nailiyyətlərdə. Redaktə edən Bezard E. Nyu-York, ABŞ: Nova Science Publishers, Inc; mətbuatda.
Mətnə qayıdın
26. Wickens J, Kötter R: Möhkəmləndirmənin hüceyrə modelləri. Bazal Qanqliyada İnformasiya Emalı Modellərində. Houk JC, Davis JL, Beiser DG tərəfindən redaktə edilmişdir. MIT Press; 1995: 187-214.
Mətnə qayıdın