Möhkəmləndirilmənin öyrənmə prinsiplərindən (2008) Təqdimatın yaranması və yenilikçi cavablar

ŞƏRHLƏR: Yeniliyin öz mükafatı olduğunu göstərən başqa bir iş. İnternet pornosunun asılılıq yaradan cəhətlərindən biri sonsuz yenilik və müxtəliflik, bir səhnədən digərinə sürətlə klikləmə bacarığı və yalnız doğru görüntü / video axtarma. Bütün bunlar dopamini artırır. İnternet pornosunu jurnallardan və ya icarəyə götürülmüş DVD-lərdən fərqləndirən budur.

Tam tədqiqat: Təqdimatın öyrənmə prinsiplərindən yaranma və yenilikçi cavabların yaranması

Neural Netw. 2008 Dekabr; 21 (10): 1493-1499.

2008 Sentyabr 25 onlayn dərc olundu. doi: 10.1016 / j.neunet.2008.09.004

Patryk A. Laurent, Pittsburq Universiteti;

Pittsburgh Universiteti, 623 LRDC, 3939 O'Hara St., Pittsburgh, PA 15260 ABŞ, E-mail: [e-poçt qorunur], Ofis: (412) 624-3191, Faks: (412) 624-9149

mücərrəd

Təkmilləşdirmə Təhsili (17) kimi mükafat əsaslı öyrənmə modellərini xəritələşdirmək üçün son zamanlardakı cəhdlər beynə təxmin edilən və alınan mükafat [16,5] ilə dopaminin azad neyronların siqnal fərqlərinin dalğalanmasında fasik artım və azalmanın müşahidəsinə əsaslanır. Lakin, bu mükafat-proqnozlaşdırma səhvi bu fasik fəaliyyətlə əlaqəli bir neçə siqnaldan yalnız biridir; digər bir dopaminergik spiking artımını ehtiva edir, xüsusən də bir orqanizm sonradan stimulun [4,6,13] istiqamətinə doğru irəlilədikdə ehtiyatlı, lakin gözlənilməmiş mükafatlandırılmayan stimulun [16] görünüşünü əks etdirir. Bu tapıntıları izah etmək üçün Kakade və Dayan [7] və başqaları yeni, gözlənilməz xəbərdarlıqların xüsusi ödüllendirici olduğunu bildirmişlər. Bu yazıda göstərilən simulyasiya göstərir ki, bu fərziyyə zəruri deyil, çünki tutmaq üçün nəzərdə tutulan təsirin gücləndirilməsi öyrənilməsinin öyrənmə mexanizmlərindən irəli gəlir. Beləliklə, Gücləndirici Öyrənmə prinsipləri yalnız bazal ganglionun dopaminergik nöronlarının mükafatlandırılması ilə bağlı fəaliyyətini anlamaq üçün deyil, həm də onların qeyri-mükafatla əlaqəli fəaliyyətlərindən bəzilərini anlamaq üçün istifadə edilə bilər.

Reinforcement Learning (RL), beyində mükafata əsaslanan öyrənmə hesablama modellərinin inkişafında getdikcə əhəmiyyətli hala gəlir. RL, süni "agent" (məsələn, real və ya simulyasiya edilmiş robot kimi) ümumi gözlənilən mükafatı (17) maksimuma çatdırmaq üçün tədbirlər seçməyi öyrənə biləcəyini göstərən hesablama alqoritmlərinin bir sinifidir. Bu alqoritmlərdə bir agent öz fəaliyyətlərini müxtəlif dövlətlərlə əlaqələndirmək öyrənən dəyərlərə əsaslanır (məsələn, bir stimul ilə əlaqəli algısal istəklər). Bu dəyərlər tədricən fərqli öyrənmə vasitəsi ilə öyrənilə bilər, dövlətin dövlət üçün mövcud mükafat proqnozu və sonradan ətraf mühitdən alınan mükafatın fərqi əsasında dövlət dəyərlərini düzəldir. Bu hesablanmış fərq, mükafat-proqnozlaşdırma səhvi olaraq, qeyri-insan primatlarında [NNXX] əsasən nigradan proqnozlaşdırılan dopamin-azad neyronların fasik fəaliyyətinə çox yaxşı münasibət göstərmişdir. Bundan əlavə, insanlarda, dopamin əhəmiyyətli bir hədəf olan striatum, mükafat öyrənmə vəzifələri [16] zamanı mükafat-proqnozlaşdırma səhvini əks etdirən bir fMRI BOLD siqnalını nümayiş etdirir. Bu fMRI bulguları fizioloji məlumatları tamamlayır, çünki striatal BOLD ən azı qismən afferent sinaptik fəaliyyət [10,12,18] və dopamin nöronları striatuma ağırlıq verir.

Sözügedən fizioloji reaksiyalar RL-nin proqnozlaşdırma hesablamalarına aid olmasına baxmayaraq, [4,6,14,3] mükafatlandırması ilə əlaqəli olmayan görünən və / və ya yeni stimullara cavab olaraq dopaminergik fasik aktivliyində artım var. FMRI [2] istifadə edərək insanlarda oxşar bir vəziyyət yaxınlarda müşahidə olunmuşdur. Bu "yenilik" və ya "saliency" cavabının mükafat-proqnozlaşdırma xətası ilə əlaqəsi olmadığını söyləyən bir neçə səbəb var: (1) stimulun şəxsiyyəti qiymətləndirildikdən əvvəl çox erkən görünür, belə ki, dəqiq mükafat proqnozu yaranacaq; (2) hem aversive hem de iştah uyaranları üçün nöral aktivitede (yani pozitif) bir artışa tekabül edir; və (3) [13] istifadə edir. Həqiqətən, dopamin salıcı nöronların bu xarakteristik / yenilik reaksiyaları stimulun gözlənilmədiyi və nəticələri nəticələrindən asılı olmayaraq, öyrənilən mükafatdan keyfiyyətcə fərqləndiyini vurğulayaraq stimullaşdırıcı və ya yanaşma davranışına (16) səbəb olduqda ən etibarlıdır proqnozlaşdırma. Məhz bu səbəbdən, bu aydın paradoksu (yəni, mükafat-proqnozlaşdırma səhvinə necə təsir edir) RL-nin nəzəri çərçivəsi daxilində izah etmək olmuşdur.

Kakade və Dayan [7] bunu tam olaraq etməyə çalışdı; onların məqaləsində, yeniliklərdən cavabların dopaminerq funksiyasının RL modellərinə daxil oluna biləcəyi iki yol təqdim edirlər - həm də yeni nəzəri fərziyyələrin daxil edilməsinə daxildirlər. Yenilik mükafatları olaraq adlandırılan ilk fərziyyə agent tərəfindən alınan adi mükafatın üstündə və yuxarıda yeni stimullar olduqda əlavə mükafat təqdim etməyi nəzərdə tutur. Bu əlavə mükafat, tədqiqatın agentin mövcud mükafat proqnozu ilə ətraf mühitdən həm adi mükafatın, həm də yenilik bonusunun məbləği arasındakı fərqə əsaslanaraq hesaba daxil olur. Beləliklə, yenilik agentin maksimuma çatdırmağa çalışdığı mükafatın bir hissəsi olur. Bonusları formalaşdırmaq üçün nəzərdə tutulan ikinci fərziyyə, yeni stimullarla əlaqəli dövlətlərin dəyərlərini süni şəkildə artırmaqla həyata keçirilə bilər. RL-də istifadə edilən müvəqqəti fərqli təlim qaydanı ardıcıl dövlətlər arasında mükafat-proqnoz fərqinə əsaslanır, çünki yeni stimullarla əlaqəli dövlətlərə daimi bir şekil vermə bonusunun əlavə edilməsi agentin son davranışına təsir göstərmir. Bununla yanaşı, agent yenə də "formalaşmış" (yəni yeniliklə bağlı olan) dövlət məkanının bir hissəsinə daxil olduqda yeni bir cavab verə bilər.

Bu fərziyyələrin hər birinin əlavə olunması yeniliklərin bir çox müşahidə edilən təsirini izah etmək üçün kifayətdir, baxmayaraq ki, fərziyyələr öyrənmə prosesinə mane olur. Kakade və Dayan [7] qeyd etdiyimiz kimi, yenilik bonusları dəyər funksiyasını (yəni agentin hər bir dövlətə aid olan dəyərləri) təhrif edə bilər və nəticədə öyrənildiklərinə təsir edə bilər, çünki onlar əlavə romanın dövlətlər. Məsələ ondan ibarətdir ki, agent mükafatın əsas və yenilikçi komponentlərini həm də proqnozlaşdırmağı öyrənir. Kakade və Dayan, bonusların formalaşdırılmasının əvvəlki dövlətlərdən olan mükafat proqnozlarına daxil olmağına səbəb olmadığı üçün mükafatların formalaşmasına səbəb olmalarına baxmayaraq, onların əlavə edilməsi hələ də problemlidir, çünki mükafatların formalaşması bir agentin dövlət məkanını araşdırmağın yolverilməzliyini təqdim edir. Beləliklə, bu əlavə ehtimallar yeniliklərin RL-də mükafat-proqnozlaşdırma səhvinə necə təsir etdiyini izah edə bilər, baxmayaraq ki, problemlidirlər. Bundan əlavə, şərhlər real bioloji orqanizmlərin davranışlarını anlamaq üçün RL-dən istifadə etməyə cəhd edən modelləşdirmə işinin sədaqətinin azaldılmasına xərclənir.

Aşağıdakı simulyasiya, fərdi fərziyyələr olmadan sadə RL agentinin bioloji orqanizmlərdə müşahidə olunan qeyri-mükafatla əlaqəli dopamin reaksiyalarına bənzər bir mükafat-proqnozlaşdırılması səhv reaksiyası inkişaf edəcəyini test etmək məqsədilə aparılmışdır . Bir RL agentinə iki növ obyektin - bir pozitiv və digər mənfi - onun ətrafında təsadüfi yerlərdə göründüyü qarşılıqlı fəaliyyət tapşırığı verildi. Mükafatını maksimuma çatdırmaq üçün, agent müsbət obyektə yaxınlaşmaq və "istehlak" etmək və mənfi obyektdən (yəni istehlak etməmək) öyrənmək məcburiyyətində qaldı. Simulyasiya üçün üç əsas proqnoz var idi.

Birinci proqnoz sadə idi ki, mükafatını maksimuma çatdırmaq üçün, agent əslində müsbət, mükafatlı obyektlərə yanaşmağı və "tüketməyi" öyrənəcək, eyni zamanda mənfi, cəzalandırıcı obyektlərin qarşısını almaq üçün öyrənir. İkinci proqnoz daha az açıq idi: agent, həm mənfi, həm də müsbət obyektlərə yönəldici cavab (yəni, istiqamətləndirməyi öyrənmək) göstərib. Bu proqnoz, agentin bir obyektin görünüşünü və onun yerini, obyektin müsbət və ya mənfi şəxsiyyətini (yəni, agentin mükafat dəyəri ilə əlaqələndirməyi öyrənə biləcəyini ehtimal etdiyi kimi) "mənada" agent agent əslində obyektə yönəldildikdən sonra agent tərəfindən müəyyən edilə bilməz. Nəhayət, üçüncü (ən mühüm) proqnoz modeldə simulyasiya edilmiş dopaminergik fasik cavabla əlaqəli idi; bu proqnoz, obyektin meydana gəldiyi zaman, agent bioloji orqanizmlərdə müşahidə olunan fasik dopamin cavablarına hesablama ilə oxşar və mükəmməl və mənfi obyektlər üçün müsbət olan bir mükafat-proqnozlaşdırma səhvi nümayiş etdirəcəkdir. Bu cavab, həmçinin simulyasiya kontekstində stimulun "intensivliyi" və ya ehtiyatı üçün proxy ölçüsü olan agent və stimul arasındakı məsafənin funksiyası kimi dəyişir. Aşağıda nümayiş olunacaq kimi, bu proqnozlar simulyasiya nəticələrinə əsasən təsdiqlənməmiş dopamin cavablarının əsasən RL əsas prinsiplərindən yarana biləcəyini göstərir. Bioloji orqanizmlərdə qeyri-mükafatla əlaqəli fəaliyyətin başa düşülməsi üçün RL-dən istifadə edilməsi üçün bu nəticələrin nəzəri cəhətləri bu maddənin son hissəsində müzakirə olunacaqdır.

Üsul

Artıq qeyd olunduğu kimi, RL alqoritmləri, bir agentin aldığınız mükafatın ümumi məbləğini maksimuma çatdırmaq üçün hansı hərəkətləri öyrənməsi üçün anı-acı rəqəmsal mükafatların necə istifadə edə biləcəyini təyin edir. Ən çox formülasiyada, bu öyrənmə mükafat-proqnozlaşdırma səhvlərindən (yəni agentin mövcud mükafat proqnozu ilə alınan faktiki mükafat arasındakı fərqi) agentin mükafat proqnozlarını yeniləməklə əldə edilir. Mükafat proqnozları öyrənildikdə, proqnozlar bir agent tərəfindən növbəti fəaliyyətini seçmək üçün də istifadə edilə bilər. Normal tənliyi (Equation 2-da müəyyənləşdirilmişdir) agent üçün ən böyük mükafata səbəb olan proqnozu seçməkdir. Agentə hər hansı bir zamanda verilmiş olan real mükafat, dərhal mükafatın və agentin hərəkətin başa çatdıqda daxil olduğu dövlətin dəyərinin bir hissəsinin cəmidir. Beləliklə, agent müəyyən bir vəziyyətdə olduqdan sonra müsbət tə'minatlarla qarşılaşırsa, agent gələcəkdə bu mükafatlandırılmış dövlətlərə səbəb ola biləcək tədbirlər seçəcək; əksinə, əgər agent mənfi mükafatları (yəni cəza) yaşasa, gələcəkdə bu "cəzalandırılmış" dövlətlərə gətirib çıxaran hərəkətlərdən qaçınacaqdır.

Müxtəlif dövlətlər üçün öyrənilən mükafat proqnozlarını təyin edən xüsusi alqoritm (yəni, dəyər funksiyası V) "Value Iteration" [Footnote 1] adlanır və rəsmi olaraq aşağıdakı kimi təsvir edilə bilər:

Bütün mümkün dövlətlər üçün,

(Equation 1)

bu cari vəziyyətə uyğun olaraq, V (s) agent tərəfindən öyrənilmiş dövlət s üçün hazırlanan mükafat proqnozudur, maxaction en_m {} bütün hərəkətlərin dəsti üzərində qoşulan miqdarın maksimum dəyəri üçün operatordur Agenti V (s) agenti növbəti dövlət üçün agentin hazırladığı mükafat proqnozudur, α bəzi öyrənmə dərəcəsi (0 və 1 arasında) və γ gələcək mükafatların necə ölçülməsini əks etdirən endirim faktorudur dərhal mükafatlara nisbətən. Başlanğıc dəyər funksiyası V (s) bütün dövlətlər üçün 0 olduğu üçün təyin edilmişdir.

V (s) dəyər funksiyası bir mükəmməl yaddaş ehtimalına bərabər şəkildə formalaşan bir axtarış masası kimi həyata keçirilmişdir. Nüvə şəbəkələri kimi funksiya təxminləri, dəyər funksiyaları (1) təmsil etmək üçün bir qədər müvəffəqiyyətlə istifadə olmasına baxmayaraq, nəticələrin müxtəlif funksiya təxminləri ilə təmin edilmiş ümumiləşdirmə mexanizmlərinin növlərinə asılı olmadığını təmin etmək üçün bir axtarış masası istifadə olunmuşdur. Agent 1,500-lərin dövlət məkanından öyrənmələri üçün hazırlanmışdır. Obyektlərin şəxsiyyətinin gözlənilməz olması səbəbindən, müxtəlif nəticələrin orta hesablanmasına imkan verən öyrənmə zamanı birdən az (α = 0.01) dəyər funksiyası yeniləmə parametri istifadə edilmişdir. Nəhayət, endirim faktoru, sınaqdan sona çatdıqdan sonra onun yanaşma davranışını gecikdirmək əvəzinə agenti tez bir zamanda mükafat almaq üçün təşviq etmək üçün γ = 0.99 səviyyəsinə qoyulmuşdur (1-in standart dəyərindən dəyişmək baxmayaraq burada göstərilən nəticələrə təsir etməmişdir. ) 1,500 öyrənmə yinelemelerinin tamamlanmasını öyrənmək üçün kifayət olub-olmadığını müəyyən etmək üçün, öyrənilən orta dəyişiklik miqdarı izlənildi və bu sayı təkrarlanmadan əvvəl birləşdi.

Təlimdən sonra agentin davranışını tənzimləyən xüsusi alqoritm (yəni, hər bir dövlətdən götürdüyü hərəkətlər siyasəti) aşağıdakılardır:

(Equation 2)

burada π (s) agent dövlətdən seçəcək hərəkətdir və tənlikin sağ tərəfi mükafat məbləğini və diskontlaşdırılmış dəyərini maksimum dərəcədə artıran hərəkətləri (məsələn, yönümün dəyişməsi, hərəkət və ya hərəkətsizliyi) əldə edilən dövlətin s.

Aşağıda göstərilən simulyasiya zamanı agent tərəfindən ziyarət edilən bütün dövlətlər həm agentin xarici "fiziki" vəziyyəti, həm də daxili "bilik" vəziyyəti barədə məlumatları təqdim edən 7-ölçülü vektorlar kimi kodlanır. Fiziki məlumat həm agentin hazırkı vəziyyətini həm yerdəki yerini, həm də istiqamətini göstərdi. İnformasiya məlumatları obyektin mövqeyini (əgər varsa) və həmin obyektin şəxsiyyətini (agent tərəfindən təyin edilmişsə) daxil etmişdir. Agent tərəfindən təmsil edilən xüsusi məlumat növləri Cədvəl 1-da göstərilir.

Cədvəl 1

RL simulyasiyalarında istifadə edilən ölçülər və bu ölçülərin mümkün dəyərləri.

[Simvol 21,120] simulyasiyasında ümumi 2 dövlətləri var idi. Ancaq müəyyən olmayan müsbət və qeyri-müəyyən bir mənfi obyektin olduğu dövlətlər agentin perspektivindən eynidırlar, buna görə də yalnız 16,280 fərqli dövlətlər var. Beləliklə, öyrənmə hər iteration zamanı, yarımın müsbət bir obyektin aşkar edilməsi ilə izlənilə biləcəyini və yarım vaxtın mümkün olduğu müddətə icazə vermək üçün iki dəfə "eyni" dövlətləri ziyarət etmək lazımdır mənfi bir obyektin aşkarlanması ilə izah olunmalıdır [DİQQƏT 3].

Hər bir simulyasiya sınaq sınaqının başlanğıcında, agent beş sahə ilə simulyasiya edilmiş xətti xəttli 11 × 1 vahid mərkəzinin mərkəzinə yerləşdirilib və "şərqə" (yəni sağa) və "beşlik" "(Yəni, solda) agentin. Cədvəl 1 göstərir ki, agentin dövlət vektoru, yolda cari yeri göstərən elementi (yəni, 0-dan 10-a qədər bir tamsayı), eləcə də bir element (yəni "n", "s", " (yəni, şimal, cənub, şərq və ya qərb istiqamətində) təmsil edir. Agentin ilkin oriyentasiyası həmişə "şimal" olaraq təyin olundu və ətrafda başqa heç bir obyekt yox idi (yəni agentin dövlət vektorunda "OBJECT" dəyəri "0" a bərabər təyin edildi).

Simulyasiyanın hər bir mərhələsi zamanı agent aşağıdakı hərəkətlərdən birini yerinə yetirə bilər: (1) heç bir şey etməz və cari yeri və oriyentasındadır; (2) şimal, cənub, şərq və ya qərb istiqamətində; və ya (3) ətrafda (şərqdə və ya qərbdə) bir yer hərəkət edir. Hər bir hərəkətin nəticəsi sonrakı simulyasiya edilmiş vaxt addımında baş vermişdir. Agentin yerdəki yeri və / və ya oriyentasındaki bütün dəyişikliklər agent tərəfindən edilən hərəkətlərin seçimi nəticəsində baş vermişdir. Bununla belə, simulyasiyanın hər bir mərhələsində "heç bir şey etməyin" hərəkəti seçildikdə belə, sınaq sona qədər 1 tərəfindən vaxt artırıldı (yəni, zaman-addım 20).

Agentin ətraf mühiti mühafizəsi yaradılıb ki, yarım vaxt, on vaxtdan sonra təsadüfi bir yerdə (ancaq agentlə eyni yerdə deyil) bir obyekt ortaya çıxdı; Cədvəllərin 50% -i müsbət ("+" ilə göstərilmişdir, Cədvəl 1-a baxın) və obyektlərin 50% -i mənfi idi ("-" ilə təmsil edilmişdir). Obyektin ortaya çıxmasından əvvəl gecikmə, agentin obyektin görünüşündən əvvəl sergilediği hər hansı bir davranışın müşahidə edilməsinə icazə verildi. Agent agentin vəziyyətinə yönəldilmədiyində, agentin dövlət vektorunda "OBJECT" şəxsiyyətini təmsil edən element "0" dan "?" Ə çevrildi və indi obyektin şəxsiyyətinin hazırda təqdim edilməmişdi. Lakin, agent obyektə yönəldilmişsə, o zaman "OBJECT" elementi obyektin şəxsiyyətinə bərabər olaraq təyin olunduqdan sonra "0" müsbət üçün "+" və ya "-" oldu və mənfi obyektlərin sırasıyla.

Agent bir obyektin yerləşdiyi yerə köçürdisə, növbəti dəfə addım obyekti itdi. Obyekt pozitiv olsaydı, agentin "CONSUMED" bayrağına bərabər verildi və agent mükafatlandırıldı (mükafat = + 10); Lakin obyekt obyektiv olsaydı, "SHOCKED" bayrağının doğru olduğu və agenti cəzalandırıldı (mükafat = -10). (Qeyd edək ki, bayraqlar agentin obyektin olmadığını və ya müəyyən edilməməsindən asılı olmayaraq, bu şəkildə təyin olunduğunu nəzərə alsaq, məsələn, agent heç bir obyektə yönəlmədən bir obyekti istehlak edə bilər.) Sonrakı mərhələdə "SHOCKED" və ya "CONSUMED" bayrağı silindi. Agentin hər bir hərəkət və ya istiqamətləndirici hərəkət üçün kiçik bir cəza verildi (reinforcement = -1) və heç bir hərəkət etmədiyi təqdirdə heç bir mükafat və ya cəza almadı (reinforcement = 0).

Həm agentə görə həm açıq davranışlar (yəni, yönləndirmə, həm hərəkət) və mükafat-proqnozlaşdırma xətası ölçülmüşdür. Vəzifənin öyrənilməsinin olub-olmamasının göstəricisi kimi açıq davranış (yəni agent tərəfindən seçilmiş hərəkətlərin siyahısı) istifadə edilmişdir. Ödəmə-proqnozlaşdırma səhvi ölçüsü, qeyri-mükafatlı dopaminerjik fasik siqnalın ortaya çıxması ilə əlaqədar hipotezi test etmək üçün istifadə edilmişdir. Tədqiqat predmeti, δ, mükəmməl proqnozu əvvəlki vaxtda, yəni V (lər) in zamanında t-1-də, mükafatın proqnozlaşdırılmasından çıxdıqda, obyektin görünüşündəki zaman ölçülmüşdür maddə δ = V (st) - V (st-1) miqdarını verən zaman V (s) yə çıxdı.

Nəticələr
Simulyasiya Davranışı

Agentlərin açıq davranışları əvvəlcədən təyin edilmişdi. Bu təhlillərin nəticələri göstərdi ki, məşqdən sonra agent müalicəyə yaxınlaşaraq bütün müsbət obyektlərdən müsbət möhkəmlənmə əldə etdi və heç bir mənfi obyektə heç bir yaxınlaşmadı. Birlikdə bu nəticələr agentlərin tapşırıqları düzgün yerinə yetirməyi öyrəndikləri davranış təsdiqini təmin edir. Əlavə müşahidə ilə bu nəticə əlavə olundu ki, məhkəmə prosesində heç bir obyekt ortaya çıxmadıqda, agent hərəkətsiz qaldı. Proqnozlaşdırıldığı kimi, agent müsbət və mənfi obyektlərə yönəldilmişdir.

Simulated mükafatlandırma-proqnozlaşdırma xətası

Bu məqalənin mərkəzi hipotezidir ki, gözlənilməz stimulun görünüşü həmişə cəzalandırılan "mənfi" bir obyekt olsada belə, müsbət mükafat-proqnozlaşdırma səhvini yaradır. Bu hipotezi dəstəkləyən agent, heç bir şeyin ortaya çıxmasa da, (müəyyən edilməmiş) bir obyekt ortaya çıxdıqda müsbət bir mükafat tahmin səhvi nümayiş etdirdi. Mərkəz hipotezinə uyğun olaraq, agentin fasik reaksiyasının (Metod bölməsində təsvir edilən ölçüləri) stimulun simulyasiya edilmiş "intensivliyinə" həssas olması, agent ilə obyekt arasındakı məsafədən istifadə edərək müəyyənləşdirilmişdir (bax Şəkil 1). Bir reqressiya təhlili δ-nin böyüklüyünün cismdən uzaqlığı ilə tərs olaraq əlaqəli olduğunu, daha yaxın cisimlərin daha güclü reaksiyaya səbəb olduğunu göstərdi (r = -0.999, p <0.001; β = 0.82). Bu mənfi korrelyasiya, agentin müsbət obyektə keçməsi, istehlak etməsi və bununla mükafat alması üçün tələb etdiyi hər bir hərəkət üçün verilmiş kiçik cəza (möhkəmləndirmə = -1) səbəb oldu.

Şəkil 1

Bu rəqəm, obyektin agentin yerləşdiyi yerə nisbətən obyektin yerləşmə funksiyası kimi meydana çıxdığı zaman mükafat proqnozlaşdırma səhvini (yəni δ) göstərir. Cavablar həm müsbət, həm də mənfi obyektlər üçün eynidır. Heç bir obyekt olmadıqda (daha çox…)

Müsbət və mənfi obyektlərin bərabər ehtimalı (p =. 25) ilə ortaya çıxdığını nəzərə alaraq, sual yaranır: Niyə obyektin görünüşü zamanı agentin mükafat-proqnozlaşdırılması səhvi müsbət olub? Kakade və Dayan [7] xəttləri üzərində düşünmək, siqnalın bu cür vəziyyətlərdən əldə edilən bütün mükafatların ortalamasını əks etdirməsini və bu səbəbdən sıfıra bərabər olduğunu təxmin edə bilər. Bu nəticəni anlamaq üçün əsas məqam, RL-nin təkcə mənfi gücləndirməylə nəticələnən hərəkətləri seçmək ehtimalı az olmasına gətirib çıxarmayıb, həm də agenti nəticədə mənfi gücləndirməyə gətirib çıxaran dövlətlərə daxil olma ehtimalı azdır. Bu, Şəkil 2-də təsvir edilən və sonrakı təsvir edilən bir "yüksək səviyyəli" təhsil formasıdır.

Şəkil 2

RL agentinin ətraf mühitində həm mükafatlandırıcı, həm də cəzalandırıcı stimullarla öyrədildiyi və onlara yaxınlaşıb istehlak ediləcəyini seçə bildiyi zaman RL agentinin mükafat proqnozlaşdırma səhvini necə inkişaf etdirdiyini göstərən nümunədir. (A) Öyrənmədən əvvəlki vəziyyət: (daha çox…)

Öyrənmə başında (Şəkil 2A-a baxın), agent həm "+" və "-" obyektlərinə yönəldir, həm də onlara yaxınlaşır və hər bir obyektin istehlakı ilə mükafatlandırılır və cəzalandırılır. Agentin öyrəndiyi dövlət dəyərləri agentin hərəkətlərinə təsir göstərə bilmədikdə (Şəkil 2B-ə baxın), o zaman agent agentliyin obyektlərinə yaxınlaşmağa davam edəcəkdir. Göstərici görünüşü 0-ın orta mükafatını proqnozlaşdırırdı və mükafat-proqnozlaşdırma səhvində birdən-birə artım olardı. Lakin, bu simulyasiya agenti öz hərəkətlərinə təsir göstərmək üçün öyrənilmiş dövlət dəyərlərindən istifadə edir (bax: Şəkil 2C) və agent hələ də şəxsiyyətini müəyyən etmək üçün bilinməyən obyektə yönəldilməsinə baxmayaraq, yaxınlaşdıqda artıq mənfi bir obyekti istehlak etməyəcəkdir (bu, trajectory nümunəsi kimi təsadüfi kəşfiyyat alqoritmi ilə təlim olunarsa [Dipnot 1]). Bundan əlavə, müvəqqəti fərqlə öyrənmə, mənfi mükafat proqnozunun əvvəlki dövlətlərə "yayılmasına" imkan verir və kosmosda hərəkət etmək üçün kiçik bir dəyəri olduğundan, agent tamamilə mənfi obyektə yaxınlaşmamaq öyrənir. Beləliklə, bu məlumatlar öyrənildikdən sonra, obyektin ilk dəfə göründüyü zaman dövlətin dəyəri (hər bir ardıcılda ilk dairədə "V" olaraq göstərilmişdir) müsbət və mənfi nəticə dövlət dəyərlərinin ortalamasına əsaslanır, bunun əvəzinə müsbət olan ortalama və agent mənfi obyektlərin qarşısını almaq öyrənmək dəfə əldə "neytral" nəticə əsasında. Bu səbəbdən təlimli agent tərəfindən əldə edilən bütün mükafatların ortalaması sıfırdan çox idi və agentin mükafat proqnozunu (və buna görə də obyektin birdən-birə göründüyü zaman mükafat-proqnozlaşdırma səhvi) niyə açıq bir müsbət olduğunu izah edir. Bu, Şəkil 3-da göstərilir. Faktiki olaraq, agent davranışını dəyişməyə və mənfi obyektdən qaçındıqda, mənfi obyektin dəyəri nəticə etibarilə agentin son davranışına və yenilik / əsaslılıq reaksiyasının böyüklüyünə aid deyildir.

Şəkil 3

(A) RL-in daha yüksək səviyyəli öyrənmə ilə nəticələnməməsi halında baş verəcək mükafat proqnozundakı dəyişiklikləri nümayiş etdirir (yəni agent mənfi nəticədən qaçınmaq üçün tədbirlər görə bilmədiyi təqdirdə), agentin bütün istehlak etmək məcburiyyətində qalması obyektlər (daha çox…)

Simulyasiya nəticəsi tənqidi üç ehtimala bağlıdır. Birincisi, xəbərdarlıqların əvvəlcədən başlanğıc qabaqcadan nəzərdə tutulmuş güclənmənin böyüklüyü (məsələn, + 10) yönəldilməsi və yaxınlaşması (məsələn, 1) xərclərinə nisbətən daha yüksək idi. Miqdar nisbətən kiçik olsaydı, agent yanaşmağı öyrənməmişdir, nə də müsbət mükafat-proqnozlaşdırma səhvinə cavab verə bilərdi. İkincisi, xəbərdarlıqları qəbul etməzdən öncə də bir gecikmə də lazım idi. (Gecikmə, tanış bir stimulun tez tanınacağını düşündüyünü nəzərə alaraq "yenilik" üçün bir proxydir.) Gecikmədən, agent sadəcə faktiki qəbul edilən obyekt üçün uyğun müsbət və ya mənfi mükafat proqnozu səhvini yaradıb. Nəhayət, agentin davranışı öyrəndiyi dəyərlərlə müəyyənləşdirilməlidir. Agent öz davranışını (yəni stimullara yaxınlaşmaq olub-olmamasını) nəzarət edə bilmədikdə, obyektin ortaya çıxdığı zaman onun mükafat proqnozu 0-a bərabər müsbət və mənfi nəticələrin ortalamasını təşkil edəcəkdi.

Ümumi müzakirələr

Bu yazıda göstərilən simulyasiya göstərir ki, gözlənilməz stimul, ya tərifləyən və ya cəzalandırmaqla görünür, ancaq dərhal təsbit edilə bilməyəcək bir müsbət mükafat tahmin səhvi meydana gəlir. Bundan əlavə, simulyasiya, simulyasiya kontekstində stimul intensivliyi üçün proxy ölçüsü olan və beləliklə, zəiflik ilə əlaqələndirən agentə stimul yaxınlığında mükafat-proqnozlaşdırma səhvinin ölçüsünü artırdığını göstərdi. RL-nin nəzəri çərçivəsindəki mükafat proqnozları adətən tanınmış stimulların və ya bir agentin [15] fiziki və / və ya idrak vəziyyətlərinin öyrənilmiş dəyərini əks etdirmək üçün aydın olur. Lakin burada bildirilən mükafat-proqnozlaşdırma səhvi keyfiyyətcə fərqli şərhə malikdir, çünki agent obyekti tanıyandan əvvəl yaranır. Birlikdə bu nəticələr, RL prinsiplərinin mükafatla əlaqəli olmayan bir cavab verməsi üçün kifayətdir, lakin əvəzinə yenilik və xüsusiyyətlərin xüsusiyyətlərinə aid olan fərziyyəni dəstəkləyir. Bu nəticə RL-nin ümumi anlayışımıza və RL-nin şərhinə görə real bioloji orqanizmlərdə mükafat öyrənmə hesabı kimi bir neçə vacib təsirə malikdir.

Birincisi, bir RL agenti tərəfindən müəyyən edilmiş bir stimul göründüyü zaman yaranan mükafat proqnozu, Kakade və Dayan [7] tərəfindən təklif edilən əldə edilən mükafatların ciddi bir ortalaması deyil, lakin əslində bu xüsusi orta hesabla daha böyük ola bilər. Kakade və Dayan, orta mükafat proqnozunun sıfıra bərabər olması lazım olduğunu proqnozlaşdırırdı, çünki məhkəmə prosesləri eyni dərəcədə cəzalandı və cəzalandırıldı. Bu təəccüblü nəticə agentin "siyasətdə" öyrənildiyi səbəbdən ortaya çıxdı; yəni agent yalnız mənfi nəticələrlə deyil, həm də bu nəticələrdən qaçmaq qabiliyyətinə dair öyrəndi. Mükafat sisteminin mənfi nəticələrdən qaçınmaq üçün bir agentə səbəb olma qabiliyyəti bu RL anlayışını gerçək orqanizmlərə çevirməkdə diqqətlə nəzərdən keçirilməlidir. Dopaminerjik fasik reaksiya qabiliyyətində görünən asimetriyanın pozitiv mükafat proqnozlaşdırılması səhvini mənfi mükafat proqnozlaşdırma səhnəsindən (11) daha yaxşı ifadə etməklə bu fakt potensial olaraq daha da vacibdir. Müəyyən bir hadisənin ardıcıllığının mənfi nəticəyə gətirib çıxaracağını göstərmək kifayətdir, amma hərəkətlərin seçilməsi məqsədi ilə bu nəticənin böyüklüyü əhəmiyyətsizdir.

Mövcud simulyasiyadan ikinci bir xarakterik olan yenilik cavabının algısal emal sistemləri və mükafat-proqnoz sistemləri arasındakı qarşılıqlı təsirlərdən meydana çıxmasıdır. Xüsusilə, yenilik reaksiyası hələ tam anlayışlı işlənməmiş yeni obyektlər və obyektlər arasında oxşarlıq şəklində ola bilər [Xətt 4]. Bu simulyasiya zamanı obyektin şəxsiyyətindən (və nəticədə onun mükafatlandırıcı və ya cəzalandırıcı təbiətindən) əvvəl agentliyə aydınlıq gətirildikdən sonra gecikmə tətbiq edilərək yenilik tətbiq edilmişdir. Bu, yeni obyektlərin müəyyənləşdirilməsi üçün daha uzun sürəcəyi ehtimalı ilə həyata keçirilirdi, lakin bu fərziyyələr həm də müsbət və mənfi obyektlərin ilk dəfə ortaya çıxdıqlarında (yəni, həm də "?" Kimi kodlaşdırıldığı kimi) qəbul olunmasına gətirib çıxardı. Əksinə Kakade və Dayan [7], neyrofizyoloji məlumatlarında belə bir şəkildə ortaya qoyulmasına baxmayaraq yenilikçi cavablar və "ümumiləşdirmə" cavablarının əhəmiyyətli dərəcədə fərqlidir.

Mövcud simulyasiya nəticələrinin üçüncü bir xarakteri, onlar Kakade və Dayan [7] tərəfindən təklif olunan yenilik və əlavə formalaşma bonuslarının əlavə ehtimallarının lazım olmadığını göstərir. Bunun əvəzinə yenilikçi cavablar, real algılama prosesi məhdudiyyətlərindən və mənfi nəticələrdən qaçınmaq qabiliyyətindən xəbərdar ola bilər. Bu xoşbəxtdir, çünki Kakade və Dayan tərəfindən qeyd edildiyi kimi, yenilik bonusları bir agent tərəfindən öyrənilən dəyər funksiyasını təhrif edir və mükafatların formalaşdırılması agentlərin dövlət boşluğunu araşdırma üsuluna təsir göstərir. Beləliklə, bu fərziyyələrin birinə daxil edilməsi RL nəzəriyyəsinə əsaslanan modellərin tənəzzülünü azaldır. Maraqlıdır ki, burada təqdim olunan nəticələr, bioloji yeniliklərin reaksiyasının real orqanizmlərdə mükafat əsaslı öyrənilməsinə nə səbəb ola bilməyəcəyini izah etməyə kömək edir: yenilik reaksiyası əslində artıq RL tərəfindən proqnozlaşdırılır. Yəni, yenilik reaksiyası ətraf mühitlə bağlı bir şey öyrənmiş bir agentə xas davranışlar və mükafat proqnozlarını əks etdirir.

Mövcud simulyasiya nəticələrinin alternativ (lakin bir-birindən fərqlənməmiş) təfsiridir ki, obyektlərin yönəldilməsi və obyektlərin müəyyən edilməsi nəticəsində əldə edilən mücərrəd (bəlkə də bilişsel) mükafat var. Dopaminergik fəaliyyətə dair tədqiqatlarda müsbət fasik cavablar bir mükafatı öngörmek üçün bilinməyən bilinməyən istəklərə baş verə bilər. Lakin bu simulyasiya, bu cür cavabların nəticədə mükafat və ya cəzanı proqnozlaşdıra biləcək bir göstərişə necə cavab verə biləcəyini nümayiş etdirir. Göstərici tərəfindən öngörülen tek ardıcıl fayda, agentin nesnenin kimliğini belirlediğinde elde edilen bilgilerin kazancıdır. Beləliklə, müəyyən olmayan bir obyektin göründüyü zaman etibarlı, öyrənilən "mükafat proqnozu" varsa, razılaşdırıcıya yanaşmağı və ya qarşısını almaq barədə məlumat əldə etdikdən sonra razıdır. Bu məlumatın dəyəri əldə edilən nəticələrin orta səviyyəsinə deyil, əvəzinə effektiv nəticələr barədə biliklərə əsaslanır - agent müsbət mükafatı istehlak edə bilər və ya mənfi mükafatın qarşısını ala bilər (Şəkil 2-ə baxın).

Nəhayət, xüsusi tədbirlərin görülməsi üçün imkanların (məsələn, köçürülməsi) özləri bu simulyasiya daxil olmayan bəzi ümumiləşdirmə və ya öyrənmə mexanizmi vasitəsilə mükafatlandırıcı xüsusiyyətlərə malik ola biləcəyini qeyd etmək vacibdir. Məsələn, "orada olanlar" nın yönəldilməsi və müəyyənləşdirilməsi çox hərəkətli bir hərəkətdir və yeni stimullar ortaya çıxdıqda həmin hərəkət və yuxarıda göstərilən fövqəladə, həmişə müsbət mükafat-proqnozlaşdırma səhvi arasındakı birliyə əsaslanan bir organizma üçün mükəmməl ola bilər. Bənzər bir düşüncə, yaxın zamanda Redgrave və Gurney [13] tərəfindən fasik dopamin cavabının əhəmiyyətli bir məqsədi gözlənilməz xarakterli hadisələrdən əvvəl baş verən hərəkətləri gücləndirməkdir. Buradakı nəticələr bu fərziyyəyə uyğun deyildir, lakin Redgrave və Gurney fərziyyəsinin bu simulyasiya ilə birbaşa yoxlanılmadığını qeyd etmək lazımdır, çünki hadisənin (görünüşünün) görünməsi üçün agentdən heç bir hərəkət (yəni kəşfiyyat) tələb edilməmişdir. obyektin) meydana gəlməsi. Lakin simulyasiya edilmiş fasik siqnal iki tərəfin qəti şəkildə əlaqəli olduğunu göstərən istiqamətləndirmə cavabının vaxtı ilə üst-üstə düşdü.

Sonda bu maddə RL prinsiplərinin dopaminergik nöronların qeyri-mükafatla əlaqəli fəaliyyətinin bir növünü izah etmək üçün istifadə edilə biləcəyini nümayiş etdirdi. Bu nəticə müvəqqəti fərqli öyrənmə qaydasının (Kakade və Dayan [7] tərəfindən istifadə olunan), agentin son nəticəyə təsiri olan hərəkətləri seçə biləcəyi bir simulyasiya içində yerləşdirildiyindən ortaya çıxdı. Simülasyonda, agent birdən ortaya çıxan bir obyektin yönəldilməsinin həmişə həm təzminat, həm də neytral ola biləcəyi öyrənildi, çünki mənfi nəticələrdən qaçınmaq olar. Bu səbəbdən agentin yönəldilməsi imkanı olduqda, mükafat-proqnozlaşdırma səhvi həmişə müsbət olmuşdur, bioloji orqanizmlərdə müşahidə edilən yenilik və xarakteristikalara görə hesaba bənzərdir.

Minnətdarlıq

Bu yazıda təsvir edilən iş NIH R01 HD053639 və NSF Training Grant DGE-9987588 tərəfindən dəstəkləndi. Erik Reichle, Tessa Warren və bu məqalənin əvvəlki bir versiyası haqqında faydalı şərhlər üçün anonim bir nəzərdən keçənlərə təşəkkür edirəm.

1Arqa məkanının böyüməsi olduqda böyük bir hala gəldiyi zaman, yəni təkrarlanan təkrarlama və ya kompüterin yaddaşında asanlıqla saxlanıla bilməyəcəyi zaman, yüngülləşdirmə nümunəsi [17] adlanan digər birləşmə öyrənmə alqoritmi tez-tez istifadə olunur. Dövlət məkanında hər bir dövlət üzərində yinelenerek və ən çox mükafata səbəb olan hərəkətlərə əsaslanan dəyər funksiyası yeniləmə tənliyinin tətbiqi əvəzinə, Trajectory Sampling dövlət məkanından aşağıdakı yollarla işləyir. Dəyər İterasyonuna bənzər şəkildə, ən çox mükafata aparan hərəkətlər adətən hər bir dövlətdən seçilir, lakin bəzən təsadüfi bir kəşfiyyat işi bəzi kiçik ehtimalı ilə seçilir. Beləliklə, alqoritm aşağıdakılardan ibarətdir: Bəzi başlanğıc dövlətlərdən, ehtimal ε ehtimalı ilə ən mükafat (məsələn, mükafat + γV (s)) gətirən bir hərəkət seçin və 1 - ε ehtimalı ilə təsadüfi bir tədqiqat fəaliyyətini seçin. Dövlətdən olmayan tədqiqat tədbirləri zamanı V (s) → V (s) + α [mükafat + γV (s ') - V (s)) tətbiq edin.

Hesablama vaxtı və yaddaşının texniki məhdudiyyətlərinin aradan qaldırılması ilə yanaşı, Trajectory Nümunələri də cəlbedici ola bilər, çünki bu, real bioloji orqanizmlərin öyrənməsinin üsulunu daha yaxşı şəkildə göstərə bilər: dövlət məkanında yolları araşdırmaq. Bu yazıda təsvir olunmuş vəzifə üzrə, Təqaüd nümunəsi Qiymət İterasyonu ilə əldə edilən keyfiyyətlə eyni olan nəticələr verir. Lakin, yekunluq üçün bu nəticələr burada ətraflı məlumat verilmir. İki əsas səbəbdən bu işdə simulyasiya üçün dəyər İterasiya seçilmişdir. Birincisi, trajectory nümunəsi traektoriyaların seçilməsində stokastikliyi ehtiva etdiyindən, bu tapşırıqda mümkün olan çox səth hərəkətləri nəticəsində yaranan dallanma miqdarı bəzi dövlətlərlə təcrübəyə malik olmayan agentlərə gətirib çıxara bilər, çünki axtarış-istismar parametri (yəni, e-greediness [17]) diqqətlə seçilir. Müəyyən dövlətlərin təcrübəsinin olmaması, bir axtarış masası yaddaş quruluşunun oxşar (lakin ehtimalla gözləməyən) dövlətlərə dəyərin ümumiləşdirilməməsi səbəbindən istifadə edildiyi zaman agentin fəaliyyətinin pozulmasına səbəb ola bilər. Beləliklə, dəyər mənbəyi ilə zəmanət verilmiş dövlət məkanının geniş axtarışından istifadə etmək üstünlük təşkil edilmişdir. İkincisi, Dəyər İterasyonunun istifadəsi, əlavə tədqiqat-istismar parametrinin dəqiqləşdirilməsinin zəruriliyini aradan qaldırdı və simulyasiya sadələşdirildi. Trajectory nümunəsinin nəticədə yəqin sayının sonsuzluğa (17) yaxınlaşdığı kimi Qiymət İterasyonunu təxminən təxmin edə biləcəyini unutmayın.

2 21,120 dövlətlərin sayı aşağıdakı kimi hesablana bilər: 11 mümkün agent mövqeləri × 4 mümkün agent istiqamətləri × (bir obyekt əvvəl 10 vaxt addımlar görünə bilər + 10 vaxt obyektləri heç bir obyektin görünməmiş olduğu + 10 vaxt addımları pozitiv gücləndirilmiş + 10 vaxt nişanı obyektin mənfi bir şəkildə gücləndirildiyi + 11 mümkün obyektin yerləşdiyi yerlər * (10 zaman pozğunluqları pozitiv müəyyən edilmiş obyekt ilə + 10 vaxt addımları ilə mənfi təsbit edilmiş obyekt + 10 vaxtında addımlar, + 10 vaxt əlamətləri müəyyən edilməmiş mənfi bir obyektlə))].

3 Bu "gizli" dövlətlərin mövcudluğu təlim zamanı nəzərə alınmalıdır, çünki dəyər İterasiya yalnız dövlət məkanında hər bir dövlətdən "bir addım qabaqda" görünür. Negatif ve pozitif tanımlanmamış nesnelerin bulunduğu devletlerin etkili bir şekilde eşdeğer olduğu gerçeği, pozitif ya da olumsuz bir nesnenin tespit edildiği iki farklı ülkede değerleri öğrenmek ve ortalamalarını önleyecektir. Digər tərəfdən bir Trajectory Nümunələşdirmə yanaşması məhkəmə prosesində gizli dövlət məlumatını saxlayır (yəni, müəyyənləşdirilməyən stimulun şəxsiyyəti) və RL-nin bu variantında gizli dövlətlər narahatlıq doğurmur.

Bu işə 4One qarşı potensial etiraz yönümlü cavab, məsələn, üstün kolikulusdan [3,14] proqnozlarda, memeli beyində sərtləşdiyi görünür. Mövcud simulyasiyada agentlər obyektlərə yönəldilməməsi üçün çətinləşdirilməmişdi, lakin bunun əvəzinə mükəmməl mükafat verən bir hərəkətin (məsələn, yanaşma və ya qaçmaq) seçilməsinə imkan verən bir yönümlü davranış öyrənmişlər. Sıx telli cavablara oxşar olaraq, bu yönümlü davranışlar obyektlərin müəyyən edilməzdən əvvəl və bütün obyektlərə yönəldilməsindən əvvəl çox sürətlə baş vermişdir. Bu işin məqsədi bütün bu cür cavabların öyrənildiyini iddia etmək deyil, əksinə RL çərçivəsi çərçivəsində birgə mövcud ola bilmək idi. Buna baxmayaraq, bu fasik dopamin reaksiyasını yaratmaq üçün brainstem sahələrində əlaqələrin qurulmasında mükafatla əlaqəli mexanizmlərin iştirak edə biləcəyini araşdırmaq maraqlı olardı.

Bu dərc üçün qəbul edilmiş edilmiş edilməmiş əlyazmanın bir PDF faylıdır. Müştərilərimizə xidmət olaraq, bu əlyazmanın bu erkən versiyasını təqdim edirik. Əlyazma, surətini çıxarmaq, tərtib etmək və son sübut şəklində dərc edildikdən sonra ortaya çıxan sübutların nəzərdən keçirilməsini təmin edəcəkdir. Xatırlayın ki, istehsal prosesi zamanı məzmuna təsir göstərə biləcək səhvlər aşkar edilə bilər və jurnala aid olan bütün hüquqi rəddlər aiddir.

References

1. Baird LC. Qalıq alqoritmlər: Fonksiyanı təxminlə gücləndirmək. In: Priedetis A, Russell S, redaktorları. Maşın Learning: On ikinci Beynəlxalq Konfransın əsərləri; 9-12 iyul.1995.

2. Bunzeck N, Düzel E. İnsan əsasən nigra / VTA stimul yeniliyinin mütləq kodlanması. Neuron. 2006; 51 (3): 369-379. [PubMed]

3. Dommett E, Coizet V, Blaha CD, Martindale J, Lefebvre V, Walton N, Mayhew JEW, Overton PG, Redgrave P. Qisa gecikmede dopaminerjik nöronların görsel stimulları necə aktivləşdirir? Elm. 2005; 307 (5714): 1476-1479. [PubMed]

4. Doya K. Metallurgiya və neyromodulyasiya. Sinir şəbəkələri. 2002 Jun-Jul; 15 (4-6): 495-506. [PubMed]

5. Gillies A, Arbuthnott G. Bazal qangliyanın hesablama modelləri. Hərəkat pozuntuları. 2000; 15 (5): 762-770. [PubMed]

6. Horvitz JC. Vacül olmayan mükafat hadisələrinə Mesolimbokortik və nigrostriatal dopamin reaksiyaları. Neuroscience. 2000; 96 (4): 651-656. [PubMed]

7. Kakade S, Dayan P. Dopamin: ümumiləşdirmə və bonuslar. Sinir şəbəkələri. 2002; 15 (4-6): 549-559. [PubMed]

8. Knutson B, Cooper JC. Bilinməyən cazibə. Neuron. 2006; 51 (3): 280-282. [PubMed]

9. Logothets NK, Pauls J, Augat M, Trinat T, Oeltermann A. fMRI siqnalının əsasını neyrofizyoloji tədqiqatı. Təbiət. 2001; 412 (6843): 150-157. [PubMed]

10. McClure SM, Berns GS, Montague PR. Pasif öyrənmə vəzifəsində müvəqqəti proqnozlaşdırma səhvi insan striatumunu aktivləşdirir. Neuron. 2003; 38 (2): 339-346. [PubMed]

11. Niv Y, Duff MO, Dayan P. Dopamin, qeyri-müəyyənlik və TD öyrənmə. Davranış və Brain funksiyaları. 2005 May 4; 1: 6. [PMC pulsuz məqalə] [PubMed]

12. O'Doherty JP, Dayan P, Friston K, Critchley H, Dolan RJ. Müvəqqəti fərq modelləri və insan beynində mükafatla əlaqəli öyrənmə. Neuron. 2003; 38 (2): 329-337. [PubMed]

13. Redgrave P, Gurney K. Qısa latanslı dopamin siqnalı: yeni hərəkətləri aşkar etmənin rolu? Nature Şərhlər Neuroscience. 2006 Dekabr; 7 (12): 967-975.

14. Redgrave P, Prescott TJ, Gurney K. mükafat səhvini siqnal etmək üçün qısa gecikmeli dopaminin cavabı çox qısa mıdır? Neurosciences'teki trendler. 1999 Apr; 22 (4): 146-151. [PubMed]

15. Reichle ED, Laurent PA. Oxumaq zamanı "ağıllı" göz hərəkətinin davranışının ortaya çıxmasını anlamaq üçün gücləndirici öyrənmə istifadə edin. Psixoloji baxış. 2006; 113 (2): 390-408. [PubMed]

16. Schultz W. Dopamin nöronlarının proqnozlaşdırıcı mükafat siqnalı. Nörofizyoloji jurnalı. 1998; 80 (1): 1-27. [PubMed]

17. Sutton RS, Barto AG. Gücləndirilmə Təlimi: Giriş. MIT Press; Cambridge: 1998.

18. Tanaka SC, Doya K, Okada G, Ueda K, Okamoto Y, Yamawaki S. Dərhal və gələcək mükafatların proqnozlaşdırılması fərqli olaraq kortiko-bazal ganglion iltihabı qəbul edir. Təbiət neuroscience. 2004; 7 (8): 887-893.