Muvaffaqiyatning yuzaga kelishi va takomillashtirishning ta'lim printsiplaridan yangiliklar (2008)

Izohlar: yangilik bu o'z mukofoti ekanligini ko'rsatadigan yana bir tadqiqot. Internet pornografiyasining o'ziga xos jihatlaridan biri bu cheksiz yangilik va xilma-xillik, bir sahnadan ikkinchisiga tezlik bilan bosish qobiliyati va kerakli rasm / videoni izlashdir. Bularning barchasi dopaminni ko'paytiradi. Internet pornografiyasini jurnallardan yoki ijaraga olingan DVD-lardan farq qiladigan narsa shu.

To'liq o'rganish: takomillashtirishning ta'lim printsiplaridan kelib chiqqan holda yangi paydo bo'lishi va yangilanishi

Neural Networks. 2008 dekabr; 21 (10): 1493-1499.

2008 Sentyabr 25-da chop etildi. doi: 10.1016 / j.neunet.2008.09.004

Patryk A. Laurent, Pitsburg universiteti;

Barcha xatlarga murojaat qiling: Patryk Laurent, Pitsburg universiteti, 623 LRDC, 3939 O'Hara St., Pitsburg, 15260 USA, E-mail: [elektron pochta bilan himoyalangan], Ofis: (412) 624-3191, faks: (412) 624-9149

mavhum

Mukofotni o'rganish [17] kabi mukofotga asoslangan ta'lim modellarini xaritaga kiritish uchun yaqinda qilingan urinishlar, miyada hisoblangan va qabul qilingan mukofot bilan dopaminning chiqaradigan neyron signalining farqlanishining fasik kuchayishi va kamayib ketishining kuzatuviga asoslangan [16,5]. Biroq, bu mukofot-bashorat qilish xatosi, bu fasik faoliyat bilan bog'langan bir nechta signallardan biridir; ikkinchisi, ayniqsa, organizm keyinchalik stimulga [4,6,13] yo'nalish kiritilganda, aniq, ammo kutilmagan mukofotlanish stimuli [16] paydo bo'lishini aks ettiradigan dopaminerjik spikingning o'sishini o'z ichiga oladi. Ushbu topilmalarni tushuntirish uchun Kakade va Dayan [7] va boshqalar yangi, kutilmagan ogohlantirishlar o'zlarini qutqarsa bo'ladi. Ushbu maqolada keltirilgan simulyatsiya ushbu taxminning zarur emasligini ko'rsatmoqda, chunki uni qo'lga kiritish uchun mo'ljallangan ta'sirni kuchaytirishni takomillashtirishni o'rganish mexanizmlaridan kelib chiqadi. Shunday qilib, takomillashtirishni o'rganish printsiplari nafaqat bazal ganglionlarning dopaminerjik neuronlarini mukofotlash bilan bog'liq faoliyatni tushunish uchun emas, balki, shuningdek, ularning mukofotlanmaslik bilan bog'liq faoliyatining ayrimlarini ham tushunish uchun ishlatilishi mumkin.

Muvaffaqiyatli ta'lim (RL) miyada mukofotni o'rganishning hisoblash modellarini ishlab chiqishda tobora muhim ahamiyat kasb etmoqda. RL hisoblash algoritmlari sinfidir, bu sun'iy "agent" (masalan, haqiqiy yoki simulyatsiya qilingan robot) jami kutilgan mukofotni (17) maksimal darajada oshirish uchun qanday harakatlarni tanlashni o'rganishi mumkinligini belgilaydi. Ushbu algoritmlarda agent o'z harakatlarini har xil holatlar bilan bog'lashni o'rganadigan qadriyatlarga asoslanadi (masalan, ogohlantiruvchi bilan bog'liq hislar haqidagi alomatlar). Ushbu qadriyatlar asta-sekinlik bilan vaqtinchalik farqli ta'lim orqali o'rganilishi mumkin, bu davlat uchun mavjud mukofotni bashorat qilish va keyinchalik atrof-muhitdan olingan haqiqiy mukofot o'rtasidagi farqga asoslangan holda davlat qadriyatlarini o'zgartiradi. Ushbu hisoblangan farovonlik-bashorat qilish xatosi, dopaminning chiqaradigan neyronlarning g'ayritabiiy faolligi bilan, inson bo'lmagan primatlardagi [NNXX] nigriydan neytronlardan juda yaxshi bog'liqligini ko'rsatdi. Bundan tashqari, odamlarda, dopaminning muhim maqsadi bo'lgan striatum, mukofotni o'rganish vazifalarini bajarishda mukofotni aniqlash xatolarini aks ettiradigan fMRI BOLD signalini namoyish etadi [16]. Ushbu fMRI topilma fiziologik ma'lumotni to'ldiradi, chunki striatal BOLD, hech bo'lmaganda qisman, afferent sinaptik faollik [10,12,18] va dopamin neyronlari striatoga katta miqdorda loyihalashtirishni nazarda tutadi.

Yuqorida tilga olingan fiziologik javoblar RLning mukofot-prognozli hisob-kitoblari bilan bog'liq bo'lsa-da, [4,6,14,3] ni mukofotlashda bevosita bog'liq bo'lmagan yangi uyg'otuvchi va / yoki yangi ogohlantirishlarga javoban dopaminerjik fasik faollikning oshishi ham mavjud. Yaqinda fMRI [2] yordamida odamlarda shunga o'xshash hodisa kuzatilgan. Ushbu "yangilik" yoki "salohiyat" javobining mukofot-prognoz xatosiga aloqasi yo'q deb aytilgan bir nechta sabablari bor: (1) bu ogohlantirishning kimligi aniqlangunga qadar juda erta paydo bo'ladi, shuning uchun aniq mukofotni kiritish mumkin emas ishlab chiqariladi; (2) ham noxush faoliyatning (ya'ni, u ijobiy), ham xushbo'y va xushbo'y uyg'unlashuvlarga javob beradi; va (3) u [13] foydalanadi. Darhaqiqat, dopaminning chiqaradigan neyronlarning bu ijobiy / yangilanuvchan javoblari, agar ogohlantirishlar oldindan kutilmagan bo'lsa va natijaga qaramasdan qat'iy nazar, xulq-atvorga va / yoki yondashishga (16) olib kelinsa, ular bilimli mukofotlardan sifat jihatidan farq qiladiganligini ta'kidlaydilar bashorat qilish. Shu sababli, ushbu qiyinchilik paradoksni (ya'ni, yangilikning mukofotni taxmin qilish xatosiga qanday ta'sir qilishini) RLning nazariy asoslari bilan izohlashdan iborat edi.

Kakay va Dayan [7] bularni bajarishga urindi; ularning maqolasida ular yangiliklarning yangi dopaminerjik funktsiyalarning RL modellariga kiritilishi mumkin bo'lgan ikkita usulni nazarda tutadilar - ular yangi nazariy taxminlarni kiritishni o'z ichiga oladi. Innovatsion bonuslar deb ataladigan birinchi taxmin, yangi ogohlantirishlar mavjud bo'lganda, agentlik tomonidan olingan odatdagi mukofotning yuqorisida va undan yuqori bo'lganida qo'shimcha mukofot olishni o'z ichiga oladi. Ushbu qo'shimcha mukofot hisobga kiradi, shuning uchun o'rganish agentning mavjud mukofotni prognozi va atrof-muhitdan odatiy mukofot hamda yangilik bonusining summasi o'rtasidagi farqga asoslanadi. Shunday qilib, yangilik agent eng yuqori darajaga chiqarishga harakat qilayotgan mukofotning bir qismiga aylanadi. Ikkinchidan, ikkilamchi shakllantirishni nazarda tutadigan ikkinchi taxmin, yangi ogohlantirishlar bilan bog'liq vaziyatlarni sun'iy ravishda oshirish orqali amalga oshirilishi mumkin. RLda ishlatiladigan vaqtinchalik farqni o'rganish qoidasi ketma-ketlikdagi davlatlar orasida mukofotni taqsimlashning farqiga asoslanganligi sababli, yangi ogohlantirishlarga tegishli davlatlarga doimiy shakllanish bonusining qo'shilishi agentning oxirgi harakatlariga hech qanday ta'sir ko'rsatmaydi. Biroq, agent "davlat" (ya'ni yangilik bilan bog'liq) kosmosga kirganida yana bir yangilik paydo bo'ladi.

Ushbu taxminlarning har birining yangilanishi yangilikning ko'plab ko'rilgan ta'sirlarini tushuntirish uchun etarli bo'lsa-da, taxminlar ham ta'limning rivojlanishiga to'sqinlik qiladi. Kakade va Dayan [7] ta'kidlaganidek, yangilanish bonusi qiymat funktsiyasini (ya'ni, agentning har bir davlat bilan bog'liq qiymatlari) buzishi va natijada o'rganilgan narsaga ta'sir qilishi mumkin, chunki ular yangi romga bog'liq bo'lgan qo'shimcha mukofot sifatida qo'llaniladi davlatlar. Muammo shundaki, agent ajrning asosiy va yangicha tarkibiy qismlarini ham taxmin qilishni o'rganadi. Kakay va Dayan bonuslarni shakllantirishning bu kabi muammolarga olib kelmasligiga ishora qilsa-da, avvalgi davlatlardan olingan mukofot predmetlariga qo'shilsa, ularni qo'shimcha qilish muammoli bo'lib qolmoqda, chunki bonuslarni shakllantirish agent agentlikning davlat makonini kashf etilishiga yo'l qo'ymaydi. Shunday qilib, ushbu qo'shimcha taxminlar, yangilikning RLdagi mukofot-bashorat qilish xatosiga qanday ta'sir qilishini tushuntirishi mumkin bo'lsa-da, ular muammoli. Bundan tashqari, tushuntirishlar haqiqiy biologik organizmlarning xatti-harakatlarini tushunish uchun RL dan foydalanishga urinadigan modellashtirish ishining noqulayligini kamaytirish uchun keladi.

Quyida keltirilgan simulyatsiya, oddiy RL agenti, qo'shimcha taxminlarsiz, biologik organizmlarda kuzatilgan mukofotga bog'liq bo'lmagan dopamin javoblariga o'xshash mukofot-prognozlash xatolarini bartaraf etishga imkon beradigan farazni sinab ko'rish uchun amalga oshirildi . RL razvedkasiga ikki turdagi ob'ekt bilan ta'sir o'tkazish vazifasi topshirildi - biri ijobiy, ikkinchisi esa salbiy-muhitda tasodifiy joylarda paydo bo'ldi. Uning mukofotini maksimal darajada oshirish uchun, agent ijobiy ob'ektga yondashish, "iste'mol qilish" va salbiy ob'ektni (ya'ni, "iste'mol qilmaslik") oldini olishni o'rganishi kerak edi. Simulyatsiya uchun uchta asosiy taxmin mavjud edi.

Birinchi prognoz shunchaki, uning mukofotini maksimal darajada oshirish uchun, agent haqiqatan ham ijobiy va foydali narsalarni "yutib" olishni va bir vaqtning o'zida salbiy va jazolaydigan narsalardan qochishni o'rgatishni o'rganadi. Ikkinchi bashorat biroz kamroq edi: agent agentlik tomoni bilan javob berishini (ya'ni, uning yo'nalishini o'zgartirishni o'rganish) salbiy va ijobiy narsalarga qaratishi kerak edi. Ushbu bashorat agentlik ob'ektning ko'rinishini va uning joylashuvini, ob'ektning ijobiy yoki salbiy identifikatsiyasini (ya'ni, agent oxir-oqibat ob'ektning mukofot qiymatiga bog'lashni o'rganishini bilib olishi) bilib olishiga qaramasdan, razvedka agenti ob'ektga aslida yo'naltirilgan bo'lsa, u agentlik tomonidan aniqlanmagan. Nihoyat, uchinchi (va eng muhimi) prognoz modeldagi simulyatsiya qilingan dopaminerjik fazaik javob bilan bog'liq edi; bu prognoz, ob'ekt paydo bo'lganda, agent biologik organizmlarda kuzatilgan fosik dopamin javobiga teng hisoblangan, ijobiy va salbiy ob'ektlar uchun ijobiy bo'lgan mukofot-bashorat qilish xatosini namoyish etadi. Ushbu reaktsiya, shuningdek, simulyatsiya kontekstida ogohlantiruvchi "intensivlik" yoki xulq-atvor uchun proksi vosita bo'lgan agent va stimulyator orasidagi masofaning funktsiyasi sifatida farqlanishi taxmin qilingan edi. Quyida keltirilgani kabi, bu taxminlar simulyatsiya natijalari bilan tasdiqlangan bo'lib, unda mukofotga bog'liq bo'lmagan dopaminning javoblari asosan RLning asosiy printsiplaridan kelib chiqishi mumkinligini ko'rsatmoqda. Ushbu natijalarning biologik organizmalardagi mukofotga bog'liq bo'lmagan faoliyatni tushunish uchun RL dan foydalanish uchun nazariy natijalari ushbu moddaning oxirgi qismida muhokama qilinadi.

usul

Yuqorida ta'kidlab o'tilganidek, RL algoritmlari vositachilardan olingan pul mukofotining maksimal miqdorini maksimal darajaga ko'tarish uchun qanday amallarni bajarish kerakligini bilish uchun oniy daqiqada raqamli mukofotlarni qanday ishlatishi mumkinligini belgilaydi. Ko'pgina tarkibiy tuzilmalarda, ushbu o'rganish mukofot-prognozlash xatolaridan (ya'ni, agentning joriy mukofotni prognozlashuvi va olingan haqiqiy mukofot o'rtasidagi farq) agentning mukofot mukofotlarini yangilash uchun amalga oshiriladi. Taqdim etilgan predmetlar o'rganilganligi sababli prognozlar agentlik tomonidan keyingi amalni tanlash uchun ham ishlatilishi mumkin. Odatdagidek siyosat (Tenglama 2 da belgilangan) agent uchun eng katta mukofotga olib kelishi taxmin qilinadigan ishni tanlashdir. Agentga har qanday vaqtda taqdim etiladigan haqiqiy mukofotlar darhol to'lanadigan summaning summasi, shuningdek, agent bajarish tugallangach, unga kiradigan davlatning qiymatining bir qismi. Shunday qilib, agent, muayyan holatda bo'lganidan keyin ijobiy mukofotga ega bo'lsa, agent kelajakda mukofotlangan davlatlarga olib kelishi mumkin bo'lgan harakatlarini tanlaydi; Aksincha, agar agent salbiy mukofotlar (ya'ni, jazo) bo'lsa, kelajakda bu "jazolangan" davlatlarga olib keladigan harakatlardan qochadi.

Turli davlatlar uchun o'rganilgan mukofot predmetlarini belgilaydigan o'ziga xos algoritm (ya'ni qiymat funktsiyasi V) Value Iteration [Footnote 1] deb ataladi va rasmiy ravishda quyidagicha tasvirlanishi mumkin:

Barcha mumkin bo'lgan holatlar uchun,

(1 tenglama)

bu erda mavjud holatga mos keladigan V (s) - agent tomonidan o'rganilgan davlatlar uchun joriy mukofotni bashorat qilish, maxaction {{} - barcha harakatlar majmui bo'yicha biriktirilgan miqdorning maksimal qiymati uchun operator V (s) agentiga mavjud bo'lgan agentlik keyingi davlat uchun agentlikning hozirgi mukofotni prognozlashtirishi, a - ba'zi ta'lim darajasi (0 va 1) va g - kelajakda olinadigan daromadlarni qanday o'lchash kerakligini aks ettiruvchi chegirma omilidir darhol mukofotlar bilan bog'liq. Dastlabki qiymat funktsiyasi V (s) ning barcha holatlar uchun 0 bo'lgani uchun o'rnatildi.

V (s) qiymat funktsiyasi, qidiruv xotirasi sifatida amalga oshirildi, bu esa mukammal xotirani qabul qilish uchun rasmiy ravishda tengdir. Neyron tarmoqlari kabi funktsiya yondashuvlari ba'zi bir muvaffaqiyatli funksiyalar [1] ni ifodalash uchun ishlatilgan bo'lsa-da, natijalar turli funktsiyalar taxminlari yordamida taqdim etiladigan umumlashma mexanizmlarining turlariga bog'liq bo'lmasligini ta'minlash uchun qidiruv jadvalidan foydalanilgan. Agent 1,500 o'rganish uchun uning davlat makonini o'rganish uchun o'qitildi. Ob'ektlarning identifikatsiyalanishi mumkin bo'lmaganligi sababli, o'rganish davomida turli xil natijalarni baholashga imkon berish uchun bitta qiymatdan (a = 0.01) bir qiymat funksiyasi yangilash parametri ishlatilgan. Nihoyat, imtiyozli faktor agentlikning sud jarayonining oxirigacha kechiktirmaslik o'rniga, daromadni tezroq olishga da'vat qilish uchun g = 0.99 ga o'rnatildi (uni 1ning standart qiymatidan o'zgartirish bu erda bildirilgan natijalarga ta'sir qilmadi). ) 1,500 o'rganish jarayonini tugallashni o'rganish uchun etarli bo'ladimi-yo'qligini aniqlash uchun o'rganilgan o'zgarishlarning o'rtacha miqdori tekshirildi va bu sonli repetitsiyalardan oldin konvergentsiyani topdi.

Treningdan so'ng, agentning xulq-atvorini boshqaradigan maxsus algoritm (ya'ni, har bir davlatdan olgan harakatlar siyosati) quyidagilardir:

(2 tenglama)

Bu erda p (s) - agentlik davlatdan tanlovni amalga oshiradi va tenglama o'ng tomonida mukofotning yig'indisini va diskontlangan qiymatni maksimal darajaga olib chiqadigan ishni qaytaradi (masalan, yo'nalishni o'zgartirish, harakat yoki harakatlar yo'q) natijada paydo bo'ladigan holat.

Quyida keltirilgan simulyatsiya jarayonida agent tomonidan tashrif buyurilgan barcha davlatlar 7 o'lchovli vektor sifatida kodlangan, ular agentning tashqi «jismoniy» holati va uning ichki «bilimlari» holati haqida ma'lumot bergan. Jismoniy ma'lumotlar kosmosdagi agentning joriy pozitsiyasini va uning yo'nalishini o'z ichiga olgan. Ma'lumotlar ma'lumoti ob'ektning (agar mavjud bo'lsa) pozitsiyasini va ushbu ob'ektning identifikatorini (agent tomonidan aniqlangan bo'lsa) o'z ichiga olgan. Agent tomonidan taqdim etilgan ma'lumotlarning o'ziga xos turlari Jadval 1da ko'rsatilgan.

1 stol

RL simulyatsiyalarida ishlatiladigan registrlar va ushbu o'lchamlarning mumkin bo'lgan qiymatlari.

Simulyatsiya [Xitoydagi 21,120] da jami 2 holat mavjud edi. Biroq, noma'lum, ijobiy va noma'lum salbiy ob'ekt bo'lgan davlatlar agentlik nuqtai nazaridan bir xil, shuning uchun 16,280 faqat alohida davlatlar mavjud. Shunday qilib, o'rganishning har bir yinelemesi davomida, ijobiy ob'ektni kashf qilishning yarmiga to'g'ri kelishi mumkin bo'lgan vaqtning yarmini va vaqtning yarmini ta'minlash uchun ruxsat berish uchun ikki marta "bir xil" davlatlarni ko'rib chiqish kerak edi salbiy ob'ektni kashf etish bilan ta'qib qilinadi [Izoh 3].

Har bir simulyatsiya sinovlaridan boshlanganida agent agentlikning "sharq" (ya'ni o'ngga) va beshta bo'shliqni "g'arbga" beshta bo'sh joy bilan simulyatsiya qilingan chiziqli 11 × 1 uskuna markaziga joylashtirildi "(Ya'ni, chapda). Jadval 1 ko'rsatilgandek, agentning davlat vektori o'zida mavjud bo'lgan joyni ko'rsatadigan elementni (masalan, 0 dan 10 gacha bo'lgan sonni), shuningdek elementni (masalan, "n", "s", " (ya'ni, shimoliy, janubiy, sharq va g'arbda) ni ifodalaydi. Agentning dastlabki yo'nalishi har doim "shimol" deb belgilandi va atrofdagi boshqa ob'ektlar mavjud emas edi (ya'ni agentning davlat vektoridagi "OBJECT" qiymati "0" ga teng edi).

Simulyatsiyaning har bir bosqichi vaqtida agent quyidagi harakatlarning birini bajarishi mumkin: (1) hech narsa qilmaydi va mavjud joylashish va yo'nalishda qoladi; (2) shimolga, janubga, sharqqa yoki g'arbga yo'nalgan; yoki (3) muhitda (sharqda yoki g'arbda) bitta joyni egallaydi. Har bir harakatning natijasi keyingi simulyatsiya davrida sodir bo'ldi. Agentning fazoda joylashgan joyi va / yoki yo'nalishi bo'yicha barcha o'zgarishlar agent tomonidan bajarilgan ishlarni tanlash orqali sodir bo'ldi. Biroq, simulyatsiyaning har bir bosqichida, hatto "hech narsa qilish" harakati tanlanmagan bo'lsa ham, sinov vaqti tugaguniga qadar (masalan, vaqt-bosqich 1) 20 vaqtni ko'paytirildi.

Agentning atrofi vaqtning yarimi, ob'ekt o'n vaqt oralig'idan keyin tasodifiy joyda paydo bo'lgan (lekin agentlik bilan bir xil joyda bo'lmagan); Ob'ektlarning 50% ijobiy ("+" bilan ko'rsatilgan, Jadval 1 ga qarang) va ob'ektlarning 50% salbiy ("-" bilan ifodalanadi). Ob'ektning paydo bo'lishidan oldin kechiktirilishi agentning ob'ekt ko'rinishidan oldin namoyish etishi mumkin bo'lgan har qanday xatti-harakatini kuzatish imkonini beradigan tarzda kiritildi. Agar agent ob'ekt paydo bo'lganda ob'ektga yo'naltirilgan bo'lmasa, agentning davlat vektoridagi "OBJECT" identifikatorini ifodalovchi element "0" dan "?" Ga o'zgartirildi va hozirgi ob'ektning identifikatori hozirgi vaqtda noma'lum. Biroq, agar agent ob'ektga yo'naltirilgan bo'lsa, keyingi bosqichda "OBJECT" elementi obyektning identifikatoriga tenglashtirildi, shuning uchun "0" "positive" uchun "+" yoki "-" bo'ldi va salbiy moslamalarni o'z ichiga oladi.

Agar agent ob'ektga joylashtirilgan bo'lsa, keyingi safar davomida ob'ekt asta-sekin yo'qoldi. Agar ob'ekt ijobiy bo'lsa, agentning "CONSUMED" bayrog'i rostga tenglashtirilgan va agent mukofotlangan (mukofot = + 10); Biroq, agar ob'ekt salbiy bo'lsa, "SHOCKED" bayrog'i rostlangan va agent jazoga tortilgan (reward = -10). (Bayroqlar bu ob'ektni ob'ektni aniqlamagan yoki aniqlamaganligiga qaramasdan belgilanadi, masalan, agent hech qachon unga yo'naltirilmasdan ob'ektni iste'mol qilishi mumkin). Keyingi bosqichda "SHOCKED" yoki "CONSUMED" bayrog'i o'chirildi. Har bir harakat yoki yo'nalishda harakat qilish uchun agentga kichik jarima (kuchaytirish = -1) berilgan va hech qanday harakat qilmagan taqdirda mukofot yoki jazo olmagan (reinforc = 0).

Agentlik uchun ochiq xatti-harakatlar (ya'ni, yo'nalish va harakat) va mukofotni taxmin qilish xatosi o'lchovi aniqlandi. Ochiq xatti-harakatlar (ya'ni, agent tomonidan tanlangan xatti-harakatlar ro'yxati) vazifaning o'rganilgan-qilinmaganligini ko'rsatib berdi. Mukofotlarni bashorat qilish xatosi o'lchovi bo'lmagan dopaminerjik fasik signalning paydo bo'lishi haqidagi farazni sinash uchun ishlatilgan. D-mukofotni bashorat qilish xatosi, oldindan belgilangan bosqichda, ya'ni V (lar) ning mukofot bosqichi vaqtini t-1 bosqichida, mukofotni oldindan belgilash vaqtidan boshlab, obyektning paydo bo'lishi vaqtida o'lchandi. ob'ekt V = V (st) - V (st-1) miqdorini keltirib chiqardi.

natijalar

Simulyatsiyalangan xatti-harakatlar

Agentlarning ochiq xatti-harakatlari birinchi marta aniqlandi. Ushbu tahlil natijalari shuni ko'rsatdiki, mashg'ulotdan so'ng agent barcha ijobiy ob'ektlardan ijobiy takomillashdi va natijada salbiy ob'ektlarga hech qachon murojaat qilmadi. Birgalikda, bu natijalar agentlarning topshiriqni to'g'ri bajarishga o'rgandim degan qiziqishlarini tasdiqlaydi. Bu xulosa qo'shimcha kuzatuvlar orqali kuchaytirildi, chunki hech qanday ob'ekt paydo bo'lmagani holda sud jarayonida agent harakatsiz qoldi. Bashorat qilinganidek, agent ijobiy va salbiy narsalarga yo'naltirilgan.

Simulyatsion mukofot-prognoz xatosi

Ushbu maqolaning markaziy gipotezasi, agar predmeti har doim jazolaydigan "salbiy" ob'ekt bo'lsa ham, oldindan aytib bo'lmaydigan bir ogohlantiruvchi ko'rinish ijobiy mukofotni prognoz qilish xatosini hosil qiladi. Ushbu gipotezasini qo'llab-quvvatlagan holda, agent (noma'lum) ob'ekt paydo bo'lganda ijobiy mukofot-prognozlash xatoligini namoyish qildi, ammo hech narsa paydo bo'lmaganda. Markaziy gipotezaga muvofiq, agentning fasik reaktsiyasining kattaligi (Boshqaruv qismida ta'rif etilganidek o'lchangan) stimulning simulyatsiya qilingan "intensivligi" ga sezgir bo'lganligi, agent va ob'ekt orasidagi masofadan foydalangan holda aniqlanadi (1-rasmga qarang). Regressiya tahlili shuni ko'rsatdiki, the kattaligi ob'ektdan masofaga teskari bog'liq bo'lib, yaqin ob'ektlar kuchliroq javobni keltirib chiqardi (r = -0.999, p <0.001; ph = 0.82). Ushbu salbiy korrelyatsiya agentning ijobiy ob'ektga o'tish, uni iste'mol qilish va shu bilan mukofot olish uchun bajarishi kerak bo'lgan har bir harakat uchun berilgan kichik penalti (mustahkamlash = -1) tufayli yuzaga keldi.

Shakl 1

Ushbu rasm, ob'ekt agent joylashgan joyga nisbatan ob'ekt joylashuvi funktsiyasi sifatida paydo bo'lganida mukofotni bashorat qilish xatosini (ya'ni, δ) ko'rsatadi. Javoblar ijobiy va salbiy narsalar uchun bir xil. Ob'ekt bo'lmaganida (boshqasi…)

Ushbu simulyatsiyada ijobiy va salbiy ob'ektlar teng ehtimollik (p = .25) paydo bo'lganligi sababli savol tug'iladi: Nima uchun agentning mukofot-bashorat qilish xatosi ob'ektning paydo bo'lishi vaqtida ijobiy signal edi? Kakaday va Dayan [7] chiziqlari bo'ylab munozarali bo'lib, signal bu kabi vaziyatlardan olingan barcha mukofotlarning o'rtacha qiymatini aks etishi va shuning uchun nolga teng bo'lishi kerakligini taxmin qilish mumkin. Ushbu natijani tushunishning asosiy sababi, RL nafaqat agentni salbiy takomillashtirishga olib keladigan xatti-harakatlar tanlaydi, balki u agentlarni salbiy takomillashtirishga olib keladigan vaziyatlarga kirib qolish ehtimolini kamaytirmaydi. Bu esa shakl 2da tasvirlangan va keyin tasvirlangan "yuqori darajadagi" ta'limning bir turiga olib keladi.

Shakl 2

RL agenti atrof-muhitda foydali va jazolash stimullari bilan o'qitilganda va ularga yaqinlashish yoki ularni iste'mol qilishni tanlashi mumkin bo'lgan taqdirda, qanday qilib RL agenti ijobiy mukofotlash xatosini ishlab chiqishini ko'rsatadigan rasm. (A) O'qishdan oldingi holat: (batafsil…)

Ta'limning boshida (shakl 2A-ga qarang), agent "+" va "-" narsalarga ham yaqinlashadi, ularga yondashadi va har bir ob'ekt turini iste'mol qilish bilan mukofotlanadi va jazolanadi. Agar agentning o'rganilgan davlat qiymatlari agentning harakatlariga ta'sir qila olmasa (Qarang: 2B shakl), agent agentlik ob'ektlarga yaqinlashishni davom ettiradi. So'ngra ko'rinish 0ning o'rtacha mukofotini belgilaydi va mukofot-bashorat qilishda xatolik yuzaga keladi. Biroq, ushbu simulyatsiyada agent o'zining harakatlariga ta'sir qilish uchun o'rganilgan davlat qiymatlaridan foydalanadi (qarang: shakl 2C) va agent o'zining kimligini aniqlash uchun noma'lum ob'ektga yo'naltirilishi kerak bo'lsa-da, u endi yaqinlashganda salbiy ob'ektni iste'mol qilmaydi (agar traektoriya namunasi kabi tasodifiy izlanish algoritmlari bilan mashq qilinsa [Izoh 1]). Bundan tashqari, vaqtinchalik farqlar o'rganish salbiy mukofotni oldingi holatlarga qaytarish uchun va kosmosda harakat qilish uchun kam xarajat bo'lganligi sababli, agent salbiy ob'ektga butunlay yaqinlashishdan qochishga o'rganadi. Shunday qilib, ushbu ma'lumotdan so'ng, obyekt birinchi paydo bo'lganda (har bir ketma-ketlikda "birinchi" doirada "V" deb ko'rsatilgan) qiymati, ijobiy va salbiy natija davlat qiymatlarining o'rtacha hisoblanmaydi, Buning o'rniga, ijobiy o'rtacha va "neytral" natija asosida agentning salbiy ob'ektlardan qochishga o'rganganidan so'ng erishiladi. Shuning uchun tarbiyalangan agent tomonidan olingan barcha mukofotlarning o'rtacha qiymati nolga qaraganda katta va nima uchun agentning mukofotni prognozi (va shuning uchun ob'ekt kutilmaganda paydo bo'lganda mukofotni bashorat qilish xatosi) aniq ijobiy edi. Bu shakl 3da ko'rsatilgan. Aslida, agent o'z xatti-harakatlarini o'zgartirishni va salbiy ob'ektdan qochishni o'rgana oladigan bo'lsa, salbiy ob'ektning qiymati, oxir-oqibat, agentning yakuniy xatti-harakatiga va yangilik / talablarga javob berishning kattaligiga befarq qoladi.

Shakl 3

(A) agar RL yuqori darajadagi o'rganishga olib kelmasa (ya'ni, agent salbiy natijadan qochish uchun choralar ko'rmasa), natijada agent barcha iste'mol qilishga majbur bo'lgan taqdirda, mukofotni bashorat qilishdagi o'zgarishlarni namoyish etadi. ob'ektlar (ko'proq…)

Simulyatsiya natijalari tanqidiy uchta taxminga bog'liq. Birinchidan, ogohlantiruvchilar "boshlang'ich" belgisi bilan prognozlashtirilgan kuchlanishning kattaligi (masalan, + 10) yo'nalish va yaqinlashishga ketadigan xarajatlarga (masalan, -1) nisbatan katta bo'lishi kerak. Agar kattaligi nisbatan kichik bo'lgan bo'lsa, agentlik yo'nalishni o'rgata olmaydi va ijobiy mukofotni prognoz qilish xatosini keltirib chiqarmaydi. Ikkinchidan, ogohlantirishni tan olishdan oldin kechikish ham zarur edi. (Gecikme, taniqli ogohlantiruvchi tezkorlik bilan e'tirof etiladigan fikrga ko'ra, "yangilik" uchun proksi hisoblanadi.) Kechikmasdan, agent haqiqatan qabul qilingan ob'ekt uchun mos keladigan ijobiy yoki salbiy mukofotni kiritish xatoini keltirib chiqarar edi. Nihoyat, agentning xulq-atvori o'rgangan qadriyatlar bilan belgilanishi kerak edi. Agar agent o'z xatti-harakatini nazorat qila olmasa (ya'ni, ogohlantirishlarga yaqinlashadimi yoki yo'qmi), unda uning obyekti paydo bo'lganda uning mukofotni prognozi 0 ni tenglashtirishi mumkin, bu tenglama bo'yicha ijobiy va salbiy natijalar o'rtacha.

Umumiy munozarasi

Ushbu maqolada keltirilgan simulyatsiya, ijobiy mukofotni taxmin qilish xatosi, kutilmagan bir ogohlantirish, yoki mukofotlash yoki jazolash, paydo bo'lganda, darhol aniqlanmasa paydo bo'ladi. Bundan tashqari, simulyatsiya, simulyatsiya kontekstida rag'batlantiruvchi intensivlik uchun proksi-o'lchov vositasi bo'lgan va shuning uchun chinakamligi bilan bog'liq bo'lgan agentga rag'batning yaqinligi bilan mukofot-prognozlash xatosining kattalashuvini oshiradi. RLning nazariy asoslarida mukofotlashning oldindan belgilab qo'yilishi odatda tan olingan ogohlantirguvchilarning o'rganilgan qiymatini, yoki agentning [15] jismoniy va / yoki kognitiv holatini aks ettiradi. Biroq, bu erda bildirilgan mukofot-bashorat qilish xatosi sifat jihatidan boshqacha talqinga ega, chunki u agent ob'ektni tanimasdan oldin ishlab chiqariladi. Birgalikda, bu natijalar RL printsiplari nafaqat mukofotga aloqasi yo'q, balki buning o'rniga yangilik va xarakteristikaning xususiyatlariga bog'liq bo'lgan javob yaratish uchun etarli bo'lgan gipotezani qo'llab-quvvatlaydi. Bu xulosa RLga bo'lgan umumiy tushunchamiz va RLni talqini uchun haqiqiy biologik organizmalarda mukofot olishni hisobga olish uchun bir nechta muhim jihatlarga ega.

Birinchidan, noma'lum ogohlantirgandan so'ng, RL agenti tomonidan ishlab chiqarilgan mukofotni prognozi Kakade va Dayan [7] tomonidan tavsiya etilgan, lekin u o'rtacha qiymatdan kattaroq bo'lishi mumkin. Kakad va Dayan, mukofotlarni o'rtacha hisoblash nolga teng bo'lishi kerakligini taxmin qilar edi, chunki sud jarayoni bir xil darajada jazoga tortildi va jazolandi. Bu ajablanarli natija agentlik "siyosatda" bilganligi sababli paydo bo'ldi; ya'ni, agent nafaqat salbiy natijalar haqida, balki ushbu natijalardan qochish qobiliyati haqida ham bilib oldi. Sovg'a tizimining salbiy natijalaridan qochish uchun mukofot tizimining ushbu qobiliyatini RL tushunchasini haqiqiy organizmlarga tarjima qilishda ehtiyotkorlik bilan ko'rib chiqish kerak. Salbiy mukofotni kiritish xato [11] dan ijobiy mukofotni taxmin qilish xatosini yaxshiroq ifodalash uchun dopaminerjik fatsik javobda ko'rinadigan assimetriyani hisobga olgan holda bu fakt potentsial jihatdan yanada muhimroqdir. Ayrim hodisalar ketma-ketligi salbiy natijaga olib kelishi mumkinligini ko'rsatish uchun etarli bo'lishi mumkin, ammo bu harakatni tanlash maqsadlarida bu natijaning kattaligi ahamiyatsiz emas.

Joriy simulyatsiya- ning ikkinchi bosqichi - yangilanishlarning perceptual ishlash tizimlari va mukofot-prognozlash tizimlari o'rtasidagi o'zaro ta'sirdan paydo bo'lishi. Xususan, yangicha javob to'liq aniq algoritm bilan qayta ishlanmagan yangi ob'ektlar va ob'ektlar o'rtasida o'xshashlik shakliga bog'liq bo'lishi mumkin [Izoh 4]. Ushbu simulyatsiyada, ob'ektni identifikatsiya qilishdan oldin (va natijada, uni mukofotlash yoki jazolash tabiati) agentlik oldida kechikishni joriy etish yo'li bilan amalga oshirildi. Bu yangi ob'ektlarni aniqlash uchun ko'proq vaqt oladigan varsayımıyla amalga oshirildi, lekin bu taxmin ham ijobiy va salbiy ob'ektlar birinchi paydo bo'lganida ham xuddi shunday algılanmasına sabab bo'ldi (ya'ni, har ikkalasi ham "?" Deb kodlandı). Aksincha, Kakade va Dayan [7], neyrofizyoloji ma'lumotlarida ham xuddi shunday ko'rinib turgan bo'lishiga qaramay, yangilik javoblari va "umumlashma" javoblari sezilarli darajada farq qiladi.

Joriy simulyatsiya natijalarining uchinchisi shundaki, ular Kakay va Dayan [7] tomonidan tavsiya etilgan yangi yangilik va bonuslarni shakllantirishning zaruriy shart emasligini ko'rsatadilar. Buning o'rniga, yangiliklarning o'xshash reaktsiyalari real perceptual processing limitations va salbiy natijalarni bartaraf eta oladigan bilimlardan paydo bo'lishi mumkin. Bu juda baxtli, chunki Kakade va Dayan tomonidan ta'kidlanganidek, yangilik bonuslari agent tomonidan o'rganiladigan qiymat funktsiyasini buzadi va bonuslarni shakllantirish agentlarning davlat bo'shliqlarini o'rganish usulini ta'sir qiladi. Bu taxminlarning har ikkalasiga qo'shilishi shu bilan RL nazariyasiga asoslangan modellarning noqulayligini pasaytiradi. Qizig'i shundaki, bu erda keltirilgan natijalar, shuningdek, biologik yangiliklarni nima uchun haqiqiy organizmlarda mukofotga asoslangan ta'lim olish uchun buzmasligi mumkinligini tushuntirishga yordam beradi: bu yangilik aslida RL tomonidan prognoz qilingan. Ya'ni, yangilik javob atrof-muhit haqida biror narsa bilib olgan agentga xos bo'lgan xatti-harakatlar va mukofot predmetlarini aks ettiradi.

Mavjud simulyatsiya natijalarining muqobil (ammo bir-biriga o'xshamaslik bilan) izohlanishi, aslida ob'ektlarni yo'naltirish va identifikatsiya qilish yo'li bilan qo'lga kiritilgan narsalarning mavhum (ehtimol bilim) mukofotidir. Dopaminerjik faoliyatni o'rganishda, mukofotni oldindan bilish uchun ma'lum bo'lgan kutilmagan takliflarga ijobiy ta'sir ko'rsatishi mumkin. Biroq, bu simulyatsiya, bunday javoblar, shuningdek, mukofot yoki jazoni bashorat qilishi mumkin bo'lgan javobga qanday javob berishi mumkinligini ko'rsatadi. Belgilagichning predmeti bo'lgan yagona izchil foyda, agentning ob'ektning kimligini aniqlaganda olingan ma'lumotdagi daromaddir. Shunday qilib, noma'lum ob'ekt paydo bo'lganda, haqiqiy, bilimli "mukofot bashorat qilish" mavjud bo'lsa, agent agentga rag'batlantirishga yondashish yoki undan qochish to'g'risidagi ma'lumotni olganidan so'ng qondiriladi. Ushbu ma'lumotlarning qiymati olingan natijalarning o'rtacha emas, balki uning o'rniga samarali natijalarni bilishga asoslanadi - agent ijobiy mukofotni iste'mol qilishi yoki salbiy mukofotdan qochishi mumkin (Qarang: shakl 2).

Va nihoyat, muayyan xatti-harakatlarni amalga oshirish imkoniyatlari (masalan, orientatsiya qilish) ular ushbu simulyatsiyaga kiritilmagan ayrim umumlashma yoki o'rganish mexanizmi orqali foydali xususiyatlarga ega bo'lishi mumkinligini ta'kidlash muhimdir. Masalan, "u erda nima bor" degan yo'nalish va yo'nalishni aniqlash harakati, yangi harakatlanish paydo bo'lganida, bu harakat bilan yuqorida ko'rsatib o'tilgan favqulodda, har doim ijobiy mukofot-bashorat qilish xatosi o'rtasidagi munosabatlarga asoslangan holda organizmga foydali bo'lishi mumkin. Shu kabi g'oyalar yaqinda Redgrave va Gurney [13] tomonidan ilgari surilgan va ular fosik dopaminning muhim maqsadlaridan biri, kutilmagan voqealardan oldin sodir bo'lgan harakatlarning kuchaytirilishi hisoblanadi. Natijalar bu gipotezaga mos kelmaydi, ammo Redgrave va Gurneyning gipotezasi ushbu simulyatsiyada bevosita sinovdan o'tkazilmasligini ta'kidlash kerak, chunki muhim voqea uchun (agentlikning tashqi ko'rinishi) ob'ekt) sodir bo'lishi mumkin. Shu bilan birga, simulyatsiya fasikali signal ikki yo'nalishda kuchli bog'liq bo'lishi mumkinligini ko'rsatuvchi yo'nalishli javob vaqtiga to'g'ri keldi.

Ushbu maqolada yopishtirilganda, RL printsiplari dopaminerjik neyronlarning ajablantirilmaydigan faoliyati bilan bog'liqligini tushuntirish uchun ishlatilishi mumkinligini ko'rsatdi. Bu natija vaqtinchalik farqni o'rganuvchi qoidalar (masalan, Kakad va Dayan [7]) tomonidan ishlatilganligi natijasida, agent natijani yakunlovchi natijaga ta'sir ko'rsatadigan ishlarni tanlashi mumkin bo'lgan simulyatsiya ichiga kiritilgan. Simulyatsiya paytida, agent to'satdan paydo bo'lgan ob'ektga yo'naltirish natijalari har doim ham foydali yoki betaraf bo'lishi mumkinligini bilib oldi, chunki salbiy natijadan qochish mumkin. Shuning uchun agentning yo'nalishi bo'yicha imkoniyatga ega bo'lgach, uning mukofoti - bashorat qilish xatolari har doim ijobiy bo'lib, biologik organizmlarda kuzatilgan yangilik va xarakterli javoblarga o'xshash hisoblandi.

rahmat

Ushbu maqolada tasvirlangan ishlar NIH R01 HD053639 va NSF Training Grant DGE-9987588 tomonidan qo'llab-quvvatlandi. Erik Reichle, Tessa Uorrenga va ushbu maqolaning oldingi versiyasida foydali ma'lumot uchun anonim sharhlovchilardan minnatdorman.

1Aradan kengayib, uni kompyuterning xotirasida osonlik bilan yinelememesi yoki osonlik bilan saklanamadığı juda katta qiymat bo'lganda qiymat yineleme o'rniga tez-tez ishlatiladigan yana bir takomillashtirilgan namuna olish [17] deb nomlangan yana bir qo'shimcha mustahkamlash o'rganish algoritmi ishlatiladi. Davlat makonidagi har bir davlatni yechish va eng ko'p mukofot olishga olib keladigan harakatlarga asoslangan qiymat funktsiyasini yangilash denklemini qo'llash o'rniga, Trajektoriyani tanlab olish davlat maydonida quyidagi yo'llar orqali ishlaydi. Qiymatni yupatish bilan bir qatorda, eng ko'p mukofotga olib keladigan harakatlar odatda har bir davlatdan tanlanadi, lekin ba'zan tasodifiy kashfiyotlar ba'zi kichik ehtimolliklar bilan tanlanadi. Shunday qilib, algoritm quyidagilardir: Ba'zi boshlang'ich davlatlardan, ehtimollik e ga ega bo'lgan eng yaxshi mukofotga olib keladigan ishni tanlang (masalan, mukofot + vV (s)) yoki 1 - e ehtimollik bilan tasodifiy kashfiyot harakatini tanlang. Shtatlardan o'rganilmagan harakatlar paytida V (lar) ni V (lar) ni + a [mukofotni olish + gV (s)) - V (lar) ni qo'llang.

Hisoblash vaqtini va xotiraning texnik chegaralarini yechish bilan bir qatorda, traektoriyani tanlab olish ham jozibador bo'lishi mumkin, chunki u haqiqiy biologik organizmlarni o'rganish uslubini yaxshiroq aks etishi mumkin: davlat makonidagi yo'llarni o'rganish. Ushbu maqolada tavsiflangan topshiriq bo'yicha Trajektoriyani tanlab olish natijalarni qiymatini o'zgartirish bilan olingan natijalarga sifat jihatidan o'xshash natijalarni beradi. Shu bilan birga, qisqartirish uchun bu natijalar batafsil bayon qilinmaydi. Ushbu maqolada simulyatsiya qilish uchun ikki sababga ko'ra qiymati Iteratsiya tanlandi. Birinchidan, traektoriyani tanlab olish traektoriyalarni tanlashda stokastiklikni nazarda tutganligi sababli, bu vazifada bajariladigan ko'plab harakatlar ketma-ketligi sababli katta hajmdagi dallanmalar, ayrim geologik tadqiqotlarni ekspluatatsiya qilish parametrlari (masalan, e-ochko'zlik [17]) diqqat bilan tanlangan. Muayyan davlatlar bilan tajriba etishmovchiligi, xuddi shunday (lekin ehtimol unchalik katta bo'lmagan) davlatlarga qiymatni umumlashtirishning yo'qligi sababli, qidiruv jadval xotirasi tuzilmasidan foydalanilganda agentning ishlashiga putur etkazishi mumkin. Shunday qilib, qiymat uzatish bilan kafolatlangan davlat makonining keng qamrovli geologik o'rganilishidan foydalanish afzalroq edi. Ikkinchidan, Value Iteration-dan foydalanish bu qo'shimcha tadqiqot-ekspluatatsiya parametrini belgilash zarurligini bartaraf etdi va shu bilan simulyatsiyani soddalashtirdi. Traektoriyalar sonining yaqinligi [17] soniga yondashuv sifatida traektoriya namunasini oxirida qiymatni yineleme taxminiyligini yodda tuting.

2 21,120 holatlarining soni quyidagicha hisoblanishi mumkin: 11 mumkin agentlik joylari × 4 mumkin agent yo'nalishlari × (ob'ektga oldin 10 vaqt bosqichlari paydo bo'lishi mumkin bo'lgan hech qanday ob'ekt paydo bo'lmagan + 10 vaqt bosqichlari paydo bo'lishi mumkin) 10 ijobiy mustahkamlangan + 10 vaqt bosqichlari, ob'ekt ob'ektga salbiy ta'sir ko'rsatilganda + 11 mumkin ob'ektlar joylari * (10 vaqt belgilari bilan aniq belgilangan ob'ekt bilan + 10 vaqt qadamlari bilan identifikatsiyalanmagan ijobiy ob'ekt bilan + 10 + 10 noma'lum va salbiy ob'ekt bilan).

3. Ushbu "maxfiy" davlatlarning mavjudligi o'qitish paytida e'tiborga olinishi kerak, chunki qiymatni qayta ishlash faqat davlat makonidagi har bir davlatdan "bir qadam oldinga" o'xshaydi. Salbiy va ijobiy noma'lum ob'ektlar bo'lgan davlatlar bir-biriga o'xshash bo'lganligi, ijobiy yoki salbiy ob'ekt aniqlanadigan ikki xil keyingi davlatlarda qadriyatlarni o'rganish va ularning o'rtacha qiymatini aniqlashga to'sqinlik qiladi. Boshqa tomondan, traektoriyani tanlab olish yondashuvi mahkama jarayonida maxfiy ma'lumotlarni saqlaydi (ya'ni noma'lum rag'batning identifikatorini), shuning uchun RLning ushbu varianti bilan maxfiy davlatlar tashvishga tushmaydi.

4One ushbu ishni bajarish uchun potentsial e'tiroz shundaki, yo'naltiruvchi javob darrandalar miyasida, masalan, ust-kollikus [3,14] dan proektsiyalarda qattiqlashtirilgan ko'rinadi. Mavjud simulyatsiya jarayonida agentlar moslamalarni moslashtirmaslik uchun qiyin bo'lgan, ammo buning o'rniga, mukofotni maksimal darajada oshiradigan harakatni (masalan, yondashuv yoki qochish) tanlashga ruxsat beruvchi yo'nalishli xatti-harakatni o'rgandi. Qattiq chiziqli javoblarga o'xshab, bu yo'nalishdagi xatti-harakatlar juda tez sodir bo'ldi, ob'ektlar aniqlanmasidan oldin va barcha ob'ektlarga yo'naltirilgan edi. Ushbu ishning maqsadi barcha bunday javoblarni o'rganish emas, balki ularning RL doirasida mavjud bo'lishini da'vo qilish emas edi. Shunga qaramasdan, ushbu fosik dopamin ta'sirini yuzaga chiqarish uchun, mukofot sohasidagi mexanizmlarni miyani qo'zg'atadigan joylarda ulanish o'rnatishga jalb qilish mumkinligini o'rganish qiziqarli bo'ladi.

Bu nashrga qabul qilingan qabul qilinmagan qo'lyozma faylining PDF-fayli. Mijozlarimizga xizmat sifatida biz qo'lyozmaning ushbu dastlabki versiyasini taqdim etmoqdamiz. Qo'lyozma nusxa ko'chirish, nusxa olish va uning yakuniy shaklida nashr etilishidan oldin tasdiqlangan hujjatlarni ko'rib chiqadi. Iltimos, ishlab chiqarish jarayonida kontentga ta'sir qilishi mumkin bo'lgan xatolar aniqlanishi mumkin va jurnalga tegishli bo'lgan barcha qonuniy ogohlantirishlar tegishlidir.

Manbalar

1. Baird LC. Qoldiq algoritmlar: Funktsiyaning yaqinlashuvi bilan takomillashtirish. In: Priedetis A, Russell S, tahrirlovchisi. Mashinani o'rganish: O'n ikkinchi xalqaro konferentsiya materiallari; 9-12 iyul.1995.

2. Bunzeck N, Düzel E. Inson fundamentalia nigra / VTA'da ogohlantiruvchi yeniliklerin mutlaq kodlanması. Neyron. 2006; 51 (3): 369-379. [PubMed]

3. Dommett E, Coizet V, Blaha CD, Martindale J, Lefebvre V, Walton N, Mayhew JEW, Overton PG, Redgrave P. Qanday qisqa vaqt davomida dopaminergik neyronlarni ingl. Ilmiy. 2005; 307 (5714): 1476-1479. [PubMed]

4. Doya K. Metallurgiya va neyromodulyatsiya. Neyron tarmoqlari. 2002 iyun-iyul; 15 (4-6): 495-506. [PubMed]

5. Gillies A, Arbuthnott G. Bazal ganglionlarning hisoblash modellari. Harakat bozuklukları. 2000; 15 (5): 762-770. [PubMed]

6. Horvitz JC. Mezolimbokortikal va nigrostriatal dopaminning noan'anaviy mukofot tadbirlariga munosabati. Neuroscience. 2000; 96 (4): 651-656. [PubMed]

7. Kakade S, Dayan P. Dopamin: umumlashtirish va bonuslar. Neyron tarmoqlari. 2002; 15 (4-6): 549-559. [PubMed]

8. Knutson B, Cooper JC. Noma'lum kishining joni. Neyron. 2006; 51 (3): 280-282. [PubMed]

9. Logothets NK, Pauls J, Augat M, Trinat T, Oeltermann A. fMRI signalining asosini neyrofizyologik tekshirish. Tabiat. 2001; 412 (6843): 150-157. [PubMed]

10. McClure SM, Berns GS, Montague PR. Passiv ta'lim vazifasida vaqtinchalik bashorat qilish xatolar inson striatumini faollashtiradi. Neyron. 2003; 38 (2): 339-346. [PubMed]

11. Niv Y, Duff MO, Dayan P.Dopamin, noaniqlik va TDni o'rganish. Behavioral va miya vazifalari. 2005 may 4; 1: 6. [PMC bepul maqola] [PubMed]

12. O'Doherty JP, Dayan P, Friston K, Critchley H, Dolan RJ. Vaqtinchalik farq modellari va inson miyasida mukofot bilan bog'liq ta'lim. Neyron. 2003; 38 (2): 329-337. [PubMed]

13. Redgrave P, Gurney K. Qisqa kechikishli dopamin signallari: yangi harakatlarni kashf qilishning roli? Tabiiy fikrlari Neuroscience. 2006 dekabr; 7 (12): 967-975.

14. Redgrave R, Prescott TJ, Gurney K. Qisqa kechikishli dopaminli javoblar mukofot xatosini bildirish uchun juda qisqa mi? Neyroxnologiyalarning tendentsiyalari. 1999 aprel; 22 (4): 146-151. [PubMed]

15. Reichle ED, Laurent PA. O'qish jarayonida "aqlli" ko'z harakati harakati paydo bo'lishini tushunish uchun mustahkamlashni o'rganishdan foydalanish. Hissiy chiqishlar. 2006; 113 (2): 390-408. [PubMed]

16. Schultz V. Dopamin neuronlarining prognozli mukofotlash belgisi. Nörofizyologiya jurnali. 1998; 80 (1): 1-27. [PubMed]

17. Sutton RS, Barto AG. Yordamni takomillashtirish: Kirish. Mit Press; Kembrij: 1998.

18. Tanaka SC, Doya K, Okada G, Ueda K, Okamoto Y, Yamavaki S. Yaqin-atrofda va kelajakda erishilgan yutuqlarning prognozi kortikosvalli ganglion ildizlarini farqli ravishda ishga tushiradi. Tabiiy neuroscience. 2004; 7 (8): 887-893.