Пайдоиши назаррас ва навигариҳо аз принсипҳои омӯзиши тақвият (2008)

ШАРҲ: Тадқиқоти дигар нишон медиҳад, ки навигарӣ ин мукофоти худи ӯст. Яке аз ҷанбаҳои ба одатдаромадаи порнои интернетӣ навигарӣ ва гуногунии бепоён, қобилияти зуд аз як саҳна ба саҳнаи дигар клик кардан ва ҷустуҷӯи танҳо тасвири дуруст / видео мебошад. Ҳамаи инҳо допаминро зиёд мекунанд. Ин аст он чизе, ки порнои Интернетро аз маҷаллаҳо ё DVD-ҳои иҷора фарқ мекунад.

Омӯзиши пурра: Пайдоиши далерӣ ва вокунишҳои нав дар принсипҳои омӯзиши такмили ихтисос

Шабакаҳои асабӣ. 2008 декабр; 21 (10): 1493 – 1499.

Дар Интернет нашр карда шуд 2008 сентябр 25. doi: 10.1016 / j.neunet.2008.09.004

Патрик А. Лоран, Донишгоҳи Питтсбург;

Тамоми муросилотро ба суроға фиристед: Патрик Лоран, Донишгоҳи Питтсбург, 623 LRDC, St. 3939 O'Hara, Pittsburgh, PA 15260 USA, E-mail: [почтаи электронӣ ҳифз карда шудааст], Дафтар: (412) 624-3191, Факс: (412) 624-9149

мавҳум

Кӯшишҳои охирини харита кардани моделҳои таълимии ба мукофот асосёфта, ба монанди Reinforiment Learning [17] ба мағзи сар ба мушоҳида мерасад, ки дар фосик шудани фосикҳо дар коҳиш ёфтани нейронҳои допамин-релиз фарқияти сигналҳои пешгӯишуда ва гирифташуда фароҳам оварда шудаанд [16,5]. Аммо, ин хатогии пешгӯии мукофот танҳо яке аз якчанд нишонаҳое мебошад, ки аз ҷониби фаъолияти фазоӣ иртибот дода шудааст; дигаре, афзоиши гаҷкунии допаминергикро дар бар мегирад, ки намуди зоҳирии ноаён, вале пешгӯинашаванда бе мукофотро нишон медиҳад [4,6,13], хусусан вақте ки организм баъдтар ба ҳавасмандкунӣ равона мешавад [16]. Барои тавзеҳ додани ин бозёфтҳо, Какаде ва Даян [7] ва дигарон ин романро таклиф кардаанд, ангезаҳои ногаҳонӣ хеле фоидаоваранд. Симуляторе, ки дар ин мақола оварда шудааст, нишон медиҳад, ки ин фарзия лозим нест, зеро таъсире, ки барои гирифтани он пешбинӣ шудааст, аз механизмҳои омӯзиши пешгӯии такмили ихтисос аст. Ҳамин тариқ, принсипҳои омӯзишии мустаҳкам метавонанд барои фаҳмидани на танҳо фаъолияти вобаста ба нейронҳои допаминергиявии ганглияи базальӣ, балки баъзе фаъолиятҳои марбут ба мукофотпулӣ низ истифода шаванд.

Омӯзиши такмили ихтисос (РБ) дар таҳияи моделҳои ҳисобии омӯзиши музднок дар мағзи сар аҳолӣ торафт муҳимтар мегардад. RL синфи алгоритмҳои ҳисоббарорӣ мебошад, ки муайян мекунад, ки чӣ гуна "агент" -и сунъӣ (масалан, роботи воқеӣ ё шабеҳ) метавонад барои интихоби ҳадди аксар мукофотҳои интизоршаванда [17] -ро омӯзад. Дар ин алгоритмҳо агент амалҳои худро ба арзишҳое асос медиҳад, ки вай бо давлатҳои гуногун робита карданро меомӯзад (масалан, даркҳои идрокӣ бо ангеза). Ин арзишҳо метавонанд тадриҷан тавассути омӯзиши муваққатӣ фарқ карда шаванд, ки арзишҳои давлатиро дар асоси фарқи байни пешгӯиҳои мукофоти мавҷудаи агент барои давлат ва мукофоти воқеӣ, ки баъдан аз муҳит гирифта мешаванд, танзим мекунанд. Ин фарқияти ҳисобкардашуда, ки хатои пешгӯии мукофот номида шудааст, нишон дод, ки бо фаъолияти фосикии нейронҳои озодкунандаи допамин, ки тарҳ аз prostata nigra дар приматҳои ғайри инсонӣ алоқаманданд, хеле хуб нишон дода шудааст. Ғайр аз он, дар одамон, striatum, ки ҳадафи муҳими допамин аст, сигнали fMRI BOLD-ро намоиш медиҳад, ки ба назар мерасад хатогиҳои пешгӯии мукофот ҳангоми супоридани мукофот [16] нишон дода мешавад. Ин бозёфти fMRI маълумоти физиологиро пурра мекунад, зеро BRI-и стриатал ҳадди аққал қисман аз афференти синапти афферентӣ [10,12,18] ва лоиҳаи нейронҳои допаминӣ ба striatum инъикос карда мешавад.

Гарчанде ки вокунишҳои физиологии дар боло зикршуда ба ҳисобҳои пешгӯии мукофоти RL алоқаманданд, инчунин дар фаъолияти фосикии допаминергиявӣ дар ҷавоб ба эҳё ва / ё ангезаҳои нав пайдо мешавад, ки ба назар мерасад ба подош [4,6,14,3] алоқаманд нестанд. Чунин ба назар мерасад, ки ба наздикӣ дар одамон fMRI [2] -ро истифода мебарад. Якчанд сабабҳо мавҷуданд, ки мегӯянд, ки ин "навоварӣ" ё "моҳият" ба хатогии пешгӯӣ марбут нестанд: (1) он хеле барвақт пеш аз арзёбӣ шудани шахсияти ҳавасмандкунӣ пайдо мешавад, то пешгӯии дақиқи мукофот наметавонад тавлид шудан; (2) он ба афзоиш додани фаъолияти асабҳо мувофиқат мекунад (яъне он мусбат аст) ҳам барои stimul avers ва ҳам иштиҳо; ва (3) он одат мекунад [13]. Дар ҳақиқат, ин вокунишҳои навоварӣ ва нейронҳои озодкунандаи допамин эътимодноктар мебошанд, вақте ки stimular пешгӯинашавандаанд ва ба рафтори ориентирование ва / ё муносибат ба [16] новобаста аз натиҷаи ҳодиса оварда мерасонанд ва далели онанд, ки онҳо аз мукофотҳои омӯхташуда фарқ мекунанд. пешгӯӣ Аз ин рӯ, мушкилот аз он иборат буд, ки фаҳмондани ин парадокси намоён (яъне чӣ гуна навигарӣ ба хатогии пешгӯӣ таъсир мерасонад) дар чаҳорчӯбаи назариявии RL.

Kakade ва Dayan [7] кӯшиданд, ки маҳз ин корро кунанд; дар мақолаи худ онҳо ду роҳи постулятсияеро пешниҳод карданд, ки дар онҳо ҷавобҳои навоварӣ метавонанд ба моделҳои РЛ-и функсияи допаминергикӣ ворид карда шаванд - ҳардуи онҳо фарогирии фарзияҳои нави назариявиро дар бар мегиранд. Аввалин тахмин, ки мукофотҳои навоварӣ номида мешаванд, ворид кардани мукофоти иловагиро дар сурати мавҷуд будани мукофотҳои нав, болотар аз мукофотҳои маъмулие, ки агент гирифтааст, дар бар мегирад. Ин мукофоти иловагӣ ба ҳисобкунӣ ворид мешавад, то омӯхта дар фарқи байни пешгӯиҳои мукофоти мавҷудаи агент ва ҳосили мукофоти муқаррарӣ аз муҳит ва бонуси навоварӣ асос ёбад. Ҳамин тариқ, навигарӣ як қисми мукофоте мебошад, ки агент кӯшиши зиёд карданро дорад. Фарзияи дуюм, ки «ташаккулёбии бонусҳо» ном дорад, метавонад бо роҳи сунъӣ баланд бардоштани арзишҳои давлатҳои марбут ба ҳавасмандкунии нав амалӣ карда шавад. Азбаски қоидаҳои омӯзиши муваққатӣ дар фарқият, ки дар RL истифода мешавад, ба фарқияти пешгӯии мукофот дар байни давлатҳои муваффақ асос ёфтааст, илова кардани бонуси ташаккулёфтаи доимӣ ба ҳолатҳои марбут ба ҳавасмандиҳои нав ба рафтори ниҳоии агент ҳеҷ таъсире намерасонад. Аммо, вақте ки агент ба қисми фазои давлатӣ «ташаккулёфта» дохил мешавад (яъне он бо навигарӣ алоқаманд аст), вокуниши навоварӣ ҳанӯз ҳам ба миён меояд.

Гарчанде ки илова намудани ҳар яке аз ин фарзияҳо барои шарҳи зиёди навигариҳои навоварӣ кифоя аст, аммо ин фарзияҳо ба пешрафти таълим халал мерасонанд. Тавре ки Какаде ва Даян [7] қайд карданд, мукофотҳои навоварӣ метавонанд функсияи арзишро халалдор кунанд (яъне арзишҳое, ки агент бо ҳар давлат алоқаманд аст) ва ба он чизе ки дар ниҳоят омӯхта шудааст таъсир расонад, зеро онҳо ҳамчун подоши иловагӣ, ки бо роман алоқаманданд, иҷро карда мешаванд. давлатҳо. Масъала дар он аст, ки агент пешгӯии ҳам ҷузъҳои асосӣ ва ҳам навовариро меомӯзад. Ҳарчанд Какаде ва Даян қайд карданд, ки ташаккулёбии бонусҳо ин гуна мушкилотро ба вуҷуд намеоранд, зеро онҳо ба пешгӯиҳои мукофотҳои давлатҳои қаблӣ дохил карда шудаанд, илова намудани онҳо ҳанӯз ҳам мушкил аст, зеро ташаккулёбии мукофотпулӣ ба роҳи омӯхтани фазо агенти худро таҳриф мекунад. Ҳамин тариқ, гарчанде ки ин фарзияҳои иловагӣ метавонанд шарҳ диҳанд, ки чӣ гуна навигарӣ ба хатои пешгӯии мукофот дар РО таъсир мерасонад, онҳо мушкиланд. Ғайр аз ин, тавзеҳот аз арзиши коҳиш додани парсимонии кори моделсозӣ, ки кӯшиши истифода кардани РО барои фаҳмидани рафтори организмҳои воқеии биологӣ мебошанд, ба даст меоянд.

Моделсозии дар зер овардашуда барои санҷидани фарзияи он, ки як агенти оддии Радио бидуни ягон фарзияи иловагӣ посухи хато дар бораи пешгӯиро таҳия мекунад, ба аксуламали допамин, ки дар организмҳои биологӣ мушоҳида мешаванд, шабеҳ аст. . Ба як агенти Радио супориш дода шуд, ки бо ду навъи объекти мусбат ва дигаре манфӣ, ки дар маконҳои тасодуфӣ дар муҳити он ба вуҷуд омадаанд, супорида шавад. Барои ба ҳадди аксар расонидани мукофот, агент бояд ба объекти мусбат муроҷиат кардан ва «истеъмол кардан» -ро ёд гирад ва аз пешгирии он (яъне «истеъмол накунад») объекти манфиро ёд гирад. Се пешгӯиҳои асосӣ барои моделсозӣ мавҷуд буданд.

Пешгӯии аввал ин буд, ки барои ҳадди аксар расонидани мукофот, агент дар асл омӯхтани объектҳои мусбат ва мукофотониданро меомӯзад ва «истеъмол» мекунад ва ҳамзамон ёдгирии пешгирии манфӣ ва ҷазо доданро мегирад. Пешгӯии дуввум каме камтар возеҳ буд: агент ба вокуниши рӯирост нишон медиҳад (яъне тағир додани самти худро) ҳам ба объектҳои манфӣ ва ҳам мусбат. Ин пешгӯӣ иҷро карда шуд, зеро гарчанде ки агент намуди зоҳирӣ ва мавқеи онро, шахсияти мусбат ё манфии ашёро «ҳис мекунад» (яъне, нишонае, ки агент дар ниҳоят ба муомила бо арзиши мукофоти объект ёд мегирад) аз тарафи агент муайян карда намешавад, ки пас аз он ки агент воқеан ба объект нигаронида шуда буд. Ниҳоят, пешгӯии сеюм (ва муҳимтарин) бо вокуниши шабеҳи фосикии допаминергии модел марбут буд; ин пешгӯӣ дар он буд, ки вақте объект пайдо шуд, агент хатои пешгӯии мукофотро нишон хоҳад дод, ки ба аксуламали phasic допамин дар организмҳои биологӣ мушоҳида карда шудааст, ки ҳам барои объектҳои мусбат ва ҳам манфӣ мусбат аст. Ин вокуниш низ ҳамчун функсияи масофаи байни агент ва ҳавасмандкунӣ фарқ дошт, ки дар заминаи моделсозӣ як ченаки прокси барои “шиддатнокӣ” ё вазнинии ҳавасмандӣ буд. Чӣ тавре ки дар зер нишон дода мешавад, ин пешгӯиҳо бо натиҷаҳои моделсозӣ тасдиқ карда шуданд ва нишон доданд, ки посухҳои зоҳиран допамин ба мукофоти марбут ба принсипҳо аз принсипҳои асосии RL ниёз доранд. Оқибатҳои назариявии ин натиҷаҳо барои истифодаи RL дар фаҳмидани фаъолиятҳои ғайри мукофот дар организмҳои биологӣ дар боби охири ин мақола муҳокима карда мешаванд.

метод

Тавре ки дар боло зикр шуд, алгоритмҳои RL муайян мекунанд, ки агент чӣ гуна метавонад мукофотҳои ададиро дар як лаҳза истифода барад, то донад, ки кадом амалҳо бояд барои ҳадди аксар расонидани мукофоти гирифташуда анҷом дода шаванд. Дар аксари формулаҳо, ин омӯзиш тавассути истифодаи хатогиҳои пешгӯии мукофот ба даст меояд (яъне фарқи байни пешгӯиҳои мукофоти ҳозира ва мукофоти воқеӣ, ки агент ба даст оварда шудааст) барои нав кардани пешгӯиҳои мукофот. Ҳангоми омӯхтани пешгӯиҳои мукофот, инчунин пешгӯиҳоро инчунин агент барои интихоби амали навбатии худ истифода бурда метавонад. Сиёсати муқаррарӣ (ки дар муодилаи 2 муайян карда шудааст) барои агент интихоб кардани амалеро пешбинӣ менамояд, ки пешравии бузургтаринро пешбинӣ мекунад. Мукофоти воқеие, ки ба агент дар вақти дилхоҳ дода мешавад, маблағи подоши фаврӣ ва қисме аз арзиши давлатеро, ки агент ҳангоми анҷом ёфтани амал ворид мекунад, медиҳад. Ҳамин тариқ, агар агент пас аз вазъияти мушаххас мукофотҳои мусбатро эҳсос кунад, дар оянда амалҳоеро интихоб мекунад, ки эҳтимолан ба ин мукофотҳои давлатӣ оварда мерасонанд; баръакс, агар агент манфиатҳои манфиро (яъне ҷазо) эҳсос кунад, дар оянда аз амалҳое, ки боиси ба ҳолатҳои «ҷазо гирифтор шудан» мегардад, худдорӣ мекунад.

Алгоритми мушаххасе, ки пешгӯиҳои мукофотро, ки барои давлатҳои гуногун омӯхта шудааст (яъне функсияи арзиши V) номи Итератсия арзёбӣ номида мешавад [Эзоҳ 1] ва онҳоро метавон бо таври зерин тавсиф кард:

Барои ҳамаи давлатҳои имконпазир,

(Муодилаи 1)

дар он ҷое ки ба ҳолати ҳозира мувофиқат кунад, V (s) - пешгӯии ҷории мукофот барои ҳолати s мебошад, ки аз ҷониби агент омӯхта шудааст, maxaction∈M {} барои арзиши максималии миқдори дайр аз маҷмӯи ҳамаи амалҳо оператор аст M ба агент дастрас аст, V (s ′) пешгӯиҳои ҷории агент барои ҳолати навбатии s ′ мебошад, α баъзе сатҳи дониш аст (байни 0 ва 1) ва γ омили тахфифест, ки чӣ тавр андоза карда шудани мукофотҳоро нишон медиҳад нисбат ба мукофотҳои фаврӣ. Функсияи арзиши ибтидоӣ тавре гузошта шудааст, ки V (ҳо) 0 барои ҳамаи ҳолатҳо бошад.

Функсияи арзиши V (ҳо) ҳамчун ҷадвали ҷустуҷӯ иҷро карда шуд, ки ба фарзияи хотираи комил баробар аст. Гарчанде, ки тақсимкунакҳои функсия ба мисли шабакаҳои нейрон бо муваффақият барои намояндагӣ кардани функсияҳои арзиш истифода мешуданд [1], ҷадвали ҷустуҷӯ барои боварӣ ҳосил кардан ба он, ки натиҷаҳо аз намудҳои механизми ҳамоҳангсозӣ, ки аз ҷониби тақрибаҳои гуногуни функсия таъмин карда мешаванд, вобаста набуданд. Агент барои 1,500 таълими iterations дар фазои давлатии худро омӯхтааст. Аз сабаби пешгӯинашаванда будани шахсияти объектҳо, параметри навсозии функсия аз камтар аз як (α = 0.01) ҳангоми омӯзиш истифода мешуд, то имкон медод, ки натиҷаҳои мухталиф ба даст оянд. Дар ниҳоят, омили тахфиф ба γ = 0.99 муқаррар карда шуд, то агентро ҳавасманд кунад, то зудтар рафтори муносибати худро то ба охир расидани мурофиа таъхир кунад (ҳарчанд онро аз арзиши пешфарзии 1 тағир додан ба натиҷаҳои дар ин ҷо овардашуда таъсир нарасонд). ) Бо мақсади мустақилона муайян кардани он ки оё давишҳои омӯзишии 1,500 барои омӯхтан кофӣ буданд, миқдори миёнаи тағирот дар омӯхта шуда назорат карда шуд ва ҳамчун пеш аз ин шумораи такрорӣ муттаҳид карда шуд.

Пас аз омӯзиш, алгоритми мушаххасе, ки рафтори агентро танзим мекунад (яъне, сиёсати амалиёте, ки аз ҳар як ҳолати додашуда мегирад):

(Муодилаи 2)

дар куҷо π (ҳо) амалиест, ки агент аз ҳолати давлатӣ интихоб мекунад ва тарафи рости муодила амалро бармегардонад (масалан, тағир додани самт, ҳаракат ё ҳеҷ амале), ки маблағи подош ва арзиши тахфифро афзун мекунад аз ҳолати ба даст омада resulting.

Дар моделиронӣ, ки дар зер гузориш дода шудааст, ҳамаи ҳолатҳое, ки агент ташриф овард, ҳамчун векторҳои андозагирии 7 рамзгузорӣ шуда буданд, ки маълумотро дар бораи ҳолати "физикӣ" -и беруна ва ҳолати "дониш" -и дохилии он ифода мекарданд. Иттилооти ҷисмонӣ ҳам мавқеи ҷории агентро дар фазо ва самти самти он дар бар мегирифт. Маълумоти дониш мавқеи объектро (агар касе бошад) ва шахсияти ин объектро (агар онро агент муайян карда бошад) дар бар мегирифт. Намудҳои мушаххаси иттилооте, ки агент пешкаш кардаанд дар ҷадвали 1 нишон дода шудаанд.

Љадвали 1

Нишондиҳандаҳое, ки дар моделиратсияи RL истифода мешаванд ва арзишҳои имконпазири он андозаҳо.

Дар моделиронӣ [Эзоҳ 21,120] шумораи умумии 2 мавҷуд буданд. Аммо, ҳолатҳое, ки дар он як объекти манфии номаълум ва номаълум мавҷуд буданд, аз нуқтаи назари агент якхелаанд, бинобар ин танҳо давлатҳои алоҳида 16,280 ҳастанд. Ҳамин тариқ, ҳангоми ҳар як итератсия барои омӯзиш, ду маротиба ба баъзе аз он «ҳамҷинсҳо» ташриф овардан лозим буд, то имкон диҳад, ки нисфи вақти онҳоро бо кашфи як объекти мусбӣ ва нисфи вақтро паси сар кунанд. баъд аз он ки кашфи объекти манфӣ оварда мешавад [Эзоҳ 3].

Дар оғози ҳар як озмоиши санҷишӣ, агент дар маркази қатори хатти шабеҳи 11 × 1 бо панҷ фосила ба “шарқ” (яъне ба рост) ва панҷ фосила дар “ғарб” ҷойгир карда шуд ”(Яъне ба чап) агент. Тавре ки Ҷадвали 1 нишон медиҳад, вектори вектори агент унсуреро нишон медиҳад, ки ҷойгиршавии ҷории онро дар суруд нишон медиҳад (яъне адад аз 0 то 10), инчунин як унсур (яъне аломати "n", "s", " e ”ё“ w ”) тамоюли ҷории худро муаррифӣ мекунанд (яъне шимол, ҷануб, шарқ ё ғарб мутаносибан). Самти ибтидоии агент ҳамеша «шимол» буд ва дар муҳити дигар ягон объект вуҷуд надошт (масалан, арзиши "OBJECT" дар вектори вектори агент ба "0" баробар буд).

Дар давоми ҳар як қадами вақти моделсозӣ, агент метавонад яке аз амалҳои зеринро иҷро кунад: (1) ҳеҷ кор намекунад ва дар макони кунунӣ ва тамоюли худ боқӣ мемонад; (2) ба самти шимол, ҷануб, шарқ ё ғарб нигаронида шудааст; ё (3) як фазоро дар муҳит (шарқ ё ғарб) кӯчонед. Натиҷаи ҳар як амал дар марҳилаи минбаъдаи шабеҳ сурат гирифт. Ҳама тағирот дар макон ва / ё самти таъинот дар фазо тавассути интихоби амалҳои агент рух додаанд. Бо вуҷуди ин, дар ҳар қадами қадами моделсозӣ, ҳатто вақте ки "ҳеҷ коре" иҷро намешавад, вақт аз ҷониби 1 то охири мурофиа афзоиш дода шуд (яъне, қадами қадами 20).

Муҳити агент тавре сохта шудааст, ки нисфи вақт пас аз даҳ марҳила объект дар макони тасодуфӣ (вале на дар ҳамон макон бо агент) пайдо мешавад; 50% объектҳо мусбат буданд (бо тасвири "+"; нигаред ба ҷадвали 1) ва 50% объектҳо манфӣ буданд (бо тасвири "-") мусбат буданд. Таъхир ҳангоми пайдо шудани объект барои он мушоҳида карда шуд, ки рафторе, ки агент метавонад пеш аз пайдоиши иншоот нишон диҳад, имкон диҳад. Агар агент ҳангоми ба вуқӯъ омадани он ба объект нигаронида нашуда бошад, пас унсури намояндаи шахсияти "OBJECT" дар вектори воҳиди агент аз "0" ба "?" Тағир дода шуд, то далели он, ки шахсияти объект, ки ҳозир буд. ҳозир номаълум буд. Аммо, агар агент ба объект нигаронида шуда бошад, пас дар қадами баъдӣ унсури "OBJECT" ба шабеҳи объекти баробар муқаррар карда шуд, ки "0" ё "+" ё "-" барои мусбат табдил ёфт ва объектҳои манфӣ мутаносибан.

Агар агент ба макони ҷойгиршавии объект кӯчад, пас дар марҳилаи навбатӣ объект нобуд шуд. Агар объект мусбат бошад, пас байраки агент "CONSUMED" ба ҳақиқат рост гузошта шуда ва агент мукофотонида шудааст (мукофот = + 10); Аммо, агар объект манфӣ бошад, пас байраки "SHOKED" ба ҳақиқат таъин шудааст ва агент ҷазо дода шудааст (мукофот = −10). (Дар хотир доред, ки парчамҳо бо ин роҳ сарфи назар аз он, ки агент объектро надошт ё надодааст; масалан, агент метавонад объектро бе самти мустақиман истифода барад.) Дар қадами баъдӣ "SHOKED" ё Парчами "CONSUMED" тоза карда шуд. Ба агент инчунин барои ҳар як амал ё роҳнамоӣ ҷазои хурд дода шудааст (тақвият = =1) ва ҳеҷ гуна подош ё ҷазо нагирифтааст (тақвият = 0), агар ягон амал иҷро накунад.

Ҳам агентҳои рафтори изофӣ (масалан, самтгирӣ ва ҳаракат) ва як хатогии пешгӯии мукофот барои агент ҳисоб карда шуданд. Рафтори барзиёд (яъне рӯйхати амалҳои интихобкардаи агент) ҳамчун зикри омӯхтани вазифа истифода шуд. Нишондиҳандаи хатогии пешгӯии мукофот барои санҷиши гипотеза дар бораи пайдоиши сигнали фосикии допаминергияи бе мукофот мукофотонида шудааст. Хатогии пешгӯии мукофот, at ҳангоми вақти пайдоиши объект бо гузоштани пешгӯии мукофот дар қадами қаблӣ, яъне V (ҳо) дар қадами t − 1, аз пешгӯии мукофот чен карда шуд. объект пайдо шуд, яъне V (s) дар вақти t, ки миқдори δ = V (st) - V (st − 1) -ро медиҳад.

Натиҷаи

Рафтори шабеҳ

Рафтори мукаррари агентҳо аввал ҳисоб карда шуд. Натиҷаҳои ин таҳлил нишон доданд, ки пас аз омӯзиш, агент ба тамоми объектҳои мусбӣ наздик шуд ва ҳеҷ гоҳ ба ягон объекти манфӣ наздик нашуд. Дар якҷоягӣ, ин натиҷаҳо тасдиқи рафторро таъмин мекунанд, ки агентҳо барои дуруст иҷро кардани вазифа омӯхтаанд. Ин хулосаро мушоҳидаҳои иловагӣ тақвият медиҳанд, ки дар вақти озмоишҳо, вақте ки ягон объект намерасид, агент ноустувор боқӣ монд. Чӣ тавре ки пешбинӣ шуда буд, агент ба объектҳои мусбӣ ва манфӣ нигаронида шудааст.

Хатои мукофоти пешгӯишаванда

Гипотикаи марказии ин коғаз он аст, ки пайдоиши ҳавасмандкунии пешгӯишаванда пайваста хатои пешгӯии мукофотро ба вуҷуд меорад, ҳатто агар ин ашё объекти «манфӣ» бошад, ки ҳамеша ҷазо медиҳад. Барои дастгирӣ намудани ин фарзия, агент хатои пешгӯии мукофотро дар вақти пайдо шудани як объекти (номаълум) нишон дод, аммо на вақте ки ҳеҷ чиз пайдо нашуд. Инчунин бо гипотезаи марказӣ мувофиқат ба он аст, ки бузургии аксуламали phasic агент (δ, ки дар боби метод тасвир шудааст, чен карда шудааст) ба “шиддатнокии” моделиронидашудаи ҳавасмандкунӣ ҳассос аст; бо истифода аз масофаи байни агент ва ашё муайян карда шудааст (ба расми 1 нигаред). Таҳлили регрессия нишон дод, ки бузургии δ ба масофа аз ҷисм баръакс алоқаманд аст, бинобар ин ҷисмҳои наздиктар вокуниши қавитарро ба вуҷуд оварданд (r = -0.999, p <0.001; β = 0.82). Ин таносуби манфӣ аз ҷазои хурд (тақвият = -1), ки барои ҳар як ҳаракате, ки агент бояд барои гузаштан ба объекти мусбӣ, истеъмол ва ба ин васила гирифтани мукофот талаб мекард, таъин карда шуд.

Тасвири 1

Ин рақам хатогии пешгӯии мукофотро нишон медиҳад (яъне δ) вақте ки объект ҳамчун функсияи ҷойгиршавии объект нисбат ба маҳалли агент пайдо шуд. Ҷавобҳо барои объектҳои мусбӣ ва манфӣ якхела мебошанд. Вақте ки ягон объект (бештар ...)

Бо назардошти он, ки дар ин моделсозӣ объектҳои мусбат ва манфӣ бо эҳтимолияти баробар пайдо шудаанд (p = .25), савол ба миён меояд: Чаро хатогии пешгӯии агент дар вақти пайдоиши объект мусбат буд? Бо хатҳои Какаде ва Даян [7] мулоҳиза карда, кас пешгӯӣ карда метавонад, ки сигнал бояд ба ҳисоби миёна ҳамаи мукофотҳои омӯхташударо аз чунин ҳолатҳо инъикос кунад ва аз ин рӯ ба сифр баробар бошад. Калиди фаҳмидани ин натиҷа дар он аст, ки на танҳо RL агентро ба интихоби амалҳое, ки ба тақвияти манфӣ оварда мерасонанд, камтар мекунад, инчунин агентро ба ҳолатҳое, ки дар ниҳоят ба тақвияти манфӣ оварда мерасонанд, камтар мекунад. Ин натиҷа дар шакли як шакли "болотар" -и омӯзиш, ки дар тасвири 2 тасвир шудааст ва дар оянда тавсиф мешавад.

Тасвири 2

Мисоле нишон медиҳад, ки чӣ гуна як агенти RL хатои мусбии пешгӯии мукофотро ба вуҷуд меорад, вақте ки он бо ҳавасмандгардонии ҳам ҷазо ва ҳам муҳити атроф омӯзонида мешавад ва метавонад интихоб кунад, ки ба онҳо наздик шуда истеъмол кунад. (A) Вазъият пеш аз омӯхтан: (бештар…)

Дар оғози омӯзиш (нигаред ба Тасвири 2A), агент ба ҳар ду ашёи "+" ва "-" муроҷиат мекунад, ба онҳо наздик мешавад ва бо истеъмол кардани ҳар як намуди ашё ҷазо ва ҷазо дода мешавад. Агар арзишҳои давлатии омӯхтааш ба амалҳои агент таъсир карда натавонистанд (нигаред ба Расми 2B), пас агент ба объектҳо наздик шудан ва истеъмол карданро идома медиҳад. Намуди зоҳирии кю пас аз он, ки мукофоти миёнаи 0-ро пешгӯӣ мекард ва хатогии пешгӯии мукофот ногаҳон ба амал меомад. Аммо, агент дар ин моделсозӣ арзишҳои давлатии омӯхташударо барои таъсир расониданаш истифода мебарад (ниг. Тасвири 2C) ва гарчанде ки агент бояд объекти номаълумро барои муайян кардани шахсияти худ равона кунад, он гоҳ ӯ объекти манфиро, агар ба он муроҷиат кунад, дигар нахоҳад кард он (ба тавре ки он метавонад бо алгоритми таҳқиқи тасодуфӣ ба мисли гирифтани траектория омӯзонида шуда бошад [Эзоҳ 1]). Ғайр аз он, азбаски омӯзиши муваққатӣ фарқи пешгӯии манфии мукофотро ба "пешбарӣ" ба ҳолати пешина имкон медиҳад ва азбаски хароҷоти кам барои ҳаракат дар фазо мавҷуд аст, агент омӯхтани комилан наздик шудан ба объекти манфиро меомӯзад. Ҳамин тариқ, пас аз он ки маълумот гирифта шуд, арзиши ҳолате, ки объект бори аввал пайдо мешавад (ҳамчун "V" дар гардиши аввал дар ҳар як пайдарпаӣ нишон дода шудааст) на ба ҳисоби миёнаи аҳамияти мусбат ва манфии натиҷаи натиҷа асос ёфтааст, балки он аст. баръакс, ба ҳисоби миёнаи натиҷаи мусбӣ ва «бетараф», ки пас аз он ки агент аз пешгирии объектҳои манфӣ ёд мегирад, гирифта мешавад. Ин аст, ки чаро ҳисоби миёнаи ҳамаи подошҳо аз ҷониби агенти омӯхташуда аз сифр зиёдтар буд ва мефаҳмонад, ки чаро пешгӯии мукофот дар агент (ва аз ин рӯ хатогии пешгӯии мукофот ҳангоми ногаҳон пайдо шудани объект) холиси мусбат буд. Ин дар расми 3 нишон дода шудааст. Дар асл, то он даме ки агент метавонад тағир додани рафтори худро ёд гирад ва аз объекти манфӣ канорагирӣ кунад, арзиши объекти манфӣ дар ниҳоят ба рафтори ниҳоии агент ва миқёси навовариҳо / посухгӯйӣ мувофиқат намекунад.

Тасвири 3

$ A) Тағиротро дар пешгӯиҳои мукофот нишон медиҳад, ки агар RL боиси омӯзиши дараҷаи олӣ нагардад (яъне, агар агент барои пешгирӣ кардани натиҷаи манфӣ чораҳо андешида натавонад) ба амал ояд, ба тавре ки агент маҷбур шуд ҳама чизи истеъмолшударо истеъмол кунад объектҳо (бештар ...)

Натиҷаҳои моделиронӣ аз се фарзия хеле вобастагӣ доранд. Аввалан, ангеза бояд "қобили мулоҳиза" бошад, зеро андозаи мустаҳкамкунии тахтаи пешгӯӣшуда нисбат ба хароҷоти роҳнамоӣ ва наздикшавӣ (масалан, X10) хеле калон буд (масалан, + 1). Агар миқёс нисбатан хурд мебуд, миёнарав самтбахширо ёд намегирифт ва посухи хатои мусбати пешгӯии мукофотро ба вуҷуд намеовард. Дуюм, таъхири қабл аз эътирофи ҳавасмандкунӣ низ зарур буд. (Таъхир ҳамчун як навигарӣ) бо ишора ба ҳавасмандкунии шинохта зуд ба даст меояд.) Бе таъхир, агент метавонист хатои пешгӯии мусбат ё манфии мувофиқро барои объекти воқеӣ мувофиқ созад. Дар ниҳоят, рафтори агент бояд бо арзишҳои омӯхтааш муайян карда мешуд. Агар агент рафтори худро назорат карда натавонист (яъне, ба стимулятсия наздик шудан), пешгӯиҳои мукофоти он ҳангоми пайдо шудани объект 0-ро ташкил медод, ба ҳисоби миёнаи натиҷаҳои мусбат ва манфии баробаркардашуда.

Муҳокима

Моделсозӣ, ки дар ин мақола оварда шудааст, нишон дод, ки хатои мусбати пешгӯии мукофот ҳангоми пайдо шудани ҳавасмандкунии пешгӯинашаванда, ё подош, ё ҷазо пайдо мешавад, вале фавран муайян карда намешавад. Ғайр аз ин, моделсозӣ нишон дод, ки андозаи хатогии пешгӯии мукофот бо наздикии ҳавасмандкунӣ ба агент меафзояд, ки дар заминаи моделсозӣ як ченаки прокси барои шиддатнокии ҳавасмандӣ аст ва аз ин рӯ ба ноустуворӣ алоқаманд аст. Дар доираи назариявии RL, пешгӯиҳои мукофот одатан барои инъикос кардани арзиши омӯхташудаи ҳавасҳои эътирофшуда ё ҳолати ҷисмонӣ ва / ё идрокии агент [15] пешбинӣ шудаанд. Аммо, хатои пешгӯии мукофот дар ин ҷо тафсири сифатӣ фарқ дорад, зеро он қабл аз он ки агент объектро эътироф кардааст, тавлид шудааст. Дар якҷоягӣ, ин натиҷаҳо фарзияро дастгирӣ мекунанд, ки принсипҳои RL барои тавлиди посухе, ки ба подош ба назар вобастагӣ надоранд, аммо ба хусусиятҳои навоварӣ ва моҳирӣ марбутанд, кофӣ мебошанд. Ин хулоса якчанд фарқиятҳои муҳимро барои фаҳмиши умумии мо дар бораи RL ва барои тафсири РО ҳамчун ҳисоби омӯзиши мукофот дар организмҳои воқеии биологӣ дорад.

Аввалан, пешгӯии мукофот, ки аз ҷониби агенти Радио пайдо мешавад, ҳангоме ки ҳавасмандии номаълум пайдо мешавад, на он қадар ҳатмии музди бадастовардашуда мебошад, ки онро Какаде ва Даян [7] пешниҳод кардаанд, аммо дар асл метавонад аз андозаи мушаххас зиёдтар бошад. Какаде ва Даяан пешгӯӣ мекунанд, ки пешгӯии миёнаи мукофот бояд ба сифр баробар бошад, зеро озмоишҳо баробар ҷазо дода мешуданд. Ин натиҷаи ҳайратангез ба миён омад, зеро агент ба таври "on-policy" омӯхтааст; яъне агент на танҳо дар бораи натиҷаҳои манфӣ омӯхтааст, балки қобилияти онро пешгирӣ кардани ин натиҷаҳо. Ин қобилияти системаи мукофотдиҳӣ дар пешгирии натиҷаҳои манфӣ ба агент бояд ҳангоми тарҷумаи фаҳмиши мо дар бораи радиол ба организмҳои воқеӣ бодиққат баррасӣ карда шавад. Ин далел эҳтимолан ҳатто муҳимтар аст, зеро бо назардошти ассиметрияи намоёни тавоноии аксуламали допаминергикӣ барои нишон додани хатогии пешгӯии мукофот мусбат назар ба хатои пешгӯии манфии [11] беҳтар аст. Шояд кифоя бошад, ки пайдарҳамии муайяни ҳодисаҳо ба натиҷаи манфӣ оварда мерасонад, аммо барои интихоби амалҳо миқёси ин натиҷа аҳамият надорад.

Тақсими дуввуми моделиронии ҷорӣ дар он аст, ки вокуниши навоварӣ метавонад аз ҳамкориҳои байни системаҳои протсессуалӣ ва системаҳои пешгӯи мукофот пайдо шавад. Махсусан, вокуниши навоварӣ метавонад бо як монандии байни объектҳои нав ва ашёе бошад, ки то ҳанӯз коркарди пурраи даркро аз сар нагузаронидаанд. [Эзоҳ 4]. Дар ин моделсозӣ навоварӣ тавассути ҷорӣ кардани таъхири пеш аз шахсияти объект амалӣ карда шуд (ва аз ин рӯ, хусусияти подош ё ҷазодиҳии он) ба агент маълум шуд. Ин дар зери он пиндошта карда шуд, ки объектҳои нав барои муайян кардани онҳо вақти зиёдтар мегиранд, аммо ин фарзия инчунин ба он оварда расонд, ки объектҳои мусбат ва манфӣ ҳангоми пайдо шуданашон шабеҳи ин гуна қабул карда шуданд (яъне ҳарду ҳамчун «?» Рамз карда шуда буданд). Баръакси ин, Какаде ва Даян [7] пешниҳод мекунанд, ки посухҳои навоварӣ ва посухҳои "ҳамоҳангсозӣ", новобаста аз он, ки дар маълумоти нейрофизиологӣ шабеҳ ба назар мерасанд, комилан фарқ мекунанд.

Таснифоти сеюми натиҷаҳои ҷории моделҳо ин аст, ки онҳо нишон медиҳанд, ки тахминҳои иловагии навоварӣ ва ташаккулёбии мукофотпулӣ, ки аз ҷониби Kakade ва Dayan [7] пешниҳод шудаанд, лозим нестанд. Ба ҷои ин, вокунишҳои навоварӣ метавонанд аз маҳдудиятҳои воқеии дарки эҳсосӣ ва дониш оид ба пешгирӣ кардани натиҷаҳои манфӣ ба вуҷуд оянд. Ин хушбахтона аст, зеро, тавре ки Какаде ва Даян қайд карданд, мукофотҳои навоварӣ функсияи арзишиеро, ки агент омӯхтааст, вайрон мекунанд ва ташаккулёбии бонусҳо ба тарзи омӯхтани фазоҳои давлатӣ таъсир мерасонанд. Ворид кардани ҳар яке аз ин пиндоштҳо тақсимоти моделҳоро дар асоси назарияи RL коҳиш медиҳад. Ҷолиб он аст, ки натиҷаҳои дар ин ҷо овардашуда инчунин мефаҳмонанд, ки чаро вокуниши навовариҳои биологӣ барои омӯзиши баргардонидашуда дар организмҳои воқеӣ набояд халал расонанд: вокуниши навоварӣ дар асл аз ҷониби РО пешгӯӣ шуда буд. Яъне, вокуниши навовариҳо рафтор ва пешгӯиҳои мукофотро, ки ба агенте, ки аллакай дар бораи муҳити худ чизе омӯхтааст, инъикос мекунад.

Тафсири алтернативии (вале на ба таври истисноӣ) натиҷаҳои ин моделсозӣ дар он аст, ки мукофоти абстрактии (эҳтимолияти идрокӣ) вуҷуд дорад, ки агентҳо бо роҳи самтгирӣ ва муайян кардани объектҳо ба даст меоранд. Ҳангоми омӯзиши фаъолияти допаминергикӣ, аксуламали мусбии фосикӣ ба нишонаҳои ғайричашмдошт пайдо шуда метавонанд, ки мукофотро пешгӯӣ мекунанд. Бо вуҷуди ин, ин моделсозӣ нишон медиҳад, ки чӣ гуна ин гуна аксуламалҳо инчунин метавонанд дар ҷавоб ба огоэе пайдо шаванд, ки метавонанд дар ниҳоят мукофот ё ҷазоро пешгӯӣ кунанд. Ягона манфиати боэътимоди пешгӯишаванда, ин ба даст овардани иттилооте мебошад, ки агент ҳувияти ашёро муайян мекунад. Ҳамин тариқ, агар ҳангоми пешгӯии объекти ношинос «пешгӯии мукофот» -и мӯътамад ва омӯхташуда мавҷуд бошад, пас он вақте ки агент дар бораи фаҳмидани наздик шудан ё пешгирӣ кардани ҳавасмандӣ дониши кофӣ мегирад, он қонеъ карда мешавад. Арзиши ин иттилоот на аз ҳисоби миёнаи натиҷаҳои бадастомада асос ёфтааст, балки бар дониши натиҷаҳои самарбахш асос ёфтааст - агент метавонад мукофоти мусбатро истеъмол кунад ё мукофоти манфиро пешгирӣ кунад (нигаред ба Расми 2).

Дар ниҳоят, қайд кардан муҳим аст, ки имкониятҳо барои иҷрои амалҳои мушаххас (масалан, самтгирӣ) метавонанд хусусиятҳои мукофотнокро тавассути баъзе аз маҷмӯъсозӣ ё механизми омӯзишӣ, ки дар ин моделия дохил намешаванд, ба даст оранд. Масалан, худи маҳз самтгирӣ ва муайян кардани «он чӣ дар он аст» метавонад ба организм фоида оварад, ки бар ассосиатсияи байни ин амал ва хатогии дар боло тавлидшуда, хатари пешгӯишавандаи ҳамеша мусбат ҳангоми пайдо шудани стимулятсияҳои нав асос ёфтааст. Ба наздикӣ аз ҷониби Редгрев ва Гурни [13] як идеяи шабеҳ пешниҳод шудааст, ки фарз мекунад, ки ҳадафи муҳими вокуниши фосикии допамин мустаҳкам кардани амалҳое, ки пеш аз ҳодисаҳои пешгӯинашаванда рух медиҳанд. Натиҷаҳо дар ин ҷо бо ин гипотеза мувофиқ нестанд, аммо бояд қайд кард, ки фарзияи Редгрев ва Гурни дар ин модел мустақиман озмуда нашудаанд, зеро барои фарорасии ҳодиса (намуди зоҳирӣ) аз ҷониби агент ягон амал (яъне таҳқиқот) талаб карда нашудааст. объект) ба вуқӯъ меояд. Бо вуҷуди ин, сигнали phasic симулятсионӣ бо вақти вокуниш ба самтгирӣ мувофиқ омад ва ишора мекунад, ки ин ду алоқаи қавӣ доранд.

Дар хотима, ин мақола нишон дод, ки принсипҳои RL-ро барои тавсифи як намуди фаъолияти ба назар ғайриимконии нейронҳои допаминергикӣ истифода бурдан мумкин аст. Ин натиҷа аз он бармеояд, ки қоидаҳои омӯзиши муваққатӣ (фарқият (ба мисли қоидаҳои Какаде ва Даян [7]) ба моделия дохил карда шудаанд, ки дар он агент метавонад амалҳоеро интихоб кунад, ки ба натиҷаи оқибат таъсир мерасонанд. Дар моделиронӣ, агент фаҳмид, ки натиҷаи ба сӯи объект ногаҳон пайдо шудан метавонад ҳамеша фоидаовар ё бетараф бошад, зеро оқибати манфиро пешгирӣ кардан мумкин аст. Аз ин рӯ, вақте ки агент имконият фароҳам овард, хатогии пешгӯии мукофот ҳамеша мусбат буд, ки ба навовариҳо ва посухҳо дар организмҳои биологӣ мушоҳида карда шуд.

тасдиыот

Кори дар ин мақола тавсифшуда аз ҷониби NIH R01 HD053639 ва аз ҷониби NSF Training Grant DGE-9987588 дастгирӣ шудааст. Ман мехоҳам ба Эрик Рейхл, Тесса Уоррен ва барраси номаълум барои шарҳҳои муфид дар нусхаи қаблии ин мақола ташаккур гӯям.

Алгоритми таълими бозсозии иловагии 1, ба номи Траектория Sampling [17] зуд-зуд ба ҷои Итератсия арзиши вақте истифода мешавад, ки фазои давлатӣ чунон калон аст, ки онро ба пуррагӣ такрор карда намешавад ва ё дар хотираи компютер нигаҳдорӣ намешавад. Ба ҷои он ки итератсия аз болои ҳар як ҳолати фазои давлатӣ ва татбиқи муодилаи навсозии функсия дар асоси амалҳое, ки ба муваффақияти бештар ноил мегарданд, интихоб карда мешавад. Ҳамин гуна ба Итератсия арзиши амалҳое, ки аз ҳама мукофот мегиранд, одатан аз ҳар як давлат интихоб карда мешавад, аммо баъзан амали тасодуфӣ бо эҳтимолияти кам интихоб карда мешавад. Ҳамин тариқ, ин алгоритм чунин аст: Аз баъзе ҳолати ибтидоӣ, амалеро, ки ба эҳтимоли зиёд reward меорад, интихоб кунед, ё эҳтимолияти 1 - ε амали тасодуфии ҷустуҷӯиро интихоб кунед. Ҳангоми амалиётҳои ғайриташкилотӣ аз давлатҳо V (ҳо) → V (ҳо) + α [мукофот + γV (s ′) - V (s)] -ро татбиқ кунед.

Ба ғайр аз рафъи маҳдудиятҳои техникии вақт ва хотираи компютерӣ, интихоб кардани траектория ҷолиб аст, зеро он метавонад тарзи омӯзиши организмҳои воқеии биологиро инъикос намояд: тавассути ҷустуҷӯи роҳҳо дар фазои давлатӣ. Оид ба вазифаҳои дар ин ҳуҷҷат тавсифшуда, Интиқоли траектория натиҷаҳои худро медиҳад, ки бо сифатҳои бо Итератсия арзиши ҳосилшуда якхелаанд. Аммо, барои дақиқ будани он натиҷаҳо дар ин ҷо ба таври муфассал хабар дода намешавад. Истилоги қиммат барои моделсозӣ дар ин ҳуҷҷат бо ду сабаби асосӣ интихоб карда шуд. Аввалан, азбаски интихоби траектория тимсоли интихоби траекторияҳоро дар бар мегирад, миқдори зиёди шоха, ки бо пайдарҳамии имконпазири амалҳои дар ин вазифа алоқаманд аст, метавонад ба агентҳое оварда расонад, ки ҷузъи параметрҳои иктишофӣ-истисноӣ (яъне, gre-чашмгуруснӣ [17]) бодиққат интихоб карда шудааст. Ин мавҷуд набудани таҷриба бо давлатҳои алоҳида метавонад фаъолияти агентро халалдор созад, вақте ки сохтори хотираи ҷадвали ҷустуҷӯ аз сабаби мавҷуд набудани умумигардонии арзиш ба давлатҳои ба ин монанд (вале эҳтимолан пешбинишуда) истифода мешавад. Ҳамин тариқ, аз истифодаи омӯхтани мукаммали фазои давлатӣ, ки бо Итератсияи арзиши кафолат дода мешавад, афзалият дода шуд. Дуюм, истифодаи Такрори Арзиш зарурати нишон додани параметрҳои иловагии омӯхташавиро барои истифодабариро бартараф намуд ва бо ин роҳ моделсозиро соддатар намуд. Дар хотир доред, ки интихоби траектория метавонад дар ниҳоят тақрибан тахминиро тақозо кунад, зеро шумораи траекторияҳо ба беохирӣ наздик мешаванд [17].

Шумораи 2-ро чунин метавон ҳисоб кардан мумкин аст: 21,120 ҷойҳои имконпазири агент × 11 имконпазирии агентҳо × (қадамҳои 4 вақти пеш аз объект пайдо шудан + 10 қадамҳои даврӣ, ки ягон объект намерасид + 10 қадамҳои вақт, ки агент мавҷуд буд қадамҳои мусбат тақвиятдодашуда + қадамҳои вақти 10, ки объект ба таври манфӣ тақвият ёфт + Ҷойгиршавии объектҳои имконпазири 10 * (қадамҳои вақти 11 бо объекти мушаххасшудаи мусбат + қадамҳои вақти 10 бо объекти муайяншудаи манфӣ + қадамҳои вақти 10 бо объекти номаълуми мусбӣ + Қадамҳои вақти 10 бо объекти номаълуми манфӣ))).

3T мавҷудияти ин давлатҳои "пинҳон" ҳангоми омӯзиш бояд ба назар гирифта шавад, зеро Итератсия ба арзиши танҳо аз як давлат дар фазои давлатӣ "як қадам" пеш меравад. Далели он, ки ҳолати объектҳои номуайяни манфӣ ва мусбат якхела аст, ба омӯхтан ва тағир додани арзишҳо дар ду ҳолати гуногуни баъдӣ, ки дар онҳо объекти мусбат ё манфӣ муайян карда мешавад, монеъ мешавад. Равиши интихобшудаи траектория аз тарафи дигар иттилооти пинҳоншудаи давлатро (яъне ҳушдори номуайянро) дар тамоми мурофиа нигоҳ медорад ва бо ин варианти РЛ-и пинҳонҳо ташвишовар нест.

Эҳтимоли норозигии 4O ба кори мазкур аз он иборат аст, ки посухи таваҷҷӯҳ дар мағзи ширхӯрон ба назар мерасад, масалан, дар пешбиниҳо аз colliculus олии [3,14]. Дар ин моделиронии мазкур агентҳо ба самтгирӣ ба ашёҳо ноқилӣ надоштанд, вале ба ҷои он як рафтори роҳнамоеро омӯхтанд, ки интихоби аксуламали амалиро имкон дод (масалан, равиш ё пешгирӣ), ки мукофоти ҳадди аксарро афзоиш медиҳад. Ба ин монанд, ба вокунишҳои ба таври хаттӣ, ин рафтори самтгирӣ хеле зуд, пеш аз муайян кардани объектҳо ва ба ҳама объектҳо равона карда шуданд. Ҳадафи ин кор на он буд, ки даъвоҳо дар бораи ҳама гуна посухҳо омӯхта шаванд, балки бештар дар якҷоягӣ дар доираи радиои Озодӣ. Бо вуҷуди ин, таҳқиқ кардан ҷолиб хоҳад буд, ки оё механизмҳои марбут ба мукофот дар эҷоди пайвастшавӣ дар минтақаҳои мағзи сар барои тавлид кардани ин аксуламали допамин ҷой доранд.

Ин як равияи PDF-ро дар дастури ғайричашмдошт, ки барои нашр омода карда шудааст, мебошад. Чун хидматрасонии мизоҷони мо мо ин нусхаи аввали тарҷумаро таъмин мекунем. Маълумотнома нусхабардорӣ, таснифот ва баррасии далеле, ки пеш аз он дар шакли интихоби ниҳоии худ нашр мешавад, сурат мегирад. Лутфан қайд кунед, ки дар давоми хатогии равандҳои истеҳсолот ошкор карда мешаванд, ки метавонанд мӯҳтавои ва таъсироти ҳуқуқии қонуниро, ки ба маҷалла дахл доранд, ба кор баранд.

Адабиёт

1. Baird LC. Алгоритмҳои боқимонда: Омӯзиши тақвиятдиҳӣ бо тақвияти функсия. Дар: Priedetis A, Russell S, муҳаррирон. Омӯзиши мошинсозӣ: Маводҳои Конфронси дувоздаҳуми байналмилалӣ; 9 – 12 июл.1995.

2. Бунзек Н, Дюзел E. Рамзгузории мутлақи навовариҳои ҳавасмандкунанда дар substantia nigra / VTA. Нейрон. 2006; 51 (3): 369 – 379. [PubMed]

3. Dommett E, Coizet V, Blaha CD, Martindale J, Lefebvre V, Walton N, Mayhew JEW, Overton PG, Redgrave P. Чӣ гуна ангезаҳои визуалӣ нейронҳои допаминергиявиро дар лахзаи кӯтоҳ фаъол мекунанд. Илм. 2005; 307 (5714): 1476 – 1479. [PubMed]

4. Доя К. Омӯзиши металлӣ ва нейромодуляция. Шабакаҳои асабӣ. 2002 июн-июл; 15 (4-6): 495-506. [PubMed]

5. Gillies A, Arbuthnott G. Моделҳои компютерии ганглияи базальӣ. Ихтилоли ҳаракат. 2000; 15 (5): 762 – 770. [PubMed]

6. Horvitz JC. Вокунишҳои допаминии мезолимбокортикӣ ва нигростриаталӣ ба рӯйдодҳои назаррас. Асабшиносӣ. 2000; 96 (4): 651 – 656. [PubMed]

7. Kakade S, Dayan P. Допамин: ҷамъбаст ва мукофотпулӣ. Шабакаҳои асабӣ. 2002; 15 (4 – 6): 549 – 559. [PubMed]

8. Knutson B, Cooper JC. Ҷасади номаълум. Нейрон. 2006; 51 (3): 280 – 282. [PubMed]

9. Logothetis NK, Pauls J, Augath M, Trinath T, Oeltermann A. Тадқиқоти нейрофизиологии асоси сигнали fMRI. Табиат. 2001; 412 (6843): 150 – 157. [PubMed]

10. McClure SM, Berns GS, Montague PR. Хатогиҳои пешгӯии муваққатӣ дар як вазифаи омӯзиши ғайрифаъол striatum инсонро фаъол мекунад. Нейрон. 2003; 38 (2): 339 – 346. [PubMed]

11. Нив Ю, Дафф МО, Даян П. Допамин, номуайянӣ ва омӯзиши TD. Вазифаҳои рафторӣ ва майна. 2005 май 4; 1: 6. [Мақолаи ройгони PMC] [PubMed]

12. O'Doherty JP, Даян P, Фристон K, Critchley H, Dolan RJ. Моделҳои фарқияти муваққатӣ ва омӯзиши марбут ба мукофот дар мағзи сари инсон. Нейрон. 2003; 38 (2): 329 – 337. [PubMed]

13. Redgrave P, Gurney K. сигнали допаминии кӯтоҳмуддат: нақш дар кашфи амалҳои роман? Тафсири табиат Neuroscience. 2006 Дек; 7 (12): 967 – 975.

14. Redgrave P, Prescott TJ, Gurney K. Оё барои дидани хатогии мукофот вокуниши допаминии кӯтоҳмуддат хеле кӯтоҳ аст? Тамоюлҳо дар Neuroschew. 1999 апрел; 22 (4): 146 – 151. [PubMed]

15. Reichle ED, Лоран ТҶ. Бо истифодаи омӯзиши тақвиятбахшӣ барои фаҳмидани пайдоиши рафтори «доно» -и чашм ҳангоми хондан. Шарҳи равонӣ. 2006; 113 (2): 390 – 408. [PubMed]

16. Schultz W. сигнали пешгӯии мукофоти нейронҳои допамин. Маҷаллаи нейрофизиология. 1998; 80 (1): 1 – 27. [PubMed]

17. Саттон RS, Барто АГ. Омӯзиши тақвият: Муқаддима. Матбуоти MIT; Кембридж: 1998.

18. Танака СК, Доя К, Окада Г, Уеда К, Окамото Ю, Ямаваки С. Пешгӯии мукофотҳои фаврӣ ва оянда ба ҳалқаҳои cortico-bazal ganglia. Neuroscience табиат. 2004; 7 (8): 887 – 893.

Таъсири ҷавобгӯӣ ва эҳтимолияти ҷавобҳо аз принсипҳои омӯзиши такмилдиҳӣ (2008)