စစ်ကူသင်ယူအခြေခံမူထံမှ Saliency နှင့်လက်ဆောင်ပစ္စည်းအသစ်အဆန်းတုံ့ပြန်ချက်၏အရေးပေါ် (2008)

မှတ်ချက်များ - အသစ်အဆန်းကိုပြသသည့်နောက်ထပ်လေ့လာမှုတစ်ခုသည်၎င်းသည်ကိုယ်ပိုင်ဆုဖြစ်သည်။ အင်တာနက်ညစ်ညမ်းမှု၏စွဲလမ်းစေသောအရာများထဲမှတစ်ခုမှာအဆုံးမဲ့အသစ်အဆန်းနှင့်အမျိုးမျိုး၊ မြင်ကွင်းတစ်ခုမှနောက်တစ်ခုသို့လျင်မြန်စွာနှိပ်ခြင်းနှင့်မှန်ကန်သောရုပ်ပုံ / ဗွီဒီယိုကိုရှာဖွေခြင်းဖြစ်သည်။ ဤအရာအလုံးစုံ dopamine တိုးမြှင့်။ ဒါကအင်တာနက်ညစ်ညမ်းမှုကိုမဂ္ဂဇင်းတွေ (သို့) ငှားရမ်းထားတဲ့ဒီဗီဒီတွေနဲ့ကွဲပြားခြားနားစေတယ်။

လေ့လာမှု အပြည့်အစုံ- အားဖြည့်သင်ကြားမှုဆိုင်ရာ အခြေခံမူများမှ စွမ်းဆောင်နိုင်မှုနှင့် ဆန်းသစ်သော တုံ့ပြန်မှုများ ပေါ်ပေါက်လာခြင်း

Neural Netw။ ၂၀၀၈ ဒီဇင်ဘာ၊ 2008(21): 10–1493။

အွန်လိုင်း 2008 စက်တင်ဘာ 25. doi: 10.1016/j.neunet.2008.09.004

Patryk A. Laurent၊ Pittsburgh တက္ကသိုလ်၊

စာပေးစာအားလုံးကို လိပ်စာ- Patryk Laurent၊ University of Pittsburgh၊ 623 LRDC၊ 3939 O'Hara St., Pittsburgh, PA 15260 USA, E-mail- [အီးမေးလ်ကိုကာကွယ်ထားသည်]၊ရုံး : (၄၁၂) ၆၂၄-၃၁၉၁၊ Fax : (၄၁၂) ၆၂၄-၉၁၄၉၊

ြဒပ်မဲ့သော

Reinforcement Learning [17] ကဲ့သို့ ဆုလာဘ်အခြေပြု သင်ယူမှုပုံစံများကို ဦးနှောက်သို့ မြေပုံဆွဲရန် မကြာသေးမီက ကြိုးပမ်းမှုများသည် ကြိုတင်ခန့်မှန်းပြီး ရရှိထားသော ဆုလာဘ် [16,5] အကြား ဒိုပါမင်းထုတ်လွှတ်သည့် အာရုံကြောများ တိုးလာခြင်းနှင့် လျော့နည်းသွားခြင်းအပေါ် phasic တိုးလာခြင်းနှင့် လျော့ကျသွားခြင်းအပေါ် အခြေခံထားသည်။ သို့သော်၊ ဤဆုလာဘ်-ခန့်မှန်းမှုအမှားသည် ထို phasic လုပ်ဆောင်ချက်ဖြင့် ဆက်သွယ်ထားသော အချက်ပြများစွာထဲမှ တစ်ခုသာဖြစ်သည်။ နောက်တစ်ခုတွင်၊ အထူးသဖြင့် သက်ရှိတစ်ခုသည် နောက်ပိုင်းတွင် လှုံ့ဆော်မှုဆီသို့ ဦးတည်သွားသောအခါတွင် သိသိသာသာသော်လည်းကောင်း မှန်းဆမရသော ဆုလာဘ်မဟုတ်သော လှုံ့ဆော်မှု [4,6,13] ၏အသွင်အပြင်ကို ထင်ဟပ်စေသည့် dopaminergic spiking တိုးလာခြင်းလည်း ပါဝင်သည်။ ဤတွေ့ရှိချက်များကို ရှင်းပြရန် Kakade နှင့် Dayan [16] နှင့် အခြားသူများက ထိုဝတ္ထုကို မထင်မှတ်ထားသော လှုံ့ဆော်မှုများသည် ပင်ကိုအားဖြင့် အကျိုးပေးသည်ဟု ယူဆခဲ့ကြသည်။ ဤဆောင်းပါးတွင် အစီရင်ခံတင်ပြထားသော သရုပ်ဖော်မှုသည် အားဖြည့်သင်ယူခြင်း၏ ဆုလာဘ်-ဟောကိန်းထုတ်ခြင်းဆိုင်ရာ သင်ယူမှုယန္တရားများမှ ထွက်ပေါ်လာသောကြောင့် ဤယူဆချက်သည် မလိုအပ်ကြောင်း သက်သေပြနေပါသည်။ ထို့ကြောင့်၊ အားဖြည့်သင်ယူခြင်းမူများကို basal ganglia ၏ dopaminergic အာရုံကြောများ၏ဆုလာဘ်နှင့်သက်ဆိုင်သည့်လုပ်ဆောင်မှုကိုသာမက ၎င်းတို့၏ဆုလာဘ်နှင့်ပတ်သက်သည့်ထင်သာမြင်သာရှိသောလုပ်ဆောင်မှုအချို့ကိုလည်းနားလည်ရန်အသုံးပြုနိုင်ပါသည်။

အားဖြည့်သင်ယူမှု (RL) သည် ဦးနှောက်အတွင်းရှိ ဆုလာဘ်အခြေပြု သင်ယူမှုဆိုင်ရာ တွက်ချက်မှုပုံစံများ ဖွံ့ဖြိုးတိုးတက်ရေးတွင် ပို၍အရေးကြီးလာသည်။ RL သည် အတု "အေးဂျင့်" (ဥပမာ၊ အစစ်အမှန် သို့မဟုတ် အတုလုပ်ထားသော စက်ရုပ်) သည် မျှော်မှန်းထားသော ဆုလာဘ်ကို အမြင့်ဆုံးအထိ ရရှိနိုင်စေရန် လုပ်ဆောင်ချက်များကို ရွေးချယ်နိုင်ပုံကို သတ်မှတ်ပေးသည့် တွက်ချက်မှုဆိုင်ရာ အယ်လဂိုရီသမ်အမျိုးအစားတစ်ခုဖြစ်သည်။ ဤ အယ်လဂိုရီသမ်များတွင်၊ အေးဂျင့်တစ်ဦးသည် ပြည်နယ်အမျိုးမျိုးနှင့် ချိတ်ဆက်ရန် သင်ယူရသည့် တန်ဖိုးများ (ဥပမာ၊ လှုံ့ဆော်မှုတစ်ခုနှင့် ဆက်စပ်နေသော သိမြင်နားလည်မှုဆိုင်ရာအချက်များ) ပေါ်တွင် အခြေခံသည်။ ဤတန်ဖိုးများကို ယာယီ-ကွာခြားမှု သင်ယူမှုမှတဆင့် တဖြည်းဖြည်း သင်ယူနိုင်ပြီး၊ ပြည်နယ်တန်ဖိုးများကို အေးဂျင့်၏ လက်ရှိဆုလာဘ် ခန့်မှန်းချက်နှင့် ပတ်ဝန်းကျင်မှ ရရှိသည့် အမှန်တကယ်ဆုလာဘ်ကြား ကွာခြားချက်အပေါ် အခြေခံ၍ ပြည်နယ်တန်ဖိုးများကို ချိန်ညှိပေးပါသည်။ ဤတွက်ချက်ထားသော ခြားနားချက်သည် ဆုလာဘ်-ဟောကိန်းထုတ်မှုအမှားဟု ခေါ်ဝေါ်သော၊ လူသားမဟုတ်သော မျောက်ဝံများ [17] တွင် dopamine ထုတ်လွှတ်သော အာရုံကြောများ၏ phasic လုပ်ဆောင်ချက်နှင့် အလွန်ဆက်စပ်နေကြောင်း ပြသထားသည်။ ထို့အပြင်၊ လူသားများတွင်၊ dopamine ၏အရေးကြီးသောပစ်မှတ်ဖြစ်သည့် striatum သည် ဆုလာဘ်-သင်ယူမှုတာဝန်များ [16] အတွင်း ဆုလာဘ်ခန့်မှန်းမှုအမှားကိုထင်ဟပ်စေသည့် fMRI BOLD အချက်ပြမှုကိုပြသသည်။ striatal BOLD သည် အနည်းဆုံး တစ်စိတ်တစ်ပိုင်းအားဖြင့် afferent synaptic လုပ်ဆောင်ချက် [10,12,18] နှင့် dopamine အာရုံကြောများ striatum တွင် ကြီးမားသော ပရောဂျက်ကြောင့် ဇီဝကမ္မဗေဒဒေတာကို ဖြည့်စွက်ပေးပါသည်။

အထက်ဖော်ပြပါ ဇီဝကမ္မတုံ့ပြန်မှုများသည် RL ၏ ဆုလာဘ်ခန့်မှန်းတွက်ချက်မှုများနှင့် ဆက်စပ်နေသော်လည်း၊ [4,6,14,3] နှင့် မသက်ဆိုင်ဟုထင်ရသော နှိုးဆွမှုနှင့်/သို့မဟုတ် ဆန်းသစ်သောလှုံ့ဆော်မှုများကို တုံ့ပြန်ရာတွင် dopaminergic phasic လုပ်ဆောင်ချက် တိုးလာပါသည်။ fMRI [2] ကို အသုံးပြု၍ လူသားများတွင် အလားတူဖြစ်စဉ်ကို မကြာသေးမီက တွေ့ရှိခဲ့သည်။ ဤ "အသစ်အဆန်း" သို့မဟုတ် "အရသာ" တုံ့ပြန်မှုသည် ဆုလာဘ်ခန့်မှန်းမှုအမှားနှင့် မသက်ဆိုင်ဟု ပြောရသည့် အကြောင်းရင်းများစွာရှိသည်- (1) လှုံ့ဆော်မှု၏အထောက်အထားကို အကဲဖြတ်ခြင်းမပြုမီ၊ တိကျသောဆုလာဘ်ကို ကြိုတင်ခန့်မှန်း၍မရနိုင်စေရန်၊ (၂) အာရုံကြောလှုပ်ရှားမှု (ဆိုလိုသည်မှာ အပြုသဘော) တိုးလာခြင်းနှင့် စပ်လျဉ်း၍ ဒေါသနှင့် ခံတွင်းတွေ့စေသော လှုံ့ဆော်မှုများ၊ နှင့် (၃) အလေ့အထ [2]။ အမှန်စင်စစ်၊ လှုံ့ဆော်မှုများသည် ကြိုတင်မှန်းဆခြင်းမပြုဘဲ ဦးတည်ချက်နှင့်/သို့မဟုတ် ချဉ်းကပ်မှုအပြုအမူ [3] ဖြစ်ပေါ်လာသောအခါတွင် ဒိုပါမင်း-ထုတ်လွှတ်သော နျူရွန်များ၏ ဆားရီ/ဆန်းသစ်သော တုံ့ပြန်မှုသည် ယုံကြည်စိတ်ချရဆုံးဖြစ်ပြီး ၎င်းတို့သည် သင်ယူထားသောဆုလာဘ်ခန့်မှန်းချက်နှင့် အရည်အသွေးပိုင်းခြားနားမှုရှိကြောင်း ပေါ်လွင်စေသည်။ ထို့ကြောင့် စိန်ခေါ်မှုမှာ RL ၏ သီအိုရီဘောင်အတွင်းတွင် ဤထင်ရှားသော ဝိရောဓိဖြစ်ခြင်း (ဆိုလိုသည်မှာ အသစ်အဆန်းသည် ဆုလာဘ်-ခန့်မှန်းမှုအမှားအပေါ် မည်ကဲ့သို့အကျိုးသက်ရောက်သည်) ကို ရှင်းပြရန်ဖြစ်ပါသည်။

Kakade နှင့် Dayan [7] ဒါကို အတိအကျလုပ်ဖို့ ကြိုးစားခဲ့တယ်။ ၎င်းတို့၏ ဆောင်းပါးတွင်၊ အသစ်အဆန်း တုံ့ပြန်မှုများကို dopaminergic လုပ်ဆောင်မှု၏ RL မော်ဒယ်များတွင် ထည့်သွင်းနိုင်သည်—နှစ်ခုလုံးသည် သီအိုရီဆိုင်ရာ ယူဆချက်အသစ်များ ပါဝင်သည်။ ဆန်းသစ်သောဆုကြေးငွေများဟုရည်ညွှန်းသည့် ပထမယူဆချက်တွင်၊ အေးဂျင့်မှရရှိသည့်ပုံမှန်ဆုကြေးထက်နှင့်အထက်နှင့်ကျော်လွန်သောအခါတွင် ဆန်းသစ်သောလှုံ့ဆော်မှုများရှိနေသောအခါ နောက်ထပ်ဆုလက်ဆောင်တစ်ခု မိတ်ဆက်ပေးခြင်းပါရှိသည်။ ဤအပိုဆုလာဘ်သည် တွက်ချက်မှုထဲသို့ ရောက်ရှိလာသောကြောင့် သင်ယူမှုသည် အေးဂျင့်၏လက်ရှိဆုလာဘ်ခန့်မှန်းချက်နှင့် ပတ်ဝန်းကျင်မှ ပုံမှန်ဆုလာဘ်နှစ်ခုလုံးနှင့် အသစ်အဆန်းဆုကြေးငွေနှစ်ခုလုံး၏ ကွာခြားချက်အပေါ်တွင် အခြေခံထားသည်။ ထို့ကြောင့်၊ အသစ်အဆန်းသည် အေးဂျင့်က အမြင့်ဆုံးရရှိရန် ကြိုးစားနေသည့် ဆုကြေးငွေ၏ တစ်စိတ်တစ်ပိုင်းဖြစ်လာသည်။ ပုံဖော်ခြင်း ဘောနပ်စ်များဟု ခေါ်သော ဒုတိယ ယူဆချက်သည် ဆန်းသစ်သော လှုံ့ဆော်မှုနှင့် ဆက်စပ်နေသော ပြည်နယ်များ၏ တန်ဖိုးများကို အတုအယောင် မြှင့်တင်ခြင်းဖြင့် အကောင်အထည် ဖော်နိုင်သည်။ RL တွင်အသုံးပြုသည့် ယာယီခြားနားမှု သင်ယူမှုစည်းမျဉ်းသည် ပြည်နယ် အဆက်ဆက်အကြား ဆုလာဘ်-ဟောကိန်းထုတ်မှု ကွာခြားချက်အပေါ် အခြေခံသောကြောင့်၊ ဝတ္ထု လှုံ့ဆော်မှုနှင့် သက်ဆိုင်သည့် ပြည်နယ်များအတွက် အဆက်မပြတ်ပုံဖော်ခြင်း ဘောနပ်စ်ထပ်တိုးခြင်းသည် အေးဂျင့်၏ နောက်ဆုံးအပြုအမူအပေါ် သက်ရောက်မှုမရှိပါ။ သို့သော်လည်း၊ အေးဂျင့်သည် "ပုံသဏ္ဍာန်" (ဆိုလိုသည်မှာ အသစ်အဆန်းနှင့်ဆက်စပ်နေသည်) အနေအထားသို့ အေးဂျင့်ဝင်ရောက်သည့်အခါ အသစ်အဆန်းတုံ့ပြန်မှုတစ်ခု ထွက်ပေါ်လာဆဲဖြစ်သည်။

ဤယူဆချက်တစ်ခုစီ၏ ထပ်တိုးမှုသည် အသစ်အဆန်းများ၏ သတိပြုမိသော သက်ရောက်မှုများစွာကို ရှင်းပြရန် လုံလောက်သော်လည်း၊ ယူဆချက်များသည် သင်ယူမှုတိုးတက်မှုကို အနှောင့်အယှက်ဖြစ်စေပါသည်။ Kakade နှင့် Dayan [7] ညွှန်ပြထားသည့်အတိုင်း အသစ်အဆန်းဆုကြေးငွေများသည် တန်ဖိုးလုပ်ဆောင်ချက် (ဆိုလိုသည်မှာ အေးဂျင့်အားဖြင့် ပြည်နယ်တစ်ခုစီနှင့် သက်ဆိုင်သည့်တန်ဖိုးများ) ကို ကမောက်ကမဖြစ်စေနိုင်ပြီး ဝတ္ထုပြည်နယ်များနှင့် ပင်ကိုယ်အားဖြင့် ဆက်နွှယ်နေသည့် နောက်ထပ်ဆုကြေးငွေအဖြစ် အကောင်အထည်ဖော်ခြင်းကြောင့် နောက်ဆုံးတွင် သင်ယူထားသည်များကို ထိခိုက်စေပါသည်။ ပြဿနာမှာ အေးဂျင့်သည် ဆုငွေ၏ မူလနှင့် အသစ်အဆန်း အစိတ်အပိုင်းများကို ခန့်မှန်းရန် သင်ယူနေခြင်းဖြစ်သည်။ Kakade နှင့် Dayan တို့က ပုံဖော်ခြင်း ဘောနပ်စ်များကို ယခင်ပြည်နယ်များမှ ဆုကြေးများ ကြိုတင်ခန့်မှန်းချက်များတွင် ထည့်သွင်းထားသောကြောင့် ဤပြဿနာမျိုး မဖြစ်စေကြောင်း ထောက်ပြသော်လည်း ဘောနပ်စ်များသည် ၎င်း၏ပြည်နယ်နေရာကို အေးဂျင့်ရှာဖွေမည့်နည်းလမ်းတွင် ဘက်လိုက်မှုများအား ပုံဖော်ပေးသောကြောင့် ၎င်းတို့၏ ထပ်လောင်းသည် ပြဿနာရှိနေဆဲဖြစ်သည်။ ထို့ကြောင့်၊ ဤထပ်လောင်းယူဆချက်များသည် RL ရှိ ဆုလာဘ်ခန့်မှန်းမှုအမှားအပေါ် မည်ကဲ့သို့ အသစ်အဆန်းအကျိုးသက်ရောက်ကြောင်း ရှင်းပြနိုင်သော်လည်း ၎င်းတို့သည် ပြဿနာရှိနေသည်။ ထို့အပြင်၊ ရှင်းလင်းချက်များသည် စစ်မှန်သောဇီဝသက်ရှိများ၏အပြုအမူကိုနားလည်ရန် RL ကိုအသုံးပြုရန်ကြိုးပမ်းသည့်မော်ဒယ်လ်လုပ်ငန်း၏ parsimony ကိုလျှော့ချရန်ကုန်ကျစရိတ်ဖြင့်လာပါသည်။

ရိုးရှင်းသော RL အေးဂျင့်သည် ထပ်လောင်းယူဆချက်မပါဘဲ၊ ဇီဝသက်ရှိများတွင်တွေ့ရှိသည့် ဆုလာဘ်မဟုတ်သော dopamine တုံ့ပြန်မှုများနှင့် ဆင်တူသည့် ဆုလာဘ်နှင့်ဆက်စပ်သော dopamine တုံ့ပြန်မှုများနှင့် ဆင်တူသည့် ရိုးရှင်းသော RL အေးဂျင့်သည် အောက်တွင်ဖော်ပြထားသော သရုပ်ပြမှုကို စမ်းသပ်ရန်အတွက် လုပ်ဆောင်ခဲ့ခြင်းဖြစ်သည်။ RL အေးဂျင့်တစ်ခုအား ၎င်း၏ပတ်ဝန်းကျင်ရှိ ကျပန်းတည်နေရာများတွင် ပေါ်လာသည့် အရာဝတ္ထုအမျိုးအစားနှစ်ခု—အပြုသဘောနှင့် အခြားအနုတ်လက္ခဏာ—တစ်မျိုးနှင့် အပြန်အလှန်တုံ့ပြန်ခြင်းတာဝန်ကို ပေးအပ်ထားသည်။ ၎င်း၏ဆုလာဘ်ကို အမြင့်ဆုံးရရှိရန်၊ အေးဂျင့်သည် အပြုသဘောဆောင်သောအရာကို ချဉ်းကပ်ရန်နှင့် “စားသုံးရန်” သင်ယူရန်နှင့် (ဆိုလိုသည်မှာ၊ အပျက်သဘောဆောင်သောအရာကို စားသုံးခြင်းမဟုတ်ဘဲ) ရှောင်ရှားရန် သင်ယူရမည်ဖြစ်သည်။ သရုပ်ပြခြင်းအတွက် အဓိက ခန့်မှန်းချက် သုံးခုရှိခဲ့သည်။

ပထမခန့်မှန်းချက်မှာ ရိုးရိုးရှင်းရှင်းပင်၊ ၎င်း၏ဆုလာဘ်ကို အမြင့်ဆုံးရရှိရန်အတွက်၊ အေးဂျင့်သည် အမှန်စင်စစ်အားဖြင့် အပြုသဘောဆောင်သော အကျိုးပေးသောအရာဝတ္ထုများကို စားသုံးရန် သင်ယူပြီး အပျက်သဘောဆောင်သော အပြစ်ပေးသည့်အရာများကို ရှောင်ရှားရန် တစ်ပြိုင်နက်တည်း သင်ယူနေချိန်ဖြစ်သည်။ ဒုတိယခန့်မှန်းချက်မှာ အနည်းငယ်သာ ထင်ရှားသည်- အေးဂျင့်သည် အပျက်သဘောဆောင်သော အရာများဆီသို့ ဦးတည်ချက် တုံ့ပြန်မှု (ဆိုလိုသည်မှာ ၎င်း၏ တိမ်းညွှတ်မှုကို သင်ယူရန်) ကို ပြသလိမ့်မည်ဖြစ်သည်။ အရာဝတ္တု၏ အသွင်အပြင်နှင့် ၎င်း၏တည်နေရာကို အေးဂျင့်က “ခံစားနိုင်” သော်လည်း၊ အရာဝတ္တု၏ အပြုသဘော သို့မဟုတ် အနုတ်လက္ခဏာလက္ခဏာ (ဆိုလိုသည်မှာ၊ အရာဝတ္တု၏ဆုကြေးတန်ဖိုးနှင့် ဆက်စပ်ရန် နောက်ဆုံးတွင် အေးဂျင့်က သင်ယူရမည့် အမှတ်အသား) ကို အေးဂျင့်က အရာဝတ္တုသို့ အမှန်တကယ် ဦးတည်ပြီးသည့်တိုင်အောင် မဆုံးဖြတ်နိုင်ခြင်းကြောင့်ဖြစ်သည်။ နောက်ဆုံးတွင်၊ တတိယ (နှင့် အရေးအကြီးဆုံး) ခန့်မှန်းချက်သည် မော်ဒယ်ရှိ simulated dopaminergic phasic တုံ့ပြန်မှုနှင့် ဆက်စပ်နေပါသည်။ ဤခန့်မှန်းချက်မှာ၊ အရာဝတ္ထုပေါ်လာသောအခါ၊ အေးဂျင့်သည် ဇီဝသက်ရှိများတွင် တွေ့ရှိရသည့် phasic dopamine တုံ့ပြန်မှုနှင့် တွက်ချက်မှုအရ တူညီသော ဆုလာဘ်-ဟောကိန်းထုတ်မှုဆိုင်ရာ အမှားကို ပြသမည်ဖြစ်ပြီး၊ အပြုသဘောနှင့် အနုတ်လက္ခဏာဆောင်သည့်အရာများအတွက် အပြုသဘောဆောင်သည့် ဇီဝသက်ရှိများအတွက် တွက်ချက်မှုတစ်ခုဖြစ်သည်။ ဤတုံ့ပြန်မှုသည် အေးဂျင့်နှင့် နှိုးဆွမှုကြား အကွာအဝေး၏ လုပ်ဆောင်ချက်တစ်ခုအဖြစ် ကွဲပြားမည်ဟုလည်း ခန့်မှန်းထားပြီး၊ ယင်းသည် သရုပ်ဖော်ခြင်း၏ ဆက်စပ်အခြေအနေတွင် လှုံ့ဆော်မှု “ပြင်းထန်မှု” သို့မဟုတ် ပြင်းထန်မှုအတွက် ပရောက်စီတိုင်းတာမှုတစ်ခုဖြစ်သည်။ အောက်တွင်ဖော်ပြထားသည့်အတိုင်း၊ ဤကြိုတင်ခန့်မှန်းချက်များကို simulation ရလဒ်များဖြင့် အတည်ပြုထားပြီး၊ ဆုလာဘ်နှင့်ပတ်သက်သည့် dopamine တုံ့ပြန်မှုများသည် အခြေခံမူအားဖြင့် RL ၏အခြေခံမူများမှ ထွက်ပေါ်လာနိုင်ကြောင်း သရုပ်ပြထားသည်။ ဇီဝသက်ရှိများတွင် ဆုလာဘ်မဟုတ်သော လုပ်ဆောင်ချက်ကို နားလည်ရန် RL ကိုအသုံးပြုခြင်းအတွက် ဤရလဒ်များ၏သီအိုရီဆိုင်ရာသက်ရောက်မှုများကို ဤဆောင်းပါး၏နောက်ဆုံးအပိုင်းတွင် ဆွေးနွေးပါမည်။

နည်းလမ်း

ဖော်ပြထားပြီးဖြစ်သည့်အတိုင်း၊ RL အယ်လဂိုရီသမ်များသည် အေးဂျင့်တစ်ဦးမှရရှိသည့်ဆုငွေစုစုပေါင်းပမာဏကို အများဆုံးမြှင့်တင်ရန်အတွက် ၎င်းလုပ်ဆောင်သင့်သည့်လုပ်ဆောင်ချက်များကို လေ့လာရန် အချိန်တစ်ခုမှတစ်ခုအထိ ကိန်းဂဏာန်းဆုလာဘ်များကို မည်သို့အသုံးပြုနိုင်ကြောင်း သတ်မှတ်ဖော်ပြသည်။ ဖော်မြူလာအများစုတွင်၊ ကိုယ်စားလှယ်၏ဆုလာဘ်ခန့်မှန်းချက်များကို အပ်ဒိတ်လုပ်ရန် (ဆိုလိုသည်မှာ အေးဂျင့်၏လက်ရှိဆုလာဘ်ခန့်မှန်းချက်နှင့် ရရှိသောအမှန်တကယ်ဆုလာဘ်ကြား ကွာခြားချက်) ကို အသုံးပြုခြင်းဖြင့် ဤသင်ယူမှုကို အောင်မြင်သည်။ ဆုငွေကြိုတင်ခန့်မှန်းချက်များကို သိရှိထားသောကြောင့်၊ ၎င်း၏နောက်ထပ်လုပ်ဆောင်မှုကို ရွေးချယ်ရန် အေးဂျင့်တစ်ဦးမှ ခန့်မှန်းချက်များကိုလည်း အသုံးပြုနိုင်ပါသည်။ ပုံမှန်မူဝါဒ (ညီမျှခြင်း 2 တွင် သတ်မှတ်ထားသည်) သည် အကြီးမားဆုံးဆုလာဘ်ကို ဖြစ်ပေါ်စေမည်ဟု ခန့်မှန်းထားသည့် လုပ်ဆောင်ချက်ကို ကိုယ်စားလှယ်အား ရွေးချယ်ရန်အတွက်ဖြစ်သည်။ သတ်မှတ်ထားသောအချိန်တွင် အေးဂျင့်အား ပေးအပ်သည့် အမှန်တကယ်ဆုငွေမှာ လုပ်ဆောင်ချက်ပြီးမြောက်သောအခါတွင် အေးဂျင့်ဝင်ရောက်သည့် ချက်ခြင်းဆုကြေးငွေ၏ အစိတ်အပိုင်းအချို့ဖြစ်သည်။ ထို့ကြောင့်၊ အေးဂျင့်သည် သီးခြားပြည်နယ်တစ်ခုတွင်ရှိပြီးနောက် အပြုသဘောဆောင်သောဆုလာဘ်များကို နောက်ဆုံးတွင်တွေ့ကြုံခံစားရပါက၊ အေးဂျင့်သည် ထိုဆုပေးသောပြည်နယ်များတွင် ဖြစ်ပေါ်လာနိုင်ဖွယ်ရှိသော လုပ်ဆောင်ချက်များကို အနာဂတ်တွင် ရွေးချယ်မည်ဖြစ်သည်။ ဆန့်ကျင်ဘက်အားဖြင့်၊ အေးဂျင့်သည် အနုတ်လက္ခဏာဆုလာဘ်များ (ဆိုလိုသည်မှာ ပြစ်ဒဏ်ပေးခြင်း) ကြုံတွေ့ရပါက ၎င်းသည် အဆိုပါ “ပြစ်ဒဏ်” အခြေအနေကို ဖြစ်ပေါ်စေသည့် အနာဂတ်တွင် လုပ်ဆောင်ချက်များကို ရှောင်ရှားနိုင်မည်ဖြစ်သည်။

အမျိုးမျိုးသောပြည်နယ်များအတွက် လေ့လာသင်ယူထားသော ဆုလာဘ်ခန့်မှန်းချက်များကို ဆုံးဖြတ်ပေးသည့် တိကျသော algorithm (ဆိုလိုသည်မှာ တန်ဖိုး function V) ကို Value Iteration [အောက်ခြေမှတ်ချက် 1] ဟုခေါ်ပြီး တရားဝင်ဖော်ပြနိုင်သည်-

ဖြစ်နိုင်ခြေရှိသော ပြည်နယ်များအားလုံးအတွက်၊

(ညီမျှခြင်း 1)

s သည် လက်ရှိအခြေအနေနှင့် ကိုက်ညီသည့်နေရာတွင်၊ V(s) သည် အေးဂျင့်မှသင်ယူထားသည့်ပြည်နယ် s အတွက် လက်ရှိဆုလာဘ်ခန့်မှန်းချက်၊ maxaction∈M{} သည် အေးဂျင့်အတွက်ရရှိနိုင်သည့်လုပ်ဆောင်ချက်အားလုံး၏ M အစုအဝေးထက် အမြင့်ဆုံးတန်ဖိုးအတွက် အော်ပရေတာတစ်ခုဖြစ်ပြီး V(s′) သည် အေးဂျင့်၏လက်ရှိလောင်းကြေးငွေခန့်မှန်းချက် သည် လာမည့်ပြည်နယ် 0 s သင်ယူမှုအချို့ဖြစ်သည်၊ (α ချက်ခြင်းဆုလာဘ်များနှင့် ဆက်စပ်၍ အနာဂတ်ဆုများကို မည်ကဲ့သို့ တွက်ဆရမည့် လျှော့စျေးအချက်တစ်ချက်။ ကနဦးတန်ဖိုးလုပ်ဆောင်ချက်ကို V(s) သည် ပြည်နယ်အားလုံးအတွက် 1 ဖြစ်စေရန်သတ်မှတ်ထားသည်။

တန်ဖိုးလုပ်ဆောင်ချက် V(s) ကို ရှာဖွေမှုဇယားအဖြစ် အကောင်အထည်ဖော်ခဲ့သည်၊ ၎င်းသည် ပြီးပြည့်စုံသောမှတ်ဉာဏ်၏ ယူဆချက်နှင့် တရားဝင်ညီမျှသည်။ အာရုံကြောကွန်ရက်များကဲ့သို့သော လုပ်ဆောင်ချက်အနီးစပ်ဆုံးများကို တန်ဖိုးလုပ်ဆောင်ချက်များ [1] ကိုကိုယ်စားပြုရန် အောင်မြင်မှုအချို့ဖြင့် အသုံးပြုခဲ့သော်လည်း၊ ရလဒ်များသည် အမျိုးမျိုးသောလုပ်ဆောင်ချက်အနီးစပ်ဆုံးမှပေးဆောင်သော ယေဘုယျလုပ်ဆောင်မှုယန္တရားအမျိုးအစားများပေါ်တွင်မူတည်ခြင်းမရှိကြောင်းသေချာစေရန်ရှာဖွေမှုဇယားကိုအသုံးပြုခဲ့သည်။ အေးဂျင့်သည် ၎င်း၏ပြည်နယ်နေရာများတွင် သင်ယူမှုအကြိမ်ရေ ၁,၅၀၀ အတွက် လေ့ကျင့်ထားသည်။ အရာဝတ္တုများ၏ ဝိသေသလက္ခဏာကို မှန်းဆမရနိုင်သောကြောင့်၊ မတူညီသောရလဒ်များကို ပျမ်းမျှခြင်းအတွက် သင်ယူနေစဉ်အတွင်း တစ်ခုထက်နည်းသော (α = 1,500) တန်ဖိုးလုပ်ဆောင်ချက် မွမ်းမံမှုဘောင်ကို အသုံးပြုခဲ့သည်။ နောက်ဆုံးတွင်၊ လျှော့စျေးအချက်တစ်ချက်အား γ = 0.01 သို့ သတ်မှတ်ထားပြီး သင်ယူမှုအကြိမ် 0.99 သည် သင်ယူမှုပြီးဆုံးသည်အထိ ၎င်း၏ချဉ်းကပ်မှုအမူအကျင့်ကို နှောင့်နှေးမည့်အစား အမြန်ဆုရယူရန် γ = 1 သို့ သတ်မှတ်ထားသည် (စမ်းသပ်မှုပြီးဆုံးသည့်အချိန်အထိ (မူရင်းတန်ဖိုး 1,500 မှ ၎င်းကိုပြောင်းလဲသော်လည်း ဤနေရာတွင်ဖော်ပြထားသောရလဒ်အပေါ် အကျိုးသက်ရောက်မှုမရှိပါ။)) XNUMX သင်ယူမှုအကြိမ်ရေ လုံလောက်မှုရှိ၊

လေ့ကျင့်သင်ကြားပြီးနောက်၊ အေးဂျင့်၏အပြုအမူကို ထိန်းချုပ်သည့် သီးခြား အယ်လဂိုရီသမ် (ဆိုလိုသည်မှာ၊ ပေးထားသည့် ပြည်နယ်တစ်ခုစီမှ လုပ်ဆောင်ရမည့် မူဝါဒ) မှာ-

(ညီမျှခြင်း 2)

π(s) သည် state s မှ ရွေးချယ်မည့် လုပ်ဆောင်ချက်ဖြစ်ပြီး၊ ညီမျှခြင်း၏ ညာဘက်ခြမ်းမှ လုပ်ဆောင်ချက် (ဥပမာ၊ တိမ်းညွှတ်မှု၊ ရွေ့လျားမှု သို့မဟုတ် လုပ်ဆောင်ချက်မရှိ) သည် ဆုကြေး၏ပေါင်းလဒ်နှင့် ရလဒ်အခြေအနေ s′ ၏လျှော့စျေးတန်ဖိုးကို အများဆုံးဖြစ်စေသည့် လုပ်ဆောင်ချက်ကို ပြန်ပေးသည်။

အောက်တွင်ဖော်ပြထားသော သရုပ်ပြမှုတွင်၊ အေးဂျင့်မှလည်ပတ်ခဲ့သည့် ပြည်နယ်အားလုံးကို အေးဂျင့်၏ပြင်ပ “ရုပ်ပိုင်းဆိုင်ရာ” အခြေအနေနှင့် ၎င်း၏အတွင်းပိုင်း “အသိပညာ” အခြေအနေနှစ်ခုလုံးဆိုင်ရာ အချက်အလက်များကို ကိုယ်စားပြုသည့် 7-ဖက်မြင် ကွက်လပ်များအဖြစ် ကုဒ်လုပ်ထားသည်။ ရုပ်ပိုင်းဆိုင်ရာ အချက်အလက်များတွင် အာကာသအတွင်း အေးဂျင့်၏ လက်ရှိအနေအထားနှင့် ၎င်း၏ တိမ်းညွှတ်မှုတို့ ပါဝင်သည်။ အသိပညာအချက်အလက်များတွင် အရာဝတ္တု၏ အနေအထား (တစ်စုံတစ်ယောက်ရှိလျှင်) နှင့် ထိုအရာဝတ္ထု၏အထောက်အထား (အေးဂျင့်က ဆုံးဖြတ်ထားလျှင်) ပါဝင်သည်။ အေးဂျင့်မှ ကိုယ်စားပြုထားသည့် တိကျသော အချက်အလက်အမျိုးအစားများကို ဇယား 1 တွင် ပြထားသည်။

စားပွဲတင် 1

RL simulations များတွင်အသုံးပြုသည့်အတိုင်းအတာများနှင့် ထိုအတိုင်းအတာများ၏ဖြစ်နိုင်သောတန်ဖိုးများ။

သရုပ်ဖော်မှုတွင် ပြည်နယ်စုစုပေါင်း ၂၁,၁၂၀ ရှိသည် [အောက်ခြေမှတ်ချက် 21,120]။ သို့ရာတွင်၊ အမည်မသိအပြုသဘောနှင့် အမည်မသိအပျက်သဘောဆောင်သည့်အရာတစ်ခုရှိနေသည့်ပြည်နယ်များသည် အေးဂျင့်၏ရှုထောင့်မှကြည့်လျှင် တူညီသောကြောင့် ကွဲပြားသောပြည်နယ်ပေါင်း 2 သာရှိသည်။ ထို့ကြောင့် သင်ယူမှုအကြိမ်တိုင်းတွင်၊ ၎င်းတို့သည် အပြုသဘောဆောင်သည့်အရာဝတ္ထုကို ရှာဖွေတွေ့ရှိပြီး အချိန်တစ်ဝက်ကို အပျက်သဘောဆောင်သည့်အရာဝတ္ထုကို ရှာဖွေတွေ့ရှိခြင်းဖြင့် ၎င်းတို့နောက်သို့လိုက်နိုင်သည်ဟူသောအချက်ကို ခွင့်ပြုရန်အတွက် အဆိုပါ "တူညီသော" အချို့သောပြည်နယ်အချို့ကို နှစ်ကြိမ်သွားရောက်ကြည့်ရှုရန် လိုအပ်ပါသည်။

စမ်းသပ်စမ်းသပ်မှုတစ်ခုစီ၏အစတွင်၊ အေးဂျင့်ကို အေးဂျင့်၏ “အရှေ့” (ဆိုလိုသည်မှာ၊ ညာဘက်တွင်) နှင့် အေးဂျင့်၏ “အနောက်” (ဆိုလိုသည်မှာ ဘယ်ဘက်တွင်) ငါးခုပါသော မျဉ်းမျဉ်း 11 × 1 ယူနစ်လမ်းကြောင်း၏အလယ်တွင် ထားရှိထားသည်။ ဇယား 1 တွင်ဖော်ပြထားသည့်အတိုင်း၊ အေးဂျင့်၏အခြေအနေ-ကွက်ထစ်သည် လမ်းကြောင်းပေါ်တွင် ၎င်း၏လက်ရှိတည်နေရာကို ညွှန်ပြသည့်ဒြပ်စင်တစ်ခု (ဆိုလိုသည်မှာ၊ 0 မှ 10) နှင့် ၎င်း၏လက်ရှိတိမ်းညွှတ်မှုကိုကိုယ်စားပြုသည့်ဒြပ်စင်တစ်ခု (ဆိုလိုသည်မှာ မြောက်၊ တောင်၊ အရှေ့ သို့မဟုတ် အနောက်) အသီးသီးပါဝင်သည်။ အေးဂျင့်၏ ကနဦးဦးတည်ချက်ကို အမြဲတမ်း “မြောက်ဘက်” ဟု သတ်မှတ်ထားပြီး ပတ်ဝန်းကျင်တွင် အခြားအရာတစ်ခုမျှ မရှိပါ (ဆိုလိုသည်မှာ၊ အေးဂျင့်၏အခြေအနေ-vector ရှိ “OBJECT” ၏တန်ဖိုးကို “0” နှင့် ညီသည်ဟု သတ်မှတ်ထားသည်)။

စီစဥ်ခြင်း၏ အချိန်အဆင့်တစ်ခုစီအတွင်း၊ အေးဂျင့်သည် အောက်ပါလုပ်ဆောင်ချက်များထဲမှ တစ်ခုကို လုပ်ဆောင်နိုင်သည်- (1) ဘာမှမလုပ်ဘဲ လက်ရှိတည်နေရာနှင့် ဦးတည်ချက်တွင် ဆက်လက်ရှိနေပါ။ (၂) မြောက်၊ တောင်၊ အရှေ့ သို့မဟုတ် အနောက်၊ သို့မဟုတ် (၃) ပတ်ဝန်းကျင် (အရှေ့ သို့မဟုတ် အနောက်) တွင် နေရာတစ်ခုရွှေ့ပါ။ လုပ်ဆောင်ချက်တစ်ခုစီ၏ ရလဒ်သည် နောက်ဆက်တွဲ ပုံစံတူ အချိန်အဆင့်တွင် ဖြစ်ပေါ်လာသည်။ အာကာသအတွင်း အေးဂျင့်၏ တည်နေရာနှင့်/သို့မဟုတ် တိမ်းညွှတ်မှုအားလုံးသည် အေးဂျင့်၏ လုပ်ဆောင်ချက်များကို ရွေးချယ်ခြင်းဖြင့် ဖြစ်ပေါ်ခဲ့သည်။ သို့သော်၊ စီစဥ်ခြင်း၏ အချိန်အဆင့်တိုင်းတွင်၊ "ဘာမှမလုပ်ပါ" လုပ်ဆောင်ချက်ကို ရွေးချယ်ထားသည့်အခါတွင်ပင် အစမ်းသုံးမှုပြီးဆုံးသည်အထိ အချိန်ကို 2 ဖြင့် တိုးပေးသည် (ဆိုလိုသည်မှာ အချိန်အဆင့် 3)။

ဆယ်ကြိမ်အဆင့်ပြီးနောက် အေးဂျင့်၏ပတ်ဝန်းကျင်ကို တည်ဆောက်ထားသောကြောင့် အချိန်တစ်ဝက်တွင် အရာဝတ္ထုတစ်ခုသည် ကျပန်းတည်နေရာတစ်ခုတွင် (သို့သော် အေးဂျင့်ကဲ့သို့တည်နေရာတစ်ခုတည်းတွင်မဟုတ်) ပေါ်လာသည်။ အရာဝတ္ထုများ၏ 50% သည် အပြုသဘောဆောင်သည် ("+" ဖြင့်ကိုယ်စားပြုသည်၊ ဇယား 1 ကိုကြည့်ပါ) နှင့် အရာဝတ္ထုများ၏ 50% သည် အနုတ် ("−" ဖြင့်ကိုယ်စားပြုသည်)။ အရာဝတ္တုမပေါ်မီ နှောင့်နှေးမှုသည် အရာဝတ္တု၏ အသွင်အပြင်မတိုင်မီတွင် အေးဂျင့်ပြသခဲ့သည့် မည်သည့်အပြုအမူကိုမဆို စောင့်ကြည့်ခွင့်ပြုရန် မိတ်ဆက်ခဲ့သည်။ အကယ်၍ အေးဂျင့်သည် ပေါ်လာသောအခါ အရာဝတ္တုဆီသို့ ဦးတည်ခြင်းမရှိပါက၊ အေးဂျင့်၏အခြေအနေ vector ရှိ "OBJECT" အထောက်အထားကို ကိုယ်စားပြုသည့်ဒြပ်စင်ကို "0" မှ "?" ယခုရောက်ရှိနေသည့် အရာဝတ္ထု၏ အထောက်အထားကို လောလောဆယ် မသိရသေးကြောင်း ရောင်ပြန်ဟပ်ရန်။ သို့သော်၊ အကယ်၍ အေးဂျင့်သည် အရာဝတ္တုဆီသို့ ဦးတည်နေပါက၊ နောက်ဆက်တွဲအချိန်အဆင့်တွင် "OBJECT" ဒြပ်စင်အား အရာဝတ္တု၏ဝိသေသလက္ခဏာနှင့် ညီစေရန်သတ်မှတ်ထားသောကြောင့် "0" သည် အပြုသဘောနှင့်အနုတ်သဘောဆောင်သောအရာများအတွက် "+" သို့မဟုတ် "−" ဖြစ်လာခဲ့သည် ။

အကယ်၍ အေးဂျင့်သည် အရာဝတ္ထုတစ်ခု၏ တည်နေရာသို့ ပြောင်းရွှေ့ပါက၊ နောက်တစ်ကြိမ် အဆင့်တွင် အရာဝတ္ထုသည် ပျောက်ကွယ်သွားမည်ဖြစ်သည်။ အရာဝတ္တုသည် အပြုသဘောဖြစ်ပါက၊ အေးဂျင့်၏ "စားသုံးသည်" အလံကို အမှန်အဖြစ် သတ်မှတ်ပြီး အေးဂျင့်အား ဆုချီးမြှင့်ခြင်းခံရသည် (ဆုငွေ = +10); သို့သော်၊ အရာဝတ္တုသည် အနုတ်လက္ခဏာဖြစ်နေပါက၊ "အံ့အားသင့်" အလံကို အမှန်ဟု သတ်မှတ်ပြီး အေးဂျင့်အား အပြစ်ပေးခံရသည် (reward = −10)။ (အရာဝတ္တုကို အေးဂျင့်ရှိ၊ မရှိ မခွဲခြားဘဲ အလံများကို ဤနည်းဖြင့် သတ်မှတ်ထားကြောင်း သတိပြုပါ။ ဥပမာ၊ အေးဂျင့်သည် ၎င်းကို ဦးတည်ခြင်းမရှိဘဲ အရာဝတ္တုကို စားသုံးနိုင်သည်) နောက်ဆက်တွဲ အချိန်အဆင့်တွင်၊ "အံ့အားသင့်" သို့မဟုတ် "စားသုံးခြင်း" အလံကို ရှင်းလင်းခဲ့သည်။ အေးဂျင့်အား လှုပ်ရှားမှုတစ်ခုစီ သို့မဟုတ် ဦးတည်လုပ်ဆောင်မှုတစ်ခုစီအတွက် သေးငယ်သောပြစ်ဒဏ် (အားဖြည့်တင်းခြင်း = −1) ကိုလည်း ပေးဆောင်ပြီး မည်သည့်လုပ်ဆောင်ချက်မှ မလုပ်ပါက ဆုကြေး သို့မဟုတ် ပြစ်ဒဏ် (ပြန်လည်ဖြည့်တင်းခြင်း = 0) မရရှိပါ။

လွန်ကဲသောအပြုအမူများ (ဆိုလိုသည်မှာ ဦးတည်ချက်နှင့် ရွေ့လျားမှု) နှင့် ဆုလာဘ်ခန့်မှန်းမှုအမှားအယွင်းနှစ်ခုလုံးကို အေးဂျင့်အတွက် အရေအတွက် တွက်ချက်ထားသည်။ လွန်လွန်ကဲကဲ အမူအကျင့် (ဆိုလိုသည်မှာ၊ အေးဂျင့်မှ ရွေးချယ်ထားသော လုပ်ဆောင်ချက်များစာရင်း) ကို လုပ်ငန်းတာဝန် သင်ယူပြီးကြောင်း ညွှန်ပြချက်အဖြစ် အသုံးပြုခဲ့သည်။ ဆုလာဘ်-ဟောကိန်းထုတ်မှု အမှားအယွင်းကို တိုင်းတာခြင်းအား ဆုပေးခြင်းမရှိသော dopaminergic phasic အချက်ပြမှု ပေါ်ပေါက်လာခြင်းနှင့်ပတ်သက်သည့် အယူအဆကို စမ်းသပ်ရန် အသုံးပြုခဲ့သည်။ ယခင်အချိန်အဆင့်တွင် ဆုလာဘ်ခန့်မှန်းချက်ကို နုတ်ခြင်းဖြင့် အရာဝတ္တုတစ်ခု၏အသွင်အပြင်ဖြစ်သော δ သည် ဆုလာဘ်ခန့်မှန်းချက်အမှား၊ ဆိုလိုသည်မှာ အချိန်အဆင့် t−1 တွင် V(s)၊ အရာဝတ္ထုပေါ်လာသောအခါ၊ ဆိုလိုသည်မှာ V(s) t၊ ပမာဏ δ = V(st−1))။

ရလဒ်များ
အတုယူအမူအရာ

အေးဂျင့်များ၏ လွန်ကဲသော အပြုအမူကို ဦးစွာ အရေအတွက် တိုင်းတာခဲ့သည်။ ဤခွဲခြမ်းစိတ်ဖြာမှု၏ရလဒ်များက လေ့ကျင့်ရေးပြီးနောက်၊ အေးဂျင့်သည် အပြုသဘောဆောင်သည့်အရာအားလုံးထံမှ အပြုသဘောဆောင်သောအားဖြည့်မှုကို ရယူခဲ့ပြီး အပျက်သဘောဆောင်သည့်အရာများကို မည်သည့်အခါမျှ ချဉ်းကပ်ခြင်းမရှိကြောင်း ပြသခဲ့သည်။ အတူတကွ၊ ဤရလဒ်များသည် အေးဂျင့်များသည် လုပ်ငန်းတာဝန်ကို မှန်ကန်စွာလုပ်ဆောင်ရန် သင်ယူခဲ့သော အပြုအမူဆိုင်ရာ အတည်ပြုချက်ကို ပေးပါသည်။ စမ်းသပ်မှုများအတွင်း အရာဝတ္တုများမပေါ်သောအခါ၊ အေးဂျင့်သည် မလှုပ်မယှက်ဖြစ်နေဆဲဖြစ်သော ထပ်လောင်းလေ့လာချက်ဖြင့် ဤကောက်ချက်အား အားကောင်းစေသည်။ ခန့်မှန်းထားသည့်အတိုင်း၊ အေးဂျင့်သည် အပြုသဘောနှင့် အပျက်သဘောဆောင်သည့် အရာများကို ဦးတည်သည်။

အတုယူထားသော ဆုလာဘ်-ခန့်မှန်းချက် အမှား

ဤစာတမ်း၏ဗဟိုယူဆချက်မှာ ခန့်မှန်းမရသောလှုံ့ဆော်မှုတစ်ခု၏အသွင်အပြင်သည် ထိုအရာဝတ္ထုသည် အမြဲတမ်းအပြစ်ပေးခံရသည့် "အနုတ်လက္ခဏာ" အရာတစ်ခုဖြစ်သွားသည့်တိုင် အပြုသဘောဆောင်သောဆုလာဘ်-ဟောကိန်းထုတ်မှုအမှားအယွင်းကို အဆက်မပြတ်ထုတ်လုပ်ပေးလိမ့်မည်ဖြစ်သည်။ ဤယူဆချက်ကို ထောက်ခံသောအားဖြင့်၊ အေးဂျင့်သည် (အမည်မသိ) အရာတစ်ခုပေါ်လာတိုင်း အပြုသဘောဆောင်သော ဆုလာဘ်-ခန့်မှန်းမှု အမှားကို ပြသခဲ့သော်လည်း မည်သည့်အရာမျှ ပေါ်လာသည့်အခါမျိုး မဟုတ်ပေ။ ဗဟိုယူဆချက်နှင့်လည်း ကိုက်ညီသည် မှာ အေးဂျင့်၏ phasic တုံ့ပြန်မှု ပြင်းအား ( δ ၊ Method တွင်ဖော်ပြထားသည့်အတိုင်း တိုင်းတာသည် ) သည် နှိုးဆွမှု၏ အတုယူထားသော "ပြင်းထန်မှု" တွင် အထိခိုက်မခံကြောင်း၊ အေးဂျင့်နှင့် အရာဝတ္ထုအကြား အကွာအဝေးကို အသုံးပြု၍ သတ်မှတ်ခဲ့သည် (ပုံ 1 ကိုကြည့်ပါ)။ ဆုတ်ယုတ်မှု ခွဲခြမ်းစိတ်ဖြာမှုတစ်ခုအရ δ ၏ပြင်းအားသည် အရာဝတ္တုမှအကွာအဝေးနှင့် ပြောင်းပြန်ဆက်စပ်နေကြောင်း ညွှန်ပြသောကြောင့် ပိုမိုနီးကပ်သောအရာဝတ္ထုများသည် ပိုမိုပြင်းထန်သောတုံ့ပြန်မှုကိုဖြစ်ပေါ်စေသည် (r = −0.999၊ p < 0.001; β = 0.82)။ ဤအနုတ်လက္ခဏာဆက်စပ်ဆက်စပ်မှုသည် အပြုသဘောဆောင်သော အရာဝတ္တုသို့ ရွှေ့ရန်၊ ၎င်းကို စားသုံးရန်နှင့် ဆုလာဘ်ကို ရယူရန်အတွက် အေးဂျင့်လုပ်ဆောင်ရန် လိုအပ်သည့် လှုပ်ရှားမှုတစ်ခုစီအတွက် ချမှတ်ထားသည့် သေးငယ်သော ပြစ်ဒဏ် (အားဖြည့်တင်း = −1) ကြောင့် ဖြစ်ပေါ်လာခြင်းဖြစ်သည်။

ပုံ 1

အရာဝတ္တုသည် အေးဂျင့်တည်နေရာနှင့် ဆက်စပ်နေသည့် အရာဝတ္ထု၏တည်နေရာ၏လုပ်ဆောင်ချက်တစ်ခုအဖြစ် ပေါ်လာသောအခါ ဤကိန်းဂဏန်းသည် ဆုလာဘ်-ခန့်မှန်းမှုအမှား (ဆိုလိုသည်မှာ δ) ကိုပြသသည်။ တုံ့ပြန်မှုများသည် အပြုသဘောနှင့် အနုတ်သဘောဆောင်သည့် အရာနှစ်ခုလုံးအတွက် တူညီပါသည်။ အရာဝတ္ထုမရှိသောအခါ (more…)

ဤ simulation တွင် အပြုသဘောနှင့် အပျက်သဘောဆောင်သော အရာဝတ္ထုများသည် တူညီသောဖြစ်နိုင်ခြေ (p = .25) ဖြင့် ပေါ်လာသောကြောင့်၊ မေးခွန်းပေါ်လာသည်- အရာဝတ္တု၏ အသွင်အပြင်တွင် အဘယ်ကြောင့် အပြုသဘောဆောင်သော အကျိုးပေးခန့်မှန်းမှုအမှားသည် အဘယ်ကြောင့် အပြုသဘောဆောင်သနည်း။ Kakade နှင့် Dayan [7] ၏မျဉ်းကြောင်းတစ်လျှောက် ကျိုးကြောင်းဆင်ခြင်ခြင်းဖြင့် အချက်ပြမှုသည် ထိုအခြေအနေများမှ သင်ယူရရှိထားသော ဆုလာဘ်အားလုံး၏ ပျမ်းမျှအား ထင်ဟပ်စေကာ ထို့ကြောင့် သုညနှင့် ညီမျှမည်ဟု ခန့်မှန်းနိုင်ပါသည်။ ဤရလဒ်ကို နားလည်ရန် သော့ချက်မှာ RL သည် အေးဂျင့်တစ်ဦးအား အနုတ်လက္ခဏာအားဖြည့်တင်းမှုဖြစ်စေသည့် လုပ်ဆောင်ချက်များကို ရွေးချယ်နိုင်ခြေနည်းပါးစေရုံသာမက၊ ၎င်းသည် နောက်ဆုံးတွင် အနုတ်လက္ခဏာအားဖြည့်တင်းမှုဖြစ်စေသည့် အခြေအနေများသို့ အေးဂျင့်သို့ဝင်ရောက်နိုင်ခြေနည်းပါးစေကြောင်း သတိပြုပါ။ ၎င်းသည် ပုံ 2 တွင်ဖော်ပြထားပြီး နောက်တွင်ဖော်ပြထားသော "အဆင့်မြင့်သော" သင်ယူမှုပုံစံကို ဖြစ်ပေါ်စေပါသည်။

ပုံ 2

RL အေးဂျင့်တစ်ဦးသည် ၎င်း၏ပတ်ဝန်းကျင်တွင် ဆုလာဘ်နှင့် အပြစ်ပေးသည့်လှုံ့ဆော်မှုနှစ်ခုစလုံးဖြင့် လေ့ကျင့်ထားသည့်အခါ ၎င်းတို့အား ချဉ်းကပ်ပြီး စားသုံးရန်ရွေးချယ်နိုင်သည့်အခါ အပြုသဘောဆောင်သော ဆုလာဘ်-ခန့်မှန်းမှု အမှားအယွင်းကို RL အေးဂျင့်က မည်ကဲ့သို့ ဖြစ်ထွန်းလာသည်ကို ပြသသည့် သရုပ်ဖော်ပုံ။ (က) မလေ့လာမီ အခြေအနေ- (more…)

သင်ယူမှုအစတွင် (ပုံ 2A ကိုကြည့်ပါ)၊ အေးဂျင့်သည် "+" နှင့် "−" အရာဝတ္ထုများဆီသို့ ဦးတည်သွားပြီး ၎င်းတို့ထံချဉ်းကပ်ကာ အရာဝတ္ထုအမျိုးအစားတစ်ခုစီကို စားသုံးခြင်းဖြင့် ဆုချခြင်းနှင့် အပြစ်ပေးခံရသည်။ အေးဂျင့်၏လေ့လာသင်ယူထားသော အခြေအနေတန်ဖိုးများသည် အေးဂျင့်၏လုပ်ဆောင်ချက်များကို လွှမ်းမိုးနိုင်ခြင်းမရှိပါက (ပုံ 2B ကိုကြည့်ပါ)၊ ထို့နောက် အေးဂျင့်သည် အရာဝတ္ထုများကို ဆက်လက်ချဉ်းကပ်ပြီး စားသုံးသွားမည်ဖြစ်သည်။ ဆိုင်းဘုတ်၏ အသွင်အပြင်သည် ပျမ်းမျှဆုငွေ၏ 0 ကို ခန့်မှန်းပြီး ဆုလာဘ်-ခန့်မှန်းမှု မှားယွင်းမှု ရုတ်တရက် တိုးလာမည်ဖြစ်သည်။ သို့သော်၊ ဤ simulation ရှိ အေးဂျင့်သည် ၎င်း၏ လုပ်ဆောင်ချက်များအပေါ် လွှမ်းမိုးရန် သင်ယူထားသော အခြေအနေတန်ဖိုးများကို အသုံးပြုသည် (ပုံ 2C ကိုကြည့်ပါ)၊ အေးဂျင့်သည် ၎င်း၏ အထောက်အထားကို ဆုံးဖြတ်ရန် အမည်မသိအရာဝတ္တုထံ ဦးတည်နေသေးသော်လည်း ၎င်းကို ချဉ်းကပ်ပါက အနုတ်လက္ခဏာ အရာဝတ္ထုကို စားသုံးတော့မည် မဟုတ်ပါ။ (လမ်းကြောင်းနမူနာကဲ့သို့ ကျပန်းရှာဖွေရေး အယ်လဂိုရီသမ်ဖြင့် လေ့ကျင့်ထားလျှင် ဖြစ်နိုင်သည်အတိုင်း)။ ထို့အပြင်၊ အချိန်ပိုင်းခြားနားမှု သင်ယူခြင်းသည် အနုတ်လက္ခဏာဆုလာဘ်ကို ယခင်အခြေအနေများသို့ “ပြန့်ပွား” စေရန် ခွင့်ပြုပေးသောကြောင့်၊ အာကာသသို့ ရွေ့လျားရန်အတွက် ကုန်ကျစရိတ်အနည်းငယ်ရှိသောကြောင့်၊ အေးဂျင့်သည် အပျက်သဘောဆောင်သည့်အရာဝတ္တုကို လုံးဝချဉ်းကပ်ခြင်းမှ ရှောင်ကြဉ်ရန် သင်ယူသည်။ ထို့ကြောင့်၊ ဤအချက်အလက်ကို လေ့လာပြီးနောက်၊ အရာဝတ္ထုတစ်ခု ပထမဆုံးပေါ်လာသောအခါ (“V” အဖြစ်ဖော်ပြထားသော အခြေအနေတစ်ခုစီ၏တန်ဖိုးသည် အပြုသဘောနှင့်အနုတ်လက္ခဏာအခြေအနေတန်ဖိုးများ၏ ပျမ်းမျှအပေါ်အခြေခံသည်မဟုတ်သော်လည်း၊ အေးဂျင့်သည် အပျက်သဘောဆောင်သည့်အရာများကိုရှောင်ရှားရန်သင်ယူပြီးသည်နှင့်ရရှိလာသည့်အပြုသဘောနှင့် “ကြားနေ” ရလဒ်ကို ပျမ်းမျှအားဖြင့် အခြေခံထားသည်။ ထို့ကြောင့် လေ့ကျင့်သင်ကြားထားသည့် အေးဂျင့်မှ အမှန်တကယ်ရရှိသည့် ဆုလာဘ်အားလုံး၏ ပျမ်းမျှသည် သုညထက် ကြီးနေပြီး၊ ကိုယ်စားလှယ်၏ ဆုလာဘ်ခန့်မှန်းချက် (ထို့ကြောင့် အရာဝတ္ထု ရုတ်တရက်ပေါ်လာသောအခါ ဆုလာဘ်-ခန့်မှန်းမှုအမှား) သည် အသားတင်အပြုသဘောဖြစ်နေကြောင်း ရှင်းပြသည်။ ၎င်းကို ပုံ 1 တွင် သရုပ်ဖော်ထားသည်။ အမှန်မှာ၊ အေးဂျင့်သည် ၎င်း၏ အပြုအမူကို ပြောင်းလဲရန်နှင့် အနုတ်လက္ခဏာ အရာဝတ္တုကို ရှောင်ရှားရန် သင်ယူနိုင်သရွေ့၊ အနုတ်လက္ခဏာ အရာဝတ္တု၏ တန်ဖိုးသည် အေးဂျင့်၏ နောက်ဆုံးအပြုအမူနှင့် အသစ်အဆန်း/အဆီပြန်မှု တုံ့ပြန်မှု၏ ပြင်းအားတို့နှင့် မသက်ဆိုင်ပါ။

ပုံ 3

(က) RL မြင့်မားသောသင်ယူမှုကို မဖြစ်ပေါ်စေပါက (ဆိုလိုသည်မှာ၊ အေးဂျင့်သည် အနုတ်လက္ခဏာရလဒ်ကို ရှောင်ရှားရန် အစီအမံများ မဆောင်ရွက်နိုင်ပါက)၊ ထို့ကြောင့် အေးဂျင့်သည် အရာဝတ္တုအားလုံးကို စားသုံးရန် ခိုင်းစေခြင်း (ပိုမို ... ) ဖြစ်ပေါ်လာမည့် ဆုလာဘ်ခန့်မှန်းမှုဆိုင်ရာ အပြောင်းအလဲများကို သရုပ်ပြပါ။

သရုပ်ဖော်မှုရလဒ်များသည် ယူဆချက်သုံးရပ်ပေါ်တွင် အလွန်အမင်းမူတည်ပါသည်။ ပထမဦးစွာ၊ လှုံ့ဆော်မှု သည် ကနဦးအချက်အားဖြင့် ခန့်မှန်းထားသော အားဖြည့်မှု၏ပြင်းအား (ဥပမာ၊ +10) လုံလောက်စွာ ကြီးမားသောကြောင့် လှုံ့ဆော်မှု (ဥပမာ- −1) နှင့် ချဉ်းကပ်ခြင်း (ဥပမာ −0) နှင့် ဆက်စပ်နေသည်။ အကယ်၍ ပြင်းအားသည် အနည်းငယ်သေးငယ်ပါက၊ အေးဂျင့်သည် ဦးတည်ရန် သင်ယူမည်မဟုတ်သလို၊ ၎င်းသည် အပြုသဘောဆောင်သော ဆုလာဘ်-ခန့်မှန်းမှု အမှားတုံ့ပြန်မှုကို ထုတ်ပေးမည်မဟုတ်ပါ။ ဒုတိယအချက်၊ လှုံ့ဆော်မှုများကို မမှတ်မိမီ နှောင့်နှေးမှုလည်း လိုအပ်ပါသည်။ (နှောင့်နှေးခြင်းသည် အကျွမ်းတဝင်ရှိသော လှုံ့ဆော်မှုတစ်ခုကို လျင်မြန်စွာ အသိအမှတ်ပြုနိုင်မည်ဟု အကြောင်းပြချက်အောက်တွင် “အသစ်အဆန်း” အတွက် ပရောက်စီတစ်ခုဖြစ်သည်။) နှောင့်နှေးမှုမရှိဘဲ၊ အေးဂျင့်သည် အမှန်တကယ်လက်ခံရရှိသည့်အရာအတွက် သင့်လျော်သော အပြုသဘောဆောင်သော သို့မဟုတ် အနုတ်လက္ခဏာဆုလာဘ်ကို ခန့်မှန်းသည့်အမှားကို ထုတ်ပေးပါလိမ့်မည်။ နောက်ဆုံးတွင်၊ အေးဂျင့်၏ အပြုအမူသည် သင်ယူခဲ့သည့် တန်ဖိုးများဖြင့် ဆုံးဖြတ်ရမည်ဖြစ်သည်။ အကယ်၍ အေးဂျင့်သည် ၎င်း၏ကိုယ်ပိုင်အပြုအမူကို မထိန်းချုပ်နိုင်ခဲ့ပါက (ဆိုလိုသည်မှာ လှုံ့ဆော်မှုအား ချဉ်းကပ်ရန်ရှိမရှိ)၊ အရာဝတ္ထုတစ်ခုပေါ်လာသည့်အခါ ၎င်း၏ဆုလာဘ်ခန့်မှန်းချက်သည် XNUMX၊ ညီမျှသောအပြုသဘောနှင့် အနုတ်လက္ခဏာရလဒ်များ၏ ပျမ်းမျှနှင့် ညီမျှမည်ဖြစ်သည်။

အထွေထွေဆွေးနွေးချက်

ဤဆောင်းပါးတွင် အစီရင်ခံတင်ပြသည့် သရုပ်ဖော်မှုသည် အပြုသဘောဆောင်သော ဆုလာဘ်-ခန့်မှန်းမှု အမှားတစ်ခု ပေါ်လာသောအခါတွင် ကြိုတင်မှန်းဆမရသော နှိုးဆော်မှုတစ်ခု ပေါ်ပေါက်လာသော်လည်း ဆုလာဘ် သို့မဟုတ် ပြစ်ဒဏ်ပေးခြင်းကို ချက်ချင်းဖော်ထုတ်နိုင်မည်မဟုတ်ကြောင်း သရုပ်ပြခဲ့သည်။ ထို့အပြင်၊ အဆိုပါ simulation သည် ဆုလာဘ်-ဟောကိန်းထုတ်အမှား၏အရွယ်အစားသည် အေးဂျင့်ထံသို့ နှိုးဆွမှု၏အနီးစပ်ဆုံးနှင့်အတူ တိုးလာကြောင်းဖော်ပြသည်၊၊ ယင်း simulation ၏အခြေအနေတွင် နှိုးဆွမှုပြင်းထန်မှုအတွက် proxy တိုင်းတာမှုဖြစ်ပြီး ထို့ကြောင့် salience နှင့်ဆက်စပ်နေသည်။ RL ၏ သီအိုရီဘောင်တွင်၊ အသိအမှတ်ပြုထားသော လှုံ့ဆော်မှု၏ သင်ယူမှုတန်ဖိုး သို့မဟုတ် အေးဂျင့်တစ်ဦး၏ ရုပ်ပိုင်းဆိုင်ရာနှင့်/သို့မဟုတ် သိမြင်မှုဆိုင်ရာ အခြေအနေများ [15] ကို ထင်ဟပ်စေရန် ဆုပေးပွဲများကို ပုံမှန်အားဖြင့် နားလည်ကြသည်။ သို့သော်၊ ဤနေရာတွင် ဖော်ပြထားသော ဆုလာဘ်-ခန့်မှန်းမှု အမှားသည် အေးဂျင့်မှ အရာဝတ္တုကို မမှတ်မိမီ ထုတ်ပေးသောကြောင့် အရည်အသွေးအရ ကွဲပြားသော အဓိပ္ပာယ်ဖွင့်ဆိုချက် ရှိပါသည်။ ဤရလဒ်များသည် RL စည်းမျဉ်းများနှင့်မသက်ဆိုင်ဟုထင်ရသော တုံ့ပြန်မှုတစ်ခုထုတ်လုပ်ရန် လုံလောက်သည်ဟုထင်ရသော်လည်း အသစ်အဆန်းနှင့် ဆားရည်၏ဂုဏ်သတ္တိများနှင့်ဆက်စပ်နေမည့်အစား၊ ဤနိဂုံးချုပ်ချက်တွင် ကျွန်ုပ်တို့၏ ယေဘူယျနားလည်မှု RL နှင့် RL ကို ကျွန်ုပ်တို့၏ ဇီဝသက်ရှိအစစ်အမှန်များတွင် ဆုချသင်ယူခြင်းအကောင့်တစ်ခုအဖြစ် ကျွန်ုပ်တို့၏အဓိပ္ပာယ်ဖွင့်ဆိုချက်အတွက် အရေးကြီးသောအကျိုးဆက်များစွာရှိသည်။

ပထမ၊ အမည်မသိလှုံ့ဆော်မှုတစ်ခုပေါ်လာသောအခါ RL အေးဂျင့်မှထုတ်ပေးသောဆုခန့်မှန်းမှုသည် Kakade နှင့် Dayan [7] မှအကြံပြုထားသည့်အတိုင်းရရှိနိုင်သောဆုကြေးများ၏တင်းကျပ်သောပျမ်းမျှမဟုတ်ပါ၊ သို့သော်အမှန်တွင်ထိုပျမ်းမျှထက်ပြင်းအားပိုကြီးနိုင်သည်။ Kakade နှင့် Dayan တို့သည် ပျမ်းမျှဆုကြေးခန့်မှန်းချက်သည် သုညနှင့် တူညီသင့်သည်ဟု ခန့်မှန်းကြပြီး၊ အကြောင်းမှာ၊ အကြောင်းမှာ စမ်းသပ်မှုများသည် ဆုချပြီး မကြာခဏ အပြစ်ဒဏ်ပေးခြင်းခံရသောကြောင့် ဖြစ်သည်။ အေးဂျင့်သည် “ပေါ်လစီ” ပုံစံဖြင့် သင်ယူခဲ့ခြင်းကြောင့် ဤအံ့သြဖွယ်ရလဒ် ထွက်ပေါ်လာခြင်းဖြစ်သည်။ ဆိုလိုသည်မှာ၊ အေးဂျင့်သည် အနုတ်လက္ခဏာရလဒ်များအကြောင်းသာမက ထိုရလဒ်များကို ရှောင်ရှားရန် ၎င်း၏စွမ်းရည်အကြောင်းကိုလည်း လေ့လာခဲ့သည်။ အနုတ်လက္ခဏာရလဒ်များကို ရှောင်ရှားရန် အေးဂျင့်တစ်ဦးကို ဖြစ်ပေါ်စေသည့် ဆုပေးစနစ်၏ စွမ်းရည်သည် RL ကို ကျွန်ုပ်တို့၏နားလည်မှုကို စစ်မှန်သောသက်ရှိများသို့ ဘာသာပြန်ရာတွင် ဂရုတစိုက်ထည့်သွင်းစဉ်းစားသင့်သည်။ အနုတ်လက္ခဏာဆုလာဘ်ခန့်မှန်းမှုအမှား [11] ထက်သာလွန်ကောင်းမွန်သောဆုလာဘ်ခန့်မှန်းမှုအမှားကိုကိုယ်စားပြုရန် dopaminergic phasic တုံ့ပြန်မှုစွမ်းရည်တွင် ထင်ရှားသောမညီညွှတ်မှုကြောင့် ဤအချက်သည် ပို၍အရေးကြီးပါသည်။ ဖြစ်ရပ်များ၏ စီစဥ်မှုတစ်ခုသည် အနုတ်လက္ခဏာဆောင်သော ရလဒ်ဆီသို့ ဦးတည်ကြောင်း ညွှန်ပြရန် လုံလောက်နိုင်သည်၊ သို့သော် လုပ်ဆောင်ချက်ရွေးချယ်မှု၏ ရည်ရွယ်ချက်များအတွက်၊ ထိုရလဒ်၏ အတိုင်းအတာသည် အရေးမကြီးပါ။

လက်ရှိ simulation ၏ ဒုတိယမြောက်အကျိုးဆက်မှာ ဆန်းသစ်သောတုံ့ပြန်မှုသည် ခံယူချက်ဆိုင်ရာလုပ်ဆောင်မှုစနစ်များနှင့် ဆုလာဘ်ခန့်မှန်းမှုစနစ်များကြား အပြန်အလှန်အကျိုးသက်ရောက်မှုမှ ထွက်ပေါ်လာနိုင်ခြင်းဖြစ်သည်။ အထူးသဖြင့်၊ အသစ်အဆန်း တုံ့ပြန်မှုသည် ဝတ္ထုပစ္စည်းနှင့် ပြီးပြည့်စုံသော သိမြင်နိုင်စွမ်းကို လုပ်ဆောင်ခြင်းမပြုရသေးသော အရာဝတ္ထုများကြား တူညီမှုပုံစံတစ်ခုကြောင့် ဖြစ်နိုင်သည် [အောက်ခြေမှတ်ချက် 4]။ ဤ simulation တွင်၊ အရာဝတ္ထု၏ဝိသေသလက္ခဏာ (အကျိုးဆက်အားဖြင့် ၎င်း၏အကျိုးခံစားခွင့် သို့မဟုတ် အပြစ်ပေးသည့်သဘောသဘာဝ) သည် အေးဂျင့်အား ထင်ရှားပေါ်လွင်မလာမီ နှောင့်နှေးမှုကို မိတ်ဆက်ခြင်းဖြင့် အသစ်အဆန်းကို အကောင်အထည်ဖော်ခဲ့သည်။ ဝတ္ထုအရာဝတ္ထုများကို ဖော်ထုတ်ရန် အချိန်ပိုကြာသည်ဟု ယူဆချက်အောက်တွင် လုပ်ဆောင်ခဲ့ခြင်းဖြစ်သော်လည်း၊ ဤယူဆချက်သည် ၎င်းတို့ ပထမဆုံးပေါ်လာသောအခါတွင် အပြုသဘောနှင့် အပျက်သဘောဆောင်သည့် အရာများကို အလားတူသိမြင်စေသည် (ဆိုလိုသည်မှာ ၎င်းတို့နှစ်ဦးလုံးကို “?” ဟု ကုဒ်နံပါတ်တပ်ထားသည်)။ ဆန့်ကျင်ဘက်အားဖြင့်၊ Kakade နှင့် Dayan [7] သည် ဆန်းသစ်သောတုံ့ပြန်မှုများနှင့် အာရုံကြောဇီဝကမ္မဗေဒဆိုင်ရာ အချက်အလက်များတွင် အလားတူထင်ရှားနေသော်လည်း မရှိမဖြစ်လိုအပ်သော တုံ့ပြန်မှုများသည် ကွဲပြားသည်ဟု အကြံပြုထားသည်။

လက်ရှိ simulation ရလဒ်များ၏ တတိယမြောက် အကျိုးဆက်မှာ Kakade နှင့် Dayan [7] မှ အဆိုပြုထားသော အသစ်အဆန်းနှင့် ပုံသွင်းခြင်းဆိုင်ရာ ဆုကြေးငွေများ မလိုအပ်ကြောင်း ပြသခြင်းဖြစ်ပါသည်။ ယင်းအစား၊ အသစ်အဆန်းကဲ့သို့ တုံ့ပြန်မှုများသည် လက်တွေ့ကျသော ခံယူချက်ဆိုင်ရာ လုပ်ဆောင်ခြင်းဆိုင်ရာ ကန့်သတ်ချက်များနှင့် အနုတ်လက္ခဏာရလဒ်များကို ရှောင်ရှားနိုင်သည့် အသိပညာများမှ ထွက်ပေါ်လာနိုင်သည်။ Kakade နှင့် Dayan မှထောက်ပြထားသည့်အတိုင်း၊ အသစ်အဆန်းဘောနပ်စ်များသည် အေးဂျင့်တစ်ဦးသင်ယူသည့်တန်ဖိုးလုပ်ဆောင်ချက်ကို ကမောက်ကမဖြစ်စေပြီး ဘောနပ်စ်ပုံသဏ္ဍာန်များသည် အေးဂျင့်များ၏ပြည်နယ်နေရာများကိုရှာဖွေသည့်နည်းလမ်းအပေါ် သက်ရောက်မှုရှိသောကြောင့် ကံကောင်းပါသည်။ ဤယူဆချက်နှစ်ခုစလုံးတွင် ပါဝင်ခြင်းကြောင့် RL သီအိုရီအပေါ် အခြေခံထားသော မော်ဒယ်များ၏ parsimony ကို လျော့နည်းစေသည်။ စိတ်ဝင်စားစရာကောင်းသည်မှာ၊ ဤနေရာတွင်တင်ပြထားသောရလဒ်များသည် ဇီဝအသစ်အဆန်းတုံ့ပြန်မှုသည် လက်တွေ့သက်ရှိများတွင်ဆုချခြင်းအခြေခံလေ့လာသင်ယူမှုကို အနှောင့်အယှက်မဖြစ်နိုင်သည့်အကြောင်းရင်းကိုလည်း ရှင်းပြပေးသည်- အသစ်အဆန်းတုံ့ပြန်မှုကို RL မှခန့်မှန်းထားပြီးဖြစ်သည်။ ဆိုလိုသည်မှာ၊ အသစ်အဆန်း တုံ့ပြန်မှုသည် ၎င်း၏ပတ်ဝန်းကျင်နှင့် ပတ်သက်၍ တစ်စုံတစ်ရာ သိရှိထားပြီးဖြစ်သော အေးဂျင့်တစ်ခုတွင် မွေးရာပါရှိသည့် အပြုအမူများနှင့် ဆုကြေးခန့်မှန်းချက်များကို ထင်ဟပ်စေသည်။

လက်ရှိ simulation ရလဒ်များ၏ အခြားရွေးချယ်စရာ (သို့သော် သီးသန့်မဟုတ်) အဓိပ္ပာယ်ဖွင့်ဆိုချက်မှာ အရာဝတ္ထုများဆီသို့ ဦးတည်ပြီး ခွဲခြားသတ်မှတ်ခြင်းဖြင့် အေးဂျင့်များရရှိသည့် စိတ္တဇ (ဖြစ်ကောင်းဖြစ်နိုင်သည်) ဆုလာဘ်တစ်ခုဖြစ်သည်။ dopaminergic လှုပ်ရှားမှု၏လေ့လာမှုများတွင်၊ အပြုသဘောဆောင်သော phasic တုံ့ပြန်မှုများသည်ဆုတစ်ခုခန့်မှန်းရန်လူသိများသောမမျှော်လင့်ထားသောအချက်များအတွက်ဖြစ်ပေါ်နိုင်သည်။ သို့သော် ဤပုံတူကူးဥ်သည် အဆုံးစွန်သောဆု သို့မဟုတ် ပြစ်ဒဏ်ကို ခန့်မှန်းနိုင်သည့် သင်္ကေတကို တုံ့ပြန်ရာတွင် ဤတုံ့ပြန်မှုမျိုးများ မည်သို့ဖြစ်ပေါ်လာနိုင်သည်ကို သရုပ်ပြသည်။ အရာဝတ္တု၏ အထောက်အထားကို အေဂျင့်က ဆုံးဖြတ်သောအခါ ရရှိသော တစ်ခုတည်းသော အကျိုးအမြတ်မှာ ကိန်းဂဏာန်းတစ်ခုဖြစ်သည်။ ထို့ကြောင့် အမည်မသိအရာဝတ္ထုပေါ်လာသည့်အခါ မှန်ကန်သော၊ သင်ယူသိရှိထားသော "ဆုလာဘ်ခန့်မှန်းချက်" ရှိပါက၊ လှုံ့ဆော်မှုအား ချဉ်းကပ်ခြင်း သို့မဟုတ် ရှောင်ရှားခြင်းဆိုင်ရာ အသိပညာကို အေးဂျင့်က ရရှိပြီးနောက် ၎င်းသည် ကျေနပ်မှုတစ်ခုဖြစ်သည်။ ဤအချက်အလက်၏တန်ဖိုးသည် ရရှိနိုင်သောရလဒ်များ၏ ပျမ်းမျှအပေါ်တွင်မမူတည်ဘဲ ထိရောက်သောရလဒ်များ၏အသိပညာအပေါ်အခြေခံသည်- အေးဂျင့်သည် အပြုသဘောဆောင်သောဆုလာဘ်ကိုစားသုံးနိုင်သည် သို့မဟုတ် အနုတ်လက္ခဏာဆုလာဘ်ကိုရှောင်ရှားနိုင်သည် (ပုံ 2 ကိုကြည့်ပါ)။

နောက်ဆုံးတွင်၊ သီးခြားလုပ်ဆောင်မှုများလုပ်ဆောင်ရန် အခွင့်အလမ်းများ (ဥပမာ-ဦးတည်ရန်) ဤ simulation တွင်မပါဝင်သော ယေဘုယျလုပ်ဆောင်မှု သို့မဟုတ် သင်ယူမှုယန္တရားအချို့မှတစ်ဆင့် ဆုချီးမြင့်သည့်ဂုဏ်သတ္တိများကို ၎င်းတို့ကိုယ်တိုင် ရယူနိုင်ကြောင်း သတိပြုရန်အရေးကြီးပါသည်။ ဥပမာအားဖြင့်၊ လှုံ့ဆော်မှုအသစ်များပေါ်လာသောအခါတွင်၊ ထိုလုပ်ဆောင်ချက်နှင့် အထက်ဖော်ပြပါ ပေါ်ပေါက်လာသော၊ အမြဲတမ်းအပြုသဘောဆောင်သော ဆုလာဘ်ခန့်မှန်းမှု အမှားအယွင်းများ ပေါ်လာသောအခါတွင် ဥပမာအားဖြင့်၊ "ထို့ပြင်ရှိသောအရာ" ကို ဦးတည်ပြီး ဆုံးဖြတ်ခြင်းသည် သက်ရှိများအတွက် ဆုလာဘ်ဖြစ်လာနိုင်သည်။ အလားတူ စိတ်ကူးကို Redgrave နှင့် Gurney [13] က phasic dopamine တုံ့ပြန်မှု၏ အရေးကြီးသော ရည်ရွယ်ချက်မှာ မခန့်မှန်းနိုင်သော ထူးထူးခြားခြား အဖြစ်အပျက်များ မတိုင်မီ ဖြစ်ပေါ်လာသည့် လုပ်ဆောင်ချက်များကို အားဖြည့်ပေးရန် ဖြစ်သည်ဟု ယူဆပါသည်။ ဤတွင်ရှိသောရလဒ်များသည် အဆိုပါယူဆချက်နှင့်မကိုက်ညီသော်လည်း Redgrave နှင့် Gurney ၏ယူဆချက်သည် ဤ simulation တွင် တိုက်ရိုက်စမ်းသပ်ခြင်းမဟုတ်ကြောင်း သတိပြုသင့်သည်မှာ ထင်ရှားသောဖြစ်ရပ် (အရာဝတ္ထု၏ပုံပန်းသဏ္ဌာန်) ဖြစ်ပေါ်လာရန်အတွက် agent မှ မည်သည့်လုပ်ဆောင်မှုမျှ (ဆိုလိုသည်မှာ စူးစမ်းလေ့လာခြင်း) မလိုအပ်သောကြောင့်ဖြစ်သည်။ သို့သော်လည်း၊ အသွင်တူ phasic signal သည် နှစ်ခုစလုံးသည် ပြင်းထန်စွာ ဆက်စပ်နေနိုင်သည်ဟု ညွှန်ပြနေသည့် ဦးတည်တုံ့ပြန်မှုအချိန်နှင့် တိုက်ဆိုင်နေသည်။

နိဂုံးချုပ်အနေဖြင့်၊ ဤဆောင်းပါးသည် dopaminergic neurons ၏ ဆုလာဘ်မဟုတ်ဟုထင်ရသော လုပ်ဆောင်ချက်အမျိုးအစားကို ရှင်းပြရန် RL စည်းမျဉ်းများကို အသုံးပြုနိုင်ကြောင်း သရုပ်ပြထားသည်။ ဤရလဒ်သည် ( Kakade နှင့် Dayan [7] မှအသုံးပြုသော ယာယီကွာခြားမှု သင်ယူမှုစည်းမျဉ်း (ဥပမာ Kakade နှင့် Dayan [XNUMX]) ကို အေးဂျင့်က နောက်ဆုံးရလဒ်အပေါ် အကျိုးသက်ရောက်သည့် လုပ်ဆောင်ချက်များကို ရွေးချယ်နိုင်သည့် သရုပ်ဖော်မှုတစ်ခုတွင် မြှုပ်နှံထားသည့်အချက်မှ ထွက်ပေါ်လာခြင်းဖြစ်သည်။ အပျက်သဘောဆောင်သည့်ရလဒ်ကို ရှောင်ရှားနိုင်သောကြောင့် ရုတ်တရက်ပေါ်လာသည့်အရာဝတ္ထုဆီသို့ ဦးတည်ခြင်း၏ရလဒ်သည် အမြဲတမ်းအကျိုးရှိနိုင်သည် သို့မဟုတ် ကြားနေဖြစ်နိုင်ကြောင်း သရုပ်ဖော်မှုတွင် အေးဂျင့်မှလေ့လာသိရှိခဲ့သည်။ ထို့ကြောင့် အေးဂျင့်ထံ ဦးတည်ရန် အခွင့်အရေးရသောအခါ၊ ၎င်း၏ ဆုလာဘ်-ဟောကိန်းထုတ်မှု အမှားသည် အမြဲတမ်း အပြုသဘောဆောင်ပြီး ဇီဝသက်ရှိများတွင် တွေ့ရှိရသည့် အသစ်အဆန်းနှင့် ဆားရည်တုံ့ပြန်မှုများနှင့် တွက်ချက်ပုံတူသည်။

ကျေးဇူးတင်လွှာ

ဤဆောင်းပါးတွင်ဖော်ပြထားသောအလုပ်အား NIH R01 HD053639 နှင့် NSF Training Grant DGE-9987588 မှပံ့ပိုးထားပါသည်။ ဤဆောင်းပါး၏ အစောပိုင်းဗားရှင်းအတွက် အထောက်အကူဖြစ်စေသော မှတ်ချက်များအတွက် Erik Reichle၊ Tessa Warren နှင့် အမည်မဖော်လိုသူ သုံးသပ်သူအား ကျေးဇူးတင်ပါသည်။

1Trajectory Sampling [17] ဟုခေါ်သော အခြားသော အားဖြည့်သင်ယူမှု အယ်လဂိုရီသမ်ကို နိုင်ငံတော်နေရာလပ်သည် အလွန်ကြီးမားလာသောအခါ ၎င်းကို ကွန်ပြူတာ၏ မမ်မိုရီတွင် လုံးလုံးလျားလျား သိမ်းထားနိုင်ခြင်း သို့မဟုတ် လွယ်ကူစွာ သိမ်းဆည်းခြင်းမပြုဘဲ Value Iteration အစား မကြာခဏ အသုံးပြုပါသည်။ State space ရှိ ပြည်နယ်တိုင်းကို ထပ်တလဲလဲ လုပ်ပြီး ဆုအများဆုံးရနိုင်သော လုပ်ဆောင်ချက်များအပေါ် အခြေခံ၍ တန်ဖိုးလုပ်ဆောင်ချက် မွမ်းမံမှုညီမျှခြင်းကို ကျင့်သုံးမည့်အစား Trajectory Sampling သည် state space မှတဆင့် လမ်းကြောင်းများကို လိုက်ခြင်းဖြင့် အလုပ်လုပ်ပါသည်။ Value Iteration ကဲ့သို့ပင်၊ ဆုအများဆုံးရရှိစေမည့် လုပ်ဆောင်ချက်များကို များသောအားဖြင့် ပြည်နယ်တစ်ခုစီမှ ရွေးချယ်လေ့ရှိသော်လည်း တစ်ခါတစ်ရံတွင် ကျပန်းရှာဖွေရေးလုပ်ဆောင်ချက်ကို ဖြစ်နိုင်ခြေအနည်းငယ်ဖြင့် ရွေးချယ်ပါသည်။ ထို့ကြောင့် အယ်လဂိုရီသမ်သည်- အချို့သော စတင်သည့်အခြေအနေမှ ε ဖြစ်နိုင်ခြေရှိသော ဆုလာဘ်အများဆုံးဆီသို့ ဦးတည်သည့် လုပ်ဆောင်ချက်တစ်ခုကို ရွေးပါ သို့မဟုတ် ဖြစ်နိုင်ခြေ 1 − ε ကို ရွေးချယ်ပါ။ V(s) → V(s) + α[reward + γV(s′) − V(s)] ကို ပြည်နယ် s မှ စူးစမ်းလေ့လာခြင်းမဟုတ်သည့် လုပ်ဆောင်ချက်များတွင် အသုံးပြုပါ။

တွက်ချက်မှုဆိုင်ရာ အချိန်နှင့် မှတ်ဉာဏ်၏ နည်းပညာဆိုင်ရာ ကန့်သတ်ချက်များကို ကျော်လွှားနိုင်သည့်အပြင်၊ Trajectory Sampling သည် စစ်မှန်သော ဇီဝသက်ရှိများ သင်ယူသည့်ပုံစံကို ပိုမိုကောင်းမွန်စွာ ထင်ဟပ်စေသောကြောင့် နှစ်သက်ဖွယ်ဖြစ်နိုင်သည်- နိုင်ငံတော်အာကာသအတွင်း လမ်းကြောင်းများကို စူးစမ်းလေ့လာခြင်းဖြင့်၊ ဤစာတမ်းတွင်ဖော်ပြထားသောလုပ်ငန်းတာဝန်တွင်၊ Trajectory Sampling သည် Value Iteration ဖြင့်ရရှိသောရလဒ်များနှင့် အရည်အသွေးတူညီသောရလဒ်များကိုထုတ်ပေးသည်။ သို့သော် အတိုချုံးပြောရလျှင် ထိုရလဒ်များကို ဤနေရာတွင် အသေးစိတ်ဖော်ပြခြင်း မရှိပါ။ ဤစာတမ်းပါ သရုပ်ဖော်ခြင်းအတွက် အဓိကအကြောင်းရင်းနှစ်ခုအတွက် Value Iteration ကို ရွေးချယ်ထားသည်။ ပထမဦးစွာ၊ Trajectory Sampling သည် လမ်းကြောင်းရွေးချယ်ရာတွင် stochasticity ပါ၀င်သောကြောင့်၊ ဤလုပ်ငန်းတွင် ဖြစ်နိုင်ချေရှိသော လုပ်ဆောင်ချက်များစွာကြောင့်ဖြစ်သော အကိုင်းအခက်များ ပမာဏအများအပြားသည် စူးစမ်းရှာဖွေမှုဆိုင်ရာ ကန့်သတ်ဘောင် (ဆိုလိုသည်မှာ ε-လောဘ [17]) ကို ဂရုတစိုက်ရွေးချယ်ထားခြင်းမရှိပါက အချို့သောပြည်နယ်များနှင့် အတွေ့အကြုံကင်းမဲ့သော အေးဂျင့်များဖြစ်ပေါ်စေနိုင်သည်။ ရှာဖွေမှုဇယားမှတ်ဉာဏ်ဖွဲ့စည်းပုံကို အသုံးပြုသောအခါတွင် သီးခြားပြည်နယ်များနှင့် အတွေ့အကြုံမရှိခြင်းမှာ အလားတူ (သို့သော် လည်ပတ်ခွင့်မရှိသော) ပြည်နယ်များကို တန်ဖိုး၏ ယေဘုယျသတ်မှတ်မှု မရှိခြင်းကြောင့် ဖြစ်သည်။ ထို့ကြောင့် Value Iteration ဖြင့် အာမခံထားသော နိုင်ငံပိုင် နေရာကို အပြည့်အ၀ ရှာဖွေခြင်း၏ အခွင့်ကောင်းကို အသုံးချရန် လိုလားပါသည်။ ဒုတိယ၊ Value Iteration ကိုအသုံးပြုခြင်းသည် အဆိုပါ ထပ်လောင်းရှာဖွေရေး-အသုံးချခြင်းဆိုင်ရာ ကန့်သတ်ဘောင်ကို သတ်မှတ်ရန် လိုအပ်မှုကို ပျက်ပြယ်စေကာ၊ ထို့ကြောင့် သရုပ်ပြမှုကို ရိုးရှင်းစေသည်။ Trajectory Sampling သည် လမ်းကြောင်းများ အဆုံးမရှိ [17] ချဉ်းကပ်လာသည်နှင့်အမျှ အဆုံးစွန်သော အနီးစပ်ဆုံး Value Iteration လုပ်နိုင်သည်ကို သတိပြုပါ။

2The 21,120 states အရေအတွက်ကို အောက်ပါအတိုင်း တွက်ချက်နိုင်သည်- ဖြစ်နိုင်ချေရှိသော အေးဂျင့်တည်နေရာ 11 ခု × ဖြစ်နိုင်ချေရှိသော အေးဂျင့် ဦးတည်ချက် 4 ခု × (အရာဝတ္တုတစ်ခု မပေါ်မီအချိန် 10 လှမ်း + အရာဝတ္ထုမပေါ်မီ အချိန်အဆင့် 10 ခု + အေးဂျင့်အား အပြုသဘောဖြင့် အားဖြည့်ထားသည့် အချိန် 10 ဆင့် + အရာဝတ္တုအား အပျက်သဘောအားဖြည့်ထားသည့် ဖြစ်နိုင်သည့် အချိန်အဆင့် 10 ကြိမ် + 11 အဆင့် ဖော်ထုတ်ထားသော အရာဝတ္ထု + အနုတ်လက္ခဏာ ဖော်ထုတ်ထားသော အရာတစ်ခုပါသည့် အချိန်အဆင့် ၁၀ ခု + အမည်မသိ အပြုသဘောဆောင်သည့် အရာတစ်ခုပါသည့် အချိန်အဆင့် ၁၀ ခု + အမည်မသိ အပျက်သဘောဆောင်သည့် အရာတစ်ခုနှင့် အချိန်အဆင့် ၁၀ ခု))]။

3 ဤ "ဝှက်ထားသော" ပြည်နယ်များတည်ရှိမှုကို Value Iteration သည် state space ရှိ ပြည်နယ်တစ်ခုစီမှ "ခြေတစ်လှမ်းရှေ့သို့" သာရှိသောကြောင့် လေ့ကျင့်နေစဉ်အတွင်း ထည့်သွင်းစဉ်းစားရပါမည်။ အနုတ်လက္ခဏာနှင့် အပြုသဘောမဆောင်သော အမျိုးအမည်မသိသော အရာဝတ္ထုများပါသည့် ပြည်နယ်များသည် ထိရောက်စွာ ထပ်တူထပ်မျှဖြစ်ကြောင်းအချက်က အပြုသဘော သို့မဟုတ် အနုတ်အရာဝတ္ထုကို ခွဲခြားသိမြင်နိုင်သည့် မတူညီသော နောက်ဆက်တွဲအခြေအနေနှစ်ခုရှိ တန်ဖိုးများကို လေ့လာခြင်းနှင့် ပျမ်းမျှတန်ဖိုးများကို သင်ယူခြင်းမှ တားဆီးနိုင်မည်ဖြစ်သည်။ အခြားတစ်ဖက်တွင် Trajectory Sampling ချဉ်းကပ်မှုတစ်ခုသည် စမ်းသပ်မှုတစ်လျှောက်လုံးတွင် လျှို့ဝှက်ပြည်နယ်အချက်အလက် (ဆိုလိုသည်မှာ အမည်မသိလှုံ့ဆော်မှု၏အထောက်အထား) ကို ထိန်းသိမ်းထားပြီး RL ၏မူကွဲပုံစံဖြင့် လျှို့ဝှက်ပြည်နယ်များသည် စိုးရိမ်စရာမရှိပါ။

4 လက်ရှိအလုပ်အတွက် ဖြစ်နိုင်ချေရှိသော ကန့်ကွက်ချက်တစ်ခုမှာ နို့တိုက်သတ္တဝါတို့၏ ဦးနှောက်တွင် ပြင်းထန်သော ကြိုးတပ်ထားပုံပေါ်သည်၊ ဥပမာ၊ သာလွန်သောကော်လီကူလပ်စ် [3,14] မှ ခန့်မှန်းချက်များအရဖြစ်သည်။ လက်ရှိ သရုပ်ဖော်မှုတွင်၊ အေးဂျင့်များသည် အရာဝတ္ထုများဆီသို့ ဦးတည်ရန် ခက်ခက်ခဲခဲ ကြိုးတပ်ထားခြင်းမျိုးမဟုတ်ဘဲ လုပ်ဆောင်ချက်တစ်ခု၏ နောက်ဆုံးရွေးချယ်မှု (ဥပမာ - ချဉ်းကပ်မှု သို့မဟုတ် ရှောင်ရှားခြင်း) ကို ခွင့်ပြုနိုင်သည့် ဦးတည်ချက်အပြုအမူကို သင်ယူခဲ့သည်။ ကြိုးမဲ့ တုံ့ပြန်မှုများနှင့် အလားတူပင်၊ အရာဝတ္ထုများကို မဖော်ထုတ်မီတွင် ဤဦးတည်သည့် အပြုအမူများသည် အလွန်လျင်မြန်စွာ ဖြစ်ပေါ်ခဲ့ပြီး အရာဝတ္ထုအားလုံးဆီသို့ ဦးတည်သွားခဲ့သည်။ ဤလုပ်ငန်း၏ ရည်ရွယ်ချက်မှာ ထိုသို့သော တုံ့ပြန်မှုများအားလုံးကို သိရှိနားလည်စေရန် မဟုတ်ဘဲ RL မူဘောင်အတွင်း အတူတကွ တည်ရှိနိုင်စေရန် ဖြစ်သည်ဟု ဆိုသည်။ မည်သို့ပင်ဆိုစေကာမူ၊ ဤ phasic dopamine တုံ့ပြန်မှုကို ထုတ်ပေးရန်အတွက် ဦးနှောက်ပင်စည်ဧရိယာများတွင် ချိတ်ဆက်မှုကို သတ်မှတ်ရာတွင် ဆုပေးသည့်ဆက်စပ်ယန္တရားများ ပါ၀င်မှုရှိမရှိ စုံစမ်းစစ်ဆေးရန် စိတ်ဝင်စားဖွယ်ကောင်းပါသည်။

ဒါကထုတ်ဝေမှုအတွက်လက်ခံလိုက်ပါသည်တစ်ခုတည်းဖြတ်ခြင်းမရှိဘဲလက်ရေးမူများမှာတွေ့နိုင်ပါတယ်တဲ့ PDF ဖိုင်ဖြစ်ပါသည်။ ကျွန်တော်တို့ရဲ့ဖောက်သည်ဝန်ဆောင်မှုအဖြစ်ကျနော်တို့ကလက်ရေးမူများမှာတွေ့နိုင်ပါတယ်၏ဤအစောပိုင်းဗားရှင်းပေးနေကြသည်။ ဒါကြောင့်သူ့ရဲ့နောက်ဆုံး citable form မှာထုတ်ဝေမီလက်ရေးမူများမှာတွေ့နိုင်ပါတယ် copyediting, လုပ်ခြင်း, စာစီ, နှင့်ရရှိလာတဲ့သက်သေ၏သုံးသပ်ချက်ကိုခံယူပါလိမ့်မယ်။ ထုတ်လုပ်မှုလုပ်ငန်းစဉ်အတွင်းအမှားအယွင်းများအကြောင်းအရာကိုထိခိုက်နိုင်သည့်ရှာဖွေတွေ့ရှိစေခြင်းငှါ, ထိုဂျာနယ်လျှောက်ထားသောသူအပေါင်းတို့သည်ဥပဒေရေးရာအကြောင်းသတိပြုစရာများစပ်ဆိုင်သောအကြောင်းသတိပြုပါ။

ကိုးကား

1. ပုတ်ခတ် LC ။ ကျန်ရှိသော အယ်ဂိုရီသမ်များ- လုပ်ဆောင်ချက် အနီးစပ်ဆုံး သင်ယူမှု။ Priedetis A၊ Russell S၊ တည်းဖြတ်သူများ။ စက်သင်ယူခြင်း- ဒွါဒသမနှစ် နိုင်ငံတကာညီလာခံ၏ လုပ်ငန်းစဉ်များ၊ ၉-၁၂ ဇူလိုင် ၁၉၉၅။

2. Bunzeck N၊ Düzel E. လူ့အနှစ်သာရ nigra/VTA တွင် လှုံ့ဆော်မှုအသစ်အဆန်းများ၏ အကြွင်းမဲ့ကုဒ်ရေးခြင်း။ နျူရွန်။ 2006;51(3):369–379။ [PubMed]

3. Dommett E, Coizet V, Blaha CD, Martindale J, Lefebvre V, Walton N, Mayhew JEW, Overton PG, Redgrave P. အမြင်အာရုံလှုံ့ဆော်မှု သည် dopaminergic အာရုံကြောများကို တိုတောင်းသည့်အချိန်၌ နိုးကြားနေအောင် လှုံ့ဆော်ပေးသည်။ သိပ္ပံ။ 2005;307(5714):1476–1479။ [PubMed]

4. Doya K. Metalearning နှင့် neuromodulation ။ အာရုံကြောကွန်ရက်များ။ 2002 ဇွန်-ဇူလိုင်; 15(4-6): 495-506။ [PubMed]

5. Gillies A, Arbuthnott G. basal ganglia ၏ တွက်ချက်မှုပုံစံများ။ လှုပ်ရှားမှုပုံမမှန်ခြင်း။ 2000;15(5):762–770။ [PubMed]

6. Horvitz JC။ ဆုလာဘ်မဟုတ်သောဖြစ်ရပ်များအတွက် Mesolimbocortical နှင့် nigrostriatal dopamine တုံ့ပြန်မှုများ။ အာရုံကြောသိပ္ပံ။ 2000;96(4):651-656။ [PubMed]

7. Kakade S၊ Dayan P. Dopamine - ယေဘုယျ နှင့် ဘောနပ်စ်များ။ အာရုံကြောကွန်ရက်များ။ 2002;15(4–6):549–559။ [PubMed]

8. Knutson B၊ Cooper JC။ မသိသူ၏ မြှူဆွယ်မှု။ နျူရွန်။ 2006;51(3):280–282။ [PubMed]

9. Logothetis NK, Pauls J, Augath M, Trinath T, Oeltermann A. အာရုံကြောဇီဝကမ္မဆိုင်ရာစုံစမ်းစစ်ဆေးမှု fMRI အချက်ပြမှု၏အခြေခံ။ သဘာဝတရား။ 2001;412(6843):150-157။ [PubMed]

10. McClure SM၊ Berns GS၊ Montague PR။ passive သင်ယူခြင်းလုပ်ငန်းတစ်ခုရှိ ယာယီကြိုတင်ခန့်မှန်းမှုအမှားများသည် human striatum ကိုအသက်သွင်းသည်။ နျူရွန်။ ၂၀၀၃;၃၈(၂):၃၃၉-၃၄၆။ [PubMed]

11. Niv Y၊ Duff MO၊ Dayan P. Dopamine၊ မသေချာမှုနှင့် TD သင်ယူမှု။ အပြုအမူနှင့် ဦးနှောက်လုပ်ဆောင်ချက်များ။ ၂၀၀၅ မေ ၄; ၁:၆။ [PMC အခမဲ့ဆောင်းပါး] [PubMed]

12. O'Doherty JP၊ Dayan P၊ Friston K၊ Critchley H၊ Dolan RJ။ လူ့ဦးနှောက်ရှိ ယာယီခြားနားမှုပုံစံများနှင့် ဆုလာဘ်ဆိုင်ရာ သင်ယူမှု။ နျူရွန်။ 2003;38(2):329–337။ [PubMed]

13. Redgrave P, Gurney K. တိုတောင်းသော latency dopamine အချက်ပြမှု- ဆန်းသစ်သောလုပ်ဆောင်ချက်များကို ရှာဖွေတွေ့ရှိခြင်း၏ အခန်းကဏ္ဍ။ Nature Reviews အာရုံကြောသိပ္ပံ။ ၂၀၀၆ ဒီဇင်ဘာ၊ ၇(၁၂):၉၆၇-၉၇၅။

14. Redgrave P, Prescott TJ, Gurney K. တိုတောင်းသော latency dopamine တုံ့ပြန်မှုသည် ဆုလာဘ်အမှားကို အချက်ပြရန် တိုလွန်းပါသလား။ အာရုံကြောသိပ္ပံဆိုင်ရာ လမ်းကြောင်းများ။ ၁၉၉၉ ဧပြီလ၊ ၂၂(၄):၁၄၆-၁၅၁။ [PubMed]

15. Reichle ED၊ Laurent PA။ စာဖတ်နေစဉ်တွင် “ဉာဏ်ရည်ထက်မြက်သော” မျက်လုံးလှုပ်ရှားမှုအမူအကျင့်များ ပေါ်ပေါက်လာမှုကို နားလည်ရန် အားဖြည့်သင်ယူမှုကို အသုံးပြုခြင်း။ စိတ်ပိုင်းဆိုင်ရာ သုံးသပ်ချက်။ 2006;113(2):390–408။ [PubMed]

16. Schultz W. ဒိုပါမင်း အာရုံကြောများ၏ ကြိုတင်ခန့်မှန်းနိုင်သော ဆုလာဘ်အချက်ပြမှု။ Neurophysiology ဂျာနယ်။ ၁၉၉၈၊ ၈၀(၁):၁-၂၇။ [PubMed]

17. Sutton RS, Barto AG. အားဖြည့်သင်ယူခြင်း- နိဒါန်းတစ်ခု။ MIT စာနယ်ဇင်း; Cambridge- 1998။

18. Tanaka SC၊ Doya K၊ Okada G၊ Ueda K၊ Okamoto Y၊ Yamawaki S. လက်ငင်းနှင့် အနာဂတ်ဆုလာဘ်များ၏ ခန့်မှန်းချက်သည် cortico-basal ganglia ကွင်းများကို စုဆောင်းပေးသည်။ သဘာဝအာရုံကြောသိပ္ပံ။ ၂၀၀၄;၇(၈):၈၈၇-၈၉၃။