စစ်ကူသင်ယူအခြေခံမူထံမှ Saliency နှင့်လက်ဆောင်ပစ္စည်းအသစ်အဆန်းတုံ့ပြန်ချက်၏အရေးပေါ် (2008)

မှတ်ချက်များ - အသစ်အဆန်းကိုပြသသည့်နောက်ထပ်လေ့လာမှုတစ်ခုသည်၎င်းသည်ကိုယ်ပိုင်ဆုဖြစ်သည်။ အင်တာနက်ညစ်ညမ်းမှု၏စွဲလမ်းစေသောအရာများထဲမှတစ်ခုမှာအဆုံးမဲ့အသစ်အဆန်းနှင့်အမျိုးမျိုး၊ မြင်ကွင်းတစ်ခုမှနောက်တစ်ခုသို့လျင်မြန်စွာနှိပ်ခြင်းနှင့်မှန်ကန်သောရုပ်ပုံ / ဗွီဒီယိုကိုရှာဖွေခြင်းဖြစ်သည်။ ဤအရာအလုံးစုံ dopamine တိုးမြှင့်။ ဒါကအင်တာနက်ညစ်ညမ်းမှုကိုမဂ္ဂဇင်းတွေ (သို့) ငှားရမ်းထားတဲ့ဒီဗီဒီတွေနဲ့ကွဲပြားခြားနားစေတယ်။

အပြည့်အဝလေ့လာမှု: စစ်ကူသင်ယူအခြေခံမူထံမှ Saliency နှင့်လက်ဆောင်ပစ္စည်းအသစ်အဆန်းတုံ့ပြန်ချက်၏အရေးပေါ်

အာရုံကြော Netw ။ 2008 ဒီဇင်ဘာလ; 21 (10): 1493-1499 ။

2008 စက်တင်ဘာလ 25 အွန်လိုင်းထုတ်ဝေသည်။ Doi: 10.1016 / j.neunet.2008.09.004

Patryk အေ Laurent, ရှိကြောင်း Pittsburgh တက္ကသိုလ်မှ;

Patryk Laurent, ရှိကြောင်း Pittsburgh တက္ကသိုလ်မှ 623 LRDC, 3939 O'Hara စိန့်, Pittsburgh, PA ဆိုပြီး 15260 အမေရိကန်, E-mail ကို: အားလုံးကိုစာပေးစာယူနေရပ်လိပ်စာ: [အီးမေးလ်ကိုကာကွယ်ထားသည်], ရုံး: (412) 624-3191, ဖက်စ်: (412) 624-9149

ြဒပ်မဲ့သော

စစ်ကူသင်ယူတူသောဆုလာဘ်-based သင်ယူမှုမော်ဒယ်များ map မှမကြာသေးမှီကကြိုးစားမှု [17] ဦးနှောက်မှ phasic တိုးနှင့် dopamine-releasing အာရုံခံ၏ Spike အတွက်လျော့ကျခန့်မှန်းခြင်းနှင့်ဆုလာဘ် [16,5] လက်ခံရရှိသောအကြားကွဲပြားခြားနားမှုအချက်ပြသောလေ့လာရေးအပေါ်အခြေခံထားတယ်။ သို့သော်ဤဆုလာဘ်-ခန့်မှန်းအမှားကြောင့် phasic လှုပ်ရှားမှုအားဖြင့်ဆက်သွယ်အများအပြားအချက်ပြမှုများ၏တစ်ဦးတည်းသာရှိ၏ အခြားတစ်ဦးသက်ရှိနောက်ပိုင်းတွင်အဆိုပါလှုံ့ဆော်မှု [4,6,13] ဆီသို့ဦးတည်အနေအထားအထူးသဖြင့်အခါ, [16] အဓိကပေမယ့်ခန့်မှန်းရခက်သည် non-ဆုလာဘ်လှုံ့ဆော်မှု၏အသွင်အပြင်ကိုထင်ဟပ်, dopaminergic Spike တစ်ခုတိုးပါဝငျသညျ။ ဤအတွေ့ရှိချက်ကိုရှင်းပြရန်, Kakade နှင့်ဒါယန်း [7] နှင့်အခြားသူများကြောင်းဝတ္ထု posited ကြမျှော်လင့်မထားတဲ့လှုံ့ဆော်မှုပင်ကိုစရိုက်ကအကြိုးရှိပါတယ်။ ဤဆောင်းပါး၌ဖော်ပြခဲ့သည်အဆိုပါခြင်း simulation ကဖမ်းဆီးဖို့ရည်ရွယ်အကျိုးသက်ရောက်မှုစစ်ကူသင်ယူ၏အကျိုးကို-ခန့်မှန်းသင်ယူမှုယန္တရားများကနေပေါ်ထွက်လာဘာဖြစ်လို့လဲဆိုတော့ဒီယူဆချက်မလိုအပ်ကြောင်းပြသသည်။ ထို့ကြောင့်စစ်ကူသင်ယူအခြေခံမူရုံ Basal ganglia ၏ dopaminergic အာရုံခံ၏လှုပ်ရှားမှု-ဆက်စပ်ဆုချ, ဒါပေမယ့်လည်းသူတို့ရဲ့ပုံမဟုတ်သောဆုလာဘ်-related လှုပ်ရှားမှုအချို့ကိုမဟုတ်နားလည်ရန်အသုံးပြုနိုင်ပါသည်။

အားဖြည့်သင်ယူ (RL) ကဦးနှောက်အတွင်းရှိဆုလာဘ်-based သင်ယူမှု၏ကွန်ပျူတာမော်ဒယ်များ၏ဖွံ့ဖြိုးတိုးတက်မှုအတွက်ပိုမိုအရေးကြီးသောဖြစ်လာနေသည်။ RL ဘယ်လိုတစ်ခုအတု "အေးဂျင့်" ကိုသတ်မှတ်ပါတယ်ကွန်ပျူတာ algorithms တစ်လူတန်းစားဖြစ်ပါတယ် (ဥပမာ, တစ်ဦးကိုမှန်ကန်သို့မဟုတ် simulated စက်ရုပ်) စုစုပေါင်းမျှော်မှန်းဆုလာဘ် [17] တိုးမြှင့်နိုင်ရန်အတွက်လုပ်ရပ်တွေကိုရွေးဖို့သင်ယူနိုင်ပါတယ်။ ဤအ algorithms ခုနှစ်တွင်တစ်ဦးအေးဂျင့်ကအမျိုးမျိုးသောပြည်နယ်များ (ဥပမာ, တစ်ဦးလှုံ့ဆော်မှုနှင့်အတူဆက်စပ်သိမှုဆိုင်ရာအာရုံတွေကို) နဲ့ပေါင်းသင်းသိတော့ကြောင်းတန်ဖိုးများအပေါ်လုပ်ရပ်များ bases ။ ဤရွေ့ကားတန်ဖိုးများကိုတဖြည်းဖြည်းအေးဂျင့်ရဲ့ပြည်နယ်တို့အတွက်တည်ဆဲဆုလာဘ်ခန့်မှန်းခဲ့ပြီးနောက်ပိုင်းတွင်ပတ်ဝန်းကျင်ကနေရယူကြောင်းအမှန်တကယ်ဆုလာဘ်အကြားကွာခြားချက်ပေါ်တွင် အခြေခံ. ပြည်နယ်တန်ဖိုးများကိုညှိပေးသောယာယီ-ခြားနားချက်သင်ယူမှု, မှတဆင့်သင်ယူနိုင်ပါသည်။ ဒီကွန်ပျူတာမှာခြားနားချက်, ဆုလာဘ်-ခန့်မှန်းအမှားချေါ non-လူ့မျောက်ဝံများ [16] အတွက် substantia nigra ကနေထုတ်လုပ်တဲ့ dopamine-releasing အာရုံခံ၏ phasic လှုပ်ရှားမှုနှင့်အတူအလွန်ကောင်းစွာပတျသကျပြခဲ့တာဖြစ်ပါတယ်။ ထို့ပြင်လူသားများအတွက်, dopamine ၏အရေးပါသောပစ်မှတ်ဖြစ်သော striatum, ဆုလာဘ်-သင်ယူမှုလုပ်ငန်းများကို [10,12,18] စဉ်အတွင်းဆုလာဘ်-ခန့်မှန်းအမှားရောင်ပြန်ဟပ်မှပေါ်လာကာ fMRI BOLD signal ကိုထားပါတယ်။ striatal BOLD ရောင်ပြန်ဟပ်မှယူဆသောကြောင့်ဤအ fMRI တွေ့ရှိချက်မှာအနည်းဆုံးအစိတ်အပိုင်းတစ်ရပ်အတွက် afferent Synaptic လှုပ်ရှားမှု [9] နှင့် dopamine အာရုံခံအဆိုပါ striatum ဖို့အကြီးအကျယ်ပရောဂျက်သည်ဇီဝြဖစ်စဉ်ဒေတာဖြည့်။

အဆိုပါဖျောပွဇီဝကမ္မတုံ့ပြန်မှု RL ၏အကျိုးကို-ခန့်မှန်း computing နှင့်ဆက်စပ်သောခံရဖို့ပေါ်လာပေမယ့်, နှိုးဆွနှင့် / သို့မဟုတ် [4,6,14,3] ဆုချမှထင်ရသောသက်ဆိုင်တဲ့ကြောင်းကိုဝတ္ထုလှုံ့ဆော်မှုတုံ့ပြန် dopaminergic phasic လှုပ်ရှားမှုတစ်ခုတိုးလည်းရှိသေး၏။ အလားတူဖြစ်စဉ်မကြာသေးမီက fMRI [2] သုံးပြီးလူသားများတွင်ကြည့်ရှုလေ့လာခဲ့သည်။ တိကျမှန်ကန်တဲ့ဆုလာဘ်ခန့်မှန်းမရနိုင်ကြောင်းဒါကြောင့်စီးပွားရေးနှိုးဆွမှု၏ဝိသေသလက္ခဏာကိုအကဲဖြတ်ထားသည်မတိုင်မီ (1) ကစောစောစီးစီးပေါ်လာသော: ဤ "အသစ်အဆန်း" သို့မဟုတ် "saliency" တုံ့ပြန်မှုမှမသက်ဆိုင်တဲ့ဖြစ်ဟုဆုချ-ခန့်မှန်းအမှားအဘယ်ကြောင့်အများအပြားအကြောင်းပြချက်ရှိပါတယ် generated ကြလိမ့်မည် (2) ကဆန္ဒရှိခြင်းနှင့်အစာစားချင်စိတ်နှစ်ဦးစလုံးလှုံ့ဆော်မှုများအတွက် (ဆိုလိုသည်မှာကြောင့်အပြုသဘောဖြစ်ပါတယ်) အာရုံကြောလှုပ်ရှားမှုတစ်ခုတိုးဖို့ကိုက်ညီ; နှင့် (3) က [13] habituates ။ ယင်းလှုံ့ဆော်မှုသူတို့သင်ယူဆုလာဘ်ထံမှသှေးကွဲပြားခြားနားကြသည်ဟူသောအချက်ကိုမီးမောင်းထိုးပြ [16] မသက်ဆိုင်နောက်ဆုံးရလဒ်ကို၏ခန့်မှန်းရခက်ဖြစ်ကြပြီးအရှေ့တိုင်းနှင့် / သို့မဟုတ်ချဉ်းကပ်အပြုအမူကိုဖြစ်ပေါ်သည့်အခါအမှန်မှာထို dopamine-releasing အာရုံခံဤ saliency / အသစ်အဆန်းတုံ့ပြန်မှုအများဆုံးယုံကြည်စိတ်ချရသောများမှာ ခန့်မှန်း။ အဆိုပါစိန်ခေါ်မှု, ဒါကြောင့်, RL ၏သီအိုရီဘောင်အတွင်း (အသစ်အဆန်းအကျိုးကို-ခန့်မှန်းအမှားအပေါ်သက်ရောက်မှုဘယ်လောက်ဆိုလိုသည်မှာ) ဒီသိသာဝိရောဓိရှင်းပြဖို့ဖြစ်ခဲ့သည်။

Kakade နှင့်ဒါယန်း [7] အတိအကျဒီလိုလုပ်ဖို့ကြိုးစားခဲ့; သူတို့ရဲ့ဆောင်းပါးထဲမှာသူတို့ dopaminergic function ကို-နှစ်ဦးစလုံး၏ RL မော်ဒယ်များအသစ်သောသီအိုရီယူဆချက်များ၏ပါဝင်ပတ်သက်သို့အသစ်အဆန်းတုံ့ပြန်မှုထည့်သွင်းနိုင်သည့်အတွက်နည်းလမ်းနှစ်ခု postulate ။ အသစ်အဆန်းဆုကြေးငွေအဖြစ်ရည်ညွှန်းပထမယူဆချက်, ဝတ္ထုလှုံ့ဆော်မှုပစ္စုပ္ပန်ဖြစ်ကြသည့်အခါအေးဂျင့်များကလက်ခံရရှိသောပုံမှန်အတိုင်းဆုလာဘ်အထက်နှင့်တဘက်, တစ်ဦးအပိုဆောင်းဆုလာဘ်မိတ်ဆက်ပါဝငျသညျ။ သင်ယူမှုအတွက်အေးဂျင့်ရဲ့လက်ရှိဆုလာဘ်ခန့်မှန်းခြင်းနှင့်ပတ်ဝန်းကျင်ကနေပုံမှန်အတိုင်းဆုလာဘ်များနှင့်အသစ်အဆန်းဆုကြေးငွေနှစ်ဦးစလုံး၏ပေါင်းလဒ်များအကြားကွာခြားချက်ပေါ်တွင်အခြေခံကြောင်းဒါကြောင့်ဒီအပိုဆောင်းဆုလာဘ်ကွန်ပျူတာသို့ဝင်သော။ ထို့ကြောင့်အသစ်အဆန်းအဆိုပါအေးဂျင့်တိုးမြှင့်ဖို့ကြိုးစားနေသောဆုလာဘ်၏အစိတ်အပိုင်းတစ်ခုဖြစ်လာသည်။ ဒုတိယယူဆချက်, ဆုကြေးငွေပုံဖော်ချေါ, သူတွေဟာဝတ္ထုလှုံ့ဆော်မှုနဲ့ဆက်စပ်ပြည်နယ်များများ၏တန်ဖိုးများကိုတိုးမြှင့်ခြင်းဖြင့်အကောင်အထည်ဖော်နိုင်ပါတယ်။ RL အတွက်အသုံးပြုတဲ့ယာယီ-ခြားနားချက်သင်ယူခြင်းအုပ်ချုပ်မှုကိုအဆက်ဆက်ပြည်နယ်များအကြားဆုလာဘ်-ခန့်မှန်းအတွက်ကွာခြားချက်ပေါ်တွင်အခြေခံသည်ကို ထောက်. , ဝတ္ထုလှုံ့ဆော်မှုနှင့်အတူသက်ဆိုင်ရာပြည်နယ်တစ်ခုစဉ်ဆက်မပြတ် shaping ဆုကြေးငွေများထို့အပြင်အဆိုပါအေးဂျင့်များ၏နောက်ဆုံးအပြုအမူအပေါ်အဘယ်သူမျှမသက်ရောက်ပါတယ်။ အဆိုပါအေးဂျင့် (ဆိုလိုသည်မှာသောအသစ်အဆန်းနှင့်ဆက်စပ်နေသည်) "ပုံ" ဖြစ်တော်မူကြောင်းကိုပြည်နယ် space ၏အစိတ်အပိုင်းတစ်ခုထဲသို့ဝင်သောအခါသို့သော်အသစ်အဆန်းတုံ့ပြန်မှုနေဆဲပေါ်ထွက်လာ။

ထိုအယူဆ၏တစ်ဦးချင်းစီ၏အများအပြင်အသစ်အဆန်းများစွာကိုလေ့လာသက်ရောက်မှုရှင်းပြဖို့လုံလောက်သော်လည်း, ယူဆချက်မှာလည်းသင်ယူမှု၏တိုးတက်မှုနှင့်အတူဝင်ရောက်စွက်ဖက်။ Kakade နှင့်ဒါယန်း [7] ထောက်ပြသကဲ့သို့, အသစ်အဆန်းဆုကြေးငွေတန်ဖိုးကို function ကိုဖျက်ပါ (အေးဂျင့်အားဖြင့်တစ်ဦးချင်းစီပြည်နယ်နှင့်ဆက်စပ်ဆိုလိုသည်မှာတန်ဖိုးများ) နှင့်သူတို့ပင်ကိုစရိုက်ကဝတ္ထုနှင့်ဆက်စပ်ကြောင်းတစ်ခုအပိုဆောင်းဆုလာဘ်အဖြစ်အကောင်အထည်ဖော်နေသောကြောင့်နောက်ဆုံးတွင်သင်ယူဘာထိခိုကျနိုငျ ပြည်နယ်များ။ အဆိုပါပြဿနာကအေးဂျင့်အကျိုးကို၏မူလတန်းနှင့်အသစ်အဆန်းအစိတ်အပိုင်းများကိုနှစ်ဦးစလုံးကြိုတင်ခန့်မှန်းဖို့သိတော့သောကွောငျ့ဖွစျသညျ။ Kakade နှင့်ဒါယန်းပုံဖော်ဆုကြေးငွေပြဿနာဤအမျိုးအစားကိုဖြစ်ပေါ်စေမထောက်ပြပေမယ့်သူတို့ပြည်နယ်များရှေ့အထံမှအကျိုးကိုဟောကိန်းများသို့ထည့်သွင်းလာဘာဖြစ်လို့လဲဆိုတော့ပုံဖော်ဆုကြေးငွေအနေနဲ့အေးဂျင့်က၎င်း၏ပြည်နယ်အာကာသစူးစမ်းမည်လမ်းသို့ဘက်လိုက်မှုမိတ်ဆက်ပေးသောကြောင့်သူတို့ရဲ့ထို့အပြင်နေဆဲပြဿနာဖြစ်ပါတယ်။ ဤအပိုဆောင်းယူဆချက်အသစ်အဆန်း RL အတွက်ဆုလာဘ်-ခန့်မှန်းအမှားအပေါ်သက်ရောက်မှုကိုဘယ်လိုရှင်းပြနိုင်ပေမယ့်ထို့ကြောင့်သူတို့ကပြဿနာရှိပါတယ်။ ထို့ပြင်အဆိုပါရှင်းလင်းချက်ကိုမှန်ကန်ဇီဝသက်ရှိများ၏အမူအကျင့်ကိုနားလည်သဘောပေါက်ရန် RL သုံးစွဲဖို့ကြိုးစားနေသည်ဟုမော်ဒယ်အလုပ်၏ parsimony လျှော့ချ၏ကုန်ကျစရိတ်မှာလာကြ၏။

အောက်တွင်ဖော်ပြထားသောအစီရင်ခံအဆိုပါခြင်း simulation ရိုးရှင်းတဲ့ RL အေးဂျင့်ဆိုအပိုဆောင်းယူဆချက်ခြင်းမရှိဘဲ, ဇီဝသက်ရှိအတွက်လေ့လာတွေ့ရှိကြသည် non-ဆုလာဘ်-related dopamine တုံ့ပြန်မှုဆင်တူကြောင်းအကျိုးကို-ခန့်မှန်းအမှားတုန့်ပြန်ဖွံ့ဖြိုးတိုးတက်မယ်လို့အဆိုပါယူဆချက်ကိုစမ်းသပ်နိုင်ရန်အတွက်ထွက်သယ်ဆောင်ခဲ့သည် ။ တစ်ဦး RL အေးဂျင့်က၎င်း၏ပတ်ဝန်းကျင်အတွက်ကျပန်းနေရာများမှာပေါ်ထွန်းသောအရာဝတ္ထု-One အပြုသဘောနှစ်မျိုးနှင့်အတူအပြန်အလှန်များ၏တာဝန်နှင့်အခြားကြောင်းအနုတ်လက္ခဏာ-ပေးထားခဲ့သည်။ ယင်း၏ဆုလာဘ်တိုးမြှင့်နိုင်ရန်အတွက်အဆိုပါအေးဂျင့်ကိုချဉ်းကပ်နှင့်အပြုသဘောဆောင်သည့်အရာဝတ္ထု "လောင်" နှင့် (ဆိုလိုသည်မှာ "လောင်" မဟုတ်) ရှောင်ရှားရန်သင်ယူဖို့အနုတ်လက္ခဏာအရာဝတ္ထုရှိခဲ့ပါတယ်။ အဆိုပါခြင်း simulation သုံးခုအဓိကဟောကိန်းများရှိခဲ့သည်။

ပထမဦးဆုံးခန့်မှန်းသည်၎င်း၏ဆုလာဘ်တိုးမြှင့်နိုင်ရန်အတွက်အဆိုပါအေးဂျင့်တကယ်တော့ချဉ်းကပ်ခြင်းနှင့်တစ်ပြိုင်နက်အရာဝတ္ထုအပြစ်ပေးခြင်း, အနှုတ်လက္ခဏာကိုရှောင်ကြဉ်ရန်သင်ယူနေစဉ်အပြုသဘော, ကြိုးတ္ထု "လောင်" ကိုလေ့လာသင်ယူလိုရိုးရှင်းစွာပြုလုပ်ခဲ့သည်။ ဒုတိယခန့်မှန်းအနည်းငယ်လျော့နည်းသိသာခဲ့သည်: အအေးဂျင့်နှစ်ဦးစလုံးအနုတ်လက္ခဏာနှင့်အပြုသဘောဆောင်သည့်အရာဝတ္ထုဆီသို့ဦးတည်ထားတဲ့ Oriental တုံ့ပြန်မှု (ဆိုလိုသည်မှာ၎င်း၏ orientation ကိုပြောင်းလဲရန်သင်ယူ) ပြမယ်လို့။ ဤသည်ခန့်မှန်းကြောင့်အရာဝတ္ထုနှင့်၎င်း၏တည်နေရာ၏အေးဂျင့်နိုင် "အသိ" သဏ္ဌာန်, အရာဝတ္ထု၏အပြုသဘောသို့မဟုတ်အပျက်သဘောဝိသေသလက္ခဏာ (ဆိုလိုသည်မှာအဆိုပါအေးဂျင့်နောက်ဆုံးမှာအရာဝတ္ထု၏အကျိုးကိုတန်ဖိုးကိုပေါင်းသင်းတတ်ရန်သင်ယူမယ်လို့သော cue) ပေမယ့်ခဲ့ အဆိုပါအေးဂျင့်အမှန်တကယ်အရာဝတ္ထုဆီသို့ဦးတည် oriented ပြီးမှအထိအေးဂျင့်အားဖြင့်မဆုံးဖြတ်နိုင်ပါ။ နောက်ဆုံးအနေနဲ့, တတိယ (နှင့်အရေးအပါဆုံး) ခန့်မှန်းမော်ဒယ်အတွက် simulated dopaminergic phasic တုံ့ပြန်မှုနှင့်ဆက်စပ်သောခဲ့သည်; ဒီခန့်မှန်းသည့်အေးဂျင့်အပြုသဘောနှင့်အပျက်သဘောနှစ်မျိုးစလုံးကိုအရာဝတ္ထုများအတွက်အပြုသဘောဆောင်ဖြစ်ခြင်း, ဇီဝသက်ရှိအတွက်လေ့လာတွေ့ရှိသည့် phasic dopamine တုံ့ပြန်မှုမှ computationally အလားတူခဲ့တဲ့ဆုလာဘ်-ခန့်မှန်းအမှားပြလိုသည့်အရာဝတ္ထုသည်ထင်ရှားလာသောအခါ, ထိုဖြစ်ခဲ့သည်။ ဤသည်တုံ့ပြန်မှုကိုလည်းခြင်း simulation များ၏အခြေအနေတွင်စီးပွားရေးနှိုးဆွမှု "ပြင်းထန်မှု" သို့မဟုတ် salience များအတွက် proxy ကိုတိုင်းတာခဲ့သည့်အေးဂျင့်နှင့်စီးပွားရေးနှိုးဆွမှုများအကြားအကွာအဝေး၏ function ကိုအဖြစ်ကွဲပြားဖို့ဟောကိန်းထုတ်ခဲ့သည်။ အောက်တွင်ဖော်ပြထားသောသရုပ်ပြပါလိမ့်မည်ကဲ့သို့ပင်ဤဟောကိန်းများသည့်ပုံမဟုတ်သောဆုလာဘ်-related dopamine တုံ့ပြန်မှုမူအရ RL ၏အခြေခံစည်းမျဉ်းစည်းကမ်းများကနေပေါ်ထွက်လာနိုင်သည်ကိုသရုပ်ပြခြင်း, ပုံရိပ်စစ်ရလဒ်များကိုကအတည်ပြုပေးခဲ့သည်။ ဇီဝသက်ရှိထဲမှာ Non-ဆုလာဘ်-ဆက်စပ်လှုပ်ရှားမှုနားလည်ရန် RL အသုံးပြု. ဤရလဒ်များကို၏သီအိုရီသက်ရောက်မှုဤဆောင်းပါး၏နောက်ဆုံးအခန်းတွင်ဆွေးနွေးတင်ပြပါလိမ့်မယ်။

နည်းလမ်း

ပြီးသားဖေါ်ပြခဲ့တဲ့အတိုင်း, RL algorithms တစ်ဦးအေးဂျင့်ကအားလက်ခံတွေ့ဆုံကြောင်းဆုလာဘ်၏စုစုပေါင်းငွေပမာဏတိုးမြှင့်နိုင်ရန်အတွက်ယူသင့်သောလုပ်ရပ်များသင်ယူဖို့အခိုက်အ-to-ယခုအချိန်တွင်ကိန်းဂဏန်းဆုလာဘ်ကိုသုံးနိုင်သည်ကိုဘယ်လိုသတ်မှတ်။ အများဆုံးဖော်မြူလာအတွက်, ဒီသင်ယူမှုအတွက်အေးဂျင့်ရဲ့ဆုလာဘ်ဟောကိန်းများကို update လုပ်ဖို့ဆုလာဘ်-ခန့်မှန်းအမှားအယွင်းများ (ဆိုလိုသည်မှာတစ်ဦးအေးဂျင့်ရဲ့လက်ရှိဆုလာဘ်ခန့်မှန်းခြင်းနှင့်ရရှိသောကြောင်းအမှန်တကယ်ဆုလာဘ်အကြားကွာခြားချက်) ကို အသုံးပြု. အောင်မြင်နေသည်။ အကျိုးကိုဟောကိန်းများသင်ယူနေကြသည်သကဲ့သို့, ဟောကိန်းများသည်၎င်း၏လာမယ့် action ကို select လုပ်ပါရန်အေးဂျင့်များကလည်းသုံးနိုင်တယ်။ (ညီမျှခြင်း 2 အတွက်သတ်မှတ်ထားသော) ကိုပုံမှန်ထက်မူဝါဒအကြီးဆုံးဆုလာဘ်မှုမှခန့်မှန်းကြောင်း action ကိုရွေးရန်အေးဂျင့်အဘို့ဖြစ်၏။ မဆိုပေးထားသောအချိန်မှာအေးဂျင့်မှထောက်ပံ့ပေးကြောင်းအမှန်တကယ်ဆုလာဘ်ချက်ချင်းဆုလာဘ်ပေါင်းလုပ်ဆောင်ချက်ပြီးစီးသည့်အခါအေးဂျင့်သို့ဝင်သောပြည်နယ်၏တန်ဖိုးအချို့သောအဘို့ကို၏ပေါင်းလဒ်သည်။ အဆိုပါအေးဂျင့်နောက်ဆုံးမှာတစ်ဦးအထူးသဖြင့်ပြည်နယ်အတွင်းခဲ့ပြီးမှအပြုသဘောဆောင်တဲ့ဆုလာဘ်တွေ့ကြုံလျှင်ထို့ကြောင့်အဆိုပါအေးဂျင့်သူတွေကိုဆုခခြံပြည်နယ်များအတွက်ဖြစ်ပေါ်ဖို့များပါတယ်သောအနာဂတ်ကာလ၌လုပ်ရပ်များကို select တော်မူမည် အဆိုပါအေးဂျင့်အနုတ်လက္ခဏာဆုလာဘ် (ဆိုလိုသည်မှာပြစ်ဒဏ်) တွေ့ကြုံလျှင်အပြန်အလှန်ကြောင့်သူတို့ "အပြစ်ပေး" ပြည်နယ်များမှဦးဆောင်လမ်းပြသောအနာဂတ်ကာလ၌လုပ်ရပ်များကိုရှောင်ရှားပါလိမ့်မယ်။

အမျိုးမျိုးသောပြည်နယ်များ (ဆိုလိုသည်မှာတန်ဖိုးကို function ကို V ကို) အတွက်လေ့လာသင်ယူနေကြသောဆုလာဘ်ဟောကိန်းများဆုံးဖြတ်သည်သောတိကျတဲ့ algorithm ကို Value ကိုကြားမှာ [အောက်ခြေမှတ်ချက် 1] ဟုခေါ်သည်နှင့်တရားဝင်အဖြစ်ဖော်ပြခံရနိုင်သည်

အားလုံးဖြစ်နိုင်သမျှပြည်နယ်များ့အဘို့,

(ညီမျှခြင်း 1)

s ကိုလက်ရှိပြည်နယ်မှကိုက်ညီရှိရာ, V ကို (s) ကိုအေးဂျင့်အားဖြင့်လေ့လာသင်ယူခဲ့ပြည်နယ် s အတွက်လက်ရှိဆုလာဘ်ခန့်မှန်းသည်maxaction∈M {} အားလုံးလုပ်ရပ်များ၏အစုကိုကျော် bracketed အရေအတွက်အများဆုံးတန်ဖိုးထားတဲ့အော်ပရေတာဖြစ်ပါတယ် အဆိုပါအေးဂျင့်မှမရရှိနိုင်ပါက M, V ကို (s 'ကို) နောကျပြည်နယ် s ကိုများအတွက်အေးဂျင့်ရဲ့လက်ရှိဆုလာဘ်ခန့်မှန်းဖြစ်ပါတယ်' α (0 နှင့် 1 ကြား) အချို့သောလေ့လာသင်ယူနှုန်းမှာဖြစ်ပြီး, γအနာဂတ်ဆုလာဘ်မာန်တင်းခံရဖို့ရှိပါတယ်ဘယ်လောက်ထင်ဟပ်တစ်ဦးလျှော့စျေးအချက်ဖြစ်ပါသည် ချက်ချင်းဆုလာဘ်မှဆွေမျိုး။ အားလုံးပြည်နယ်များ s အတွက် 0 ခဲ့ V ကို (s) ကိုနိုင်အောင်ကနဦးတန်ဖိုးကို function ကိုသတ်မှတ်ထားခဲ့သည်။

တန်ဖိုး function ကို V ကို (s) ကိုပြီးပြည့်စုံသောမှတ်ဥာဏ်၏ယူဆချက်မှတရားဝင်ညီမျှသည်အရာ, တစ်ဦး lookup ပြုလုပ်နေစားပွဲပေါ်မှာအဖြစ်အကောင်အထည်ဖော်ခဲ့သည်။ ထိုကဲ့သို့သောအာရုံကြောကွန်ရက်များအဖြစ် function ကိုခန့်မှန်းခြေအားဖြင့် [1] တန်ဖိုးကိုလုပ်ဆောင်ချက်များကိုကိုယ်စားပြုအောင်မြင်မှုအချို့နှင့်အတူအသုံးပြုခဲ့ကြသော်လည်းတစ်ဦး lookup ပြုလုပ်နေစားပွဲပေါ်မှာရလဒ်အမျိုးမျိုးသော function ကိုခန့်မှန်းခြေအားဖြင့်ပေးကြသည် General ယန္တရားအမျိုးအစားများအပေါ်မှီခိုမဟုတ်ကြကြောင်းသေချာစေရန်အသုံးပြုခဲ့သည်။ အဆိုပါအေးဂျင့် 1,500 က၎င်း၏ပြည်နယ်အာကာသကျော်ကြားမှာသင်ယူဘို့လေ့ကျင့်သင်ကြားခဲ့သည်။ အဘယ်ကြောင့်ဆိုသော်တ္ထု၏ဝိသေသလက္ခဏာများ၏ခန့်မှန်းရခက်၏, လျော့နည်းတစ်ခုထက် (α = 0.01) ၏တန်ဖိုးကို function ကို update ကို parameter သည်ကွဲပြားခြားနားသောရလဒ်များကို၏ပျှမ်းမျှအဘို့ခွင့်ပြုပါရန်သင်ယူမှုစဉ်အတွင်းအသုံးပြုခဲ့သည်။ နောက်ဆုံးတွင်လျှော့စျေးအချက်ဆုလာဘ်ရှာအံ့သောငှါတာထက်ကိုပိုပြီး 0.99 တစ်ဦးက default value ကိုကနေပြောင်းလဲနေတဲ့ဒီနေရာမှာအစီရင်ခံရလဒ်အပေါ်အဘယ်သူမျှမသက်ရောက်ခဲ့ပေမဲ့ (ထိုစမ်းသပ်မှု၏အဆုံးတိုင်အောင်အယင်း၏ချဉ်းကပ်အပြုအမူနှောင့်နှေးဖို့အေးဂျင့်ကိုအားပေးရ = 1 γဟုသတ်မှတ်ခဲ့ခြင်းဖြစ်သည်။ ) လွတ်လပ်စွာ 1,500 သင်ယူခြင်းကြားမှာဖြည့်စွက်ဖို့သင်ယူခြင်းများအတွက်လုံလောက်သောခဲ့ကြသည်ရှိမရှိဆုံးဖြတ်ရန်အလို့ငှာခုနှစ်, သင်ယူအတွက်အပြောင်းအလဲ၏ပျမ်းမျှပမာဏကိုစောင့်ကြည့်ခဲ့ကြားမှာ၏ဒီနံပါတ်ကိုမတိုင်မီဆုံကြမှရှာတွေ့ခဲ့သည်။

လေ့ကျင့်ရေးပြီးနောက်, အေးဂျင့်ရဲ့အပြုအမူကိုအုပ်ချုပ်သောတိကျတဲ့ algorithm ကို (ဆိုလိုသည်မှာကြောင့်တစ်ဦးချင်းစီပေးထားပြည်နယ်ကနေယူကြောင်းလုပ်ရပ်များ၏မူဝါဒ) ဖြစ်ပါသည်:

(ညီမျှခြင်း 2)

π (s) ကိုအေးဂျင့်ပြည်နယ် s မှ select လုပ်ပါလိမ့်မယ်လုပ်ဆောင်ချက်ဖြစ်ပြီး, ညီမျှခြင်း၏ညာဘက်အခြမ်းအကျိုးကိုများ၏ပေါင်းလဒ်နှင့်လျှော့တန်ဖိုးကိုကောင်းလာတာပါသောအရေးယူဆောင်ရွက်မှု (orientation ကို, လှုပ်ရှားမှု, သို့မဟုတ်လုံးဝမလုပ်ဆောင်ချက်ဥပမာပြောင်းလဲမှု) ကို return ဘယ်မှာ ရလဒ်ပြည်နယ် s 'ကို၏။

အောက်တွင်ဖော်ပြထားသောအစီရင်ခံသောခြင်း simulation ခုနှစ်, အေးဂျင့်များကသွားရောက်ကြည့်ရှုခဲ့ကြသောပြည်နယ်များအပေါငျးတို့သအဆိုပါအေးဂျင့်များ၏ပြင်ပ "ရုပ်ပိုင်းဆိုင်ရာ" ပြည်နယ်နှင့်၎င်း၏ပြည်တွင်းရေး "အသိပညာ" ပြည်နယ်နှစ်ခုလုံးနှင့် ပတ်သက်. သတင်းအချက်အလက်ကိုယ်စားပြုကြောင်း 7 ရှုထောင် virus သယ်ဆောင်အဖြစ် encoded ခဲ့ကြသည်။ ရုပ်ပိုင်းဆိုင်ရာသတင်းအချက်အလက်အာကာသနှင့်၎င်း၏တိမ်းညွတ်အတွက်အေးဂျင့်ရဲ့လက်ရှိအနေအထားကိုနှစ်ဦးစလုံးပါဝင်ပါတယ်။ (ကအေးဂျင့်ကဆုံးဖြတ်ခဲ့လျှင်) ထိုအသိပညာသတင်းအချက်အလက် (တဦးတည်းပစ္စုပ္ပန်ခဲ့လျှင်) ထိုအရာဝတ္ထုများ၏အနေအထားနှင့်အရာဝတ္ထု၏ဝိသေသလက္ခဏာပါဝင်သည်။ အဆိုပါအေးဂျင့်ကကိုယ်စားပြုခဲ့အချက်အလက်များ၏တိကျသောအမျိုးအစားများဇယား 1 မှာပြနေကြသည်။

စားပွဲတင် 1

အဆိုပါ RL Simulator နှင့်ထိုရှုထောင့်ရဲ့ဖြစ်နိုင်ချေတန်ဖိုးများအတွက်အသုံးပြုတဲ့ရှုထောင့်။

အဆိုပါခြင်း simulation အတွက် 21,120 ပြည်နယ်များစုစုပေါင်း [အောက်ခြေမှတ်ချက် 2] ရှိခဲ့သည်။ သို့သျောလညျးကိုအမည်မသိအပြုသဘောနှင့်အမည်မသိအနုတ်လက္ခဏာအရာဝတ္ထုရှိခဲ့သည့်အတွက်ပြည်နယ်တူညီသည့်အေးဂျင့်များ၏ရှုထောင့်ကနေဖြစ်ကြ၏, ဒါကြောင့်ကွဲပြားပြည်နယ်များမှသာ 16,280 ထို့ကြောင့်ရှိပါတယ်။ ထို့ကြောင့်သင်ယူမှုအသီးအသီးကြားမှာစဉ်အတွင်းကြောင့်သူတို့ "တူညီ" ၏အချို့သောအချက်ကြောင့်သူတို့တစ်တွေအပြုသဘောဆောင်အရာဝတ္ထု၏ရှာဖွေတွေ့ရှိမှုနှင့်အတူနောက်တော်သို့လိုက်စေခြင်းငှါထိုအချိန်ကာလ၏တစ်ဝက်, သူတို့သည်ငှါထိုအချိန်ကာလ၏ထက်ဝက်အဘို့အခွင့်ပြုရန်နှစ်ကြိမ်ကဤသို့ဆိုသွားရောက်ကြည့်ရှုရန်လိုအပ်သောခဲ့သည် အပျက်သဘောဆောင်သောအရာဝတ္ထု [အောက်ခြေမှတ်ချက် 3] ၏ရှာဖွေတွေ့ရှိမှုနှင့်အတူနောက်တော်သို့လိုက်ကြလိမ့်မည်။

တစ်ဦးချင်းစီ simulated စမ်းသပ်ခြင်းရုံးတင်စစ်ဆေး၏အစအဦးမှာအေးဂျင့်က "အနောက်ဖို့အေးဂျင့်နှင့်ငါးနေရာ၏" အရှေ့ "ငါးနေရာများ (ဆိုလိုသည်မှာ, ညာဘက်) နဲ့ 11 ယူနစ်လမ်းကြောင်း×တစ် simulated linear 1 ၏ဗဟို၌ထားခဲ့ပါတယ် "(ဆိုလိုသည်မှာလက်ဝဲ) ကိုအေးဂျင့်များ၏။ စားပွဲတင် 1 ပြပွဲသည်အတိုင်း, အေးဂျင့်ရဲ့ State-အားနည်းချက်ကို "အတွေးပေါ်၎င်း၏လက်ရှိတည်နေရာ (0 မှ 10 ထံမှဆိုလိုသည်မှာတစ်ဦးကိန်း) ကိုညွှန်းတဲ့ဒြပ်စင်အဖြစ်က Element (ဆိုလိုသည်မှာတစ်ဦးဇာတ်ကောင်ဟာ" n "," s "ထည့်သွင်း e "သို့မဟုတ်" "w)) အသီးသီးသည်၎င်း၏လက်ရှိ orientation ကို (ဆိုလိုသည်မှာ, တောင်, မြောက်, အရှေ့, ဒါမှမဟုတ်အနောက်ဘက်ကိုယ်စားပြု။ အဆိုပါအေးဂျင့်ရဲ့ကနဦးတိမ်းညွတ်အမြဲ "မြောက်ဘက်" ဖြစ်ဟုသတ်မှတ်ခံခဲ့ရနှင့်မျှမကအခြားအရာဝတ္ထုပတ်ဝန်းကျင်အတွက်ပစ္စုပ္ပန်ခဲ့ (ဆိုလိုသည်မှာအဆိုပါအေးဂျင့်ရဲ့ State-အားနည်းချက်ကိုမှာ "အရာဝတ္ထု" ၏တန်ဖိုး '0 "ကိုတူညီဖို့သတ်မှတ်ထားခဲ့ပါတယ်) ။

အဆိုပါခြင်း simulation ၏တစ်ဦးချင်းစီအချိန်-Step အတွင်းအေးဂျင့်ကအောက်ပါအရေးယူဆောင်ရွက်ချက်များကိုတဦးတည်းလုပ်ဆောင်နိုင်: (1) ဘာမျှမလုပ်ပေး, နှင့်လက်ရှိတည်နေရာနှင့်တိမ်းညွတ်အတွက်အမြဲတည်တော်မူ၏ (2) တောင်ဘက်မြောက်ဘက် orient, အရှေ့သို့မဟုတ်အနောက်ဘက်; သို့မဟုတ် (3) ပတ်ဝန်းကျင် (အရှေ့သို့မဟုတ်အနောက်) တွင်တဦးတည်းအာကာသရွှေ့။ တစ်ဦးချင်းစီလုပ်ဆောင်ချက်၏ရလဒ်နောက်ဆက်တွဲ simulated အချိန်ခြေလှမ်းအပေါ်ရာအရပျကိုယူ။ အာကာသအတွင်းတည်နေရာနှင့် / သို့မဟုတ်အေးဂျင့်များ၏ orientation ကိုအားလုံးပြောင်းလဲမှုများအေးဂျင့်အားဖြင့်လုပ်ရပ်များ၏ရွေးချယ်ရေးမှတဆင့်ဖြစ်ပွားခဲ့သည်။ "အဘယ်အမှုကိုမျှမပြုဘဲ" အရေးယူဆောင်ရွက်မှုကိုရှေးခယျြခဲ့သညျလျှင်ပင်သို့သော်ခြင်း simulation အမှုအမျိုးမျိုးရှိသမျှအချိန်-Step စဉ်အတွင်း, အချိန်ရုံးတင်စစ်ဆေး (ဆိုလိုသည်မှာ, အချိန်-Step 1) ၏အဆုံးတိုင်အောင်အ 20 နေဖြင့်အဆတိုးခံခဲ့ရသည်။

အဆိုပါအေးဂျင့်ရဲ့ပတ်ဝန်းကျင်တစ်ခုအရာဝတ္ထုတဆယ်အချိန်ခြေလှမ်းများပြီးနောက် (သို့သော်မအေးဂျင့်အဖြစ်အတူတူပင်တည်နေရာအတွက်) ကျပန်းတည်နေရာမှာထင်ရှားအချိန်ဒါကြောင့်တစ်ဝက်ကို set up သဖြင့်, အရာဝတ္ထု၏ 50% (တစ်ဦး "+" ကကိုယ်စားပြု; စားပွဲတင် 1 ကိုကြည့်ပါ) အပြုသဘောခဲ့ကြသည်နှင့်အရာဝတ္ထု၏ 50% အနုတ်လက္ခဏာ (ကကကိုယ်စားပြု "-") ခံခဲ့ရသည်။ အရာဝတ္ထုသည်ထင်ရှားရှေ့တော်၌ထိုနှောင့်နှေးသည့်အေးဂျင့်အရာဝတ္ထု၏အသွင်အပြင်မတိုင်မီပြခဲ့ကြပေမည်ဆိုအပြုအမူများလေ့လာရေးခွင့်ပြုစတင်မိတ်ဆက်ခဲ့ပါတယ်။ အဆိုပါအေးဂျင့်ကသည်ထင်ရှားသည့်အခါအရာဝတ္ထုဆီသို့ဦးတည် oriented မခံခဲ့ရပါလျှင်, ထိုအေးဂျင့်ရဲ့ပြည်နယ်အားနည်းချက်ကိုရှိ "Objective" ဝိသေသလက္ခဏာကိုယ်စားပြုဒြပ်စင်ဖို့ "0" မှပြောင်းလဲခဲ့သည် "?" အရာဝတ္ထု၏ဝိသေသလက္ခဏာယခုခဲ့ကွောငျးဆိုတဲ့အချက်ကိုရောင်ပြန်ဟပ်ဖို့ ပစ္စုပ္ပန်လက်ရှိမသိသောဖြစ်ခဲ့သည်။ အပြုသဘောအဘို့ - "" ဟုအဆိုပါအေးဂျင့်အရာဝတ္ထုဆီသို့ဦးတည် oriented ခံခဲ့ရလျှင်မည်သို့ပင်ဆို, ပြီးတော့နောက်ဆက်တွဲအချိန်-Step ပေါ်ရှိ "Objective" ဒြပ်စင် "0" ဖြစ်စေ "+" သို့မဟုတ်ဖြစ်လာခဲ့သည်နိုင်အောင်, အရာဝတ္ထု၏ဝိသေသလက္ခဏာမှတူညီဟုသတ်မှတ်ခံခဲ့ရ အသီးသီးနှင့်အပျက်သဘောတ္ထု။

အဆိုပါအေးဂျင့်တစ်ဦးအရာဝတ္ထု၏တည်နေရာသို့ပြောင်းရွှေ့လျှင်, လာမယ့်အချိန်ကာလအတွင်းအရာဝတ္ထုပျောက်ကွယ် step ။ အရာဝတ္ထုအပြုသဘောခဲ့လျှင်, ထိုအေးဂျင့်ရဲ့ "ကိုလောင်" အလံစစ်မှန်တဲ့ညီမျှသတ်မှတ်ထားခဲ့ပါတယ်နှင့်အေးဂျင့် (ဆုလာဘ် = + 10) ဆုခခြံခဲ့ရ; အရာဝတ္ထုအနုတ်လက္ခဏာခဲ့လျှင်သို့သော်, ထို့နောက် "Shock" အလံအမှန်သတ်မှတ်ထားခဲ့ပါတယ်နှင့်အေးဂျင့် (ဆုလာဘ် = -10) အပြစ်ပေးခံခဲ့ရသည်။ (ထိုအလံမသက်ဆိုင်သည့်အေးဂျင့်ခဲ့ပါသို့မဟုတ်အရာဝတ္ထုဖော်ထုတ်ဘူးရှိမရှိ၏ဤလမ်းအတွက်သတ်မှတ်ထားခဲ့မှတ်ချက်; ။ ဥပမာ, အအေးဂျင့်အစဉ်အဆက်ကဦးတည် orienting မပါဘဲတစ်ဦးအရာဝတ္ထုလောင်နိုင်) သည်နောက်ဆက်တွဲအချိန်-Step တွင် "Shock" သို့မဟုတ် "ကိုလောင်" အလံရှင်းလင်းခဲ့သည်။ အဆိုပါအေးဂျင့်ကိုလည်းတစ်ဦးချင်းစီလှုပ်ရှားမှုအဘို့အသေးငယ်တဲ့ပြစ်ဒဏ် (အားဖြည့် = -1) ပေးထားသို့မဟုတ်အရေးယူ orienting နှင့်မျှအရေးယူဆောင်ရွက်မှုလုပ်ဆောင်ပါလျှင်အဘယ်သူမျှမဆုလာဘ်သို့မဟုတ်ပြစ်ဒဏ် (အားဖြည့် = 0) ကိုလက်ခံရရှိခဲ့သည်။

အဆိုပါပေးခြင်းအပြုအမူတွေ (ဆိုလိုသည်မှာ, Oriental နှင့်လှုပ်ရှားမှု) နှင့်ဆုလာဘ်-ခန့်မှန်းအမှားတစ်ခုအတိုင်းအတာနှစ်ဦးစလုံးအတွက်အေးဂျင့်ဘို့အ quantified ခဲ့ကြသည်။ အဆိုပါပေးခြင်းအပြုအမူ (ဆိုလိုသည်မှာအဆိုပါအေးဂျင့်များကရွေးချယ်ထားသည့်လုပ်ရပ်များ၏စာရင်း) task ကိုလေ့လာသင်ယူခဲ့ရှိမရှိတစ်ခုအရိပ်အယောင်အဖြစ်အသုံးပြုခဲ့သည်။ ဆုလာဘ်-ခန့်မှန်းအမှား၏အတိုင်းအတာ non-ဆုလာဘ် dopaminergic phasic signal ကိုပေါ်ပေါက်ရေးနဲ့ပတ်သက်တဲ့ယူဆချက်ကိုစမ်းသပ်ဖို့အသုံးပြုခဲ့သည်။ အကျိုးကို-ခန့်မှန်းအမှား, δအခါဆုလာဘ်ခန့်မှန်းခြင်းမှ, အချိန်ခြေလှမ်း t-1 မှာဆိုလိုသည်မှာ V ကို (s), ယခင်အချိန်ခြေလှမ်းမှာဆုလာဘ်ခန့်မှန်းနုတ်အားဖြင့်တစ်ဦးအရာဝတ္ထု၏အသွင်အပြင်၏အချိန် t ကိုမှာတိုင်းတာခဲ့သည် V ကို (ST-1) - အရာဝတ္ထုအရေအတွက်δ = V ကို (St) အလျှော့ပေးလိုက်လျော, အချိန် t မှာ, ဆိုလိုသည်မှာ, V ကို (s) ကိုထင်ရှား။ ,

ရလဒ်များ
simulated အပြုအမူ

အဆိုပါအေးဂျင့်များ၏ပေးခြင်းအပြုအမူပထမဦးဆုံး quantified ခဲ့သည်။ ဤခွဲခြမ်းစိတ်ဖြာခြင်းရလဒ်များကိုလေ့ကျင့်ရေးပြီးနောက်, အေးဂျင့်ကိုချဉ်းကပ်နှင့်အပြုသဘောဆောင်သည့်အရာဝတ္ထု၌ရှိသမျှသောအနေဖြင့်အပြုသဘောအားကောင်းရရှိသောနှင့်အပျက်သဘောတ္ထုမဆိုချဉ်းကပ်ဘယ်တော့မှကြောင်းပြသခဲ့သည်။ အတူတကွဤရလဒ်များအေးဂျင့်မှန်ကန်စွာ task ကိုဖျော်ဖြေဖို့သင်ယူကြောင်းအမူအကျင့်အတည်ပြုချက်ကိုပေး။ ဒါကနိဂုံးချုပ်အဘယ်သူမျှမအရာဝတ္ထုသည်ထင်ရှားသည့်အခါစမ်းသပ်မှုတွေစဉ်အတွင်းအဆိုပါအေးဂျင့်မလှုပ်ရှိနေဆဲအကြောင်း, နောက်ထပ်လေ့လာခြင်းဖြင့်ကျားကန်ထားသည်။ ဟောကိန်းထုတ်သကဲ့သို့, အေးဂျင့်အပြုသဘောနှင့်အပျက်သဘောနှစ်မျိုးစလုံးကိုအရာဝတ္ထုမှ oriented ။

simulated ဆုကြေး-ဘီဘာအိုမှားယွင်းနေသည်

ဤစာတမ်း၏အဓိကယူဆချက်တစ်ခုခန့်မှန်းရခက်လှုံ့ဆော်မှု၏အသွင်အပြင်တသမတ်တည်းကြောင့်အရာဝတ္ထုအမြဲအပြစ်ပေးသော "အနုတ်လက္ခဏာ" အရာဝတ္ထုဖြစ်ဖြစ်ပျက်လျှင်ပင်, တစ်ဦးအပြုသဘောဆုလာဘ်-ခန့်မှန်းအမှား generate လိမ့်မယ်ဆိုတာပါပဲ။ ဘာမျှမထင်ရှားပေါ်ထွန်းလာသောအခါတစ်ဦး (အမည်မသိ) အရာဝတ္ထုထင်ရှားသော်လည်းမအခါတိုင်းဒီအယူအဆ၏ထောက်ခံမှုမှာအေးဂျင့်တစ်ဦးအပြုသဘောဆုလာဘ်-ခန့်မှန်းအမှားပြ။ ထို့အပြင်ဗဟိုအယူအဆနှင့်ကိုက်ညီခြင်း, အေးဂျင့်ဖွင့် phasic တုံ့ပြန်မှုများ၏ပြင်းအား (δ, ထိုနည်းလမ်းအပိုင်းထဲမှာဖော်ပြထားတဲ့အတိုင်းတိုင်းတာ) ကိုနှိုးဆွ၏ simulated "ပြင်းထန်မှု" ကိုအထိခိုက်မခံသောအချက်ဖြစ်ပါသည် အေးဂျင့်နှင့်အရာဝတ္ထုအကြားအကွာအဝေးကိုအသုံးပြု။ (ပုံ 1 ကိုကြည့်ပါ) သတ်မှတ်။ တစ် ဦး ကဆုတ်ယုတ်ခွဲခြမ်းစိတ်ဖြာ closer ၏ပြင်းအားအရာဝတ္ထုကနေအကွာအဝေးမှပြောင်းပြန်ဆက်စပ်ခဲ့ကြောင်းညွှန်ပြ, ပိုမိုနီးကပ်စွာတ္ထုတစ် ဦး ပိုမိုအားကောင်းတုံ့ပြန်မှုကိုဖြစ်ပေါ်စေနိုင်အောင် (r = -0.999, p <0.001; β = 0.82) ။ ဤအပျက်သဘောဆောင်သောဆက်နွယ်မှုသည်အေးဂျင့်အားအပြုသဘောဆောင်သည့်အရာဝတ္ထုသို့ရွှေ့ပြောင်းသုံးစွဲခြင်းနှင့်အကျိုးကျေးဇူးရရှိစေရန်လှုပ်ရှားမှုတစ်ခုစီအတွက်ချမှတ်ထားသောသေးငယ်သည့်ပြစ်ဒဏ် (အားဖြည့်ခြင်း -1) ကြောင့်ဖြစ်ရခြင်းဖြစ်သည်။

ပုံ 1

အရာဝတ္ထု၏အေးဂျင့်၏တည်နေရာနှင့်ဆက်စပ်သည့်အရာဝတ္ထု၏တည်နေရာ၏လုပ်ဆောင်ချက်တစ်ခုအရပေါ်လာသောအခါဤပုံသည်ဆု - ခန့်မှန်းချက်အမှား (ဆိုလိုသည်မှာδ) ကိုပြသည်။ တုံ့ပြန်မှုများသည်အပြုသဘောနှင့်အနှုတ်လက္ခဏာနှစ်မျိုးလုံးအတွက်တူညီသည် အရာဝတ္ထုမရှိလျှင် (နောက်ထပ်…)

အပြုသဘောနှင့်အပျက်သဘောတ္ထုတန်းတူဖြစ်နိုင်ခြေ (p = .25) နှင့်အတူဤခြင်း simulation ထင်ရှားကြောင်းပေးထား, မေးခွန်းပေါ်ပေါက်: အဘယ်ကြောင့်အေးဂျင့်ရဲ့ဆုလာဘ်-ခန့်မှန်းအမှား signal ကိုအရာဝတ္ထုရဲ့အသွင်အပြင်၏အချိန်မှာအပြုသဘောခဲ့သလဲ Kakade နှင့်ဒါယန်း၏လိုင်းများတလျှောက်တွင်ကျိုးကြောင်းဆင်ခြင် [7] တ signal ကိုထိုကဲ့သို့သောအခြေအနေများကနေလေ့လာသင်ယူဆုလာဘ်အားလုံး၏ပျမ်းမျှရောင်ပြန်ဟပ်သောကြောင့်သုညနဲ့ညီမျှဖြစ်သင့်ကြောင်းကြိုတင်ခန့်မှန်းပေလိမ့်မည်။ ဒီရလဒ်နားလည်သဘောပေါက်ဖို့ key ကိုသာ RL အနုတ်လက္ခဏာအားဖြည့်မှုကြောင့်လုပ်ရပ်များကို ရွေးချယ်. ဖို့အေးဂျင့်နည်းပါးစေပါဘူးသတိပြုပါရန်ဖြစ်ပါသည်, ကလည်းနောက်ဆုံးမှာအနုတ်လက္ခဏာအားဖြည့်ဖို့ဦးဆောင်လမ်းပြပေးသောပြည်နယ်များရိုက်ထည့်ဖို့အေးဂျင့်နည်းပါးစေသည်။ ဒါဟာပုံ 2 တွင်ဖော်ပြပါရှိသည်များနှင့်နောက်လာမည့်ဖော်ပြထားကြောင်းသင်ယူမှု၏ "Higher-ယူမှု" ပုံစံကိုတစ်ဦးကြင်ကြင်နာနာမှု။

ပုံ 2

၎င်းင်း၏ပတ် ၀ န်းကျင်ရှိလှုံ့ဆော်မှုများကိုဆုချခြင်းနှင့်အပြစ်ပေးခြင်းနှစ်မျိုးစလုံးကိုလေ့ကျင့်သင်ကြားခြင်းနှင့်၎င်းတို့ကိုချဉ်းကပ်ခြင်းနှင့်စားသုံးခြင်းရှိမရှိကိုရွေးချယ်နိုင်သည့်အခါ RL အေးဂျင့်တစ် ဦး ကအပြုသဘောဆောင်သောဆုလာဘ် - ခန့်မှန်းတွက်ချက်မှုအမှားမည်သို့ဖြစ်ပေါ်လာသည်ကိုပြသသည့်ဥပမာ။ (က) သင်ယူခြင်းမတိုင်မီအခြေအနေ - (နောက်ထပ်…)

(ပုံ 2A ကိုကြည့်ပါ) သင်ယူခြင်းရဲ့အစမှာ, အေးဂျင့်နှစ်ဦးစလုံး "+" ကိုအနေအထားနှင့် "-" တ္ထု, သူတို့ကိုချဉ်းကပ်နှင့်ဆုခခြံနှင့်အရာဝတ္ထု၏အသီးအသီးအမျိုးအစားစားသုံးခြင်းဖြင့်အပြစ်ပေးသည်ကိုနှစ်ဦးစလုံး။ အဆိုပါအေးဂျင့်ရဲ့သင်ယူပြည်နယ်တန်ဖိုးအေးဂျင့်ရဲ့လုပ်ရပ်တွေက (ပုံ 2B ကိုကြည့်ပါ) ကိုသြဇာလွှမ်းမိုးနိုင်ခြင်းဖြစ်လျှင်, ထိုအေးဂျင့်အရာဝတ္ထုချဉ်းကပ်ခြင်းနှင့်လောင်ဆက်လက်လိမ့်မယ်။ အဆိုပါ cue ၏အသွင်အပြင်ထို့နောက် 0 ပျမ်းမျှဆုလာဘ်ကြိုတင်ခန့်မှန်းလို့ဆုလာဘ်-ခန့်မှန်းအမှားရုတ်တရက်မြင့်တက်ရှိပါလိမ့်မယ်။ သို့သော်ဤခြင်း simulation အတွက်အေးဂျင့် (ပုံ 2C ကိုကြည့်ပါ) က၎င်း၏လုပ်ရပ်များကိုသြဇာလွှမ်းမိုးဖို့ပြည်နယ်တန်ဖိုးများကိုအသုံးပြုမှုကိုလေ့လာသင်ယူထားဘူး, နှင့်အေးဂျင့်နေဆဲယင်း၏ဝိသေသလက္ခဏာကိုဆုံးဖြတ်ရန်မသိသောအရာဝတ္ထုမှ Oriental ဖို့ရှိပါတယ်ပေမယ့်သူကချဉ်းကပ်လျှင်, မဟုတ်တော့တဲ့အနုတ်လက္ခဏာအရာဝတ္ထုဆုံးရှုံးပါလိမျ့မညျ ဒါကြောင့် (ကလမ်းကြောင်းနမူနာ [အောက်ခြေမှတ်ချက် 1] ကဲ့သို့သောကျပန်းတူးဖော်ရေး algorithm နှင့်အတူလေ့ကျင့်သင်ကြားစေခြင်းငှါ, လျှင်ကဲ့သို့) ။ ထို့အပွငျကြောင့်ယာယီ-ခြားနားချက်သင်ယူမှုဟာအနုတ်လက္ခဏာဆုလာဘ်ခန့်မှန်းပြန်ပြည်နယ်များရှေ့အဖို့ "ပြန့်ပွား" ကိုခွင့်ပြုနှင့်အာကာသအတွင်းရွေ့လျားများအတွက်အသေးစားကုန်ကျစရိတ်လည်းမရှိကြောင့်, အေးဂျင့်လုံးဝအနုတ်လက္ခဏာအရာဝတ္ထုချဉ်းကပ်ရှောင်ရှားရန်သိလာကြတယ်။ ဤအချက်အလက်လေ့လာသင်ယူခဲ့ပြီးပြီးနောက်ထို့ကြောင့်ယင်းအရာဝတ္ထုပထမဦးဆုံး (တစ်ဦးချင်းစီ sequence ကိုအတွင်းပထမဆုံးစက်ဝိုင်းထဲမှာ "V ကို" အဖြစ်ညွှန်ပြ) ပုံအခါပြည်နယ်များ၏တန်ဖိုးသည်အပြုသဘောနှင့်အနုတ်လက္ခဏာရလဒ်ပြည်နယ်တန်ဖိုးများ၏ပျမ်းမျှအပေါ်အခြေခံပြီး, ဒါပေမယ့်ဖြစ်ပါတယ်မဟုတ်ပါ အစားအပြုသဘော၏ပျမ်းမျှနှင့်အေးဂျင့်သည့်အနုတ်လက္ခဏာအရာဝတ္ထုကိုရှောင်ကြဉ်ရန်သိတော့တစ်ချိန်ကမှီသော "ကြားနေ" ရလဒ်အပေါ်အခြေခံပါတယ်။ အမှန်တကယ်လေ့ကျင့်သင်ကြားအေးဂျင့်အားဖြင့်ရရှိသောအားလုံးဆုလာဘ်၏ပျမ်းမျှသုညထက်ကြီးသဖြင့်, အေးဂျင့်ရဲ့ဆုလာဘ်ခန့်မှန်း (နှင့်ထို့ကြောင့်အရာဝတ္ထုရုတ်တရက်ပေါ်လာသောအခါ, အမှား-ခန့်မှန်းဆုချ) တစ်ဦးအသားတင်အပြုသဘောကြီးအဘယ်ကြောင့်ဤသို့ရှင်းပြသည်အဘယ်ကြောင့်ဒီအဖြစ်ပါတယ်။ ဒါဟာပုံ 3 အတွက်သရုပ်ဖော်နေသည်။ တကယ်တော့, နေသမျှကာလပတ်လုံးအေးဂျင့်က၎င်း၏အပြုအမူကိုပြောင်းလဲနှင့်အပျက်သဘောအရာဝတ္ထုကိုရှောင်ကြဉ်ရန်သငျခနျးစာယူနိုငျသကဲ့သို့, အနုတ်လက္ခဏာအရာဝတ္ထုများ၏တန်ဖိုးသည်အေးဂျင့်နှင့်အသစ်အဆန်း / saliency တုံ့ပြန်မှုများ၏ပြင်းအား၏နောက်ဆုံးအပြုအမူမှနောက်ဆုံးတွင်ဆီလျှော်သည်။

ပုံ 3

(က) အကယ်၍ RL သည်အဆင့်မြင့်သင်ကြားမှုကိုမရရှိလျှင် (ဆိုလိုသည်မှာကိုယ်စားလှယ်သည်အနှုတ်လက္ခဏာရလဒ်ကိုရှောင်ရှားရန်အစီအမံများကိုမပြုလုပ်နိုင်လျှင်) ဖြစ်ပေါ်လာမည့်ဆုလာဘ်ခန့်မှန်းမှုပြောင်းလဲမှုများကိုပြသသည်၊ အရာဝတ္ထု (နောက်ထပ် ... )

အဆိုပါခြင်း simulation ရလဒ်များကိုသုံးယူဆချက်အပေါ်ပြင်းထန်စွာမှီခိုဖြစ်ကြသည်။ ပထမဦးစွာလှုံ့ဆော်မှုကနဦး cue အားဖြင့်ခန့်မှန်းသည့်အားဖြည့်များ၏ပြင်းအား orienting နှင့်ချဉ်းကပ်၏ကုန်ကျစရိတ်ဖို့လုံလောက်ကြီးမားသော (ဥပမာ + 10) ဆွေမျိုး (ဥပမာ -1) ခဲ့ကြောင်းထဲမှာ "အဓိက" ဖွစျခဲ့သညျ။ ပြင်းအားအတော်လေးသေးငယ်ခဲ့လျှင်, အေးဂျင့် orient မှလေ့လာသင်ယူကြမှာမဟုတ်ဘူး, မကအပြုသဘောဆောင်တဲ့ဆုလာဘ်-ခန့်မှန်းအမှားတုန့်ပြန်နေထုတ်လုပ်လိုက်တဲ့ကြလိမ့်မယ်။ ဒုတိယအချက်မှာမတိုင်မီလှုံ့ဆော်မှုအသိအမှတ်ပြုဖို့နှောင့်နှေးလည်းလိုအပ်သောဖြစ်ခဲ့သည်။ (Delay တစ်ဦးအကျွမ်းတဝင်နှိုးဆွလျင်မြန်စွာအသိအမှတ်ပြုမည်ဖြစ်ကြောင်းသောဆင်ခြင်ခြင်းအောက်မှာ "အသစ်အဆန်း" အတွက်တစ်ဦးကို proxy တစ်ခုဖြစ်သည်။ ) တစ်ဦးနှောင့်နှေးမရှိရင်အဆိုပါအေးဂျင့်ကိုရိုးရှင်းစွာအမှန်တကယ်ရိပ်မိအရာဝတ္ထုများအတွက်သင့်လျော်သောသင့်လျော်သောအပြုသဘောသို့မဟုတ်အပျက်သဘောဆုလာဘ်ခန့်မှန်းအမှားထုတ်ပေးပါလိမ့်မည်။ နောက်ဆုံးတွင်အေးဂျင့်ရဲ့အပြုအမူကြောင့်သင်ယူခဲ့သောတန်ဖိုးများကိုဆုံးဖြတ်ကြရသည်။ အဆိုပါအေးဂျင့်က၎င်း၏ကိုယ်ပိုင်အပြုအမူ (ဆိုလိုသည်မှာယင်းလှုံ့ဆော်မှုချဉ်းကပ်ဖို့ရှိမရှိ) မထိန်းချုပ်နိုင်လျှင်, object တစ်ခုသည်ထင်ရှားလာသောအခါ၎င်း၏ဆုလာဘ်ခန့်မှန်း 0, အ equiprobable အပြုသဘောနှင့်အနုတ်လက္ခဏာရလဒ်များ၏ပျမ်းမျှ equaled ကြလိမ့်မယ်။

အထွေထွေဆွေးနွေးချက်

ဤဆောင်းပါး၌ဖော်ပြခဲ့သည်အဆိုပါခြင်း simulation ကြိုးသို့မဟုတ်ဒဏ်ခတ်ဖြစ်စေအနေနဲ့ခန့်မှန်းရခက်လှုံ့ဆော်မှု, ပေါ်လာသောအခါ, တစ်ဦးအပြုသဘောဆုလာဘ်-ခန့်မှန်းအမှားဖြစ်ပေါ်ကြောင်းသရုပ်ပြပေမယ့်ချက်ချင်းဖော်ထုတ်ရနိုင်မှာမဟုတ်ဘူး။ ထို့ပြင်ခြင်း simulation အဆိုပါခြင်း simulation များ၏အခြေအနေတွင်စီးပွားရေးနှိုးဆွမှုပြင်းထန်မှုများအတွက် proxy ကိုတိုင်းတာသည်နှင့် salience ဤသို့ဆက်စပ်သောအေးဂျင့်ဖို့လှုံ့ဆော်မှုများ၏နီးကပ်အတူဆုလာဘ်-ခန့်မှန်းအမှားတိုး၏အရွယ်အစား, ထိုညွှန်ပြ။ RL ၏သီအိုရီမူဘောင်များတွင်ဆုလာဘ်ဟောကိန်းများပုံမှန်အားဖြင့်အသိအမှတ်ပြုလှုံ့ဆော်မှုများ၏လေ့လာသင်ယူတန်ဖိုးကိုရောင်ပြန်ဟပ်မှနားလည်သဘောပေါက်နေကြတယ်, ဒါမှမဟုတ်တစ်ဦးအေးဂျင့်များ၏ရုပ်ပိုင်းဆိုင်ရာနှင့် / သို့မဟုတ်သိမြင်ပြည်နယ် [15] ။ အဆိုပါအေးဂျင့်အရာဝတ္ထုအသိအမှတ်ပြုထားပြီးရှေ့တော်၌နေထုတ်လုပ်လိုက်တဲ့ကြောင့်သို့သော်ဤနေရာတွင်အစီရင်ခံအကျိုးကို-ခန့်မှန်းအမှားတစ်ခုသှေးကွဲပြားခြားနားသောအနက်ရှိပါတယ်။ အတူတကွဤရလဒ်များကို RL အခြေခံမူဆုချမှထင်ရသောသက်ဆိုင်တဲ့, ဒါပေမယ့်အသစ်အဆန်းများနှင့် saliency ၏ဂုဏ်သတ္တိများမှအစားဆက်စပ်သောတုံ့ပြန်မှုထုတ်လုပ်ရန်လုံလောက်သောသောအယူအဆထောက်ခံပါတယ်။ ဒါကနိဂုံးချုပ် RL ကျွန်တော်တို့ရဲ့ယေဘုယျနားလည်မှုအဘို့နှင့်အစစ်အမှန်ဇီဝသက်ရှိအတွက်ဆုလာဘ်သင်ယူမှု၏အကောင့်တစ်ခုအဖြစ် RL ကျွန်တော်တို့ရဲ့အနက်များအတွက်အများအပြားအရေးကြီးသောဖုံးကွယ်ရှိပါတယ်။

ပထမဦးစွာကိုအမည်မသိစီးပွားရေးနှိုးဆွမှုပုံပေါ်သည့်အခါတစ်ဦး RL အေးဂျင့်ကနေထုတ်လုပ်လိုက်တဲ့သောဆုလာဘ်ခန့်မှန်း Kakade နှင့်ဒါယန်း [7] တို့ကအကြံပြုအဖြစ်သေချာပေါက်အဆိုပါရယူနိုင်သောဆုလာဘ်တစ်ခုတင်းကျပ်ပျမ်းမျှအားသည်မဟုတ်, တကယ်တော့ကြောင်းအထူးသဖြင့်ပျမ်းမျှထက်ပြင်းအားအတွက် သာ. ကြီးမြတ်စေနိုင်ပါတယ်။ Kakade နှင့်ဒါယန်းဟာစမ်းသပ်မှုတွေဆုခခြံများနှင့်အညီအမျှမကြာခဏအပြစ်ပေးခံခဲ့ရသည်သောကွောငျ့, ဘာဖြစ်လို့လဲဆိုတော့ပျမ်းမျှဆုလာဘ်ခန့်မှန်းသုညနဲ့ညီမျှဖြစ်သင့်ကြောင်းကြိုတင်ခန့်မှန်းလိမ့်မယ်။ အဆိုပါအေးဂျင့်တစ်ဦး "On-မူဝါဒက" ထုံးစံ၌လေ့လာသင်ယူနေသောကြောင့်ဤသည်အံ့သြစရာရလဒ်ပေါ်ထွက်လာ; သည်, ထိုအေးဂျင့်အနုတ်လက္ခဏာရလဒ်များနှင့် ပတ်သက်. , ဒါပေမယ့်လည်းသူများရလဒ်များကိုရှောင်ရှားရန်၎င်း၏စွမ်းရည်အကြောင်းကိုသာသိရှိခဲ့၏။ အနုတ်လက္ခဏာရလဒ်များရှောင်ရှားရန်တစ်ဦးအေးဂျင့်စေဖို့ဆုလာဘ်စနစ်၏ဤသည်စွမ်းရည်ကိုဂရုတစိုက်အစစ်အမှန်သက်ရှိမှ RL ကျွန်တော်တို့ရဲ့နားလည်မှုဘာသာပြန်ဆိုအတွက်ထည့်သွင်းစဉ်းစားရပါမည်။ ဤအချက်ကိုအလားအလာ ပို. ပင်အရေးကြီးသောအနုတ်လက္ခဏာဆုလာဘ်ခန့်မှန်းအမှား [11] ထက်ပိုကောင်းတဲ့အပြုသဘောဆုလာဘ်ခန့်မှန်းအမှားကိုယ်စားပြုဖို့ dopaminergic phasic တုံ့ပြန်မှုများ၏စွမ်းရည်အတွက်သိသာ asymmetry ပေးထားသည်။ ဒါဟာဖြစ်ရပ်များတစ်ဦးအထူးသဖြင့် sequence ကိုအပျက်သဘောဆောင်သောရလဒ်ဖြစ်ပေါ်စေကြောင်း, ဒါပေမယ့်အရေးယူရွေးချယ်ရေး၏ရည်ရွယ်ချက်, ထိုရလဒ်ကို၏ပြင်းအားအရေးမကြီးကြောင်းညွှန်ပြရန်လုံလောက်သောဖြစ်နိုင်သည်။

လက်ရှိခြင်း simulation ၏တစ်ဦးကစက္ကန့်ဖုံးကွယ်ဟာအသစ်အဆန်းတုံ့ပြန်မှုသိမှုဆိုင်ရာအာရုံအပြောင်းအလဲနဲ့စနစ်များနှင့်ဆုလာဘ်-ခန့်မှန်းစနစ်များအကြားတစ်ဦးအပြန်အလှန်အနေဖြင့်ပေါ်ထွက်လာစေခြင်းငှါဖြစ်ပါသည်။ အထူးသဖြင့်အသစ်အဆန်းတုံ့ပြန်မှုသေးပြီးပြည့်စုံသောသိမှုဆိုင်ရာအာရုံအပြောင်းအလဲနဲ့ [အောက်ခြေမှတ်ချက် 4] ခံကြပြီမဟုတ်ကြောင်းဝတ္ထုတ္ထုများနှင့်တ္ထုများအကြားတူညီမှုတစ်ခုပုံစံကြောင့်ဖြစ်နိုင်သည်။ ဒီခြင်း simulation မှာတော့အသစ်အဆန်းအရာဝတ္ထုရဲ့ဝိသေသလက္ခဏာရှေ့တော်၌နှောင့်နှေးမိတ်ဆက်ကအကောင်အထည်ဖော်ဆောင်ရွက်ခဲ့ပါသည် (နှင့်အကျိုးဆက်က၎င်း၏အကြိုးသို့မဟုတ်ဒဏ်ခတ်သဘာဝ) ကိုအေးဂျင့်မှသိသာဖြစ်လာခဲ့သည်။ ဤသည်မှာဝတ္ထုအရာဝတ္ထုကိုသိရှိနိုင်ဖို့ကြာသောယူဆချက်အောက်မှာပြု, သို့သော်ဤယူဆချက်သည်လည်းသူတို့ပထမဦးဆုံးပေါ်ထွန်းသောအခါအပြုသဘောနှင့်အပျက်သဘောတ္ထု (ဆိုလိုသည်မှာသူတို့နှစ်ဦးစလုံးအဖြစ် encoded ခဲ့ကြသည် "?") အလားတူရိပ်မိခံနေရမှုခံခဲ့ရသည်။ ဆနျ့ကငျြ, Kakade နှင့်ဒါယန်း [7] အသစ်အဆန်းတုံ့ပြန်မှုနှင့် "ယေဘုယျအားဖြင့်" တုံ့ပြန်မှုဟာ neurophysiology ဒေတာအတွက်အလားတူထင်ရှားလျက်ရှိနေသော်လည်းမရှိမဖြစ်လိုအပ်တဲ့ကွဲပြားခြားနားဖြစ်ကြောင်းအကြံပြုအပ်ပါသည်။

လက်ရှိခြင်း simulation ရလဒ်တစ်ဦးကတတိယဖုံးကွယ်သူတို့ကအသစ်အဆန်း၏နောက်ထပ်ယူဆချက်နှင့် Kakade နှင့်ဒါယန်း [7] တို့ကအဆိုပြုထားခဲ့ပုံဖော်ဆုကြေးငွေမလိုအပ်ပါဘူးဖြစ်ကြောင်းပြသသောကွောငျ့ဖွစျသညျ။ အဲဒီအစားအသစ်အဆန်းကဲ့သို့တုံ့ပြန်မှုလက်တွေ့သိမှုဆိုင်ရာအာရုံအပြောင်းအလဲနဲ့န့်အသတ်နဲ့အနုတ်လက္ခဏာရလဒ်များကိုရှောင်ရှားနိုင်ဖြစ်ခြင်း၏အသိပညာကနေပေါ်ထွက်လာနိုင်ပါတယ်။ Kakade နှင့်ဒါယန်းတို့ကထောက်ပြအဖြစ်, အသစ်အဆန်းဆုကြေးငွေအနေနဲ့အေးဂျင့်အားဖြင့်သင်ယူသောတန်ဖိုးကို function ကိုဖျက်နှင့်ပုံဖော်ဆုကြေးငွေအေးဂျင့်ကသူတို့ပြည်နယ်နေရာများစူးစမ်းသောလမျးကိုထိခိုက်ကြောင့်ဤသည်ကံကောင်းထောက်မစွာပါပဲ။ ထိုအယူဆများဖြစ်စေ၏ပါဝင်မှုအရှင် RL သီအိုရီအပေါ်အခြေခံပြီးမော်ဒယ်များ၏ parsimony လျော့နည်းစေသည်။ အဆိုပါအသစ်အဆန်းတုံ့ပြန်မှုတကယ်တော့ပြီးသား RL အားဖြင့်ခန့်မှန်းသည်စိတ်ဝင်စားစရာ, ဒီမှာတင်ဆက်ရလဒ်ကိုလည်းဇီဝအသစ်အဆန်းတုံ့ပြန်မှုကိုမှန်ကန်သက်ရှိအတွက်သင်ယူမှု-based ဆုချဖို့နှောင့်အယှက်မဖြစ်စေခြင်းငှါအဘယ်ကြောင့်ရှင်းပြကူညီပေးသည်။ ဒါကအသစ်အဆန်းတုံ့ပြန်မှုအပြုအမူတွေနှင့်ပြီးသားယင်း၏ပတ်ဝန်းကျင်အကြောင်းတစ်ခုခုသင်ယူခဲ့ပါသည်တစ်ခုအေးဂျင့်အတွက်မွေးရာပါဖြစ်ကြောင်းဆုလာဘ်ဟောကိန်းများထင်ဟပ်သည်။

ပစ္စုပ္ပန်ခြင်း simulation ရလဒ်တစ်ခုကအခြားရွေးချယ်စရာ (သို့သော်နှစ်ဦးနှစ်ဖက်သီးသန့်မပါ) အနက်ကိုအေးဂျင့်ဆီသို့ဦးတည် orienting နှင့်အရာဝတ္ထုဖော်ထုတ်ခြင်းဖြင့်ရယူသော (ဖြစ်ကောင်းသိမြင်မှု) စိတ္တဇဆုလာဘ်အမှန်ပင်ရှိကွောငျးဖြစ်ပါတယ်။ dopaminergic လှုပ်ရှားမှု၏လေ့လာမှုများမှာတော့အပြုသဘောဆောင်တဲ့ phasic တုံ့ပြန်မှုအကျိုးကိုကြိုတင်ခန့်မှန်းသိကြသည်မျှော်လင့်တွေကိုမှဖြစ်ပွားနိုင်သည်။ ဒီအခြင်း simulation သို့သော်တုံ့ပြန်မှုဤမျိုးကိုလည်းနောက်ဆုံးမှာဆုလာဘ်သို့မဟုတ်ပြစ်ဒဏ်ဖြစ်စေကြိုတင်ခန့်မှန်းနိုင်မယ့် cue တုံ့ပြန်ဖြစ်ပွားနိုင်သည်ကိုမည်သို့ပြသသည်။ အဆိုပါအေးဂျင့်ကအရာဝတ္ထု၏ဝိသေသလက္ခဏာဆုံးဖြတ်သည်အခါ cue အားဖြင့်ခန့်မှန်းကြောင်းအဆိုပါသာတသမတ်တည်းအကျိုးအတွက်ရရှိသောသတင်းအချက်အလက်များအတွက်အမြတ်ပါပဲ။ ခိုင်လုံသော, သင်ယူ "ဆုလာဘ်ခန့်မှန်း" လည်းမရှိလျှင်အမည်မသိအရာဝတ္တုပေါ်ထွန်းတော်မူသောအခါထို့ကြောင့်ကအေးဂျင့်ကတော့စီးပွားရေးနှိုးဆွချဉ်းကပ်သို့မဟုတ်ရှောင်ရှားရန်ရှိမရှိနှင့်ပတ်သက်ပြီးသိကျွမ်းခြင်းပညာရရှိသွားပြီးနောက်စိတ်ကျေနပ်မှုကြောင်းတစ်ခုဖြစ်ပါသည်။ ဤအချက်အလက်များ၏တန်ဖိုးသည်ရယူနိုင်သောရလဒ်များ၏ပျမ်းမျှအပေါ်မဟုတ်အခြေခံသည်, ဒါပေမယ့်အစားအေးဂျင့်အပြုသဘောဆုလာဘ်လောင်ဒါမှမဟုတ်အနုတ်လက္ခဏာဆုလာဘ် (ပုံ 2 ကိုကြည့်ပါ) ရှောငျရှားနိုငျဖြစ်စေကြောင်းထိရောက်သော outcomes- ၏အသိပညာအပေါ်တွင်အခြေခံထားပါသည်။

နောက်ဆုံးအနေနဲ့က (orient မှဥပမာ) အထူးသဖြင့်လုပ်ရပ်များယူနိုင်ရန်အခွင့်အလမ်းများသူတို့ကိုယ်သူတို့ဒီပုံရိပ်စစ်အတွက်မပါဝင်အချို့ General သို့မဟုတ်သင်ယူမှုယန္တရားမှတဆင့်အကြိုးဂုဏ်သတ္တိများအပေါ်ယူစေခြင်းငှါသတိပြုပါရန်အရေးကြီးပါသည်။ ဥပမာအားဖြင့်, orienting နှင့်အဆုံးအဖြတ်များအလွန်လုပ်ရပ် "အဘယျသို့ထွက်ရှိပါတယ်" အဲဒီအရေးယူမှုနှင့်အထက်-သရုပ်ပြပေါ်ထွက်လာသောအသစ်လှုံ့ဆော်မှုပေါ်လာသည့်အခါအမြဲ-အပြုသဘောဆုလာဘ်-ခန့်မှန်းအမှားအကြားအသင်းအဖွဲ့အပေါ်အခြေခံပြီးတစ်ခုသက်ရှိဖို့ကြိုးဖြစ်လာနိုင်ပါတယ်။ အလားတူစိတ်ကူးမကြာသေးမီက phasic dopamine တုံ့ပြန်မှု၏အရေးပါသောရည်ရွယ်ချက်ခန့်မှန်းရခက်အဓိကဖြစ်ရပ်များမတိုင်မီပေါ်ပေါက်သောလုပ်ရပ်များအားဖြည့်ရန်ဖြစ်တယ်ဆိုတာ hypothesize သူကို Redgrave နှင့် Gurney [13] အားဖြင့် advanced ခဲ့တာဖြစ်ပါတယ်။ ဒီမှာရလဒ်များကိုကြောင်းအယူအဆနှင့်ကိုက်ညီမှုမရှိသည့်မဟုတ်, သို့သော်မလုပ်ရပ်များ (ဆိုလိုသည်မှာတူးဖော်ရေး) ကိုအဓိကဖြစ်ရပ် (များ၏ရုပ်ဆင်းသဏ္ဌာန်အဘို့နိုင်ရန်အတွက်အေးဂျင့်များ၏လိုအပ်သောကြောင့် Redgrave နှင့် Gurney ရဲ့ယူဆချက်ကိုတိုက်ရိုက်ဒီပုံရိပ်စစ်အတွက်စမ်းသပ်ပြီးမဟုတ်ကြောင်းမှတ်သားရပါမည် ပေါ်ပေါက်ဖို့အရာဝတ္ထု) ။ သို့သော် simulated phasic signal ကိုနှစ်ခုပြင်းပြင်းထန်ထန်ဆက်စပ်ဖြစ်မည်အကြောင်းအကြံပြုသည့် Orient တုံ့ပြန်မှု၏အချိန်နှင့်တိုက်ဆိုင်။

ပိတ်ပွဲအတွက်, ဤဆောင်းပါးကို RL အခြေခံမူဟာ dopaminergic အာရုံခံ၏ထင်ရသော Non-ဆုလာဘ် related လှုပ်ရှားမှုအမျိုးအစားကိုရှင်းပြဖို့အသုံးပြုနိုင်သရုပ်ပြခဲ့သည်။ ဤရလဒ် (ထိုကဲ့သို့သော Kakade နှင့်ဒါယန်း [7] အသုံးပြုသောကြောင်းအဖြစ်) ကိုယာယီ-ခြားနားချက်သင်ယူစည်းမျဉ်းအေးဂျင့်နောက်ဆုံးရလဒ်တခုတခုအပေါ်မှာအကျိုးသက်ရောက်မှုရှိခဲ့ကြောင်းလုပ်ရပ်များကို select နိုင်သည့်အတွက်တစ်ဦးခြင်း simulation အတွက် embedded ခဲ့သည်ဟူသောအချက်ကိုကနေပေါ်ထွက်လာခဲ့သည်။ အဆိုပါခြင်း simulation ခုနှစ်, အေးဂျင့်ဟာအနုတ်လက္ခဏာရလဒ်ရှောင်ရှားနိုင်သောကြောင့်, ရုတ်တရက်ပေါ်လာသည်တစ်ခုအရာဝတ္ထုမှ orienting ၏ရလဒ်ကိုအမြဲဖြစ်စေအကြိုးသို့မဟုတ်ကြားနေဖြစ်နိုင်ပါတယ်သိခဲ့ရတယ်။ အဆိုပါအေးဂျင့် Oriental ဖို့အခွင့်အလမ်းရှိခဲ့သည့်အခါထိုကွောငျ့, ယင်း၏ဆုလာဘ်-ခန့်မှန်းအမှား, အစဉ်မပြတ်ဇီဝသက်ရှိအတွက်လေ့လာတွေ့ရှိသည့်အသစ်အဆန်းများနှင့် saliency တုံ့ပြန်မှုမှ computationally အလားတူအပြုသဘောဖြစ်ခဲ့သည်။

ကျေးဇူးတင်လွှာ

ဤဆောင်းပါး၌ဖော်ပြထားအဆိုပါအလုပျ NIH R01 HD053639 အားဖြင့်၎င်း, တွင် NSF သင်တန်း Grant က DGE-9987588 ကထောက်ခံခဲ့သည်။ ငါသည်ဤဆောင်းပါး၏တစ်ဦးအစောပိုင်းကဗားရှင်းအပေါ်အထောက်အကူဖြစ်စေမှတ်ချက်များများအတွက် Erik Reichle, Tessa Warren နှင့်အမည်မသိရှိ reviewer ကျေးဇူးတင်ချင်ပါတယ်။

ပြည်နယ်အာကာသက exhaust လွှတ်မည်ကိုတော့ထုတ်ဖော်ပြောကြားသွားခြင်းသို့မဟုတ်အလွယ်တကူကွန်ပျူတာတစ်လုံးရဲ့မှတ်ဉာဏ်ထဲမှာသိမ်းထားတဲ့မရနိုင်အောင်ကြီးမားဖြစ်လာသည့်အခါလမ်းကြောင်းနမူနာကော [1] ဟုခေါ်တွင် 17Another စစ်ကူသင်ယူ algorithm ကို, မကြာခဏအစားတန်ဖိုးကြားမှာ၏အသုံးပြုသည်။ အဲဒီအစားပြည်နယ်အာကာသအတွင်းရှိသမျှသောပြည်နယ်ကျော် iterating နှင့်အများဆုံးဆုလာဘ်ဖို့ဦးဆောင်လမ်းပြဖို့ပေါ်လာသောလုပ်ရပ်များအပေါ်အခြေခံပြီးတန်ဖိုး function ကို update ကိုညီမျှခြင်းလျှောက်ထားခြင်းထက်, လမ်းကြောင်းနမူနာကောပြည်နယ်အာကာသမှတဆင့်လမ်းကြောင်းသည်အောက်ပါတို့ကအလုပ်လုပ်ပါတယ်။ အလားတူပင် Value ကိုကြားမှာရန်, အရှိဆုံးဆုလာဘ်မှဦးဆောင်အရေးယူဆောင်ရွက်ချက်များကိုများသောအားဖြင့်အသီးအသီးပြည်နယ်ကနေရှေးခယျြထားကြသည်, ဒါပေမယ့်ရံဖန်ရံခါကျပန်းရှာဖွေတူးဖော်ခွင့်အရေးယူမှုအချို့အသေးစားဖြစ်နိုင်ခြေနှင့်အတူရွေးကောက်တော်မူသည်။ အရှင် algorithm ကိုဖြစ်ပါသည်: အချို့သော စတင်. ပြည်နယ် s ကို မှစ. အများဆုံးဆုလာဘ်မှဦးဆောင်ကာအရေးယူ select လုပ်ဖြစ်နိုင်ခြေεနှင့်အတူ [ဥပမာ + γV (s 'ကို) ဆုခ], သို့မဟုတ်ဖြစ်နိုင်ခြေ 1 နဲ့ကျပန်းရှာဖွေတူးဖော်ခွင့်အရေးယူမှုကို select - ε။ ပြည်နယ် s မှ Non-ရေနံဓါတ်ငွေ့ရှာဖွေရေးလုပ်ရပ်များကာလအတွင်း - V ကို (s) ကို→ V ကို (s) + α [V ကို (s) ကိုဆုလာဘ် + γV (s 'ကို)] Apply ။

တစ်ပြည်နယ်အာကာသအတွင်းလမ်းကြောင်းရှာဖွေစူးစမ်းခြင်းဖြင့်: ကပိုကောင်းအစစ်အမှန်ဇီဝသက်ရှိသင်ယူရသောထုံးစံကိုထင်ဟပ်စေခြင်းငှါဘာဖြစ်လို့လဲဆိုတော့ကွန်ပျူတာအချိန်နှင့်မှတ်ဉာဏ်၏နည်းပညာပိုင်းဆိုင်ရာန့်အသတ်ကျော်လွှားအပြင်လမ်းကြောင်းနမူနာကောဆွဲဆောင်နိုင်ပါသည်။ ဤစာတမ်းတွင်ဖော်ပြထားသည့်အလုပ်တစ်ခုကိုတွင်, လမ်းကြောင်းနမူနာကော Value ကိုကြားမှာအတူရရှိသောသူတို့အားသှေးတူညီဖြစ်ကြောင်းရလဒ်များကိုဖြစ်ထွန်း။ သို့သော်စုံစုံဘို့သူတို့အားရလဒ်များကိုအသေးစိတ်ဒီနေရာမှာအစီရင်ခံကြသည်မဟုတ်။ Value ကိုကြားမှာနှစ်ခုအဓိကအကြောင်းပြချက်အဘို့ဤစာရွက်ထဲတွင်ခြင်း simulation အဘို့ကိုရှေးခယျြခဲ့သညျ။ လမ်းကြောင်းနမူနာကောဘယ်နေရာတွေမှာ၏ရွေးချယ်ရေးအတွက် stochasticity ကပါဝင်ပတ်သက်နေသောကြောင့်ပထမဦးစွာကြောင့်ဒီတာဝန်အတွက်လုပ်ရပ်များ၏အများအပြားဖြစ်နိုင်သောပာဖို့ဖြစ်ပါတယ်စိမျး၏ကြီးမားသောငွေပမာဏဆိုလိုသည်မှာ (ရှာဖွေရေး-ခေါင်းပုံဖြတ် parameter သည်မဟုတ်လျှင်အချို့သောပြည်နယ်များနှင့်အတူအတွေ့အကြုံကိုကင်းမဲ့ကြောင်းအေးဂျင့်ကိုဖြစ်ပေါ်စေခြင်းငှါ, ε-ကြ၏ [17]) ဂရုတစိုက်ရွေးချယ်ထားသည့်ဖြစ်ပါတယ်။ တစ်ဦး lookup ပြုလုပ်နေစားပွဲပေါ်မှာမှတ်ဉာဏ်ဖွဲ့စည်းပုံမှာဘာဖြစ်လို့လဲဆိုတော့အလားတူ (သို့သော်ဖြစ်နိုင်သည် unvisited) ပြည်နယ်များမှတန်ဖိုးအစဉ်အဆက်မရှိခြင်း၏အသုံးပြုသောအခါအထူးသဖြင့်ပြည်နယ်များနှင့်အတူအတွေ့အကြုံကို၏ဤမရှိခြင်းတစ်ဦးအေးဂျင့်ရဲ့စွမ်းဆောင်ရည်၏နှောင့်အယှက်ဖြစ်နိုင်ပါတယ်။ ထို့ကွောငျ့ Value ကိုကြားမှာအတူအာမခံကြောင်းပြည်နယ် space ၏ပြည့်စုံစေ့စပ်ရှာဖွေရေး၏အားသာချက်ယူပိုမိုနှစ်သက်ခဲ့ပါတယ်။ ဒုတိယအနေ Value ကိုကြားမှာ၏အသုံးပြုမှုဖြင့်ခြင်း simulation simplifying သောအပိုဆောင်းတူးဖော်ရေး-ခေါင်းပုံဖြတ် parameter သည်သတ်မှတ်ရန်လိုအပ်ကြောင်း obviated ။ ဘယ်နေရာတွေမှာ၏နံပါတ်အသင်္ချေ [17] ချဉ်းကပ်အဖြစ်လမ်းကြောင်းနမူနာကောနောက်ဆုံးမှာ Value ကိုကြားမှာဆုံးခနျ့မှနျးနိုငျကွောငျးသတိပြုပါ။

အောက်မှာဖေါ်ပြတဲ့အတိုင်း 2 ပြည်နယ် 21,120The အရေအတွက်ကိုတွက်ချက်နိုင်ပါတယ်: 11 ဖြစ်နိုင်သောအေးဂျင့်တည်နေရာ× 4 ဖြစ်နိုင်သောအေးဂျင့် Oriental (10 အချိန်-ခြေလှမ်းများ× object တစ်ခုအတွက်အေးဂျင့်ခဲ့ဘယ်မှာမျှအရာဝတ္ထု + 10 အချိန်-ခြေလှမ်းများသည်ထင်ရှားဘယ်မှာ + 10 အချိန်-ခြေလှမ်းများပေါ်လာလိမ့်မယ်မတိုင်မီ အပြုသဘောအရာဝတ္ထုအဆိုးကိုအမည်မသိအပြုသဘောအရာဝတ္ထုနဲ့အနှုတ်လက္ခဏာကိုဖော်ထုတ်အရာဝတ္ထု + 10 အချိန်-ခြေလှမ်းများနှင့်အတူတစ်ဦးအပြုသဘောဖော်ထုတ်အရာဝတ္ထု + 11 အချိန်-ခြေလှမ်းများနှင့်အတူ + 10 ဖြစ်နိုင်သောအရာဝတ္တုတည်နေရာ * (10 အချိန်-ခြေလှမ်းများအားဖြည့်ခဲ့ဘယ်မှာ + 10 အချိန်-ခြေလှမ်းများအားဖြည့် အမည်မသိအနုတ်လက္ခဏာအရာဝတ္ထုတွေနဲ့ + 10 အချိန်-ခြေလှမ်းများ))] ။

Value ကိုကြားမှာသာပြည်နယ်အာကာသထဲမှာ "တဦးတည်းခြေလှမ်းရှေ့ဆက်" တစ်ဦးချင်းစီပြည်နယ်ကနေကြည့်နေသောကြောင့်ဤ "ဝှက်ထားသော" ပြည်နယ် 3The တည်ရှိလေ့ကျင့်ရေးကာလအတွင်းစဉ်းစားသုံးသပ်ရမည်ဖြစ်သည်။ အနုတ်လက္ခဏာနှင့်အပြုသဘောဆောင်သည့်အမည်မသိအရာဝတ္ထုတွေနဲ့ပြည်နယ်များထိရောက်စွာတူညီကြသည်ဟူသောအချက်ကိုအကြောင်းကိုလေ့လာသင်ယူနှင့်ဖြစ်စေအပြုသဘောသို့မဟုတ်အပျက်သဘောအရာဝတ္ထုဖော်ထုတ်ဖြစ်သည့်အတွက်နှစ်ခုကွဲပြားခြားနားသောနောက်ဆက်တွဲပြည်နယ်များအတွက်တန်ဖိုးများကိုပျမ်းမျှတားဆီးလိမ့်မယ်။ အခြားတစ်ဖက်တွင်တစ်ဦးကလမ်းကြောင်းနမူနာကောချဉ်းကပ်မှုတရားခွင်တစ်လျှောက်လုံးက hidden ပြည်နယ်သတင်းအချက်အလက်ကို (အမည်မသိစီးပွားရေးနှိုးဆွမှု၏ဆိုလိုသည်မှာအထောက်အထား) ကိုထိန်းသိမ်းထားခြင်းနှင့်ဒါ RL ၏မူကွဲတွေနဲ့ဝှက်ထားသောပြည်နယ်များတစ်ဦးစိုးရိမ်ပူပန်မှုမရှိကြပေ။

ပစ္စုပ္ပန်အလုပ် 4One အလားအလာကန့်ကွက်သည့် Orient တုံ့ပြန်မှုနို့တိုက်သတ္တဝါငယ်တွေဟာဦးနှောက်ထဲမှာဥပမာအားဖြင့်သာလွန် colliculus [3,14] ကနေစီမံကိန်းများတွင်ခက်ခဲ-ကြိုးခံရဖို့ပုံပေါ်သောကွောငျ့ဖွစျသညျ။ ပစ္စုပ္ပန်ခြင်း simulation ခုနှစ်, အေးဂျင့်တ္ထုမှ Oriental ရန်ခက်ခဲ-ကြိုးပေမယ့်အစားအကြိုးကို A မြင့်ဆုံးကြောင်းလုပ်ဆောင်ချက်တစ်ခု (ဥပမာ, ချဉ်းကပ်မှုသို့မဟုတ်ရှောင်ရှားခြင်းဖြစ်စေ) ၏နောက်ဆုံးရွေးချယ်ရေးခွင့်ပြုထားတဲ့ Oriental အပြုအမူသင်ယူမခံခဲ့ရပါ။ အရာဝတ္ထုဖော်ထုတ်ခဲ့ကြသည်အပေါင်းတို့နှင့်တကွ, တ္ထုဆီသို့ဦးတည်ညွှန်ကြားခဲ့ကြသည်မတိုင်မီအလားတူပင် Hard-ကြိုးတုံ့ပြန်မှုမှဤ orienting အပြုအမူတွေကိုအလွန်လျှင်မြန်စွာဖြစ်ပွားခဲ့သည်။ ဒီအလုပျ၏ရည်မှန်းချက်အားလုံးထိုကဲ့သို့သောတုံ့ပြန်မှုသင်ယူသောပြောဆိုချက်ကိုစေရန်မဟုတ်ခဲ့ပေမယ့်အစားသူတို့က RL မူဘောင်အတွင်းပူးတွဲတည်ရှိနိုင်ပါသည်။ မည်သို့ပင်ဆိုစေကာ, ကဆုလာဘ်-related ယန္တရားများဒီ phasic dopamine တုံ့ပြန်မှု generate နိုင်ရန်အတွက် brainstem ဒေသများရှိဆက်သွယ်မှုတက် setting တွင်ပါဝင်ပတ်သက်စေခြင်းငှါရှိမရှိစုံစမ်းစစ်ဆေးရန်စိတ်ဝင်စားစရာကောင်းလိမ့်မည်။

ဒါကထုတ်ဝေမှုအတွက်လက်ခံလိုက်ပါသည်တစ်ခုတည်းဖြတ်ခြင်းမရှိဘဲလက်ရေးမူများမှာတွေ့နိုင်ပါတယ်တဲ့ PDF ဖိုင်ဖြစ်ပါသည်။ ကျွန်တော်တို့ရဲ့ဖောက်သည်ဝန်ဆောင်မှုအဖြစ်ကျနော်တို့ကလက်ရေးမူများမှာတွေ့နိုင်ပါတယ်၏ဤအစောပိုင်းဗားရှင်းပေးနေကြသည်။ ဒါကြောင့်သူ့ရဲ့နောက်ဆုံး citable form မှာထုတ်ဝေမီလက်ရေးမူများမှာတွေ့နိုင်ပါတယ် copyediting, လုပ်ခြင်း, စာစီ, နှင့်ရရှိလာတဲ့သက်သေ၏သုံးသပ်ချက်ကိုခံယူပါလိမ့်မယ်။ ထုတ်လုပ်မှုလုပ်ငန်းစဉ်အတွင်းအမှားအယွင်းများအကြောင်းအရာကိုထိခိုက်နိုင်သည့်ရှာဖွေတွေ့ရှိစေခြင်းငှါ, ထိုဂျာနယ်လျှောက်ထားသောသူအပေါင်းတို့သည်ဥပဒေရေးရာအကြောင်းသတိပြုစရာများစပ်ဆိုင်သောအကြောင်းသတိပြုပါ။

ကိုးကား

1 ။ Baird LC ။ ကျန်နေတဲ့အယ်လဂိုရီသမ်: စစ်ကူရာထူးအမည်ခန့်မှန်းခြေအားဖြင့်နှင့်အတူသင်ယူခြင်း။ ခုနှစ်တွင်: Priedetis တစ်ဦး, ရပ်စယ်လ်က S, အယ်ဒီတာများ။ စက်သင်ယူ: ဒွါဒသမနိုင်ငံတကာညီလာခံ၏တရားစွဲဆိုထား; 9-12 July.1995 ။

2 ။ Bunzeck N ကို, လူ့ substantia nigra / VTA အတွက်စီးပွားရေးနှိုးဆွမှုအသစ်အဆန်း၏Düzelအီး Absolute နိုင်တဲ့ coding ။ အာရုံခံဆဲလျ။ 2006; 51 (3): 369-379 ။ [PubMed]

3 ။ Dommett အီး, Coizet V ကို, Blaha CD ကို, Martindale J ကို, Lefebvre V ကို, ဝေါ်လ်တန် N ကို, Mayhew ယုဒလူ, Overton PG, Redgrave P. အမြင်အာရုံလှုံ့ဆော်မှုတိုတောင်းအောင်းနေချိန်မှာ dopaminergic အာရုံခံကိုသက်ဝင်ပုံ။ သိပ္ပံ။ 2005; 307 (5714): 1476-1479 ။ [PubMed]

4 ။ Doya K. Metalearning နှင့် neuromodulation ။ အာရုံကြောကွန်ယက်။ 2002 Jun-ဇူလိုင်; 15 (4-6): 495-506 ။ [PubMed]

5 ။ Gillies တစ်ဦးက, အ Basal ganglia ၏ Arbuthnott G. အတွက်ချက်မော်ဒယ်များ။ လပ်ြရြားမြ Disorders ။ 2000; 15 (5): 762-770 ။ [PubMed]

6 ။ Horvitz JC ။ အဓိကမဟုတ်တဲ့ဆုလာဘ်ဖြစ်ရပ်များမှ Mesolimbocortical နှင့် nigrostriatal dopamine တုံ့ပြန်မှု။ neuroscience ။ 2000; 96 (4): 651-656 ။ [PubMed]

7 ။ Kakade S ကဒါယန်း P. Dopamine: General နှင့်ဆုကြေးငွေ။ အာရုံကြောကွန်ယက်။ 2002; 15 (4-6): 549-559 ။ [PubMed]

8 ။ Knutson B, Cooper က JC ။ မသိသောများ၏မြှူ။ အာရုံခံဆဲလျ။ 2006; 51 (3): 280-282 ။ [PubMed]

9 ။ Logothetis NK ပေါလုသည်ဂျေ, Augath M က, Trinath T က, အ fMRI signal ကို၏အခြေခံ၏ Oeltermann အေ Neurophysiological စုံစမ်းစစ်ဆေး။ သဘာဝ။ 2001; 412 (6843): 150-157 ။ [PubMed]

10 ။ လူယာသည် SM, Bern GS, မွန်တဂူ PR စနစ်။ တစ်ဦး passive သင်ယူမှုလုပ်ငန်းတာဝန်များတွင်ယာယီခန့်မှန်းအမှားအယွင်းများလူ့ striatum ကိုသက်ဝင်။ အာရုံခံဆဲလျ။ 2003; 38 (2): 339-346 ။ [PubMed]

11 ။ ထို Y ကို, Duff MO ကိုဒါယန်း P. Dopamine, မသေချာမရေရာနဲ့ TD သင်ယူမှု။ အမူအကျင့်များနှင့်ဦးနှောက် Functions များ။ 2005 မေလ 4; 1: 6 ။ [PMC အခမဲ့ဆောင်းပါး] [PubMed]

12 ။ O'Doherty JP ဒါယန်း P ကို, Friston K ကို Critchley H ကို, Dolan RJ ။ လူ့ဦးနှောက်ထဲမှာယာယီခြားနားချက်မော်ဒယ်များနှင့်ဆုလာဘ်-related သင်ယူမှု။ အာရုံခံဆဲလျ။ 2003; 38 (2): 329-337 ။ [PubMed]

13 ။ Redgrave P ကို, Gurney K. အဆိုပါရေတိုအောင်းနေချိန် dopamine signal ကို: ဝတ္ထုလုပ်ရပ်များရှာဖွေတွေ့ရှိခဲ့တာအတွက်အခန်းကဏ္ဍ? သဘာဝတရားအာရုံကြောသိပ္ပံ Reviews ။ 2006 ဒီဇင်ဘာ; 7 (12): 967-975 ။

14 ။ Redgrave P ကို, Prescott တီဂျေ, Gurney K. ဆုလာဘ်အမှားအချက်ပြဟာသိပ်တိုတောင်းပါတယ်တို-အောင်းနေချိန် dopamine တုံ့ပြန်မှုလား? neuroscience အတွက်ခေတ်ရေစီးကြောင်း။ 1999 ဧပြီ; 22 (4): 146-151 ။ [PubMed]

15 ။ Reichle ED, Laurent PA ဆိုပြီး။ ဖတ်နေစဉ်အတွင်း "အသိဉာဏ်" မျက်စိ-လှုပ်ရှားမှုအပြုအမူများပေါ်ပေါက်လာနားလည်ရန်သင်ယူခြင်းအားဖြည့်အသုံးပြုခြင်း။ စိတ်ပိုင်းဆိုင်ရာကိုပြန်လည်ဆန်းစစ်ခြင်း။ 2006; 113 (2): 390-408 ။ [PubMed]

16 ။ Schultz dopamine အာရုံခံ၏ဒဗလျူခန့်မှန်းဆုလာဘ် signal ကို။ Neurophysiology ၏ဂျာနယ်။ 1998; 80 (1): 1-27 ။ [PubMed]

17 ။ Sutton RS, Barto AG က။ အားဖြည့်သင်ယူ: တစ်ခုကနိဒါန်း။ MIT ကစာနယ်ဇင်း; ကိန်းဘရစ်ချ်: 1998 ။

18 ။ ချက်ချင်းနှင့်အနာဂတ်ဆုလာဘ်၏ Tanaka SC, Doya K ကို Okada, G, Ueda K ကို Okamoto က Y, Yamawaki အက်စ်ဘီဘာအို differential cortico-Basal ganglia ကွင်းစုဆောင်းလေ့ကျင့်။ သဘာဝတရားအာရုံကြောသိပ္ပံ။ 2004; 7 (8): 887-893 ။