ශක්තිමත් කිරීමේ ඉගෙනුම් මූලධර්මයන්ගෙන් (2008) සාර්‍ථකතාව සහ නව්‍යතා ප්‍රතිචාරයන් මතුවීම

අදහස්: නවකතාව එයම විපාකයක් බව පෙන්නුම් කරන තවත් අධ්‍යයනයකි. අන්තර්ජාල කාමුක දර්ශනවල එක් ඇබ්බැහි අංගයක් වන්නේ නිමක් නැති නව්‍යතාවය සහ විවිධත්වය, එක් දර්ශනයක සිට තවත් දර්ශනයකට වේගයෙන් ක්ලික් කිරීමේ හැකියාව සහ නිවැරදි රූපයක් / වීඩියෝවක් සෙවීමයි. මේ සියල්ල ඩොපමයින් වැඩි කරයි. අන්තර්ජාල කාමුක සඟරා හෝ කුලියට ගත් ඩීවීඩී වලට වඩා වෙනස් වන්නේ මෙයයි.

සම්පුර්ණ අධ්‍යයනය: ශක්තිමත් කිරීමේ ඉගෙනුම් මූලධර්මයන්ගෙන් සාර්‍ථකතාව සහ නව්‍යතා ප්‍රතිචාර මතුවීම

ස්නායුක නෙට්. 2008 දෙසැම්බර්; 21 (10): 1493 - 1499.

මාර්ගගතව ප්‍රකාශයට පත් කරන ලද්දේ 2008 සැප්තැම්බර් 25. doi: 10.1016 / j.neunet.2008.09.004

පැට්රික් ඒ. ලෝරන්ට්, පිට්ස්බර්ග් විශ්ව විද්‍යාලය;

සියලුම ලිපි හුවමාරුව අමතන්න: පැට්‍රික් ලෝරන්ට්, පිට්ස්බර්ග් විශ්ව විද්‍යාලය, 623 LRDC, 3939 O'Hara St., පිට්ස්බර්ග්, PA 15260 USA, විද්‍යුත් තැපෑල: [විද්‍යුත් ආරක්‍ෂිත], කාර්යාලය: (412) 624-3191, ෆැක්ස්: (412) 624-9149

වියුක්ත

පුනරුත්ථාපන ඉගෙනුම් [17] වැනි ප්‍රතිලාභ මත පදනම් වූ ඉගෙනුම් ආකෘති මොළයට සිතියම් ගත කිරීමට මෑතදී ගත් උත්සාහයන් පදනම් වී ඇත්තේ ඩොපමයින් මුදාහරින නියුරෝන වල සං ic ටකවල අනාවැකි සහ ලැබුනු විපාක [16,5] අතර සං ic ා වෙනස්කම් වල අදියර වැඩි වීම හා අඩුවීම යන නිරීක්‍ෂණය මත ය. කෙසේ වෙතත්, මෙම විපාක-පුරෝකථන දෝෂය එම අදියර ක්‍රියාකාරකම් මගින් සන්නිවේදනය කරන සං als ා කිහිපයකින් එකක් පමණි; තවත් එකක් වන්නේ ඩොපමිනර්ජික් ස්පිකිං වැඩි වීමක් වන අතර එය කැපී පෙනෙන නමුත් අනපේක්ෂිත ප්‍රතිලාභ නොලබන උත්තේජක [4,6,13] වල පෙනුම පිළිබිඹු කරයි, විශේෂයෙන් ජීවියෙකු පසුව උත්තේජක දෙසට යොමු වන විට [16]. මෙම සොයාගැනීම් පැහැදිලි කිරීම සඳහා, කකාඩේ සහ දයාන් [7] සහ තවත් අය නවකතාව, අනපේක්ෂිත උත්තේජක සහජයෙන්ම ප්‍රතිලාභ ගෙන දෙන බව ඉදිරිපත් කර ඇත. මෙම ලිපියේ වාර්තා කර ඇති අනුකරණයෙන් පෙන්නුම් කරන්නේ මෙම උපකල්පනය අවශ්‍ය නොවන බැවින් එය අල්ලා ගැනීමට අදහස් කරන බලපෑම ශක්තිමත් කිරීමේ ඉගෙනීමේ විපාක-පුරෝකථන ඉගෙනුම් යාන්ත්‍රණයන්ගෙන් ඉස්මතු වන බැවිනි. මේ අනුව, ශක්තිමත් කිරීමේ ඉගෙනීමේ මූලධර්ම බාසල් ගැන්ග්ලියා හි ඩොපමිනර්ජික් නියුරෝන වල විපාක ආශ්‍රිත ක්‍රියාකාරකම් පමණක් නොව ඒවායේ පෙනෙන විපාක සම්බන්ධ නොවන ක්‍රියාකාරකම් ද තේරුම් ගත හැකිය.

මොළයේ ප්‍රතිලාභ මත පදනම් වූ ඉගෙනීමේ පරිගණක ආකෘති සංවර්ධනය කිරීමේදී ශක්තිමත් කිරීමේ ඉගෙනීම (ආර්එල්) වඩ වඩාත් වැදගත් වේ. ආර්එල් යනු ගණිතමය ඇල්ගොරිතම කාණ්ඩයකි, එය කෘතිම “නියෝජිතයෙකුට” (උදා: සැබෑ හෝ අනුකරණය කළ රොබෝවෙකුට) අපේක්ෂිත සම්පූර්ණ විපාකය [17] උපරිම කර ගැනීම සඳහා ක්‍රියා තෝරා ගැනීමට ඉගෙන ගත හැකි ආකාරය නියම කරයි. මෙම ඇල්ගොරිතම වලදී, නියෝජිතයෙකු සිය ක්‍රියාවන් පදනම් කරගන්නේ එය විවිධ රාජ්‍යයන් සමඟ ඇසුරු කිරීමට ඉගෙන ගන්නා අගයන් මත ය (උදා: උත්තේජනයක් හා සම්බන්ධ ප්‍රත්‍යක්ෂ සං ues ා). තාවකාලික-වෙනස ඉගෙනීම තුළින් මෙම අගයන් ක්‍රමයෙන් ඉගෙන ගත හැකි අතර, එමඟින් නියෝජිතයා විසින් රජය සඳහා දැනට පවතින ප්‍රතිලාභ අනාවැකි සහ පරිසරයෙන් පසුව ලබා ගන්නා සැබෑ ත්‍යාගය අතර වෙනස මත පදනම්ව රාජ්‍ය අගයන් සකස් කරයි. විපාක-පුරෝකථන දෝෂය ලෙස හැඳින්වෙන මෙම ගණනය කළ වෙනස, මානව නොවන ප්‍රයිමේට් [16] හි සාර්‍ථක නිග්‍රා වෙතින් ප්‍රක්ෂේපණය කරන ඩොපමයින් මුදාහරින නියුරෝන වල අදියර ක්‍රියාකාරිත්වය සමඟ ඉතා හොඳින් සම්බන්ධ වී ඇති බව පෙන්නුම් කර ඇත. තවද, මිනිසුන් තුළ, ඩොපමයින් හි වැදගත් ඉලක්කයක් වන ස්ට්‍රයැටම්, එෆ්එම්ආර්අයි බෝල්ඩ් සං signal ාවක් ප්‍රදර්ශනය කරන අතර එය විපාක ඉගෙනීමේ කාර්යයන් [10,12,18] අතරතුර විපාක-පුරෝකථන දෝෂයක් පිළිබිඹු කරයි. මෙම එෆ්එම්ආර්අයි සොයාගැනීම කායික විද්‍යා දත්ත සම්පුර්ණ කරයි, මන්දයත් ස්ට්‍රයිටල් බෝල්ඩ් අවම වශයෙන් අර්ධ වශයෙන් අනුබද්ධිත උපාගමික ක්‍රියාකාරකම් [9] සහ ඩොපමයින් නියුරෝන ව්‍යාපෘතිය දැඩි ලෙස ස්ට්‍රයිටේටම් වෙත පරාවර්තනය කරයි යැයි උපකල්පනය කර ඇති බැවිනි.

ඉහත සඳහන් භෞතික විද්‍යාත්මක ප්‍රතිචාර ආර්එල් හි විපාක-පුරෝකථන ගණනය කිරීම් හා සම්බන්ධ බව පෙනෙන්නට තිබුණද, [4,6,14,3] විපාකයට සම්බන්ධ නැති බවක් පෙනෙන්නට ඇති, අවදි කිරීම සහ / හෝ නව උත්තේජක වලට ප්‍රතිචාර වශයෙන් ඩොපමිනර්ජික් ෆාසික් ක්‍රියාකාරිත්වයේ වැඩි වීමක් ද ඇත. FMRI [2] භාවිතා කරමින් මිනිසුන් තුළද මෙවැනිම සංසිද්ධියක් මෑතකදී නිරීක්ෂණය විය. මෙම “නව්‍යතාවය” හෝ “ලවණතාව” ප්‍රතිචාරය විපාක-පුරෝකථන දෝෂයට සම්බන්ධ නැති බව පැවසීමට හේතු කිහිපයක් තිබේ: (1) උත්තේජකයේ අනන්‍යතාවය තක්සේරු කිරීමට පෙර එය ඉතා ඉක්මනින් පෙනේ, එවිට නිවැරදි විපාක පුරෝකථනය කළ නොහැක. ජනනය කළ යුතුය; (2) එය පිළිකුල් සහගත හා ආහාර රුචිය උත්තේජක සඳහා ස්නායුක ක්‍රියාකාරිත්වයේ වැඩි වීමකට (එනම් එය ධනාත්මක වේ) අනුරූප වේ; සහ (3) එය [13] පුරුදු කරයි. ඇත්ත වශයෙන්ම, ඩොපමයින් මුදාහරින නියුරෝන වල මෙම ලවණතාව / නව්‍යතා ප්‍රතිචාර වඩාත් විශ්වාසදායක වන්නේ උත්තේජක අනාවැකි නොකෙරෙන අතර එහි ප්‍රති come ලය නොසලකා දිශානතිය සහ / හෝ ප්‍රවේශ හැසිරීම් [16] ඇති වන අතර, ඒවා උගත් විපාකයට වඩා ගුණාත්මකව වෙනස් බව අවධාරණය කරයි. පුරෝකථනය. එබැවින් අභියෝගය වී ඇත්තේ ආර්එල් හි න්‍යායාත්මක රාමුව තුළ මෙම පෙනෙන විරුද්ධාභාසය (එනම්, විපාක-පුරෝකථන දෝෂයට නව්‍යතාව බලපාන්නේ කෙසේද) පැහැදිලි කිරීමයි.

කකාඩේ සහ දයාන් [7] මෙය හරියටම කිරීමට උත්සාහ කළහ; ඔවුන්ගේ ලිපියේ දී, ඩොපමිනර්ජික් ක්‍රියාකාරිත්වයේ ආර්එල් ආකෘතිවලට නව්‍ය ප්‍රතිචාර ඇතුළත් කළ හැකි ආකාර දෙකක් ඉදිරිපත් කරයි - මේ දෙකම නව න්‍යායාත්මක උපකල්පන ඇතුළත් කිරීම හා සම්බන්ධ විය. පළමු උපකල්පනය, නව්‍ය බෝනස් ලෙස හඳුන්වනු ලබන අතර, නව උත්තේජක පවතින විට අමතර ත්‍යාගයක් හඳුන්වා දීම, නියෝජිතයාට ලැබෙන සාමාන්‍ය ත්‍යාගයට වඩා ඉහළින් හා ඉන් ඔබ්බට ය. මෙම අතිරේක ත්‍යාගය ගණනය කිරීම සඳහා ඇතුළත් වන අතර එමඟින් ඉගෙනීම පදනම් වන්නේ නියෝජිතයාගේ පවත්නා විපාක අනාවැකිය සහ පරිසරයෙන් ලැබෙන සාමාන්‍ය ත්‍යාගයේ එකතුව සහ නව්‍ය ප්‍රසාද දීමනා අතර වෙනසයි. මේ අනුව, නව්‍යතාවය නියෝජිතයා උපරිම කිරීමට උත්සාහ කරන ත්‍යාගයේ කොටසක් බවට පත්වේ. හැඩගැස්වීමේ බෝනස් ලෙස හැඳින්වෙන දෙවන උපකල්පනය නව උත්තේජක හා සම්බන්ධ රාජ්‍යයන්ගේ අගයන් කෘතිමව වැඩි කිරීමෙන් ක්‍රියාත්මක කළ හැකිය. ආර්එල් හි භාවිතා වන තාවකාලික-වෙනස ඉගෙනීමේ රීතිය පදනම් වී ඇත්තේ අනුප්‍රාප්තික රාජ්‍යයන් අතර විපාක-පුරෝකථනයේ වෙනස මත වන හෙයින්, නව උත්තේජක සම්බන්ධ රාජ්‍යයන්ට නිරන්තර හැඩගැස්වීමේ ප්‍රසාද දීමනාවක් එකතු කිරීම නියෝජිතයාගේ අවසාන හැසිරීමට කිසිදු බලපෑමක් ඇති නොකරයි. කෙසේ වෙතත්, නියෝජිතයා “හැඩගස්වා ඇති” (එනම් නව්‍යතාවයට සම්බන්ධ) රාජ්‍ය අවකාශයේ කොටස තුළට ඇතුළු වන විට නව ප්‍රතිචාරයක් තවමත් මතුවෙයි.

මෙම එක් එක් උපකල්පන එකතු කිරීම නව්‍යතාවයේ බොහෝ නිරීක්ෂණය කළ බලපෑම් පැහැදිලි කිරීමට ප්‍රමාණවත් වුවද, උපකල්පන ඉගෙනීමේ ප්‍රගතියට බාධා කරයි. කකාඩේ සහ දයාන් [7] පෙන්වා දෙන පරිදි, නව්‍ය බෝනස් මගින් අගය ශ්‍රිතය විකෘති කළ හැකිය (එනම්, ඒජන්තවරයා විසින් එක් එක් ප්‍රාන්තය හා සම්බන්ධිත අගයන්) සහ නවකතාව සමඟ සහජයෙන්ම සම්බන්ධ වන අතිරේක ත්‍යාගයක් ලෙස ඒවා ක්‍රියාත්මක වන නිසා අවසානයේ ඉගෙන ගත් දේට එය බලපායි. ජනපදය. ගැටළුව වන්නේ විපාකයේ ප්‍රාථමික හා නව්‍ය සංරචක දෙකම පුරෝකථනය කිරීමට නියෝජිතයා ඉගෙනීමයි. බෝනස් හැඩ ගැස්වීම මෙවැනි ආකාරයේ ගැටළුවක් ඇති නොවන බව කකාඩේ සහ දයාන් පෙන්වා දුන්නද, ඒවා පූර්ව ප්‍රාන්තවලින් ලැබෙන විපාක අනාවැකි සමඟ සම්බන්ධ වී ඇති හෙයින්, ඒවා එකතු කිරීම තවමත් ගැටළු සහගත වන්නේ බෝනස් හැඩ ගැස්වීම නියෝජිතයෙකු විසින් එහි රාජ්‍ය අවකාශය ගවේෂණය කරන ආකාරයට පක්ෂග්‍රාහී බව හඳුන්වා දෙන බැවිනි. මේ අනුව, මෙම අතිරේක උපකල්පනයන් ආර්එල් හි විපාක-පුරෝකථන දෝෂයට නවකතාව බලපාන්නේ කෙසේද යන්න පැහැදිලි කළ හැකි වුවද, ඒවා ගැටළු සහගත ය. තවද, පැහැදිලි කිරීම් පැමිණෙන්නේ සැබෑ ජෛව ජීවීන්ගේ හැසිරීම අවබෝධ කර ගැනීම සඳහා ආර්එල් භාවිතා කිරීමට උත්සාහ කරන ආකෘති නිර්මාණ කාර්යයේ පරස්පරතාව අඩු කිරීමේ පිරිවැයෙනි.

සරල RL නියෝජිතයෙකු කිසිදු අතිරේක උපකල්පනයක් නොමැතිව විපාක-පුරෝකථන දෝෂ ප්‍රතිචාරයක් වර්ධනය කරනු ඇතැයි යන උපකල්පනය පරීක්ෂා කිරීම සඳහා පහත වාර්තා කරන ලද සමාකරණය සිදු කරන ලද අතර එය ජීව විද්‍යාත්මක ජීවීන් තුළ දක්නට ලැබෙන ප්‍රතිලාභ නොවන ඩොපමයින් ප්‍රතිචාර වලට සමාන වේ. . ආර්එල් නියෝජිතයෙකුට එහි පරිසරයේ අහඹු ස්ථානවල දර්ශනය වන වස්තු වර්ග දෙකක් සමඟ අන්තර්ක්‍රියා කිරීමේ කාර්යය ලබා දී ඇත. එහි විපාකය උපරිම කර ගැනීම සඳහා, නියෝජිතයාට ධනාත්මක වස්තුව වෙත ළඟා වීමට හා “පරිභෝජනය” කිරීමට ඉගෙන ගත යුතු අතර negative ණාත්මක වස්තුව වළක්වා ගැනීමට (එනම් “පරිභෝජනය” නොකිරීමට) සිදුවිය. සමාකරණය සඳහා ප්‍රධාන අනාවැකි තුනක් තිබුණි.

පළමු අනාවැකිය වූයේ, එහි විපාකය උපරිම කර ගැනීම සඳහා නියෝජිතයා ඇත්ත වශයෙන්ම ධනාත්මක, ප්‍රතිලාභදායක වස්තූන් වෙත ළඟා වී “පරිභෝජනය” කිරීමට ඉගෙන ගන්නා අතරම එකවරම negative ණාත්මක, ද ishing ුවම් ලැබිය හැකි වස්තූන් වළක්වා ගැනීමට ඉගෙන ගැනීමයි. දෙවන අනාවැකිය තරමක් අඩු පැහැදිලිව පෙනෙන්නට තිබුණි: නියෝජිතයා negative ණාත්මක හා ධනාත්මක වස්තූන් දෙසට දිශානති ප්‍රතිචාරයක් (එනම් එහි දිශානතිය වෙනස් කිරීමට ඉගෙන ගන්න) ප්‍රදර්ශනය කරයි. මෙම අනාවැකිය සිදු කරන ලද්දේ නියෝජිතයාට වස්තුවක පෙනුම සහ එහි පිහිටීම “දැනීමට” හැකි වුවද, වස්තුවේ ධනාත්මක හෝ නිෂේධාත්මක අනන්‍යතාවය (එනම්, නියෝජිතයා අවසානයේදී වස්තුවේ විපාක වටිනාකම සමඟ සම්බන්ධ වීමට ඉගෙන ගන්නා ඉඟිය) නියෝජිතයා ඇත්ත වශයෙන්ම වස්තුව දෙසට නැඹුරු වූ පසු නියෝජිතයාට තීරණය කළ නොහැක. අවසාන වශයෙන්, තෙවන (හා වඩාත්ම වැදගත්) පුරෝකථනය ආකෘතියේ අනුකරණය කරන ලද ඩොපමිනර්ජික් අදියර ප්‍රතිචාරයට සම්බන්ධ විය; මෙම අනාවැකිය වූයේ, වස්තුව දර්ශනය වූ විට, නියෝජිතයා ෛජව ජීවීන් තුළ නිරීක්ෂණය කරන ලද ෆාසික් ඩොපමයින් ප්‍රතිචාරයට පරිගණකමය වශයෙන් සමාන වන විපාක-පුරෝකථන දෝෂයක් ප්‍රදර්ශනය කරනු ඇති අතර එය ධනාත්මක හා negative ණාත්මක වස්තු සඳහා ධනාත්මක වේ. මෙම ප්‍රතිචාරය නියෝජිතයා සහ උත්තේජක අතර දුරස්ථ ශ්‍රිතයක් ලෙස වෙනස් වනු ඇතැයි පුරෝකථනය කරන ලද අතර, අනුකරණයේ සන්දර්භය තුළ උත්තේජක “තීව්‍රතාව” හෝ ලවණතාව සඳහා ප්‍රොක්සි මිනුමක් විය. පහත දැක්වෙන පරිදි, මෙම අනාවැකි සමාකරණ ප්‍රති results ල මගින් සනාථ කරන ලද අතර, එයින් පෙනී යන්නේ ප්‍රතිලාභ නොලැබෙන ඩොපමයින් ප්‍රතිචාර ප්‍රතිපත්තිමය වශයෙන් ආර්එල් හි මූලික මූලධර්මවලින් මතුවිය හැකි බවයි. ජෛව විද්‍යාත්මක ජීවීන්ගේ ප්‍රතිලාභ නොවන ක්‍රියාකාරකම් අවබෝධ කර ගැනීම සඳහා ආර්එල් භාවිතා කිරීම සඳහා මෙම ප්‍රති results ලවල න්‍යායාත්මක ඇඟවුම් මෙම ලිපියේ අවසාන කොටසේ සාකච්ඡා කෙරේ.

ක්රමය

දැනටමත් සඳහන් කර ඇති පරිදි, ආර්එල් ඇල්ගොරිතම මඟින් නියෝජිතයෙකුට ලැබිය යුතු මුළු ත්‍යාග ප්‍රමාණය උපරිම කර ගැනීම සඳහා ගත යුතු ක්‍රියාමාර්ග මොනවාදැයි දැන ගැනීමට මොහොතකට සංඛ්‍යාත්මක ප්‍රතිලාභ භාවිතා කළ හැකි ආකාරය නියම කරයි. බොහෝ සූත්‍රවල දී, මෙම ඉගෙනීම සාක්ෂාත් කරගනු ලබන්නේ නියෝජිතයාගේ ප්‍රතිලාභ අනාවැකි යාවත්කාලීන කිරීම සඳහා විපාක-පුරෝකථන දෝෂ (එනම්, නියෝජිතයෙකුගේ වර්තමාන ප්‍රතිලාභ අනාවැකිය සහ ලබාගත් සැබෑ විපාකය අතර වෙනස) භාවිතා කිරීමෙනි. ප්‍රතිලාභ අනාවැකි ඉගෙන ගන්නා බැවින්, අනාවැකි එහි ඊළඟ ක්‍රියාව තෝරා ගැනීමට නියෝජිතයෙකුට භාවිතා කළ හැකිය. සුපුරුදු ප්‍රතිපත්තිය (සමීකරණ 2 හි අර්ථ දක්වා ඇත) විශාලතම ත්‍යාගය ලැබෙනු ඇතැයි පුරෝකථනය කර ඇති ක්‍රියාව තෝරා ගැනීම නියෝජිතයාට වේ. ඕනෑම වේලාවක නියෝජිතයාට ලබා දෙන සත්‍ය ත්‍යාගය වන්නේ ක්ෂණික ත්‍යාගයේ එකතුව සහ ක්‍රියාව අවසන් වූ විට නියෝජිතයා ඇතුළු වන රාජ්‍යයේ වටිනාකමෙන් යම් කොටසක් ය. මේ අනුව, නියෝජිතයා යම් තත්වයකට පත්වීමෙන් පසු අවසානයේදී ධනාත්මක ප්‍රතිලාභ අත්විඳින්නේ නම්, නියෝජිතයා අනාගතයේ දී එම ප්‍රතිලාභ ලබන රාජ්‍යයන්හි ප්‍රති result ල ලැබිය හැකි ක්‍රියාමාර්ග තෝරා ගනු ඇත; අනෙක් අතට, නියෝජිතයා negative ණාත්මක විපාක අත්විඳින්නේ නම් (එනම්, ද punishment ුවම්) අනාගතයේදී එම “ද ished ුවම් ලැබූ” තත්වයන්ට තුඩු දෙන ක්‍රියාවන් මග හැරෙනු ඇත.

විවිධ ප්‍රාන්ත සඳහා ඉගෙන ගත් විපාක අනාවැකි තීරණය කරන නිශ්චිත ඇල්ගොරිතම (එනම්, අගය ශ්‍රිතය V) අගය අනුකරණය [පාදසටහන 1] ලෙස හැඳින්වෙන අතර එය විධිමත් ලෙස විස්තර කළ හැකිය:

හැකි සියලුම ප්‍රාන්ත සඳහා,

(සමීකරණය 1)

s යනු වත්මන් තත්වයට අනුරූප වන අතර, V (s) යනු නියෝජිතයා විසින් ඉගෙන ගෙන ඇති රාජ්‍ය s සඳහා වන වර්තමාන විපාක අනාවැකියයි, maxaction∈M} all යනු සියලු ක්‍රියාවන් සමූහයට වඩා වරහන් කළ ප්‍රමාණයේ උපරිම අගය සඳහා ක්‍රියාකරුවෙකි. M නියෝජිතයාට ලබා ගත හැකිය, V (s ′) යනු ඊලඟ රාජ්‍යය සඳහා නියෝජිතයාගේ වර්තමාන ප්‍රතිලාභ පුරෝකථනය වේ, some යනු යම් ඉගෙනුම් අනුපාතයක් (0 සහ 1 අතර) වන අතර future යනු අනාගත ප්‍රතිලාභ ගණනය කළ යුතු ආකාරය පිළිබිඹු කරන වට්ටම් සාධකයකි. ක්ෂණික විපාක වලට සාපේක්ෂව. ආරම්භක අගය ශ්‍රිතය සකසා ඇති අතර එමඟින් V (ය) සියලු ප්‍රාන්ත සඳහා 0 විය.

V (s) හි අගය ශ්‍රිතය බැලීමේ වගුවක් ලෙස ක්‍රියාත්මක කරන ලද අතර එය විධිමත් ලෙස පරිපූර්ණ මතකය උපකල්පනය කිරීමට සමාන වේ. අගය ශ්‍රිත [1] නිරූපණය කිරීම සඳහා ස්නායුක ජාල වැනි ශ්‍රිත ඇස්තමේන්තු යම් සාර්ථකත්වයක් සහිතව භාවිතා කර ඇතත්, ප්‍රති function ල විවිධ ශ්‍රිත ඇස්තමේන්තුකරුවන් විසින් සපයනු ලබන සාමාන්‍යකරණ යාන්ත්‍රණයන් මත රඳා නොපවතින බව සහතික කිරීම සඳහා විමසුම් වගුවක් භාවිතා කරන ලදී. 1,500 ඉගෙනීමේ පුනරාවර්තනය සඳහා නියෝජිතයා එහි රාජ්‍ය අවකාශය පුරා පුහුණු කරන ලදී. වස්තූන්ගේ අනන්‍යතාවයේ අනාවැකි නොකිරීමේ හැකියාව නිසා, විවිධ ප්‍රති .ලවල සාමාන්‍යය සඳහා ඉඩ ලබා දීම සඳහා ඉගෙනුම් කාලය තුළ එකකට වඩා අඩු අගය (α = 0.01) අගය ශ්‍රිත යාවත්කාලීන පරාමිතියක් භාවිතා කරන ලදී. අවසාන වශයෙන්, වට්ටම් සාධකය trial = 0.99 ලෙස සකසා ඇති අතර නඩු විභාගය අවසන් වන තෙක් එහි ප්‍රවේශ හැසිරීම ප්‍රමාද කරනවාට වඩා ඉක්මණින් ප්‍රතිලාභ ලබා ගැනීමට නියෝජිතයා දිරිමත් කරයි (1 හි පෙරනිමි අගයෙන් එය වෙනස් කිරීම මෙහි වාර්තා වූ ප්‍රති results ල කෙරෙහි කිසිදු බලපෑමක් ඇති නොකළද. ) ඉගෙනීම සඳහා 1,500 ඉගෙනුම් පුනරාවර්තන ප්‍රමාණවත් දැයි ස්වාධීනව තීරණය කිරීම සඳහා, උගත් අයගේ සාමාන්‍ය වෙනස්වීම් ප්‍රමාණය නිරීක්ෂණය කරන ලද අතර මෙම පුනරාවර්තන ගණනට පෙර අභිසාරී වී ඇති බව සොයා ගන්නා ලදී.

පුහුණුවෙන් පසු, නියෝජිතයාගේ හැසිරීම පාලනය කරන නිශ්චිත ඇල්ගොරිතම (එනම්, එක් එක් ප්‍රාන්තයෙන් ගන්නා ක්‍රියාමාර්ග ප්‍රතිපත්තිය):

(සමීකරණය 2)

මෙහි π (s) යනු නියෝජිතයා විසින් රාජ්‍යයන්ගෙන් තෝරා ගන්නා ක්‍රියාව වන අතර, සමීකරණයේ දකුණු පැත්තේ ක්‍රියාව නැවත ලබා දෙයි (උදා: දිශානතිය වෙනස් කිරීම, චලනය හෝ ක්‍රියාවක් නැත) එය ප්‍රතිලාභයේ එකතුව සහ වට්ටම් අගය උපරිම කරයි එහි ප්‍රති ing ලයක් ලෙස s s.

පහත වාර්තා කර ඇති සමාකරණයේදී, නියෝජිතයා විසින් සංචාරය කරන ලද සියලුම රාජ්‍යයන් 7- මාන දෛශික ලෙස සංකේතවත් කරන ලද අතර එය නියෝජිතයාගේ බාහිර “භෞතික” තත්වය සහ එහි අභ්‍යන්තර “දැනුම” තත්වය පිළිබඳ තොරතුරු නිරූපණය කරයි. භෞතික තොරතුරු අතර නියෝජිතයාගේ අභ්‍යවකාශයේ වර්තමාන පිහිටීම සහ එහි දිශානතිය යන දෙකම ඇතුළත් වේ. දැනුම තොරතුරු වලට වස්තුවෙහි පිහිටීම (යමෙකු සිටියේ නම්) සහ එම වස්තුවේ අනන්‍යතාවය (එය නියෝජිතයා විසින් තීරණය කර ඇත්නම්) ඇතුළත් වේ. නියෝජිතයා විසින් නිරූපණය කරන ලද විශේෂිත තොරතුරු වර්ග 1 වගුවේ දක්වා ඇත.

වගුව 1

ආර්එල් සමාකරණයේ භාවිතා වන මානයන් සහ එම මානයන්හි විය හැකි අගයන්.

[පාදසටහන 21,120] සමාකරණයේ 2 තත්වයන් එකතුවක් විය. කෙසේ වෙතත්, හඳුනා නොගත් ධනාත්මක හා හඳුනා නොගත් negative ණාත්මක වස්තුවක් තිබූ රාජ්‍යයන්, නියෝජිතයාගේ දෘෂ්ටි කෝණයෙන් සමාන වේ, එබැවින් ඇත්තේ 16,280 එකිනෙකට වෙනස් රාජ්‍යයන් පමණි. මේ අනුව, ඉගෙනීමේ සෑම පුනරාවර්තනයක් තුළම, ධනාත්මක වස්තුවක් සොයා ගැනීමත් සමඟ කාලයෙන් අඩක් අනුගමනය කළ හැකි බවටත්, ඔවුන් ගත කළ කාලයෙන් අඩක් සඳහාත් එම “සමාන” රාජ්‍යයන් දෙවරක් බැලීමට අවශ්‍ය විය. negative ණ වස්තුවක් සොයා ගැනීමත් සමඟ අනුගමනය කරන්න [පාදසටහන 3].

එක් එක් අනුමාන පරීක්ෂණ අත්හදා බැලීම් ආරම්භයේ දී, නියෝජිතයා අනුකලනය කරන ලද රේඛීය 11 × 1 ඒකක ධාවන පථයක මධ්‍යයේ තැන්පත් කරන ලද්දේ නියෝජිතයාගේ “නැගෙනහිරට” (එනම් දකුණට) අවකාශ පහක් සහ අවකාශ 5 ක් “බටහිරට” ය. ”(එනම් වමේ) නියෝජිතයාගේ. 1 වගුවෙහි දැක්වෙන පරිදි, නියෝජිතයාගේ රාජ්‍ය දෛශිකයේ ධාවන පථයේ එහි වර්තමාන පිහිටීම දැක්වෙන මූලද්‍රව්‍යයක් (එනම්, 0 සිට 10 දක්වා වූ පූර්ණ සංඛ්‍යාවක්) මෙන්ම මූලද්‍රව්‍යයක් (එනම් “n”, “s”, “ e ”, හෝ“ w ”) එහි වර්තමාන දිශානතිය නියෝජනය කරයි (එනම් පිළිවෙලින් උතුර, දකුණ, නැගෙනහිර හෝ බටහිර). නියෝජිතයාගේ ආරම්භක දිශානතිය සැමවිටම “උතුර” ලෙස සකසා ඇති අතර වෙනත් කිසිදු වස්තුවක් පරිසරය තුළ නොතිබුණි (එනම්, නියෝජිතයාගේ රාජ්‍ය දෛශිකයේ “අරමුණු” අගය “0” ට සමාන ලෙස සකසා ඇත).

සමාකරණයේ සෑම කාල පියවරක් තුළම, නියෝජිතයාට පහත දැක්වෙන ක්‍රියාවන්ගෙන් එකක් කළ හැකිය: (1) කිසිවක් නොකරන අතර වර්තමාන ස්ථානය හා දිශානතිය තුළ රැඳී සිටින්න; (2) උතුරට, දකුණට, නැගෙනහිරට හෝ බටහිරට දිශානතිය; හෝ (3) පරිසරයේ එක් අවකාශයක් (නැගෙනහිර හෝ බටහිර) ගෙනයන්න. එක් එක් ක්‍රියාවෙහි ප්‍රති result ලය පසුව සිදුකරන ලද කාල පියවර මත සිදු විය. අභ්‍යවකාශයේ නියෝජිතයාගේ පිහිටීම සහ / හෝ දිශානතියේ සියලු වෙනස්කම් සිදු වූයේ නියෝජිතයා විසින් ක්‍රියාවන් තෝරා ගැනීමෙනි. කෙසේ වෙතත්, සමාකරණයේ සෑම කාල පියවරකදීම, “කිසිවක් නොකරන්න” ක්‍රියාවක් තෝරාගත් විට පවා, නඩු විභාගය අවසන් වන තෙක් කාලය (එනම් කාල-පියවර 1) 20 විසින් වැඩි කරන ලදි.

නියෝජිතයාගේ පරිසරය සකසා ඇති අතර එමඟින් කාල වකවානු දහයකින් පසු අහඹු ස්ථානයක (නමුත් නියෝජිතයා සිටින ස්ථානයේම නොවේ) වස්තුවක් දර්ශනය විය; වස්තූන්ගෙන් 50% ධනාත්මක විය (“+” මගින් නිරූපණය කෙරේ; 1 වගුව බලන්න) සහ 50% වස්තු negative ණ විය (“-” මගින් නිරූපණය කෙරේ). වස්තුව දර්ශනය වීමට පෙර ප්‍රමාදය හඳුන්වා දෙනු ලැබුවේ වස්තුව පෙනීමට පෙර නියෝජිතයා විසින් ප්‍රදර්ශනය කර ඇති ඕනෑම හැසිරීමක් නිරීක්ෂණය කිරීමට ඉඩ දීම සඳහා ය. නියෝජිතයා වස්තුව දිස්වන විට එය දෙසට නැඹුරු නොවූයේ නම්, නියෝජිතයාගේ රාජ්‍ය දෛශිකයේ “අරමුණු” අනන්‍යතාවය නියෝජනය කරන මූලද්‍රව්‍යය “0” සිට “?” ලෙස වෙනස් කරන ලද්දේ දැන් පවතින වස්තුවේ අනන්‍යතාවය පිළිබිඹු කිරීම සඳහා ය. වර්තමානය නොදන්නා ලදි. කෙසේ වෙතත්, නියෝජිතයා වස්තුව දෙසට නැඹුරු වූයේ නම්, පසුව කාල පියවරේදී “OBJECT” මූලද්‍රව්‍යය වස්තුවේ අනන්‍යතාවයට සමාන ලෙස සකසා ඇති අතර එමඟින් “0” ධනාත්මක සඳහා “+” හෝ “-” බවට පත් විය. සහ negative ණ වස්තු පිළිවෙලින්.

නියෝජිතයා වස්තුවක ස්ථානයට ගියහොත්, ඊළඟ වතාවේදී වස්තුව අතුරුදහන් විය. වස්තුව ධනාත්මක නම්, නියෝජිතයාගේ “CONSUMED” ධජය සත්‍යයට සමාන ලෙස සකසා නියෝජිතයාට ප්‍රතිලාභ ලැබුණි (විපාකය = + 10); කෙසේ වෙතත්, වස්තුව negative ණාත්මක නම්, “කම්පනය” ධජය සත්‍ය ලෙස සකසා නියෝජිතයාට ද ished ුවම් කරන ලදි (විපාකය = −10). (නියෝජිතයා වස්තුව හඳුනාගෙන තිබේද නැද්ද යන්න නොසලකා කොඩි මේ ආකාරයෙන් සකසා ඇති බව සලකන්න. උදා: නියෝජිතයාට කිසියම් වස්තුවක් දිශානත නොවී පරිභෝජනය කළ හැකිය.) ඊළඟ කාල පියවරේදී “කම්පනය” හෝ “CONSUMED” ධජය ඉවත් කරන ලදි. එක් එක් චලනය හෝ දිශානති ක්‍රියාව සඳහා නියෝජිතයාට කුඩා ද penalty ුවමක් (ශක්තිමත් කිරීම = −1) ලබා දී ඇති අතර, එය කිසිදු ක්‍රියාවක් නොකළහොත් කිසිදු ත්‍යාගයක් හෝ ද punishment ුවමක් (ශක්තිමත් කිරීම = 0) නොලැබුණි.

විවෘත හැසිරීම් (එනම් දිශානතිය සහ චලනය) සහ විපාක-පුරෝකථන දෝෂයේ මිනුම යන දෙකම නියෝජිතයා සඳහා ප්‍රමාණනය කරන ලදි. විවෘත හැසිරීම (එනම්, නියෝජිතයා විසින් තෝරාගත් ක්‍රියා ලැයිස්තුව) කාර්යය ඉගෙන ගෙන තිබේද යන්න දැක්වීමට භාවිතා කරන ලදී. විපාක-අනාවැකි දෝෂයේ මිනුම, ප්‍රතිලාභ නොලබන ඩොපමිනර්ජික් ෆාසික් සං .ාව මතුවීම පිළිබඳ උපකල්පනය පරීක්ෂා කිරීම සඳහා භාවිතා කරන ලදී. විපාක-පුරෝකථන දෝෂය, δ, මනිනු ලැබුවේ වස්තුවක් දර්ශනය වන වේලාවේදී විපාක අනාවැකිය පෙර කාල පියවරේදී, එනම්, V (ය) වේලාවේදී t - 1, ත්‍යාග අනාවැකියෙන් අඩු කිරීමෙන් ය. t = V (st) - V (st - 1) ප්‍රමාණය ලබා දෙන වස්තුව t වේලාවට V (ය) දර්ශනය විය.

ප්රතිපල

අනුකරණය කළ හැසිරීම

නියෝජිතයින්ගේ විවෘත හැසිරීම මුලින්ම ප්‍රමාණාත්මක විය. මෙම විශ්ලේෂණයේ ප්‍රති results ලවලින් පෙනී ගියේ, පුහුණුවීමෙන් පසුව, නියෝජිතයා සියළුම ධනාත්මක වස්තූන්ගෙන් ධනාත්මක ශක්තිමත් කිරීමක් ලබා ගත් අතර කිසි විටෙකත් negative ණාත්මක වස්තු කිසිවක් වෙත ළඟා නොවූ බවයි. මෙම ප්‍රති results ල මගින් නියෝජිතයින් විසින් කාර්යය නිවැරදිව ඉටු කිරීමට ඉගෙන ගත් බවට චර්යාත්මක තහවුරු කිරීමක් සපයයි. අත්හදා බැලීම් වලදී කිසිදු වස්තුවක් නොපෙන්වූ විට නියෝජිතයා චලනය නොවී සිටි බව අතිරේක නිරීක්ෂණ මගින් මෙම නිගමනය ශක්තිමත් වේ. පුරෝකථනය කළ පරිදි, නියෝජිතයා ධනාත්මක හා negative ණාත්මක වස්තු දෙකටම නැඹුරු විය.

අනුමාන විපාක-පුරෝකථන දෝෂයකි

මෙම ලිපියේ කේන්ද්‍රීය උපකල්පනය නම්, අනපේක්ෂිත උත්තේජකයක පෙනුම නිරතුරුවම ද .ුවම් ලබා දෙන “negative ණ” වස්තුවක් වුවද, අනපේක්ෂිත උත්තේජනයක් නිරන්තරයෙන් ධනාත්මක විපාක-පුරෝකථන දෝෂයක් ජනනය කරනු ඇත. මෙම උපකල්පනයට සහය දක්වමින්, නියෝජිතයා (හඳුනා නොගත්) වස්තුවක් දර්ශනය වූ සෑම අවස්ථාවකම ධනාත්මක විපාක-පුරෝකථන දෝෂයක් ප්‍රදර්ශනය කළ නමුත් කිසිවක් නොපෙන්වූ විට නොවේ. කේන්ද්‍රීය උපකල්පිතයට අනුකූල වන්නේ නියෝජිතයාගේ අදියර ප්‍රතිචාරයේ විශාලත්වය (δ, ක්‍රම අංශයේ විස්තර කර ඇති ආකාරයට මනිනු ලැබේ) උත්තේජකයේ අනුකලනය කළ “තීව්‍රතාවයට” සංවේදී වීමයි. නියෝජිතයා සහ වස්තුව අතර දුර භාවිතා කරමින් අර්ථ දක්වා ඇත (රූපය 1 බලන්න). ප්‍රතිගාමී විශ්ලේෂණයකින් පෙන්නුම් කළේ of හි විශාලත්වය වස්තුවෙන් ඇති දුරට ප්‍රතිලෝමව සම්බන්ධ වන බැවින් සමීප වස්තූන් වඩා ශක්තිමත් ප්‍රතිචාරයක් ඇති කරන බවයි (r = .0.999, p <0.001; β = 0.82). මෙම negative ණාත්මක සහසම්බන්ධය ඇති වූයේ ධනාත්මක වස්තුව වෙත ගමන් කිරීම, එය පරිභෝජනය කිරීම සහ එමගින් විපාකය ලබා ගැනීම සඳහා නියෝජිතයා විසින් කළ යුතු එක් එක් චලනය සඳහා පනවා ඇති කුඩා ද penalty ුවම (ශක්තිමත් කිරීම = −1) ය.

රූපය 1

මෙම රූපයෙන් දැක්වෙන්නේ නියෝජිතයාගේ පිහිටීමට සාපේක්ෂව වස්තුව පිහිටීමෙහි ශ්‍රිතයක් ලෙස වස්තුව දර්ශනය වූ විට විපාක-පුරෝකථන දෝෂය (එනම් δ) ය. ධනාත්මක හා negative ණාත්මක වස්තු සඳහා ප්‍රතිචාර සමාන වේ. වස්තුවක් නොමැති විට (වැඩි…)

මෙම අනුකරණයේදී ධනාත්මක හා negative ණාත්මක වස්තූන් සමාන සම්භාවිතාවක් සහිතව (p = .25) දර්ශනය වූ විට, ප්‍රශ්නය පැන නගී: වස්තුව පෙනෙන අවස්ථාවේ නියෝජිතයාගේ විපාක-පුරෝකථන දෝෂ සං signal ාව ධනාත්මක වූයේ මන්ද? කකාඩේ සහ දයාන් [7] ගේ රේඛා ඔස්සේ තර්ක කරමින් යමෙකුට අනාවැකි කිව හැක්කේ එවැනි අවස්ථාවන්ගෙන් උගත් විපාකවල සාමාන්‍යය සං signal ාව පිළිබිඹු කළ යුතු අතර එම නිසා එය ශුන්‍යයට සමාන විය යුතුය. මෙම ප්‍රති result ලය අවබෝධ කර ගත හැකි ප්‍රධාන දෙය නම්, negative ණාත්මක ශක්තිමත් කිරීමක් ඇති කරන ක්‍රියාවන් තෝරා ගැනීමට RL නියෝජිතයෙකුට අඩු ඉඩක් ලබා දෙනවා පමණක් නොව, එය negative ණාත්මක ශක්තිමත් කිරීමකට තුඩු දෙන ප්‍රාන්තවලට ඇතුළු වීමට නියෝජිතයෙකු අඩු කරයි. මෙහි ප්‍රති results ලය වනුයේ රූප සටහන 2 හි නිරූපණය කර ඊළඟට විස්තර කෙරෙන ආකාරයේ “ඉහළ පෙළේ” ඉගෙනුම් ආකාරයකි.

රූපය 2

ආර්එල් ඒජන්තවරයකු එහි පරිසරය තුළ ප්‍රතිලාභ සහ ද ishing ුවම් යන උත්තේජක සමඟ පුහුණු කර ඒවා වෙත ළඟා වී පරිභෝජනය කළ යුතුද යන්න තෝරා ගැනීමට සමත් වූ විට ධනාත්මක විපාක-පුරෝකථන දෝෂයක් වර්ධනය වන ආකාරය පෙන්වන නිදර්ශනය. (අ) ඉගෙනීමට පෙර තත්වය: (තවත්…)

ඉගෙනීමේ ආරම්භයේ දී (රූපය 2A බලන්න), නියෝජිතයා “+” සහ “-” යන දෙකටම යොමු වී ඒවා වෙත ළඟා වන අතර එක් එක් වර්ගයේ වස්තූන් පරිභෝජනය කිරීමෙන් විපාක සහ ද ished ුවම් ලැබේ. නියෝජිතයාගේ උගත් රාජ්‍ය අගයන්ට නියෝජිතයාගේ ක්‍රියාවන්ට බලපෑම් කිරීමට නොහැකි නම් (රූපය 2B බලන්න), එවිට නියෝජිතයා වස්තූන් වෙත ළඟා වී පරිභෝජනය කරයි. ඉඟියේ පෙනුම එවිට 0 හි සාමාන්‍ය ත්‍යාගයක් පුරෝකථනය කරනු ඇති අතර විපාක-පුරෝකථන දෝෂයේ හදිසි වැඩිවීමක් සිදුවනු ඇත. කෙසේ වෙතත්, මෙම සමාකරණයේ නියෝජිතයා එහි ක්‍රියාවන්ට බලපෑම් කිරීමට උගත් රාජ්‍ය අගයන් භාවිතා කරයි (රූපය 2C බලන්න), සහ නියෝජිතයා තවමත් එහි අනන්‍යතාවය තීරණය කිරීම සඳහා නොදන්නා වස්තුව වෙත නැඹුරු විය යුතු වුවද, එය ළඟා වුවහොත් එය තවදුරටත් negative ණ වස්තුවක් පරිභෝජනය නොකරයි. එය (ගමන් පථ නියැදීම වැනි අහඹු ගවේෂණ ඇල්ගොරිතමයක් සමඟ පුහුණු කර ඇත්නම් [පාදසටහන 1]). තව දුරටත්, තාවකාලික-වෙනස ඉගෙනීම negative ණාත්මක විපාක පුරෝකථනය පෙර රාජ්‍යයන් වෙත “ප්‍රචාරණය” කිරීමට ඉඩ දී ඇති නිසාත්, අභ්‍යවකාශයේ ගමන් කිරීම සඳහා සුළු පිරිවැයක් ඇති නිසාත්, නියෝජිතයා negative ණාත්මක වස්තුව වෙත ළඟා වීම වළක්වා ගැනීමට ඉගෙන ගනී. මේ අනුව, මෙම තොරතුරු දැනගත් පසු, වස්තුව මුලින්ම දිස්වන විට (එක් එක් අනුක්‍රමයෙහි පළමු කවයේ “V” ලෙස දක්වා ඇත) රාජ්‍යයේ වටිනාකම ධනාත්මක හා negative ණාත්මක ප්‍රති come ල රාජ්‍ය අගයන්හි සාමාන්‍යය මත පදනම් නොවේ. ඒ වෙනුවට the ණාත්මක වස්තූන් වළක්වා ගැනීමට නියෝජිතයා ඉගෙන ගත් පසු ලබා ගන්නා ධනාත්මක සාමාන්‍යය සහ “උදාසීන” ප්‍රති come ලය මත පදනම් වේ. පුහුණුව ලත් නියෝජිතයා විසින් ඇත්ත වශයෙන්ම ලබාගත් සියලු ත්‍යාගවල සාමාන්‍යය බිංදුවට වඩා වැඩි වූයේ මේ නිසාය, ඒජන්තවරයාගේ විපාක පුරෝකථනය (එම නිසා වස්තුව හදිසියේ දිස්වන විට විපාක-පුරෝකථන දෝෂය) ශුද්ධ ධනාත්මක වූයේ මන්දැයි පැහැදිලි කරයි. මෙය රූප සටහන 3 හි දක්වා ඇත. ඇත්ත වශයෙන්ම, නියෝජිතයාට එහි හැසිරීම වෙනස් කිරීමට සහ negative ණාත්මක වස්තුව වළක්වා ගැනීමට ඉගෙන ගත හැකි තාක් කල්, negative ණාත්මක වස්තුවේ වටිනාකම අවසානයේ නියෝජිතයාගේ අවසාන හැසිරීමට හා නව්‍යතාව / ලවණතා ප්‍රතිචාරයේ විශාලත්වයට අදාළ නොවේ.

රූපය 3

(අ) ආර්එල් ඉහළ පෙළේ ඉගෙනීමට හේතු නොවන්නේ නම් සිදුවිය හැකි විපාක අනාවැකි වල වෙනස්කම් පෙන්නුම් කරයි (එනම්, negative ණාත්මක ප්‍රති come ල වළක්වා ගැනීමට නියෝජිතයාට පියවර ගත නොහැකි නම්), එවිට ඒජන්තවරයාට සියල්ලම පරිභෝජනය කිරීමට සිදුවිය. වස්තු (වැඩි…)

සමාකරණ ප්‍රති results ල උපකල්පන තුනක් මත විවේචනාත්මකව රඳා පවතී. පළමුවෙන්ම, උත්තේජක “වැදගත්” විය යුතු අතර, ආරම්භක ඉඟිය මගින් පුරෝකථනය කරන ලද ශක්තිමත් කිරීමේ විශාලත්වය දිශානතියේ හා ළඟා වීමේ පිරිවැයට සාපේක්ෂව ප්‍රමාණවත් තරම් විශාලය (උදා: + 10) (උදා: −1). විශාලත්වය සාපේක්ෂව කුඩා නම්, නියෝජිතයා දිශානතියට ඉගෙන නොගනු ඇත, එසේම එය ධනාත්මක විපාක-පුරෝකථන දෝෂ ප්‍රතිචාරයක් ජනනය නොකරනු ඇත. දෙවනුව, උත්තේජක හඳුනා ගැනීමට පෙර ප්‍රමාදයක් ද අවශ්‍ය විය. (ප්‍රමාදය යනු හුරුපුරුදු උත්තේජනයක් ඉක්මනින් හඳුනා ගනු ඇතැයි යන තර්කය යටතේ “නව්‍යතාව” සඳහා වන ප්‍රොක්සියකි.) ප්‍රමාදයකින් තොරව, නියෝජිතයා හුදෙක් සත්‍ය වශයෙන්ම වටහා ගත් වස්තුවට සුදුසු ධනාත්මක හෝ negative ණාත්මක විපාක පුරෝකථන දෝෂයක් ජනනය කරනු ඇත. අවසාන වශයෙන්, නියෝජිතයාගේ හැසිරීම තීරණය කළේ එය ඉගෙන ගත් අගයන් අනුව ය. නියෝජිතයාට ස්වකීය හැසිරීම පාලනය කිරීමට නොහැකි නම් (එනම්, උත්තේජක වෙත ළඟා විය යුතුද යන්න), එවිට වස්තුවක් දර්ශනය වූ විට එහි විපාක පුරෝකථනය 0 ට සමාන වනු ඇත, එය සමතුලිත ධනාත්මක හා negative ණාත්මක ප්‍රති come ලවල සාමාන්‍යයයි.

සාමාන්ය සංවාද

මෙම ලිපියේ වාර්තා කර ඇති අනුකරණයෙන් පෙන්නුම් කළේ අනපේක්ෂිත උත්තේජනයක්, ප්‍රතිලාභ හෝ ද ishing ුවම් ලබා දෙන නමුත් ධනාත්මකව විපාක-පුරෝකථන දෝෂයක් සිදුවන නමුත් එය වහාම හඳුනාගත නොහැකි බවයි. තව දුරටත්, සමාකරණයේ දැක්වෙන්නේ විපාක-පුරෝකථන දෝෂයේ ප්‍රමාණය නියෝජිතයාට උත්තේජකයේ සමීපත්වය සමඟ වැඩි වන අතර, එය අනුකරණයේ සන්දර්භය තුළ උත්තේජක තීව්‍රතාව සඳහා ප්‍රොක්සි මිනුමක් වන අතර එමඟින් ලවණතාවයට සම්බන්ධ වේ. ආර්එල් හි න්‍යායාත්මක රාමුව තුළ, පිළිගත් උත්තේජකවල උගත් වටිනාකම හෝ නියෝජිතයෙකුගේ [15] භෞතික හා / හෝ සංජානන තත්වයන් පිළිබිඹු කිරීම සඳහා විපාක අනාවැකි සාමාන්‍යයෙන් වටහා ගනු ලැබේ. කෙසේ වෙතත්, මෙහි වාර්තා වී ඇති විපාක-පුරෝකථන දෝෂයට ගුණාත්මකව වෙනස් අර්ථකථනයක් ඇත, මන්ද එය නියෝජිතයා වස්තුව හඳුනා ගැනීමට පෙර ජනනය වන බැවිනි. මෙම ප්‍රති results ල එක්ව, ප්‍රති reward ල සමඟ සම්බන්ධයක් නැති බවක් පෙනෙන්නට තිබුණත්, ඒ වෙනුවට නව්‍යතාවයේ හා ලවණතාවයේ ගුණාංගවලට සම්බන්ධ ප්‍රතිචාරයක් නිපදවීමට ආර්එල් මූලධර්ම ප්‍රමාණවත්ය යන උපකල්පනයට සහාය වේ. මෙම නිගමනයට ආර්එල් පිළිබඳ අපගේ සාමාන්‍ය අවබෝධය සහ සැබෑ ජීවීන්ගේ විපාක ඉගෙනීම පිළිබඳ විස්තරයක් ලෙස ආර්එල් පිළිබඳ අර්ථ නිරූපණය සඳහා වැදගත් කරුණු කිහිපයක් තිබේ.

පළමුව, හඳුනා නොගත් උත්තේජනයක් දිස්වන විට ආර්එල් නියෝජිතයෙකු විසින් ජනනය කරනු ලබන විපාක අනාවැකිය අනිවාර්යයෙන්ම කකාඩේ සහ දයාන් [7] විසින් යෝජනා කර ඇති පරිදි ලබා ගත හැකි ත්‍යාගවල දැඩි සාමාන්‍යයක් නොවිය යුතුය, නමුත් ඇත්ත වශයෙන්ම එම සාමාන්‍ය සාමාන්‍යයට වඩා විශාලත්වයෙන් වැඩි විය හැකිය. කකාඩේ සහ දයාන් අනාවැකි පළ කරනුයේ සාමාන්‍ය විපාක අනාවැකිය බිංදුවට සමාන විය යුතු බැවිනි. මෙම විශ්මය ජනක ප්‍රති result ලය මතුවූයේ නියෝජිතයා “ප්‍රතිපත්ති මත” ඉගෙන ගත් බැවිනි; එනම්, නියෝජිතයා negative ණාත්මක ප්‍රති come ල ගැන පමණක් නොව, එම ප්‍රති avoid ල වළක්වා ගැනීමට ඇති හැකියාව ගැන ද ඉගෙන ගත්තේය. නියෝජිතයෙකුට negative ණාත්මක ප්‍රති avoid ල වළක්වා ගැනීමට විපාක පද්ධතියේ මෙම හැකියාව, ආර්එල් පිළිබඳ අපගේ අවබෝධය සැබෑ ජීවීන්ට පරිවර්තනය කිරීමේදී ප්‍රවේශමෙන් සලකා බැලිය යුතුය. Negative ණාත්මක විපාක පුරෝකථන දෝෂයට වඩා හොඳ ප්‍රති reward ල පුරෝකථන දෝෂයක් නිරූපණය කිරීම සඳහා ඩොපමිනර්ජික් අදියර ප්‍රතිචාරයේ ධාරිතාවයේ පෙනෙන අසමමිතිය සැලකිල්ලට ගෙන මෙම කරුණ වඩාත් වැදගත් වේ [11]. යම් නිශ්චිත සිදුවීම් අනුපිළිවෙලක් negative ණාත්මක ප්‍රති come ලයකට තුඩු දෙන බව දැක්වීමට එය ප්‍රමාණවත් විය හැකි නමුත්, ක්‍රියාව තෝරා ගැනීමේ අරමුණු සඳහා, එම ප්‍රති come ලයේ විශාලත්වය වැදගත් නොවේ.

වර්තමාන සමාකරණයේ දෙවන ප්‍රබලතාවය නම් ප්‍රත්‍යක්‍ෂ සැකසුම් පද්ධති සහ විපාක-පුරෝකථන පද්ධති අතර අන්තර්ක්‍රියාකාරිත්වයකින් නව්‍යතා ප්‍රතිචාරය මතු විය හැකි බවයි. නිශ්චිතවම, නව්‍යතා ප්‍රතිචාරය විය හැක්කේ නව වස්තූන් හා වස්තූන් අතර තවමත් සමාන ප්‍රත්‍යක්‍ෂ සැකසුම් වලට භාජනය වී නොමැති වස්තූන් අතර සමානකමක් නිසා විය හැකිය [පාදසටහන 4]. මෙම සමාකරණයේදී, වස්තුවේ අනන්‍යතාවයට ප්‍රමාදයක් හඳුන්වා දීමෙන් නව්‍යතාවය ක්‍රියාත්මක කරන ලදි (එහි ප්‍රති ing ලයක් වශයෙන් එහි විපාක හෝ ද ishing ුවම් ස්වභාවය) නියෝජිතයාට පැහැදිලි විය. මෙය සිදු කරනු ලැබුවේ නව වස්තූන් හඳුනා ගැනීමට වැඩි කාලයක් ගතවනු ඇතැයි යන උපකල්පනය යටතේ ය, නමුත් මෙම උපකල්පනයේ ප්‍රති positive ලයක් ලෙස ධනාත්මක හා negative ණාත්මක වස්තූන් මුලින්ම දර්ශනය වූ විට ඒ හා සමානව වටහා ගන්නා ලදි (එනම්, ඒවා දෙකම “?” ලෙස කේතනය කර ඇත). ඊට වෙනස්ව, කකාඩේ සහ දයාන් [7] යෝජනා කරන්නේ ස්නායු භෞතවේදය පිළිබඳ දත්තවල ඒ හා සමානව ප්‍රකාශ වී තිබියදීත්, නව්‍යතා ප්‍රතිචාර සහ “සාමාන්‍යකරණය” ප්‍රතිචාර අත්‍යවශ්‍යයෙන්ම වෙනස් බවයි.

වර්තමාන සමාකරණ ප්‍රති results ලවල තුන්වන ප්‍රබලතාවය නම්, ඔවුන් පෙන්වන්නේ කකාඩේ සහ දයාන් [7] විසින් යෝජනා කරන ලද නව්‍යතාව සහ හැඩගැස්වීමේ ප්‍රසාද දීමනා පිළිබඳ අතිරේක උපකල්පන අවශ්‍ය නොවන බවයි. ඒ වෙනුවට, යථාර්ථවාදී ප්‍රත්‍යක්‍ෂ සැකසුම් සීමාවන් සහ negative ණාත්මක ප්‍රති avoid ල වළක්වා ගත හැකි දැනුමෙන් නව්‍යතාවයට සමාන ප්‍රතිචාර මතු විය හැකිය. මෙය වාසනාවකි, මන්ද කකාඩේ සහ දයාන් පෙන්වා දුන් පරිදි, නව්‍ය බෝනස් නියෝජිතයෙකු විසින් ඉගෙන ගන්නා වටිනාකමේ ක්‍රියාකාරිත්වය විකෘති කරන අතර බෝනස් හැඩ ගැසීම නියෝජිතයින් ඔවුන්ගේ රාජ්‍ය අවකාශයන් ගවේෂණය කරන ආකාරය කෙරෙහි බලපායි. මෙම උපකල්පනයන්ගෙන් එකක් හෝ ඇතුළත් කිරීමෙන් ආර්එල් න්‍යාය මත පදනම් වූ ආකෘතිවල අනුකම්පාව අඩු වේ. මෙහි දී ඉදිරිපත් කරන ලද ප්‍රති results ල මගින් ජීවීන්ගේ නව්‍යතා ප්‍රතිචාරය සැබෑ ජීවීන්ගේ විපාක මත පදනම් වූ ඉගෙනීමට බාධාවක් නොවන්නේ මන්ද යන්න පැහැදිලි කිරීමට උපකාරී වේ: නව්‍ය ප්‍රතිචාරය ඇත්ත වශයෙන්ම දැනටමත් ආර්එල් විසින් පුරෝකථනය කර ඇත. එනම්, නව්‍ය ප්‍රතිචාරයෙන් පිළිබිඹු වන්නේ එහි පරිසරය පිළිබඳව දැනටමත් යමක් ඉගෙන ගෙන ඇති නියෝජිතයෙකුට ආවේනික වූ හැසිරීම් සහ විපාක අනාවැකි ය.

වර්තමාන සමාකරණ ප්‍රති results ල සඳහා විකල්ප (නමුත් අන්‍යෝන්‍ය වශයෙන් වෙනස් නොවන) අර්ථකථනයක් නම්, ඇත්ත වශයෙන්ම වියුක්ත (සමහර විට සංජානන) විපාකයක් ඇත. ඩොපමිනර්ජික් ක්‍රියාකාරකම් පිළිබඳ අධ්‍යයනයන්හි දී, විපාකයක් පුරෝකථනය කිරීමට දන්නා අනපේක්ෂිත සං ues ා වලට ධනාත්මක අදියර ප්‍රතිචාර දැක්විය හැකිය. කෙසේ වෙතත්, මෙම අනුකරණය මඟින් පෙන්නුම් කරන්නේ විපාකයක් හෝ ද .ුවමක් ගැන පුරෝකථනය කළ හැකි ඉඟියකට ප්‍රතිචාර වශයෙන් මෙවැනි ප්‍රතිචාර දැක්විය හැකි ආකාරයයි. ඉඟිය මගින් පුරෝකථනය කර ඇති එකම ස්ථාවර ප්‍රතිලාභය වන්නේ නියෝජිතයා එය වස්තුවේ අනන්‍යතාවය තීරණය කරන විට ලබාගත් තොරතුරු ලබා ගැනීමයි. මේ අනුව, හඳුනා නොගත් වස්තුවක් දර්ශනය වූ විට වලංගු, උගත් “විපාක පුරෝකථනයක්” තිබේ නම්, එය උත්තේජක වෙත ළඟා වීම හෝ වළක්වා ගැනීම පිළිබඳ දැනුම නියෝජිතයා ලබා ගැනීමෙන් පසුව සෑහීමකට පත්වේ. මෙම තොරතුරුවල වටිනාකම පදනම් වී ඇත්තේ ලබා ගත හැකි ප්‍රති come ලවල සාමාන්‍යය මත නොව, ඒ වෙනුවට පදනම් වන්නේ effective ලදායී ප්‍රති come ල පිළිබඳ දැනුම මත ය - ඒජන්තවරයාට ධනාත්මක විපාකය පරිභෝජනය කිරීමට හෝ negative ණාත්මක විපාක වළක්වා ගත හැකිය (රූපය 2 බලන්න).

අවසාන වශයෙන්, විශේෂිත ක්‍රියාමාර්ග ගැනීමට ඇති අවස්ථාවන් (උදා: දිශානතියට) මෙම සමාකරණයේ ඇතුළත් කර නොමැති යම් සාමාන්‍යකරණය හෝ ඉගෙනුම් යාන්ත්‍රණයක් මඟින් ප්‍රතිලාභදායක ගුණාංග ලබා ගත හැකි බව සැලකිල්ලට ගැනීම වැදගත්ය. නිදසුනක් වශයෙන්, “පිටත ඇති දේ” දිශානති කිරීම සහ තීරණය කිරීම එම ක්‍රියාව අතර සම්බන්ධතාවය මත පදනම්ව ජීවියෙකුට විපාකයක් විය හැකි අතර නව උත්තේජක දර්ශණය වන විට ඉහත පෙන්නුම් කරන ලද, සෑම විටම ධනාත්මක විපාක-පුරෝකථන දෝෂයකි. ඒ හා සමාන අදහසක් මෑතකදී රෙඩ්ග්‍රේව් සහ ගර්නි [13] විසින් උපකල්පනය කරන ලද අතර, ෆැසික් ඩොපමයින් ප්‍රතිචාරයේ වැදගත් අරමුණ වන්නේ අනපේක්ෂිත වැදගත් සිදුවීම් වලට පෙර සිදුවන ක්‍රියාවන් ශක්තිමත් කිරීමයි. මෙහි ප්‍රති results ල එම උපකල්පිතයට නොගැලපේ. කෙසේ වෙතත්, රෙඩ්ග්‍රේව් සහ ගර්නිගේ කල්පිතය මෙම සමාකරණයේදී කෙලින්ම පරීක්‍ෂාවට ලක් නොවන බව සැලකිල්ලට ගත යුතුය. මන්දයත් වැදගත් සිදුවීම සඳහා නියෝජිතයාගේ කිසිදු ක්‍රියාමාර්ගයක් (එනම් ගවේෂණය) අවශ්‍ය නොවූ බැවිනි. වස්තුව) සිදුවීමට. කෙසේ වෙතත්, සමානුපාතික අදියර සං signal ාව දිශානති ප්‍රතිචාරයේ වේලාව සමග සමපාත වන අතර එයින් ඇඟවෙන්නේ දෙදෙනා දැඩි ලෙස සම්බන්ධ විය හැකි බවයි.

අවසාන වශයෙන්, මෙම ලිපිය මඟින් ඩොපමිනර්ජික් නියුරෝන වල ප්‍රතිලාභ නොවන සම්බන්ධිත ක්‍රියාකාරකම් පැහැදිලි කිරීමට ආර්එල් මූලධර්ම භාවිතා කළ හැකි බව පෙන්වා දී ඇත. මෙම ප්‍රති result ලය ඉස්මතු වූයේ තාවකාලික-වෙනස ඉගෙනීමේ රීතිය (කකාඩේ සහ දයාන් [7] වැනි) අනුකරනයක කාවැදී ඇති අතර එමඟින් අවසාන ප්‍රති come ලයට බලපාන ක්‍රියාමාර්ග තෝරා ගැනීමට නියෝජිතයාට හැකි වේ. හදිසියේම දර්ශනය වූ වස්තුවකට දිශානත වීමේ ප්‍රති always ලය සැමවිටම ප්‍රති ing ලදායක හෝ මධ්‍යස්ථ විය හැකි බැවින් the ණාත්මක ප්‍රති come ල වළක්වා ගත හැකි බව අනුකරණයේදී නියෝජිතයා දැන ගත්තේය. එම නිසා නියෝජිතයාට දිශානතියට අවස්ථාවක් ලැබුණු විට, එහි විපාක-පුරෝකථන දෝෂය සැමවිටම ධනාත්මක වූ අතර, ජීව විද්‍යාත්මක ජීවීන් තුළ දක්නට ලැබෙන නව්‍යතාවයට හා ලවණතා ප්‍රතිචාරවලට පරිගණකමය වශයෙන් සමාන වේ.

අනුමත කර

මෙම ලිපියේ විස්තර කර ඇති කාර්යයට NIH R01 HD053639 සහ NSF පුහුණු ප්‍රදාන DGE-9987588 සහයෝගය ලබා දී ඇත. මෙම ලිපියේ පෙර සංස්කරණයක් පිළිබඳ ප්‍රයෝජනවත් අදහස් දැක්වීම ගැන එරික් රීචල්, ටෙස්සා වොරන් සහ නිර්නාමික විචාරකයෙකුට මම ස්තූතිවන්ත වෙමි.

1 වෙනත් ශක්තිමත් කිරීමේ ඉගෙනුම් ඇල්ගොරිතම, ට්‍රැජෙක්ටරි නියැදි කිරීම [17] ලෙස හැඳින්වේ, රාජ්‍ය අවකාශය විශාල වන විට එය අගය නැවත කියවීම වෙනුවට නිතර භාවිතා කරනු ලැබේ. රාජ්‍ය අවකාශයේ සෑම ප්‍රාන්තයක්ම පුනරාවර්තනය කිරීම හා වඩාත්ම විපාකයට තුඩු දෙන ක්‍රියා මත පදනම්ව අගය ශ්‍රිත යාවත්කාලීන සමීකරණය යෙදීම වෙනුවට, ගමන් පථ නියැදීම ක්‍රියාත්මක වන්නේ රාජ්‍ය අවකාශය හරහා මාර්ග අනුගමනය කිරීමෙනි. අගය පුනරාවර්තනයට සමානව, වඩාත්ම විපාකයට තුඩු දෙන ක්‍රියා සාමාන්‍යයෙන් එක් එක් ප්‍රාන්තයෙන් තෝරා ගනු ලැබේ, නමුත් ඉඳහිට අහඹු ගවේෂණාත්මක ක්‍රියාවක් තෝරාගනු ලබන්නේ කුඩා සම්භාවිතාවක් සහිතවය. මේ අනුව ඇල්ගොරිතම යනු: සමහර ආරම්භක තත්වයන්ගෙන්, සම්භාවිතාව with සමඟ වඩාත්ම විපාකයට [උදා: විපාකය + γV (s ′)] තෝරා ගන්න, නැතහොත් සම්භාවිතාව 1 - with සමඟ අහඹු ගවේෂණාත්මක ක්‍රියාවක් තෝරන්න. රාජ්‍ය s වෙතින් ගවේෂණාත්මක නොවන ක්‍රියාවලියේදී V (s) → V (s) + α [reward + γV (s ′) - V (s) යොදන්න.

පරිගණක කාලය හා මතකයේ තාක්‍ෂණික සීමාවන් ඉක්මවා යාමට අමතරව, ගමන් පථ නියැදීම සිත් ඇදගන්නා සුළු විය හැකි හෙයින් එය සැබෑ ජීවීන් ඉගෙන ගන්නා ආකාරය වඩා හොඳින් පිළිබිඹු කළ හැකිය: රාජ්‍ය අවකාශයක මාර්ග ගවේෂණය කිරීමෙන්. මෙම ලිපියේ විස්තර කර ඇති කර්තව්‍යයේ දී, ගමන්මග නියැදීම් මඟින් ප්‍රති ite ල ලබා දෙන්නේ වටිනාකම් අනුකරණය සමඟ ලබාගත් ප්‍රති quality ලවලට ගුණාත්මකව සමාන වේ. කෙසේ වෙතත්, සංක්ෂිප්තව එම ප්‍රති results ල මෙහි විස්තරාත්මකව වාර්තා නොවේ. මෙම ලිපියේ අනුකරණය සඳහා අගය හේතු දැක්වීම ප්‍රධාන හේතු දෙකක් නිසා තෝරාගෙන ඇත. පළමුවෙන්ම, ගමන් පථය තෝරා ගැනීමේදී ස්ථායිතාවයෙන් යුත් ගමන් පථ නියැදියට සම්බන්ධ වන හෙයින්, මෙම කර්තව්‍යයේ සිදුවිය හැකි ක්‍රියා අනුපිළිවෙල නිසා ඇති වන අතු විශාල ප්‍රමාණයක්, ගවේෂණ-සූරාකෑමේ පරාමිතිය හැර (සමහර විට, සමහර ප්‍රාන්ත සමඟ අත්දැකීම් නොමැති නියෝජිතයින්ට හේතු විය හැක. ε- කෑදරකම [17]) ප්‍රවේශමෙන් තෝරා ඇත. සමාන (නමුත් සමහර විට නොදුටු) තත්වයන්ට අගය සාමාන්‍යකරණය නොකිරීම නිසා, විශේෂිත රාජ්‍යයන් සමඟ මෙම අත්දැකීම් නොමැතිකම, විමසුම් වගු මතක ව්‍යුහයක් භාවිතා කරන විට නියෝජිතයෙකුගේ ක්‍රියාකාරිත්වයට බාධාවක් විය හැකිය. මේ අනුව, අගය තක්සේරු කිරීම සමඟ සහතික කර ඇති රාජ්‍ය අවකාශය පිළිබඳ පූර්ණ ගවේෂණයෙන් ප්‍රයෝජන ගැනීමට වැඩි කැමැත්තක් දැක්වීය. දෙවනුව, අගය අනුකලනය භාවිතා කිරීම මඟින් අතිරේක ගවේෂණ-සූරාකෑමේ පරාමිතිය නියම කිරීමේ අවශ්‍යතාවය මඟහරවා ගන්නා අතර එමඟින් අනුකරණය සරල කරයි. ගමන් පථ ගණන අනන්තය [17] වෙත ළඟා වන විට, ගමන්මග නියැදීමෙන් අවසානයේ අගය ගණනය කිරීම දළ වශයෙන් කළ හැකි බව සලකන්න.

2 21,120 තත්වයන් ගණන පහත පරිදි ගණනය කළ හැකිය: 11 විය හැකි නියෝජිත ස්ථාන × 4 විය හැකි නියෝජිත දිශානතිය × (වස්තුවක් දිස්වීමට පෙර 10 කාල පියවර + කිසිදු වස්තුවක් නොපෙන්වන 10 කාල පියවර + නියෝජිතයා සිටි 10 කාල පියවර ධනාත්මකව ශක්තිමත් කරන ලද + 10 වස්තු negative ණාත්මකව ශක්තිමත් කළ + 11 විය හැකි වස්තු ස්ථාන * (ධනාත්මක හඳුනාගත් වස්තුවක් සහිත 10 කාල පියවර + X ණ හඳුනාගත් වස්තුවක් සමඟ 10 කාල පියවර + හඳුනා නොගත් ධනාත්මක වස්තුවක් සමඟ 10 කාල පියවර + හඳුනා නොගත් negative ණ වස්තුවක් සහිත 10 කාල පියවර))].

3 මෙම “සැඟවුණු” රාජ්‍යයන්හි පැවැත්ම පුහුණුව අතරතුරදී සලකා බැලිය යුතුය. මන්දයත් අගය ගණනය කිරීම රාජ්‍ය අවකාශයේ එක් එක් ප්‍රාන්තයෙන් “එක් පියවරක් ඉදිරියෙන්” පමණක් පෙනෙන බැවිනි. Negative ණාත්මක හා ධනාත්මක හඳුනා නොගත් වස්තූන් සහිත රාජ්‍යයන් effectively ලදායී ලෙස සමාන වන හෙයින්, ධනාත්මක හෝ negative ණාත්මක වස්තුව හඳුනා ගන්නා පසුකාලීන රාජ්‍යයන් දෙකෙහි අගයන් ගැන ඉගෙනීම හා සාමාන්‍යය වීම වළක්වනු ඇත. අනෙක් අතට ගමන්මග නියැදි කිරීමේ ප්‍රවේශයක් නඩු විභාගය පුරාම සැඟවුණු රාජ්‍ය තොරතුරු (එනම් හඳුනා නොගත් උත්තේජකයේ අනන්‍යතාවය) පවත්වා ගෙන යන අතර ආර්එල් හි එම ප්‍රභේදය සමඟ සැඟවුණු රාජ්‍යයන් සැලකිලිමත් නොවේ.

4O වර්තමාන කාර්යයට ඇති විය හැකි විරෝධය නම්, දිශානති ප්‍රතිචාරය ක්ෂීරපායී මොළයේ දෘඩ වයර් ලෙස පෙනේ, නිදසුනක් ලෙස, සුපිරි කොලිකුලස් [3,14] හි ප්‍රක්ෂේපණ වලදී. වර්තමාන සමාකරණයේදී, නියෝජිතයින් වස්තූන් වෙත දිශානතියට අමාරු නොවූ අතර ඒ වෙනුවට දිශානත හැසිරීමක් ඉගෙන ගත් අතර එය අවසානයේදී විපාකයක් උපරිම කරන ක්‍රියාවක් (උදා: ප්‍රවේශය හෝ මග හැරීම) තෝරා ගැනීමට අවසර දුන්නේය. දෘ-වයර් ප්‍රතිචාර වලට සමානව, මෙම දිශානති චර්යාවන් වස්තූන් හඳුනා ගැනීමට පෙර ඉතා වේගයෙන් සිදු වූ අතර ඒවා සියලු වස්තු දෙසට යොමු විය. මෙම කාර්යයේ පරමාර්ථය වූයේ එවැනි සියලු ප්‍රතිචාර ඉගෙන ගත් බව ප්‍රකාශ කිරීම නොව, ආර්එල් රාමුව තුළ ඒවාට සහජීවනය ඇති කළ හැකි වීමයි. එසේ වුවද, මෙම අදියර ඩොපමයින් ප්‍රතිචාරය ජනනය කිරීම සඳහා මොළයේ පද්ධතිවල සම්බන්ධතාවය සැකසීම සඳහා විපාක සම්බන්ධ යාන්ත්‍රණ සම්බන්ධ විය හැකිද යන්න සොයා බැලීම සිත්ගන්නා කරුණකි.

මෙය ප්රකාශයට පත් කර ඇති අනු පිටපතේ ලියවිල්ලක් වන PDF ගොනුවකි. අපගේ ගනුදෙනුකරුවන්ට සේවාවක් වශයෙන් අපි මෙම අත්පිටපතේ මුල් පිටපත සපයයි. අත් පිටපත එහි අවසන් ආකෘතියෙන් ප්රකාශයට පත්කිරීමට පෙර පිටපත් කිරීම, මුද්රණය කිරීම සහ සමාලෝචනය සිදුකිරීමට නියමිතය. නිෂ්පාදන ක්රියාවලිය අතරතුර අන්තර්ගතයට බලපෑම් කළ හැකි දෝෂයන් සොයා ගත හැකි වන අතර, ජර්නලයට අදාල වන සියලුම නීතිමය කරුණු නොසලකා හැරීමක් සැලකිල්ලට ගන්න.

ආශ්රිත

1. බෙයාඩ් එල්.සී. අවශේෂ ඇල්ගොරිතම: ක්‍රියාකාරීත්වය ආසන්න කිරීම සමඟ ශක්තිමත් කිරීමේ ඉගෙනීම. තුළ: ප්‍රෙඩෙටිස් ඒ, රසල් එස්, කතුවරුන්. යන්ත්‍ර ඉගෙනීම: දොළොස්වන ජාත්‍යන්තර සමුළුවේ ක්‍රියා පටිපාටි; 9 - 12 July.1995.

2. බන්සෙක් එන්, ඩීසල් ඊ. මානව සාර්‍ථක නිග්‍රා / වීටීඒ හි උත්තේජක නව්‍යතාවයේ නිරපේක්ෂ කේතනය. නියුරෝන. 2006; 51 (3): 369 - 379. [පබ්මෙඩ්]

3. ඩොමෙට් ඊ, කොයිසෙට් වී, බ්ලහා සීඩී, මාටින්ඩේල් ජේ, ලෙෆෙබ්වර් වී, වෝල්ටන් එන්, මේයූ ජේව්, ඕවර්ටන් පීජී, රෙඩ්ග්‍රේව් පී. දෘශ්‍ය උත්තේජක මගින් කෙටි ප්‍රමාදයකින් ඩොපමිනර්ජික් නියුරෝන සක්‍රීය කරන්නේ කෙසේද? විද්යාව. 2005; 307 (5714): 1476 - 1479. [පබ්මෙඩ්]

4. Doya K. Metalearning සහ neuromodulation. ස්නායුක ජාල. 2002 Jun-Jul; 15 (4 - 6): 495 - 506. [පබ්මෙඩ්]

5. ගිලීස් ඒ, අර්බුට්නොට් ජී. බාසල් ගැන්ග්ලියා හි පරිගණක ආකෘති. චලන ආබාධ. 2000; 15 (5): 762 - 770. [පබ්මෙඩ්]

6. හෝර්විට්ස් ජේ.සී. විපාක නොලබන සිදුවීම් සඳහා මෙසොලිම්බොකෝටිකල් සහ නයිග්‍රොස්ට්‍රියල් ඩොපමයින් ප්‍රතිචාර දක්වයි. ස්නායු විද්යාව. 2000; 96 (4): 651 - 656. [පබ්මෙඩ්]

7. කකාඩේ එස්, දයාන් පී. ඩොපමයින්: සාමාන්‍යකරණය සහ බෝනස්. ස්නායුක ජාල. 2002; 15 (4 - 6): 549 - 559. [පබ්මෙඩ්]

8. නට්සන් බී, කූපර් ජේ.සී. නොදන්නා අයගේ ආකර්ෂණය. නියුරෝන. 2006; 51 (3): 280 - 282. [පබ්මෙඩ්]

9. ලොගෝතෙටිස් එන්කේ, පෝල්ස් ජේ, ඔගත් එම්, ට්‍රිනාත් ටී, ඕල්ටර්මන් ඒ. එෆ්එම්ආර්අයි සං .ාවේ පදනම පිළිබඳ ස්නායු භෞතික විද්‍යාත්මක පරීක්ෂණ. සොබාදහම. 2001; 412 (6843): 150 - 157. [පබ්මෙඩ්]

10. මැක්ලුර් එස්එම්, බර්න්ස් ජීඑස්, මොන්ටෙග් පීආර්. උදාසීන ඉගෙනුම් කර්තව්‍යයක තාවකාලික පුරෝකථන දෝෂ මානව අරගලය සක්‍රීය කරයි. නියුරෝන. 2003; 38 (2): 339 - 346. [පබ්මෙඩ්]

11. Niv Y, Duff MO, Dayan P. Dopamine, අවිනිශ්චිතතාව සහ TD ඉගෙනීම. චර්යා සහ මොළයේ කාර්යයන්. 2005 මැයි 4; 1: 6. [PMC නිදහස් ලිපිය] [PubMed]

12. ඔ'ඩොහර්ටි ජේ.පී., දයාන් පී, ෆ්‍රිස්ටන් කේ, ක්‍රිච්ලි එච්, ඩෝලන් ආර්.ජේ. මිනිස් මොළයේ තාවකාලික වෙනස ආකෘති සහ විපාක ආශ්‍රිත ඉගෙනීම. නියුරෝන. 2003; 38 (2): 329 - 337. [පබ්මෙඩ්]

13. රෙඩ්ග්‍රේව් පී, ගර්නි කේ. කෙටිකාලීන ඩොපමයින් සං signal ාව: නව ක්‍රියා සොයා ගැනීමේ කාර්යභාරයක්? ස්වභාව ධර්මය ස්නායු විද්‍යාව සමාලෝචනය කරයි. 2006 Dec; 7 (12): 967 - 975.

14. රෙඩ්ග්‍රේව් පී, ප්‍රෙස්කොට් ටී. ජේ, ගර්නි කේ. විපාක දෝෂය සං signal ා කිරීමට කෙටි ප්‍රමාද ඩොපමයින් ප්‍රතිචාරය කෙටි ද? ස්නායු විද්‍යාවේ ප්‍රවණතා. 1999 Apr; 22 (4): 146 - 151. [පබ්මෙඩ්]

15. රීචල් ඊ.ඩී., ලෝරන්ට් පී.ඒ. කියවීමේදී “බුද්ධිමත්” අක්ෂි චලන හැසිරීම මතුවීම අවබෝධ කර ගැනීම සඳහා ශක්තිමත් කිරීමේ ඉගෙනීම භාවිතා කිරීම. මනෝවිද්යාත්මක සමාලෝචනය. 2006; 113 (2): 390 - 408. [පබ්මෙඩ්]

16. ෂුල්ට්ස් ඩබ්ලිව්. ඩොපමයින් නියුරෝන වල පුරෝකථන විපාක සං signal ාව. ස්නායු භෞතවේදය පිළිබඳ ජර්නලය. 1998; 80 (1): 1 - 27. [පබ්මෙඩ්]

17. සූටන් ආර්එස්, බාර්ටෝ ඒජී. ශක්තිමත් කිරීමේ ඉගෙනීම: හැඳින්වීමක්. එම්අයිටී මුද්‍රණාලය; කේම්බ්‍රිජ්: 1998.

18. ටනාකා එස්.සී., දෝයා කේ, ඔකාඩා ජී, උයිඩා කේ, ඔකමොටෝ වයි, යමවාකි එස්. ක්ෂණික හා අනාගත විපාක පිළිබඳ පුරෝකථනය කෝටිකෝ-බාසල් ගැන්ග්ලියා ලූප වෙනස් ලෙස බඳවා ගනී. නේචර් ස්නායු විද්‍යාව. 2004; 7 (8): 887 - 893.

ශක්තිමත් කිරීමේ ඉගෙනුම් මූලධර්ම (2008) වෙතින් ලවණතාව සහ නව්‍යතා ප්‍රතිචාර මතුවීම