نشوء الذكاء والجدة ردود من مبادئ التعلم التعزيز (2008)

التعليقات: دراسة أخرى توضح أن الحداثة هي مكافأة خاصة. أحد الجوانب التي تسبب الإدمان في الإباحية على الإنترنت هو الحداثة والتنوع اللانهائيان ، والقدرة على النقر بسرعة من مشهد إلى آخر ، والبحث عن الصورة / الفيديو الصحيح فقط. كل هذه تزيد من الدوبامين. هذا هو ما يجعل الإباحية على الإنترنت مختلفة عن المجلات أو أقراص DVD المستأجرة.

دراسة كاملة: ظهور الاستجابات اللطيفة والجدة من مبادئ تعلم التعزيز

الشبكة العصبية. 2008 ديسمبر ؛ 21 (10): 1493 – 1499.

نشرت على الانترنت 2008 سبتمبر 25. doi: 10.1016 / j.neunet.2008.09.004

باتريك أ. لوران ، جامعة بيتسبرغ ؛

عنوان جميع المراسلات إلى: Patryk Laurent ، جامعة بيتسبرغ ، 623 LRDC ، 3939 O'Hara St. ، بيتسبيرغ ، PA 15260 الولايات المتحدة الأمريكية ، البريد الإلكتروني: [البريد الإلكتروني محمي]، مكتب: (412) 624-3191 ، الفاكس: (412) 624-9149

ملخص

تستند المحاولات الأخيرة لتعيين نماذج التعلم القائمة على المكافأة ، مثل Reinforcement Learning [17] ، إلى الدماغ على الملاحظة التي تشير إلى أن الطور الزائد والنقصان في زيادة الخلايا العصبية التي تطلق الدوبامين يشير إلى وجود اختلافات بين المكافأة المتوقعة والمتلقاة [16,5]. ومع ذلك ، فإن خطأ التنبؤ بالمكافأة هذا ليس سوى إشارة واحدة من عدة إشارات ينقلها هذا النشاط المرحلي ؛ الآخر ينطوي على زيادة في ارتفاع الدوبامين ، مما يعكس ظهور المنبهات غير المكافئة البارزة ولكن غير المتوقعة [4,6,13] ، خاصةً عندما يتوجه كائن حي لاحقًا إلى المنبه [16]. لتوضيح هذه النتائج ، اقترح Kakade و Dayan [7] وآخرون أن هذه المحفزات الجديدة غير المتوقعة مجزية في جوهرها. توضح المحاكاة الموضحة في هذه المقالة أن هذا الافتراض ليس ضروريًا لأن التأثير المقصود منه هو التقاطه من آليات تعلم التنبؤ بالمكافأة في التعلم التعزيز. وبالتالي ، يمكن استخدام مبادئ التعلم المعززة لفهم ليس فقط النشاط المرتبط بالمكافأة من الخلايا العصبية الدوبامينية في العقد القاعدية ، ولكن أيضًا بعض أنشطتها غير المرتبطة بالمكافأة.

التعلم التعزيز (RL) أصبحت ذات أهمية متزايدة في تطوير النماذج الحسابية للتعلم القائم على المكافأة في الدماغ. RL هي فئة من الخوارزميات الحسابية التي تحدد كيف يمكن لـ "وكيل" اصطناعي (على سبيل المثال ، روبوت حقيقي أو محاكي) أن يتعلم اختيار الإجراءات من أجل تعظيم المكافأة المتوقعة الكلية [17]. في هذه الخوارزميات ، يبني العامل أفعاله على القيم التي يتعلمها لربطها بحالات مختلفة (على سبيل المثال ، العظة الإدراكية المرتبطة بالتحفيز). يمكن تعلم هذه القيم تدريجيًا من خلال تعلم الفارق الزمني ، والذي يضبط قيم الحالة استنادًا إلى الفرق بين تنبؤات المكافأة الحالية بالوكيل بالولاية والمكافأة الفعلية التي يتم الحصول عليها لاحقًا من البيئة. وقد تبين أن هذا الاختلاف المحسوب ، الذي يسمى خطأ التنبؤ بالمكافأة ، يرتبط بشكل جيد للغاية بالنشاط المرحلي للخلايا العصبية التي تطلق الدوبامين والتي تنبثق من المادة السوداء في الرئيسيات غير البشرية [16]. علاوة على ذلك ، في البشر ، يُظهر المخطط ، وهو هدف مهم للدوبامين ، إشارة fMRI BOLD التي تظهر أنها تعكس خطأ التنبؤ بالمكافأة أثناء مهام تعلم المكافآت [10,12,18]. يكمِّل اكتشاف الرنين المغناطيسي الوظيفي هذا بيانات علم وظائف الأعضاء لأنه يُفترض أن BOLD المميتة تعكس ، على الأقل جزئيًا ، نشاطًا متشابكًا وراثيًا [9] وخلايا الدوبامين العصبية مشروعًا كبيرًا على المخطط.

على الرغم من أن الاستجابات الفسيولوجية المذكورة أعلاه تبدو مرتبطة بحسابات التنبؤ بالمكافأة من RL ، هناك أيضًا زيادة في نشاط الطور الدوبامين استجابة لإثارة و / أو محفزات جديدة لا تبدو مرتبطة بالمكافأة [4,6,14,3]. وقد لوحظت ظاهرة مماثلة في الآونة الأخيرة في البشر باستخدام الرنين المغناطيسي الوظيفي [2]. هناك العديد من الأسباب التي تجعل استجابة "الجدة" أو "الملاءمة" لا علاقة لها بخطأ التنبؤ بالمكافأة: (1) يبدو مبكرًا جدًا ، قبل تقييم هوية التحفيز ، بحيث لا يمكن التنبؤ الدقيق بالمكافأة أن تولد (2) يقابل زيادة في النشاط العصبي (أي ، أنه إيجابي) لكل من المحفزات الشريرة والشهية ؛ و (3) يعتاد [13]. في الواقع ، هذه الاستجابات الملحة / الجدة للخلايا العصبية التي تطلق الدوبامين تكون أكثر موثوقية عندما لا يتم التنبؤ بالمنبهات وتؤدي إلى سلوك التوجه و / أو النهج [16] بغض النظر عن النتيجة النهائية ، مع إبراز حقيقة أنها تختلف نوعيًا عن المكافأة المكتسبة تنبؤ. وبالتالي ، كان التحدي هو توضيح هذه المفارقة الواضحة (أي كيف تؤثر الجدة على خطأ التنبؤ بالمكافأة) ضمن الإطار النظري للـ RL.

حاول كاكادي وديان [7] القيام بذلك بالضبط ؛ في مقالتهم ، افترضوا طريقتين يمكن من خلالهما دمج ردود الجدة في نماذج RL لوظيفة الدوبامين - وكلاهما ينطوي على تضمين افتراضات نظرية جديدة. الافتراض الأول ، الذي يشار إليه باسم مكافآت الجدة ، يتضمن تقديم مكافأة إضافية عند وجود محفزات جديدة ، علاوة على المكافأة المعتادة التي يتلقاها الوكيل. تدخل هذه المكافأة الإضافية في الحساب بحيث يعتمد التعلم على الفرق بين التنبؤ بالمكافأة الحالي للوكيل ومبلغ كل من المكافأة المعتادة من البيئة ومكافأة الجدة. وبالتالي ، تصبح الجدة جزءًا من المكافأة التي يحاول الوكيل تعظيمها. يمكن تنفيذ الافتراض الثاني ، والمسمى المكافآت تشكيل ، عن طريق زيادة مصطنعة قيم الدول المرتبطة محفزات جديدة. نظرًا لأن قاعدة التعلم بالفرق الزمني المستخدمة في RL تستند إلى الفرق في التنبؤ بالمكافأة بين الحالات المتعاقبة ، فإن إضافة مكافأة تشكيل ثابتة إلى الدول المعنية بمحفزات الرواية ليس له أي تأثير على السلوك النهائي للعامل. ومع ذلك ، لا يزال يظهر استجابة الجدة عندما يدخل العميل جزء من مساحة الدولة التي تم "تشكيلها" (أي ، يرتبط مع الجدة).

على الرغم من أن إضافة كل من هذه الافتراضات كافية لشرح العديد من الآثار الملحوظة للحداثة ، إلا أن الافتراضات تتداخل أيضًا مع تقدم التعلم. كما يشير Kakade و Dayan [7] ، يمكن لمكافآت الجدة أن تشوه وظيفة القيمة (أي القيم المرتبطة بكل ولاية من قبل الوكيل) وتؤثر على ما تم تعلمه في نهاية المطاف لأنه يتم تطبيقه كمكافأة إضافية ترتبط ارتباطًا جوهريًا بالرواية تنص على. المشكلة هي أن الوكيل يتعلم التنبؤ بالمكونات الأساسية والجديدة للمكافأة. على الرغم من أن Kakade و Dayan يشيران إلى أن تشكيل المكافآت لا يسبب هذا النوع من المشكلات نظرًا لإدماجهما في تنبؤات المكافآت من الدول السابقة ، إلا أن إضافتهما ما زالت تمثل مشكلة لأن المكافآت المكافئة في التشكيل تقدم التحيزات في الطريقة التي يستكشف بها الوكيل مساحة الدولة. وبالتالي ، على الرغم من أن هذه الافتراضات الإضافية قد تشرح كيف تؤثر الجدة على خطأ التنبؤ بالمكافأة في RL ، إلا أنها تمثل مشكلة. علاوة على ذلك ، فإن التفسيرات تأتي على حساب تقليل تباين عمل النمذجة الذي يحاول استخدام RL لفهم سلوك الكائنات البيولوجية الحقيقية.

تم إجراء المحاكاة الموضحة أدناه من أجل اختبار الفرضية القائلة بأن وكيل RL البسيط ، دون أي افتراضات إضافية ، سيطور استجابة خطأ التنبؤ بالمكافأة تشبه استجابات الدوبامين غير المرتبطة بالمكافأة والتي يتم ملاحظتها في الكائنات البيولوجية . تم إعطاء وكيل RL مهمة التفاعل مع نوعين من الكائنات - أحدهما إيجابي والآخر سالب - والذي ظهر في مواقع عشوائية في بيئته. من أجل تعظيم المكافأة ، كان على الوكيل أن يتعلم الاقتراب من "الكائن" الإيجابي و "يستهلكه" ، وأن يتجنب (أي ليس "يستهلك") الشيء السلبي. كان هناك ثلاثة توقعات رئيسية للمحاكاة.

كان التوقع الأول ببساطة أنه من أجل زيادة مكافأته ، سيتعلم الوكيل في الواقع التعامل مع الأشياء الإيجابية والمجزية و "استهلاكها" بينما يتعلم في الوقت نفسه تجنب الأشياء السلبية والعقاب. كان التوقع الثاني أقل وضوحًا: أن العامل سيظهر استجابة توجيهية (بمعنى ، تعلم تحويل اتجاهه) نحو الأشياء السلبية والإيجابية. تم إجراء هذا التوقع لأنه على الرغم من أن العامل يمكنه "إحساس" مظهر الكائن وموقعه ، إلا أن الهوية الإيجابية أو السلبية للكائن (أي جديلة أن الوكيل سيتعلم في نهاية المطاف ربط قيمة المكافأة للكائن) لا يمكن تحديدها من قبل الوكيل إلا بعد أن يكون الوكيل قد توجه بالفعل نحو الكائن. أخيرًا ، كان التنبؤ الثالث (والأهم من ذلك) مرتبطًا بالاستجابة المحورية للطور الدوبامين في النموذج ؛ كان هذا التنبؤ أنه عندما ظهر الكائن ، فإن العامل سوف يظهر خطأ في التنبؤ بالمكافأة كان مشابهًا حسابيًا لاستجابة الدوبامين المرحلية التي لوحظت في الكائنات البيولوجية ، كونها إيجابية لكل من الكائنات الإيجابية والسلبية. وكان من المتوقع أيضًا أن تختلف هذه الاستجابة كدالة للمسافة بين العامل والحافز ، والتي في سياق المحاكاة كانت تدبيرًا بديلاً عن "شدة" التحفيز أو شدته. كما هو موضح أدناه ، تم تأكيد هذه التنبؤات من خلال نتائج المحاكاة ، مما يدل على أن استجابات الدوبامين التي تبدو غير مرتبطة بالمكافأة يمكن أن تنشأ من حيث المبدأ من المبادئ الأساسية لـ RL. سيتم مناقشة الآثار النظرية لهذه النتائج لاستخدام RL لفهم النشاط غير المتعلق بالمكافأة في الكائنات البيولوجية في القسم الأخير من هذه المقالة.

خدمة التوصيل

كما ذكرنا سابقًا ، تحدد خوارزميات RL كيف يمكن للوكيل استخدام المكافآت العددية من لحظة إلى أخرى لمعرفة الإجراءات التي يجب اتخاذها من أجل زيادة إجمالي مبلغ المكافأة الذي يتلقاه. في معظم الصياغات ، يتم تحقيق هذا التعلم باستخدام أخطاء التنبؤ بالمكافأة (أي الفرق بين التنبؤ الحالي بالمكافأة للوكيل والمكافأة الفعلية التي يتم الحصول عليها) لتحديث تنبؤات المكافآت الخاصة بالوكيل. عند تعلم تنبؤات المكافآت ، يمكن أيضًا استخدام التنبؤات بواسطة وكيل لتحديد الإجراء التالي. السياسة المعتادة (المعرفة في المعادلة 2) هي أن يحدد الوكيل الإجراء الذي يتوقع أن ينتج عنه أكبر مكافأة. المكافأة الفعلية التي يتم توفيرها للوكيل في أي وقت معين هي مجموع المكافأة الفورية بالإضافة إلى جزء من قيمة الحالة التي يدخلها الوكيل عند اكتمال الإجراء. وبالتالي ، إذا تعرض الوكيل في النهاية لمكافآت إيجابية بعد أن كان في حالة معينة ، فسيختار الوكيل إجراءات في المستقبل من المحتمل أن تؤدي إلى تلك الدول المكافئة ؛ على العكس من ذلك ، إذا واجه العميل المكافآت السلبية (أي العقوبة) ، فسيتجنب الإجراءات في المستقبل التي تؤدي إلى تلك الدول "المعاقب عليها".

الخوارزمية المحددة التي تحدد تنبؤات المكافأة التي يتم تعلمها لمختلف الحالات (أي ، دالة القيمة V) تسمى قيمة التكرار [حاشية 1] ويمكن وصفها رسميًا على النحو التالي:

لجميع الدول الممكنة ،

(المعادلة 1)

حيث يتوافق s مع الحالة الحالية ، V (s) هي التنبؤ الحالي بالمكافأة عن الحالة التي تعلمها الوكيل ، maxaction∈M {} هو عامل تشغيل للحصول على أقصى قيمة للكمية الموجودة بين قوسين على مجموعة جميع الإجراءات M المتاحة للوكيل ، V (s ′) هي تقدير المكافأة الحالي للوكيل عن الحالة التالية ′ ، α هي بعض معدلات التعلم (بين 0 و 1) ، و γ عامل خصم يعكس كيفية تقييم المكافآت المستقبلية نسبة إلى المكافآت الفورية. تم تعيين وظيفة القيمة الأولية بحيث تكون V (s) 0 لجميع الحالات.

تم تنفيذ دالة القيمة V (s) كجدول بحث ، وهو ما يعادل رسمياً افتراض الذاكرة المثالية. على الرغم من أنه تم استخدام مُقاربات الوظائف مثل الشبكات العصبية مع بعض النجاح لتمثيل وظائف القيمة [1] ، تم استخدام جدول بحث للتأكد من أن النتائج لا تعتمد على أنواع آلية التعميم التي توفرها تقريبات الوظائف المختلفة. تم تدريب الوكيل على تكرارات تعلم 1,500 على مساحة الولاية الخاصة به. نظرًا لعدم إمكانية التنبؤ بهوية الكائنات ، تم استخدام معلمة تحديث دالة القيمة أقل من واحد (α = 0.01) أثناء التعلم للسماح بتحديد متوسط نتائج مختلفة. أخيرًا ، تم تعيين عامل الخصم على γ = 0.99 لتشجيع الوكيل على طلب المكافأة عاجلاً بدلاً من تأخير سلوك النهج حتى نهاية التجربة (على الرغم من أن تغييره من القيمة الافتراضية لـ 1 لم يكن له أي تأثير على النتائج المبلغ عنها هنا. ) من أجل تحديد مستقل ما إذا كانت تكرارات التعلم 1,500 كافية للتعلم لإكمال ، تم رصد متوسط مقدار التغيير في المستفادة وتبيّن أنه قد تلاقى قبل هذا العدد من التكرارات.

بعد التدريب ، تكون الخوارزمية المحددة التي تحكم سلوك الوكيل (أي سياسة الإجراءات التي يتخذها من كل ولاية معينة) هي:

(المعادلة 2)

حيث π (s) هو الإجراء الذي سيختاره الوكيل من الحالة ، ويعيد الجانب الأيمن من المعادلة الإجراء (على سبيل المثال ، تغيير الاتجاه ، أو الحركة ، أو عدم اتخاذ إجراء) الذي يزيد من مجموع المكافأة والقيمة المخفضة الحالة الناتجة ′.

في المحاكاة الموضحة أدناه ، تم تشفير جميع الحالات التي زارها العامل كنواقل 7 ذات الأبعاد التي تمثل معلومات حول كل من الحالة "المادية" الخارجية للوكيل وحالة "المعرفة" الداخلية الخاصة به. المعلومات المادية شملت كل من الموقف الحالي للوكيل في الفضاء وتوجهه. تضمنت معلومات المعرفة موضع الكائن (في حالة وجوده) وهوية ذلك الكائن (إذا كان قد حدده الوكيل). يتم عرض الأنواع المحددة من المعلومات التي تم تمثيلها بواسطة الوسيط في الجدول 1.

الجدول 1

الأبعاد المستخدمة في محاكاة RL والقيم المحتملة لتلك الأبعاد.

كان هناك ما مجموعه حالات 21,120 في المحاكاة [Footnote 2]. ومع ذلك ، فإن الحالات التي يكون فيها كائنًا سلبيًا مجهول الهوية ومجهول الهوية ، من وجهة نظر الوكيل ، متطابقة ، لذلك لا يوجد سوى حالات 16,280 مميزة. وهكذا ، أثناء كل تكرار للتعلم ، كان من الضروري زيارة بعض هذه الحالات "المتطابقة" مرتين للسماح بحقيقة أنه قد يتم متابعتها بنصف الوقت باكتشاف كائن إيجابي ، ونصف الوقت الذي يمكنهم فيه يتبع مع اكتشاف كائن سلبي [حاشية 3].

في بداية كل تجربة اختبار محاكية ، تم وضع العامل في وسط مسار وحدة 11 × 1 خطي محاكي مع خمس مسافات إلى "الشرق" (أي إلى اليمين) من العامل وخمس مسافات إلى "الغرب" "(أي إلى اليسار) الوكيل. كما يوضح الجدول 1 ، تضمن متجه حالة الوكيل عنصرًا يشير إلى موقعه الحالي على المسار (أي عدد صحيح من 0 إلى 10) ، بالإضافة إلى عنصر (على سبيل المثال ، حرف "n" ، "s" ، " e "أو" w ") تمثل اتجاهها الحالي (أي الشمال أو الجنوب أو الشرق أو الغرب على التوالي). تم دائمًا تعيين الاتجاه الأولي للوكيل على أنه "شمال" ، ولم يكن هناك أي كائن آخر موجود في البيئة (أي ، تم تعيين قيمة "OBJECT" في متجه حالة الوكيل على "0").

خلال كل خطوة زمنية من المحاكاة ، يمكن للعامل تنفيذ أحد الإجراءات التالية: (1) لا تفعل شيئًا ، وتبقى في الموقع والتوجيه الحاليين ؛ (2) باتجاه الشمال أو الجنوب أو الشرق أو الغرب ؛ أو (3) حرك مساحة واحدة في البيئة (شرقًا أو غربًا). حدثت نتيجة كل إجراء في الخطوة الزمنية المحاكاة التالية. حدثت جميع التغييرات في موقع و / أو اتجاه العامل في الفضاء من خلال اختيار الإجراءات من قبل الوكيل. ومع ذلك ، خلال كل خطوة زمنية من المحاكاة ، حتى عندما تم اختيار إجراء "لا تفعل شيئًا" ، فقد زاد 1 من الوقت حتى نهاية التجربة (أي الخطوة 20 الزمنية).

تم إعداد بيئة الوكيل بحيث يظهر نصف الوقت في موقع عشوائي (ولكن ليس في نفس موقع العامل) بعد عشر خطوات زمنية ؛ كانت 50٪ من الكائنات موجبة (ممثلة بـ "+" ، انظر الجدول 1) و 50٪ من الكائنات كانت سالبة (ممثلة بـ "-"). تم تقديم التأخير قبل ظهور الكائن للسماح بملاحظة أي سلوك قد يكون الوكيل قد أظهره قبل ظهور الكائن. إذا لم يكن العامل موجهاً نحو الكائن عندما ظهر ، فسيتم تغيير العنصر الذي يمثل هوية "الهدف" في متجه حالة الوكيل من "0" إلى "؟" ليعكس حقيقة أن هوية الكائن الذي أصبح الآن كان الحاضر غير معروف حاليا. ومع ذلك ، إذا كان العامل موجهًا نحو الكائن ، في الخطوة اللاحقة ، تم تعيين عنصر "الهدف" على قدم المساواة مع هوية الكائن ، بحيث أصبح "0" إما "+" أو "-" للإيجابية والأشياء السلبية ، على التوالي.

إذا انتقل العامل إلى موقع كائن ما ، فقد تلاشى الكائن في المرة التالية. إذا كان الكائن موجبًا ، فسيتم تعيين علامة "المستهلك" الخاصة بالوكيل مساوية للقيمة الحقيقية ومكافأة الوكيل (مكافأة = + 10) ؛ ومع ذلك ، إذا كان الكائن سالبًا ، فسيتم تعيين علامة "SHOCKED" على "صحيح" وتمت معاقبة العميل (مكافأة = N10). (لاحظ أنه تم تعيين الأعلام بهذه الطريقة بصرف النظر عما إذا كان العامل قد حدد الكائن أم لم يحدده ؛ على سبيل المثال ، يمكن للعامل أن يستهلك كائنًا دون توجيهه تجاهه أبدًا). في الخطوة الزمنية اللاحقة ، "الصدمة" أو تم مسح علامة "مستهلك". تم منح العميل أيضًا عقوبة صغيرة (التعزيز = N1) لكل حركة أو إجراء توجيهي ، ولم يتلق أي مكافأة أو عقوبة (التعزيز = 0) إذا لم يقم بأي إجراء.

تم تقدير كميًا لكل من السلوكيات العلنية (أي التوجيه والحركة) وقياس خطأ التنبؤ بالمكافأة. تم استخدام السلوك العلني (أي ، قائمة الإجراءات التي اختارها الوكيل) كدليل على ما إذا كانت المهمة قد تم تعلمها أم لا. تم استخدام مقياس خطأ التنبؤ بالمكافأة لاختبار الفرضية حول ظهور إشارة طور الدوبامين غير المكافئة. تم قياس خطأ التنبؤ بالمكافأة ، δ ، في وقت t لظهور كائن عن طريق طرح تنبؤات المكافأة في الخطوة الزمنية السابقة ، أي V (s) في الوقت الخطوة t − 1 ، من التنبؤ بالمكافأة عندما ظهر الكائن ، أي V (s) في الوقت t ، مما أسفر عن الكمية δ = V (st) - V (st st 1).

النتائج

محاكاة السلوك

تم تقدير السلوك العلني للعوامل أولاً. أظهرت نتائج هذا التحليل أنه بعد التدريب ، اقترب العامل وحصل على تعزيز إيجابي من جميع الأشياء الإيجابية ولم يتعامل مع أي من الأشياء السلبية. معًا ، توفر هذه النتائج تأكيدًا سلوكيًا تعلمه الوكلاء لأداء المهمة بشكل صحيح. ويعزز هذا الاستنتاج الملاحظة الإضافية التي تفيد بأنه خلال التجارب التي لم يظهر فيها أي جسم ، بقي العامل بلا حراك. كما هو متوقع ، فإن العامل موجه إلى كل من الأشياء الإيجابية والسلبية.

خطأ محاكاة المكافأة

الفرضية الأساسية لهذه الورقة هي أن ظهور حافز لا يمكن التنبؤ به سيولد باستمرار خطأً إيجابياً في التنبؤ بالمكافأة ، حتى لو كان هذا الكائن كائن "سلبي" يعاقب دائمًا. دعماً لهذه الفرضية ، أظهر الوكيل خطأً إيجابياً في التنبؤ بالمكافأة كلما ظهر كائن (مجهول) ، لكن ليس عندما ظهر أي شيء. ويتفق أيضًا مع الفرضية المركزية في حقيقة أن حجم الاستجابة الطورية للعامل (measured ، كما تم قياسه في قسم الطريقة) كان حساسًا لـ "شدة" المحاكاة المحاكاة ، محددة باستخدام المسافة بين العامل والكائن (انظر الشكل 1). أشار تحليل الانحدار إلى أن حجم كان مرتبطًا عكسيًا بالمسافة من الجسم ، بحيث تسببت الأجسام الأقرب في استجابة أقوى (r = −0.999 ، p <0.001 ؛ = 0.82). كان سبب هذا الارتباط السلبي هو العقوبة الصغيرة (التعزيز = −1) التي تم فرضها لكل حركة كان مطلوبًا من الوكيل القيام بها من أجل الانتقال إلى الكائن الإيجابي ، واستهلاكه ، وبالتالي الحصول على المكافأة.

الشكل 1

يوضح هذا الشكل خطأ توقع المكافأة (على سبيل المثال ، δ) عندما ظهر الكائن كدالة لموقع الكائن بالنسبة إلى موقع الوكيل. الردود متطابقة لكل من الأشياء الإيجابية والسلبية. عندما لا يوجد كائن (المزيد ...)

بالنظر إلى ظهور الكائنات الإيجابية والسلبية في هذه المحاكاة باحتمال متساوٍ (p = .25) ، يطرح السؤال التالي: لماذا كانت إشارة خطأ توقع المكافأة للوكيل إيجابية في وقت ظهور الكائن؟ الاستنتاج المنطقي على غرار Kakade و Dayan [7] ، قد يتوقع المرء أن الإشارة يجب أن تعكس متوسط جميع المكافآت المستفادة من مثل هذه المواقف ، وبالتالي تساوي الصفر. المفتاح لفهم هذه النتيجة هو الإشارة إلى أن RL لا يجعل العامل أقل عرضة للاختيار من بين الإجراءات التي تؤدي إلى التعزيز السلبي ، بل يجعل العامل أقل احتمالًا لدخول الولايات التي تؤدي في النهاية إلى التعزيز السلبي. ينتج عن هذا نوع من التعلم "العالي المستوى" الموضح في الشكل 2 والموضح أدناه.

الشكل 2

رسم توضيحي يوضح كيف يطور وكيل RL خطأً إيجابيًا في التنبؤ بالمكافأة عندما يتم تدريبه بمحفزات مجزية ومعاقبة في بيئته ويكون قادرًا على اختيار ما إذا كان سيقترب منها ويستهلكها. (أ) الوضع قبل التعلم: (المزيد ...)

في بداية التعلم (انظر الشكل 2A) ، يتصل الوكيل بكلا "+" و "-" ويتناولها ، ويتم مكافأته ومعاقبته عن طريق استهلاك كل نوع من الكائنات. إذا كانت قيم الحالة المكتسبة للوكيل غير قادرة على التأثير على تصرفات الوكيل (انظر الشكل 2B) ، فسيواصل الوكيل الاقتراب من الكائنات ويستهلكها. عندئذٍ يتنبأ ظهور الإشعار بمتوسط أجر يبلغ 0 وستحدث زيادة مفاجئة في خطأ التنبؤ بالمكافأة. ومع ذلك ، فإن العامل في هذه المحاكاة يستخدم قيم الحالة المكتسبة للتأثير على تصرفاته (انظر الشكل 2C) ، وعلى الرغم من أنه لا يزال يتعين على الوكيل التوجه إلى كائن غير معروف لتحديد هويته ، فإنه لن يستهلك كائنًا سلبيًا إذا اقترب (كما قد يحدث إذا تم تدريبه باستخدام خوارزمية استكشاف عشوائية مثل أخذ عينات المسار [Footnote 1]). علاوة على ذلك ، نظرًا لأن تعلم الفارق الزمني يسمح للتنبؤ بالمكافأة السلبية "بالانتشار" مرة أخرى إلى الحالات السابقة ، ولأن هناك تكلفة بسيطة للتنقل في الفضاء ، يتعلم الوكيل تجنب الاقتراب من الكائن السلبي تمامًا. وبالتالي ، بعد تعلم هذه المعلومات ، لا تستند قيمة الحالة عند ظهور الكائن لأول مرة (يشار إليها بالحرف "V" في الدائرة الأولى في كل تسلسل) على متوسط قيم حالة النتائج الإيجابية والسلبية ، ولكن بدلاً من ذلك استنادًا إلى متوسط النتيجة الإيجابية "المحايدة" التي يتم تحقيقها بمجرد أن يتعلم العامل تجنب الأشياء السلبية. هذا هو السبب في أن متوسط جميع المكافآت التي حصل عليها الوكيل المدرّب فعليًا كان أكبر من الصفر ، وهو ما يفسر السبب في أن التنبؤ بمكافأة الوكيل (وبالتالي خطأ التنبؤ بالمكافأة عندما يظهر الكائن فجأة) كان صافيًا إيجابيًا. هذا موضح في الشكل 3. في الواقع ، طالما أن العامل يمكن أن يتعلم تغيير سلوكه وتجنب الكائن السلبي ، فإن قيمة الكائن السلبي لا صلة لها في النهاية بالسلوك النهائي للعامل وحجم استجابة الجدة / الملاءمة.

الشكل 3

(أ) يوضح التغييرات في التنبؤ بالمكافأة التي كانت ستحدث إذا لم تؤد RL إلى تعليم عالي المستوى (أي إذا لم يتمكن الوكيل من اتخاذ تدابير لتجنب النتيجة السلبية) ، بحيث يضطر الوكيل إلى استهلاك كل كائنات (المزيد ...)

تعتمد نتائج المحاكاة بشكل أساسي على ثلاثة افتراضات. أولاً ، يجب أن تكون المحفزات "بارزة" من حيث أن حجم التعزيز الذي تنبأ به جديلة الأولي كان كبيرًا بما فيه الكفاية (على سبيل المثال ، + 10) بالنسبة لتكاليف التوجيه والاقتراب (على سبيل المثال ، N1). إذا كان الحجم صغيرًا نسبيًا ، فلن يتعلم العامل التوجيه ، كما أنه لن يولد استجابة الخطأ الإيجابية للتنبؤ بالمكافأة. ثانياً ، كان التأخير قبل التعرف على المحفزات ضروريًا أيضًا. (التأخير هو وكيل لـ "حداثة" في ظل التفكير في أنه سيتم التعرف بسرعة على حافز مألوف.) وبدون تأخير ، كان من الممكن أن يولد الوكيل ببساطة خطأ تنبؤ إيجابي أو سلبي مناسب للمكافئ مناسب للكائن المدرك الفعلي. أخيرًا ، كان يجب تحديد سلوك الوكيل من خلال القيم التي تعلمها. إذا لم يتمكن العامل من التحكم في سلوكه (أي ، ما إذا كان يجب الاقتراب من المنبهات) ، فإن التنبؤ بالمكافأة عند ظهور كائن ما كان يعادل 0 ، متوسط النتائج الإيجابية والسلبية القابلة للتساوي.

مناقشة عامة

أظهرت المحاكاة الموضحة في هذه المقالة أن خطأً إيجابيًا في التنبؤ بالمكافأة يحدث عندما يظهر حافز غير متوقع ، سواء كان مجزيًا أو معاقبًا ، ولكن لا يمكن تحديده على الفور. علاوة على ذلك ، أشارت المحاكاة إلى أن حجم خطأ التنبؤ بالمكافأة يزداد مع قرب الحافز من العامل ، والذي في سياق المحاكاة هو مقياس وكيل لشدة الحافز ، وبالتالي يرتبط بالبروز. في الإطار النظري لـ RL ، عادة ما تُفهم تنبؤات المكافآت على أنها تعكس القيمة المستفادة من المحفزات المعترف بها ، أو للحالات الجسدية و / أو المعرفية للوكيل [15]. ومع ذلك ، فإن خطأ التنبؤ بالمكافأة الذي تم الإبلاغ عنه هنا له تفسير مختلف نوعيًا لأنه يتم إنشاؤه قبل أن يتعرف الوكيل على الكائن. تدعم هذه النتائج معًا الفرضية القائلة بأن مبادئ RL كافية لإنتاج استجابة تبدو غير مرتبطة بالمكافأة ، ولكنها ترتبط بدلاً من ذلك بخصائص الجدة والأهمية. هذا الاستنتاج له العديد من التداعيات المهمة لفهمنا العام للـ RL ولتفسيرنا للـ RL كحساب لتعلم المكافآت في الكائنات البيولوجية الحقيقية.

أولاً ، إن التنبؤ بالمكافأة الذي يتم إنشاؤه بواسطة وكيل RL عندما يظهر حافز غير معروف ليس بالضرورة متوسطًا صارمًا للمكافآت التي يمكن الحصول عليها كما اقترح Kakade و Dayan [7] ، ولكن في الواقع يمكن أن يكون في الحجم أكبر من ذلك المتوسط المعين. يتوقع كاكادي وديان أن يكون متوسط التنبؤ بالمكافأة مساوياً للصفر ، لأن المحاكمات تمت مكافأتها ومعاقبتها على قدم المساواة في كثير من الأحيان. ظهرت هذه النتيجة المدهشة لأن العميل تعلم بطريقة "السياسة" ؛ أي أن العامل لم يتعلم فقط عن النتائج السلبية ، ولكن أيضًا عن قدرته على تجنب تلك النتائج. يجب النظر بعناية في قدرة نظام المكافآت هذا على التسبب في تجنب أحد العوامل السلبية في ترجمة فهمنا لـ RL إلى كائنات حقيقية. هذه الحقيقة من المحتمل أن تكون أكثر أهمية بالنظر إلى التباين الواضح في قدرة استجابة الطور الدوباميني لتمثيل الخطأ الإيجابي للتنبؤ بالمكافأة بشكل أفضل من خطأ التنبؤ السلبي بالمكافأة [11]. قد يكون من الكافي الإشارة إلى أن سلسلة معينة من الأحداث تؤدي إلى نتيجة سلبية ، ولكن لأغراض اختيار الإجراء ، فإن حجم هذه النتيجة غير مهم.

التداعيات الثانية للمحاكاة الحالية هي أن استجابة الجدة قد تنشأ من التفاعل بين أنظمة المعالجة الإدراكية وأنظمة التنبؤ بالمكافأة. على وجه التحديد ، قد يكون رد الجدة بسبب شكل من التشابه بين الكائنات الجديدة والكائنات التي لم تخضع بعد للمعالجة الإدراكية الكاملة [Footnote 4]. في هذه المحاكاة ، تم تطبيق الجدة من خلال إدخال تأخير قبل أن تصبح هوية الكائن (وبالتالي طبيعته مجزية أو معاقبة) واضحة للعامل. تم ذلك بناءً على افتراض أن الأجسام الجديدة تستغرق وقتًا أطول لتحديدها ، ولكن هذا الافتراض أدى أيضًا إلى إدراك الأشياء الإيجابية والسلبية على نحو مماثل عند ظهورها لأول مرة (أي ، تم تشفير كلاهما كـ "؟"). في المقابل ، يشير Kakade و Dayan [7] إلى أن استجابات الحداثة واستجابات "التعميم" تختلف اختلافًا أساسيًا على الرغم من أن البيانات تتجلى في بيانات الفسيولوجيا العصبية.

التداعيات الثالثة لنتائج المحاكاة الحالية هي أنها تُظهر أن الافتراضات الإضافية المتمثلة في الجدة ومكافآت التشكيل التي اقترحها Kakade و Dayan [7] ليست ضرورية. بدلاً من ذلك ، يمكن أن تظهر الاستجابات المشابهة للجدة من قيود المعالجة الإدراكية الواقعية ومعرفة القدرة على تجنب النتائج السلبية. هذا محظوظ لأنه ، كما أشار Kakade و Dayan ، تشوه مكافآت الجدة وظيفة القيمة التي يتعلمها الوكيل ، وتؤثر مكافآت التشكيل على الطريقة التي يستكشف بها الوكلاء مساحات الولاية الخاصة بهم. وبالتالي فإن تضمين أي من هذه الافتراضات يقلل من تحليل النماذج بناءً على نظرية RL. ومن المثير للاهتمام ، أن النتائج المعروضة هنا تساعد أيضًا في توضيح سبب عدم استجابة الاستجابة البيولوجية للجدة للتعلم القائم على المكافأة في الكائنات الحية: استجابة الجدة في الواقع تنبأ بها بالفعل RL. أي أن استجابة الجدة تعكس السلوكيات وتوقعات المكافآت المتأصلة في وكيل تعلم بالفعل شيئًا ما عن بيئته.

التفسير البديل (وليس الحصري بشكل متبادل) لنتائج المحاكاة الحالية هو أن هناك بالفعل مكافأة مجردة (ربما إدراكية) يحصل عليها العملاء من خلال توجيههم نحو الأشياء وتحديدها. في دراسات نشاط الدوبامين ، يمكن أن تحدث الاستجابات المرحلية الإيجابية للإشارات غير المتوقعة التي من المتوقع أن تتنبأ بالمكافأة. ومع ذلك ، توضح هذه المحاكاة كيف يمكن لهذه الأنواع من الاستجابات أن تحدث أيضًا استجابة لإشارة قد تتنبأ في النهاية إما بالمكافأة أو العقوبة. الفائدة الوحيدة المتسقة التي تنبأ بها جديلة هي كسب المعلومات التي تم الحصول عليها عندما يحدد الوكيل هوية الكائن. وبالتالي ، إذا كان هناك "تنبؤات مجزية" صحيحة ومدروسة عند ظهور الشيء المجهول ، فهو راضٍ بعد أن يحصل العامل على معرفة ما إذا كان يجب الاقتراب من الحافز أم تجنبه. لا تستند قيمة هذه المعلومات إلى متوسط النتائج التي يمكن الحصول عليها ، ولكنها تستند بدلاً من ذلك إلى معرفة النتائج الفعالة - حيث يمكن للوكيل إما أن يستهلك المكافأة الإيجابية أو يتجنب المكافأة السلبية (انظر الشكل 2).

أخيرًا ، من المهم الإشارة إلى أن فرص اتخاذ إجراءات معينة (على سبيل المثال ، للتوجيه) قد تأخذ في حد ذاتها خصائص مجزية من خلال بعض آليات التعميم أو التعلم غير المدرجة في هذه المحاكاة. على سبيل المثال ، يمكن أن يصبح فعل التوجيه وتحديد "ما هو موجود" مجزيًا لكائن حي يعتمد على الارتباط بين هذا الإجراء والخطأ الظاهر المبين أعلاه ، والمنبوء به دائمًا عندما تظهر محفزات جديدة. تم تطوير فكرة مماثلة مؤخرًا بواسطة Redgrave و Gurney [13] اللذين يفترضان أن الغرض المهم من استجابة الدوبامين المرحلية هو تعزيز الإجراءات التي تحدث قبل الأحداث البارزة غير المتوقعة. النتائج هنا لا تتعارض مع هذه الفرضية ، ومع ذلك تجدر الإشارة إلى أن فرضية Redgrave و Gurney لم يتم اختبارها مباشرة في هذه المحاكاة لأنه لم تكن هناك حاجة إلى أي إجراءات (أي الاستكشاف) من الوكيل من أجل الحدث البارز (ظهور الكائن) أن يحدث. ومع ذلك ، تزامنت الإشارة الطورية المحاكية مع وقت استجابة التوجيه ، مما يشير إلى أن الاثنين قد يكونا مرتبطين بقوة.

في الختام ، أثبتت هذه المقالة أنه يمكن استخدام مبادئ RL لشرح نوع من النشاط غير المرتبط على ما يبدو للخلايا العصبية الدوبامينية. برزت هذه النتيجة من حقيقة أن قاعدة تعلم الفارق الزمني (مثل تلك المستخدمة من قبل Kakade و Dayan [7]) كانت مضمنة في محاكاة يمكن للعامل فيها تحديد الإجراءات التي كان لها تأثير على النتيجة النهائية. في المحاكاة ، علم العامل أن نتيجة التوجيه إلى كائن ظهر فجأة يمكن أن تكون دائمًا إما مجزية أو محايدة لأنه يمكن تجنب النتيجة السلبية. لذلك عندما أتيحت للعامل فرصة للتوجيه ، كان خطأ التنبؤ بالثواب دائمًا إيجابيًا ، مشابهًا من الناحية الحسابية للاستجابات الحديثة والجدارة التي لوحظت في الكائنات البيولوجية.

شكر وتقدير

تم دعم العمل الموضح في هذه المقالة من قبل NIH R01 HD053639 و NSF Training Grant DGE-9987588. أود أن أشكر Erik Reichle ، Tessa Warren ، ومراجع مجهول للتعليقات المفيدة على إصدار سابق من هذه المقالة.

يتم استخدام خوارزمية تعلم التعزيز 1Another ، والتي تسمى Traplingory Sampling [17] ، بشكل متكرر بدلاً من تكرار القيمة عندما تصبح مساحة الولاية كبيرة جدًا بحيث لا يمكن تكرارها بشكل كامل أو تخزينها بسهولة في ذاكرة الكمبيوتر. بدلاً من التكرار على كل حالة في مساحة الولاية وتطبيق معادلة تحديث دالة القيمة بناءً على الإجراءات التي تؤدي إلى الحصول على أكبر قدر من المكافأة ، يعمل Traplingory Sampling باتباع المسارات عبر مساحة الولاية. على نحو مشابه لقيمة التكرار ، عادةً ما يتم اختيار الإجراءات التي تؤدي إلى أكبر مكافأة من كل ولاية ، ولكن في بعض الأحيان يتم اختيار إجراء استكشافي عشوائي مع بعض الاحتمالات الصغيرة. وبالتالي فإن الخوارزمية هي: من بعض حالات البداية ، حدد إجراءً يؤدي إلى أكثر المكافآت [على سبيل المثال ، مكافأة + γV (s ′)] باحتمال ε ، أو حدد إجراءً استكشافيًا عشوائيًا باحتمال 1 - ε. طبق V (s) → V (s) + α [مكافأة + γV (s ′) - V (s)] أثناء الإجراءات غير الاستكشافية من الحالة s.

إلى جانب التغلب على القيود التقنية للوقت الحسابي والذاكرة ، قد يكون أخذ العينات من المسار جذابًا لأنه قد يعكس بشكل أفضل الطريقة التي تتعلم بها الكائنات البيولوجية الحقيقية: من خلال استكشاف المسارات في مساحة الولاية. في المهمة الموضحة في هذه الورقة ، تؤدي عملية أخذ العينات إلى الحصول على نتائج متطابقة نوعيًا مع النتائج التي تم الحصول عليها باستخدام قيمة التكرار. ومع ذلك ، لإيجاز لم يتم الإبلاغ عن هذه النتائج هنا بالتفصيل. تم اختيار قيمة التكرار للمحاكاة في هذه الورقة لسببين رئيسيين. أولاً ، نظرًا لأن "أخذ العينات المسار" ينطوي على العشوائية في اختيار المسارات ، قد يؤدي مقدار كبير من المتفرعة التي ترجع إلى تسلسل العديد من الإجراءات في هذه المهمة في العوامل التي تفتقر إلى الخبرة مع بعض الدول ما لم المعلمة الاستكشاف-الاستغلال (أي ، يتم تحديد g-الجشع [17]) بعناية. يمكن أن يؤدي نقص الخبرة في حالات معينة إلى تعطيل أداء أحد الوكلاء عند استخدام بنية ذاكرة جدول بحث بسبب نقص تعميم القيمة على حالات مماثلة (ولكن ربما تكون غير مرغوب فيها). وبالتالي ، كان من المفضل الاستفادة من الاستكشاف الشامل لمساحة الدولة المضمونة مع Value Iteration. ثانياً ، تجنب استخدام قيمة التكرار الحاجة إلى تحديد تلك المعلمة الإضافية للاستكشاف ، وبالتالي تبسيط المحاكاة. لاحظ أن عملية أخذ العينات من المسار يمكن أن تقرب في نهاية المطاف من تكرار القيمة حيث يقترب عدد المسارات من اللانهاية [17].

2 يمكن حساب عدد حالات 21,120 على النحو التالي: 11 مواقع الوكيل المحتملة × 4 التوجهات المحتملة للعامل × (الخطوات الزمنية لـ 10 قبل ظهور كائن + الخطوات الزمنية 10 حيث لم يظهر أي كائن + الخطوات الزمنية 10 حيث كان العامل عززت إيجابيا + الخطوات الزمنية 10 حيث تم تعزيز الكائن سلبا + 11 مواقع الكائنات المحتملة * (خطوات زمنية 10 مع كائن محدد إيجابي + الخطوات الزمنية 10 مع كائن سلبي محدد + خطوات الوقت 10 مع كائن إيجابي مجهول + 10 الخطوات الزمنية مع كائن سلبي غير معروف))].

3 يجب مراعاة وجود هذه الحالات "المخفية" أثناء التدريب لأن قيمة التكرار تبدو "خطوة إلى الأمام" فقط من كل ولاية في مساحة الولاية. إن حقيقة أن الحالات ذات الأجسام السلبية والإيجابية المجهولة الهوية متطابقة بشكل فعال من شأنها أن تمنع التعرف على القيم في الحالتين اللاحقتين المختلفتين اللتين يتم فيهما تحديد الكائن الموجب أو السالب. من ناحية أخرى ، يحتفظ نهج أخذ العينات من المسار بمعلومات الحالة المخفية (أي هوية المحفز المجهول الهوية) طوال فترة التجربة ، وبهذا المتغير من RL ، لا تكون الحالات المخفية مصدر قلق.

4 من الاعتراضات المحتملة على العمل الحالي هو أن استجابة التوجيه تبدو صلبة في دماغ الثدييات ، على سبيل المثال ، في إسقاطات من colliculus [3,14]. في المحاكاة الحالية ، لم يكن الوكلاء متشددين في التوجه إلى الأشياء ولكنهم تعلموا بدلاً من ذلك سلوكًا توجيهيًا سمح بالاختيار النهائي لأحد الإجراءات (على سبيل المثال ، إما النهج أو التجنب) الذي زاد المكافأة إلى الحد الأقصى. على غرار الاستجابات الصلبة ، حدثت سلوكيات التوجيه هذه بسرعة كبيرة ، قبل تحديد الكائنات ، وتم توجيهها نحو كل الكائنات. لم يكن الهدف من هذا العمل هو الادعاء بأن كل هذه الردود قد تم تعلمها ، بل يمكن أن تتعايش في إطار RL. ومع ذلك ، سيكون من المثير للاهتمام استكشاف ما إذا كانت الآليات المرتبطة بالمكافآت قد تشارك في إقامة اتصال في مناطق جذع الدماغ من أجل توليد استجابة الدوبامين المرحلية هذه.

هذا ملف PDF لمخطوطة غير محررة تم قبولها للنشر. كخدمة لعملائنا نحن نقدم هذه النسخة المبكرة من المخطوطة. ستخضع المخطوطة لنسخ وتنضيد ومراجعة الدليل الناتج قبل نشره في شكله النهائي القابل للامتثال. يرجى ملاحظة أنه أثناء اكتشاف أخطاء عملية الإنتاج قد يتم اكتشافها والتي قد تؤثر على المحتوى ، وتتنافي جميع بيانات إخلاء المسؤولية القانونية التي تنطبق على المجلة.

مراجع حسابات

1. بيرد إل سي. الخوارزميات المتبقية: تعزيز التعلم مع تقريب الوظيفة. In: Priedetis A، Russell S، editors. التعلم الآلي: وقائع المؤتمر الدولي الثاني عشر ؛ 9 – 12 July.1995.

2. Bunzeck N ، Düzel E. الترميز المطلق لحداثة التحفيز في المادة الأصلية البشرية / VTA. الخلايا العصبية. 2006، 51 (3): 369-379. [مجلات]

3. Dommett E و Coizet V و Blaha CD و Martindale J و Lefebvre V و Walton N و Mayhew JEW و Overton PG و Redgrave P. كيف تقوم المنبهات البصرية بتنشيط الخلايا العصبية الدوبامينية في وقت قصير. علم. 2005، 307 (5714): 1476-1479. [مجلات]

4. Doya K. التعليم المعادن و neurododulation. الشبكات العصبية. 2002 يونيو - يوليو ؛ 15 (4 - 6): 495 - 506. [مجلات]

5. جيليس A ، Arbuthnott G. النماذج الحسابية للعقد القاعدية. اضطرابات الحركة. 2000، 15 (5): 762-770. [مجلات]

6. هورفيتز JC. ردود الدوبامين Mesolimbocortical و nigrostriatal على الأحداث غير المكافئة البارزة. علم الأعصاب. 2000، 96 (4): 651-656. [مجلات]

7. Kakade S، Dayan P. Dopamine: التعميم والمكافآت. الشبكات العصبية. 2002، 15 (4-6): 549-559. [مجلات]

8. Knutson B، Cooper JC. إغراء المجهول. الخلايا العصبية. 2006، 51 (3): 280-282. [مجلات]

9. Logothetis NK، Pauls J، Augath M، Trinath T، Oeltermann A. التحقيق العصبي الفسيولوجي لأساس إشارة الرنين المغناطيسي الوظيفي. طبيعة. 2001، 412 (6843): 150-157. [مجلات]

10. مكلور إس إم ، بيرنز جي إس ، مونتاج العلاقات العامة تعمل أخطاء التنبؤ المؤقت في مهمة التعلم السلبية على تنشيط المخطط البشري. الخلايا العصبية. 2003، 38 (2): 339-346. [مجلات]

11. Niv Y، Duff MO، Dayan P. Dopamine، وعدم اليقين وتعلم TD. وظائف السلوك والدماغ. 2005 قد 4 ؛ 1: 6. [المادة الحرة PMC] [PubMed]

12. O'Doherty JP، Dayan P، Friston K، Critchley H، Dolan RJ. نماذج الفرق الزمني والتعلم المتعلق بالمكافأة في الدماغ البشري. الخلايا العصبية. 2003، 38 (2): 329-337. [مجلات]

13. Redgrave P ، Gurney K. إشارة الدوبامين قصيرة الكمون: دور في اكتشاف أعمال جديدة؟ مراجعات الطبيعة. 2006 ديسمبر ؛ 7 (12): 967 - 975.

14. Redgrave P، Prescott TJ، Gurney K. هل استجابة الدوبامين قصيرة الكمون قصيرة للغاية للإشارة إلى خطأ المكافأة؟ الاتجاهات في علم الأعصاب. 1999 Apr ؛ 22 (4): 146 – 151. [مجلات]

15. Reichle ED، Laurent PA. استخدام التعلم المعزز لفهم ظهور سلوك حركة العين "الذكي" أثناء القراءة. مراجعة نفسية. 2006، 113 (2): 390-408. [مجلات]

16. شولتز دبليو إشارة مكافأة تنبؤية من الخلايا العصبية الدوبامين. مجلة الفيزيولوجيا العصبية. 1998، 80 (1): 1-27. [مجلات]

17. Sutton RS، Barto AG. تعزيز التعلم: مقدمة. معهد ماساتشوستس للتكنولوجيا الصحافة ؛ كامبريدج: 1998.

18. Tanaka SC، Doya K، Okada G، Ueda K، Okamoto Y، Yamawaki S. التنبؤ بالمكافآت الفورية والمستقبلية تجند بشكل مختلف حلقات cortico-basal ganglia loops. طبيعة علم الأعصاب. 2004، 7 (8): 887-893.

بروز التجدد والاستجابة الطيبة لمبادئ التعلم التعزيزية (2008)