تكلفة الحصول على المكافآت تعزز إشارة خطأ توقع المكافأة من الخلايا العصبية الدوبامين في الدماغ المتوسط ​​(2019)

ملخص

تُعرف الخلايا العصبية الدوبامين في الدماغ المتوسط ​​بتشفير أخطاء التنبؤ بالمكافآت (RPE) المستخدمة لتحديث تنبؤات القيمة. هنا ، ندرس ما إذا كانت إشارات RPE المشفرة بواسطة الخلايا العصبية الدوبامين في منتصف الدماغ يتم تعديلها بالتكلفة المدفوعة للحصول على المكافآت ، وذلك بالتسجيل من الخلايا العصبية الدوبامين في القرود التي تتصرف مستيقظًا أثناء أداء مهمة ساجاد مجدية. تمت زيادة استجابات الخلايا العصبية الدوبامين على الإشارات التي تنبئ بالمكافأة وتقديم المكافآت بعد أداء إجراء مكلف مقارنةً بعمل أقل تكلفة ، مما يشير إلى أنه يتم تعزيز RPEs بعد أداء إجراء مكلف. على المستوى السلوكي ، يتم تعلم جمعيات الحوافز والمكافآت بشكل أسرع بعد القيام بعمل مكلف مقارنة بالإجراء الأقل تكلفة. وبالتالي ، تتم معالجة المعلومات حول تكلفة الإجراء في نظام مكافأة الدوبامين بطريقة تضخيم إشارة الدوبامين RPE التالية ، والتي بدورها تعزز التعلم السريع في ظل حالات التكلفة المرتفعة.

المُقدّمة

يفضل البشر والحيوانات المكافأة التي يتم الحصول عليها بعد بذل الكثير من الجهد للحصول عليها مقارنة بنفس المكافأة بعد بذل مجهود أقل1,2,3. تم طرح عدد من التفسيرات لهذا الغرض مثل تبرير الجهد4,5 وتأثير التباين6، والتي تعزى فيها قيمة أكبر إلى نتيجة تم الحصول عليها بعد جهد مدفوع. ومع ذلك ، يظل من غير الواضح ما إذا كانت معالجة معلومات المكافأة في المخ وكيف يتم تعديلها من خلال الجهد المبذول للحصول على مكافأة.

ركزنا بشكل خاص على نظام الدوبامين في الدماغ المتوسط ​​، بالنظر إلى دور هذا النظام في تعزيز التكيف السلوكي مع المكافآت7,8,9. من المعروف أن عصب الدوبامين تمثل إشارات خطأ التنبؤ بالمكافأة (RPE) التي يمكن أن تسهل تعلم تنبؤات المكافآت من قبل العقد القاعدية10,11,12,13,14,15,16,17. تعتمد قوة RPE على الكمية أو الجودة أو القيمة الذاتية أو فائدة المكافأة7,18,19,20,21. علاوة على ذلك ، يتم تعديل نشاط الدوبامين من خلال التكاليف و / أو الجهد22,23. على هذا الأساس ، افترضنا أن إشارة RPE الدوبامين سوف يتم تعديلها مباشرة من خلال التكلفة المدفوعة للحصول على مكافأة. علاوة على ذلك ، لأن إشارة RPE متورطة بشكل سببي في التوسط في تعلم جمعيات الحوافز والمكافآت24,25,26، افترضنا أن التكلفة المدفوعة للحصول على المكافأة ستزيد بشكل مباشر من سرعة تعلم جمعيات الحوافز والمكافآت.

لاختبار فرضياتنا ، قمنا بقياس كل من السلوك ونشاط الدوبامين في قردين يابانيين أثناء قيامهما بمهمة جهد على أساس saccade. تتفاعل القردة بشكل أسرع مع إشارة تنبؤية للمكافأة يتم تقديمها بعد إجراء عالي التكلفة (HC) مقارنةً بعد إجراء منخفض التكلفة (LC). يتم زيادة نشاط الخلايا العصبية الدوبامينية إلى العظة التنبؤ المكافأة من خلال التكلفة المدفوعة. بالإضافة إلى ذلك ، يتم تحسين سرعة التعلم إلى جمعية الحوافز والمكافآت من خلال التكلفة المدفوعة. لذلك ، نقترح أن التكلفة المدفوعة للحصول على مكافآت تزيد من إشارة RPE في الخلايا العصبية الدوبامين وبالتالي تعزز جمعيات الحوافز والمكافآت.

النتائج

ارتفاع تكلفة منخفضة (HLC) مهمة saccade

لدراسة تأثير التكلفة المدفوعة على السلوك وعلى نشاط الخلايا العصبية الدوبامين ، قامت القردة بمهمة saccade مع اثنين من شروط التكلفة (الشكل. 1a، انظر الأساليب). في تجارب HC ، سرعان ما صنعت القردة صراخًا مستهدفًا للهدف وأمسكت بها نظرة دون وميض لفترة أطول (الشكل. 1b. خطوط خضراء). في المقابل ، في تجارب LC ، نظرت القردة حولها بحرية في البداية قبل التثبيت لفترة قصيرة (الشكل. 1bخطوط أرجوانية). لأن الحفاظ على تثبيت طويل أمر صعب بالنسبة للقردة ، فقد ارتكبت المزيد من الأخطاء أثناء التأخير في تجارب HC (الشكل. 1c). للتحكم في الفرق الناتج في احتمالية المكافأة بين تجارب HC وتجارب LC ، أدخلنا الإجهاض القسري في جزء من تجارب LC لمساواة معدلات النجاح واحتمالات المكافأة بين أنواع التجارب (الشكل. 1d).

التين 1
figure1

مهمة HLC saccade. a مهمة مرمى HLC. تشير إشارات التكلفة (Cue) إلى مقدار الجهد المطلوب لتحقيق مكافأة محتملة. مطلوب تثبيت طويل خلال فترة التأخير في التجارب عالية التكلفة. تشير إشارة المكافأة (R cue) إلى ما إذا كان بإمكان القرود الحصول على مكافأة أم لا. b المسار الزمني لزاوية النظرة خلال فترة التأخير. تُظهر اللوحة العلوية والسفلية زوايا النظرة الأفقية والعمودية على التوالي. تشير الخطوط الخضراء والأرجوانية إلى زاوية النظرة في التجارب عالية التكلفة (تجارب 50 في كل لوحة) وفي التجارب منخفضة التكلفة (تجارب 50 في كل لوحة) ، على التوالي. c عدد الأخطاء خلال فترة التأخير في التجارب ذات التكلفة العالية والمنخفضة التكلفة (**P< 0.01 ؛ ثنائي الذيل إقران t اختبار؛ t67 = 8.8 ، P = 4.8 × 10-15, n = 68 للقرد P ؛ t83 = 26.6 ، P ≈ 0 ، n = 84 لـ Monkey S). الدوائر السوداء وأشرطة الخطأ تشير إلى المتوسط ​​و SEM. d معدلات النجاح في التكلفة العالية والمحاكمات منخفضة التكلفة (ثنائي الذيل المزدوج t اختبار؛ t67 = 0.51 ، P = 0.61 ، n = 68 للقرد P ؛ t83 = 0.79 ، P = 0.43 ، n = 84 لـ Monkey S). e RTs إلى إشارات التكلفة (**P <0.01 ؛ ثنائي الذيل إقران t اختبار؛ t67 = 20.4 ، P ≈ 0 ، n = 68 للقرد P ؛ t69 = 2.0 ، P = 1.2 × 10-3, n = 70 لـ Monkey S). f RTs إلى العظة مكافأة (**P <0.01 ؛ ثنائي الذيل إقران t اختبار؛ قرد ف (n = 68): HC + مقابل LC + ، t67 = 3.5 ، P = 9.2 × 10-4. HC− مقابل LC− ، t67 = 24.5 ، P ≈ 0 ؛ HC + مقابل HC− ، t67 = 21.6 ، P ≈ 0 ؛ LC + مقابل LC− ، t67 = 28.5 ، P ≈ 0 ؛ قرد S (n = 70): HC + مقابل LC + ، t69 = 5.6 ، P = 4.4 × 10-7. HC− مقابل LC− ، t69 = 4.8 ، P = 8.4 × 10-5. HC + مقابل HC− ، t69 = 18.0 ، P ≈ 0 ؛ LC + مقابل LC− ، t69 = 5.9 ، P = 1.1 × 10-7)

التكلفة المدفوعة تزيد من قيمة إشارات التنبؤ بالمكافأة

للحصول على أدلة ضمنية عن وجود اختلاف في التقييم الشخصي للقردة للإشارات ، اختبرنا أوقات رد فعل القردة (RTs). على وجه الخصوص ، توقعنا أنه إذا عيّنت القرود قيمة ذاتية أعلى لخيار واحد من خيار آخر ، فيجب عليها عرض RTs أسرع للخيار الأكثر قيمة27. عندما تمت مقارنة RTs بين إشارات التكلفة ، أظهر كلا القردين RTs أسرع إلى LC مقارنة مع جديلة HC (الشكل. 1e) ، مما يدل على تفضيل ضمني لشرط LC. عندما تمت مقارنة RTs بين إشارات المكافأة ، أظهر كلا القردين RTs أسرع لمكافأة (R +) من إشارات عدم مكافأة (R−) (الشكل. 1f) ، مما يشير إلى أنهم يفضلون R + cues على R− cues. بالإضافة إلى ذلك ، أظهر كلا القردين RTs أسرع إلى RHC+ جديلة مقارنة مع RLC+ جديلة وإلى RHC- جديلة مقارنة مع RLC- جديلة (الشكل. 1f) ، مما يشير إلى أنها تقدر قيمة العظة التي تنبئ بالمكافأة في المفوض السامي مقارنة بحالة الشرط.

بالإضافة إلى ذلك ، قمنا بتضمين تجارب الاختيار في مهمة HLC saccade لاختبار تفضيلات القردة العلنية بين العظة (الشكل التكميلي). 1a). اختارت القرود بشكل تفضيلي جديلة LC عند اختيارها بين إشارات التكلفة (الشكل التكميلي). 1b). اختار قرد S بشكل تفضيلي RHC+ جديلة عند تنفيذ مهمة الاختيار بين RHC+ و RLC+ جديلة ، ولكن لا يوجد تفضيل بين RHC- و صLC- العظة (الشكل التكميلي. 1c ، د). في المقابل ، لم يُظهر القرد P تفضيلًا صريحًا بين RHC+ و RLC+ العظة ، ولكن مع ذلك يفضل RHC- جديلة عند الاختيار بين RHC- و صLC- العظة (الشكل التكميلي. 1c ، د).

الكهربية النتائج في مهمة HLC saccade

سجلنا نشاط وحدة واحدة من الخلايا العصبية الموجودة داخل مؤامرات نيجرا بارس كومباكت (SNC) ومنطقة tegmental البطني (VTA) خلال مهمة saccade HLC. حددنا الخلايا العصبية الدوبامين 70 عبر القردين (الشكل التكميلي. 2a. الخلايا العصبية 18 و 52 من Monkey P و S ، على التوالي). أكد الفحص النسيجي وجود الخلايا العصبية في أو حول SNC / VTA (الشكل التكميلي. 2b).

في التين. 2، نظهر نشاط ممثل الخلايا العصبية الدوبامين. وأظهرت هذه الخلايا العصبية تنشيط متواضع إلى جديلة LC ، والتنشيط التدريجي أو قمع للمكافأة (RHC+ و RLC+) أو لا العظة مكافأة (صHC- و صLC-) ، على التوالي (الشكل. 2الشكل التكميلي 3). وأظهر العصبونات أيضًا تنشيطًا تدريجيًا لمكافأة لا يمكن التنبؤ بها ، وكذلك قمعًا طوريًا استجابةً لمنبهة تنفيسية ، وهي نفخة هواء غير متوقعة (الشكل. 2، اللوحة اليمنى). بالإضافة إلى ذلك ، أظهر الخلايا العصبية قمعًا متواضعًا إلى بداية البداية ، لكنه لم يرد على تسليم المكافآت. أظهر كل السكان من الخلايا العصبية الدوبامين التي سجلناها جميعًا ردودًا مماثلة على بداية البدء وتسليم المكافآت (الشكل التكميلي). 4a ، ب). في مهمة HLC saccade ، تم دفع تكلفة الجهد قبل الحصول على المكافأة. لأن التكلفة المتوقعة خفض نشاط الخلايا العصبية الدوبامين22,23، سيتم قمع استجابات الخلايا العصبية الدوبامين في وقت بدء عرض جديلة16.

التين 2
figure2

نشاط الخلايا العصبية الدوبامين التمثيلية في مهمة HLC saccade. يتم محاذاة وظائف كثافة المسامير (ملفوفة مع دالة غوسية) والمؤامرات النقطية مع توقيت بداية جديلة البداية ، جديلة التكلفة (C cue) ، هدف التثبيت ، إشارة المكافأة (R cue) ، والصفير. يمثل كل لون شرطًا (أصفر: HC + ، أخضر: HC− ، وردي: LC + ، سماوي: LC−) ، على التوالي. يشار إلى توقيت بداية saccade بواسطة الصلبان الرمادية. يتم تمثيل ردود الخلايا العصبية الدوبامين على المكافأة غير المتوقعة أو نفخة الهواء في اللوحة اليمنى (أحمر: مكافأة غير متوقعة ، أزرق: نفخة هواء غير متوقعة)

معلومات رمز الخلايا العصبية الدوبامين على كل من مكافأة والتكلفة

تجاوبت الخلايا العصبية تدريجياً مع جديلة LC ، ولكن بشكل أقل قوة في جديلة HC (الشكل. 3a ، ب). أظهرت الاستجابات المستحسنة على إشارات حالة التكلفة استجابة أقل لتوجيهات HC من LC cue (اختبار رتبة موقعة ذو الذيلين ذو الذيل ، P <3.2 × 10-4, n = 70). قمنا بتحديد تأثير التكلفة المتوقعة على الاستجابات العصبية باستخدام تحليل خاصية تشغيل المستقبل (ROC). كان توزيع المنطقة تحت منحنى ROC (auROC) <0.5 (الشكل. 3c. اختبار ويلكوكسون ذو التصنيف المزدوج ؛ P = 5.4 × 10-4, n = 70) ، مما يشير إلى أن استجابات تلميح HC كانت أصغر من استجابات LC. تم العثور سابقًا على التكلفة المتوقعة لتقليل نشاط الخلايا العصبية للدوبامين ، بما يتوافق مع نتائجنا22,23. بالإضافة إلى ذلك ، أظهر عدد سكان الخلايا العصبية الدوبامين تنشيط كبير في جديلة LC في حين لا تظهر أي قمع كبير لمنبهات HC (الشكل التكميلي. 4c ، د). هذه النتائج تشير إلى أن الخلايا العصبية الدوبامين رمز ودمج المعلومات حول كل من مكافأة والتكلفة في وقت عرض التكلفة جديلة.

التين 3
figure3

ردود الخلايا العصبية الدوبامين على العظة التكلفة. a استجابة تمثيلية لعصبون الدوبامين لإشارات التكلفة. تم حساب وظائف كثافة السنبلة من النشاط الطبيعي لعصبونات الدوبامين المسجلة من القرد P. تشير الخطوط الملونة إلى وظائف كثافة السنبلة وتشير النقاط الملونة إلى توقيت الارتفاع. يشير اللونان الأخضر والأرجواني إلى النشاط في التجارب عالية التكلفة ومنخفضة التكلفة ، على التوالي. يشير الخط العمودي إلى توقيت عرض إشارة التكلفة. تشير المنطقة ذات اللون الرمادي إلى الفترة اللازمة لحساب معدل إطلاق النار كاستجابة لإشارات الحالة. b النشاط السكاني للخلايا العصبية الدوبامين المسجلة من القرد P إلى العظة الشرطية. الخطوط الصلبة تمثل الخطوط المتقطعة المتوسط ​​و SEM ، على التوالي. c توزيع المناطق تحت ROCs لتحديد تأثير التكلفة المتوقعة على الاستجابة العصبية لتكلفة جديلة. تشير المربعات المملوءة والدوائر المفتوحة إلى بيانات من القرد P و S على التوالي. يشير رأس السهم إلى الوسيط لـ auROC (0.47). d, g ردود تمثيلية من نوع القيمة العصبية الدوبامين تحفيزية (d) أو نوع البارون الدوبامين العصبي (g) إلى مكافأة لا يمكن التنبؤ بها أو نفخة الهواء. تشير المنحنيات الحمراء والزرقاء إلى الاستجابة لمكافأة غير متوقعة ونفخة هواء غير متوقعة ، على التوالي. يشير الخط العمودي إلى توقيت المكافأة غير المتوقعة أو تسليم نفث الهواء. تشير المربعات الحمراء والزرقاء الشاحبة إلى الفترة الزمنية لحساب معدل إطلاق النار كرد على المكافأة غير المتوقعة أو نفث الهواء. e, h النشاط السكاني المتوسط ​​لنوع القيمة التحفيزية للخلايا العصبية الدوبامين (e) أو نوع الخلايا العصبية الدوبامين البارزة (h) إلى مكافأة لا يمكن التنبؤ بها أو نفخة الهواء. f, i توزيع auROCs المحسوبة من الخلايا العصبية الدوبامين نوع القيمة التحفيزية (f) أو نوع الخلايا العصبية الدوبامين البارزة (i). تشير رؤوس الأسهم إلى متوسطات auROCs (f 0.48. i 0.46)

سبق وصفت نوعين فرعيين من الخلايا العصبية الدوبامين: القيمة التحفيزية والخلايا العصبية البارزة28,29. لقد وجدنا أدلة في مجتمعنا العصبي الدوبامين من أنماط الاستجابة بما يتفق مع كلا النوعين الفرعيين. وأظهرت الخلايا العصبية نوع القيمة قمع طوري لمحفزات الهواء النفخة كره (الشكل. 3d ، ه). وعلى العكس من ذلك ، أظهرت الخلايا العصبية البارزة تنشيطًا تدريجيًا لمنبهات التنبيه (الشكل. 3g ، ح). التثبيت الطويل في تجربة HC غير سارة ونكهة أيضًا ؛ لذلك ، من الممكن أن يظهر نوعان فرعيان من الخلايا العصبية الدوبامين أنماط استجابة مختلفة لمنبهات حالة التكلفة. إذا كانت الخلايا العصبية الدوبامين تمثل محفزات كروية وتكلف بطريقة مماثلة ، فيجب أن تظهر الخلايا العصبية ذات القيمة المنخفضة نشاطًا أقل في جديلة HC بسبب كرهها. من ناحية أخرى ، يجب أن تزيد الخلايا العصبية البارزة في نشاطها عند استخدام المفوض السامي لأنها تزيد أيضًا في المنبهات غير السارة. ومع ذلك ، كانت ردود الفعل التي أثارت من كلا النوعين من الخلايا العصبية أصغر على جديلة HC مقارنة مع جديلة LC (اختبار رتبة موقعة ذو الذيلين ذو الذيل ؛ P = 0.021 ، n = 41 و P = 0.0044 ، n = 29 للقيمة وأنواع البروز ، على التوالي) ، وأظهر تحليل ROC استجابات أصغر لـ HC مقارنة بإشارة LC في كلا النوعين الفرعيين (الشكل. 3f ، أنا. اختبار ويلكوكسون ذو التصنيف المزدوج ؛ P = 0.030 ، n = 41 و P = 0.0058 ، n = 29 للقيمة وأنواع البروز على التوالي). وهكذا ، خفضت التكلفة المتوقعة النشاط في كلا النوعين الفرعيين من الخلايا العصبية الدوبامين. تشير هذه النتائج إلى أن معلومات التكلفة تتم معالجتها بواسطة الخلايا العصبية الدوبامين بطريقة مختلفة نوعياً عن المنبهات البغيضة.

في مهمة HLC saccade ، قمنا بإدخال إجهاض قسري في جزء من تجارب LC لمعادلة معدلات النجاح واحتمال المكافأة بين أنواع التجارب. زاد هذا التلاعب من عدم اليقين في الحصول على المكافأة أو خطر عدم وجود مكافأة في حالة LC. لذلك ، فإن النشاط الأعلى للخلايا العصبية الدوبامين وزيادة تقييم القردة لـ LC على مؤشر HC قد يكون بسبب الاختلاف في المخاطر أو عدم اليقين بين ظروف التكلفة. ومع ذلك ، لم نجد أي علاقة بين عدد حالات الإجهاض القسري والاختلاف في RTs (الشكل التكميلي SXNUMX). 5a ، ب) ، وقد وجدنا علاقة إيجابية بين عدد الإجهاض القسري و auROC (الشكل التكميلي. 5c). قمنا أيضًا بمقارنة استجابات الدوبامين لإشارات التكلفة بعد الإجهاض مقابل التجارب الصحيحة ، لكن لم نجد فرقًا في كل من شروط التكلفة (الشكل التكميلي). 5d). تشير هذه النتائج إلى أن عدد حالات الإجهاض القسري في حالة LC لا تفسر إما الزيادة في التقييم أو تنشيط الدوبامين المحسّن في إشارة LC.

زيادة ردود الدوبامين لمكافأة جديلة من التكلفة المدفوعة

تم العثور على الخلايا العصبية الدوبامين المسجلة لإظهار التنشيط والقمع على مراحل لمكافأة وليس العظة التنبؤ بالمكافأة ، على التوالي (الشكل. 2). بعد ذلك ، قمنا بتقييم ما إذا كانت هذه الاستجابات تم تعديلها حسب التكلفة المتكبدة مسبقًا. مثال على خلية عصبية تمثيلية وخلايا عصبية متوسطة السكان تظهر نشاطًا أكبر في البحثHC+ جديلة من RLC+ جديلة موضحة في الشكل 4 أ و ب على التوالي. (اختبار رتبة موقع ويلكوكسون ثنائي الذيل ؛ P = 7.4 × 10-5, n = 70). كان توزيع auROCs> 0.5 ، مما يشير إلى أن الاستجابة لـ RHC+ جديلة كان أكبر من ل RLC+ جديلة (الشكل. 4c. اختبار ويلكوكسون ذو التصنيف المزدوج ؛ P = 1.4 × 10-4, n = 70). تشير هذه النتائج إلى أن الاستجابة لإشارة توقع المكافأة في حالة HC أكبر بكثير منها في حالة LC. لذلك ، تشير النتائج التي توصلنا إليها إلى أن إشارة RPE الإيجابية التي تمثلها عصبونات الدوبامين تزداد بالتكلفة التي تم تكبدها مسبقًا.

التين 4
figure4

ردود الخلايا العصبية الدوبامين لمكافأة العظة. a مثال على استجابة الخلايا العصبية ل R + العظة. تم حساب وظائف كثافة السنبلة من نشاط الخلايا العصبية الدوبامين المسجلة من القرد P. الخطوط والنقاط الملونة تشير إلى كثافة السنبلة وتوقيت السنبلة ، على التوالي. تشير الألوان الصفراء والورديّة إلى النشاط في التجارب ذات التكلفة العالية والمنخفضة التكلفة ، على التوالي. يشير الخط العمودي إلى توقيت العرض التقديمي R +. تشير المنطقة ذات اللون الرمادي إلى فترة حساب معدل إطلاق النار كرد على إشارات المكافأة. b تم تسجيل نشاط متوسط ​​عدد السكان للخلايا العصبية الدوبامين من القرد P إلى إشارات R +. تمثل الخطوط الصلبة والخطوط المتقطعة متوسط ​​و SEM ، على التوالي. c توزيع auROCs لتحديد تأثير التكلفة المدفوعة على استجابة الخلايا العصبية إلى العظة R +. تشير المربعات المملوءة والدوائر المفتوحة إلى بيانات من القرد P و S على التوالي. يشير رأس السهم إلى الوسيط لـ auROCs (0.53). d رد تمثيلي على إشارات R−. تشير الألوان الخضراء والسماوية إلى تجارب عالية التكلفة ومنخفضة التكلفة ، على التوالي. يشير الخط العمودي إلى توقيت عرض R−ue. e النشاط السكاني للخلايا العصبية الدوبامين المسجلة من القردة P إلى العظة R−. f توزيع auROCs لتحديد تأثير التكلفة المدفوعة على استجابة الخلايا العصبية إلى الإشارات R−. يشير رأس السهم إلى الوسيط لـ auROC (0.50)

وأظهرت الخلايا العصبية الدوبامين أيضا قمع طوري لعظة رو (الشكل. 4d ، ه). ومع ذلك ، فإن ردود الخلايا العصبية الدوبامين على إشارات R did لم تظهر فرقًا كبيرًا كدالة للتكلفة المتكبدة (اختبار رتبة موقعة ذو الذيلين ذو الذيل ؛ P = 0.25 ، n = 70) ، ولم يكشف تحليل ROC عن أي دليل على وجود تحيز في توزيع الاستجابة (الشكل. 4f. اختبار رتبة ويلكوكسون P = 0.35 ؛ n = 70). وبالتالي ، لم تنعكس التكلفة المدفوعة في إشارة RPE السلبية التي أثارتها إشارات التنبؤ غير المكافئة. قد يحدث هذا بسبب تأثير الأرضية: يكون النشاط التلقائي لعصب الدوبامين منخفضًا (حوالي 5 هرتز) ؛ وبالتالي قد لا يكون هناك نطاق ديناميكي كافٍ لتشفير أي فرق من هذا القبيل في التكلفة بشكل كافٍ لاستجابة RPE السلبية (الشكل. 4d ، ه).

درسنا أيضًا تأثير التكلفة المدفوعة على إشارات المكافأة بالنسبة للخلايا العصبية الدوبامين ذات القيمة والقيمة بشكل منفصل ، لكن كلا النوعين من الخلايا العصبية الدوبامين أظهرا نمط استجابة مماثل (الشكل التكميلي). 6a-ح). لذلك ، فإن التكلفة المدفوعة تظهر تأثيرًا مشابهًا في الاستجابة لمكافأة الإشارات في كل من الخلايا العصبية الدوبامين ذات القيمة والقيمة.

لم تكن فترات التثبيت الفعلية للقردة ثابتة ولكنها كانت متنوعة على أساس كل تجربة على حدة (الشكل. 1b). لذلك ، كان من الممكن أن يتم تعديل ردود الدوبامين على العظة المكافأة من خلال فترات التثبيت الفعلية على أساس كل تجربة على حدة. ومع ذلك ، لم نتمكن من العثور على أي ارتباط كبير بينهما لكل شرط التكلفة والمكافأة (الشكل التكميلي. 7ميلادي). علاوة على ذلك ، تم تعديل RTs إلى إشارة المكافأة أيضًا بواسطة شروط التكلفة والمكافأة (الشكل. 1f). أحد الاحتمالات هو أن الردود على الخلايا العصبية الدوبامين يمكن تفسيرها من قبل RTs لمنبهات المكافأة على أساس كل تجربة على حدة. ومع ذلك ، لم نتمكن من العثور على أي ارتباط كبير بين RTs واستجابات الدوبامين تطبيع إلى العظة مكافأة (الشكل التكميلي. 7ه-ح). تشير هذه النتائج إلى أن استجابات الدوبامين مستقلة عن كل من RT وفترة التثبيت في كل تجربة ، ومع ذلك يتم تعديلها حسب مقدار التكلفة المطلوبة والمكافأة المتوقعة التي يتم تحديدها لكل نوع من التجارب.

علاوة على ذلك ، من الممكن أيضًا أن تؤدي الإجهاض القسري في حالة LC إلى توليد تفضيلات القرود والتفعيل المعزز لخلايا الدوبامين العصبية لمكافأة المكافأة في حالة HC. إذا كان الأمر كذلك ، فيجب أن يرتبط عدد حالات الإجهاض القسري بكل من التفضيل ودرجة التنشيط المعزز. ومع ذلك ، فإن عدد حالات الإجهاض القسري لم يكن لها أي تأثير على تفضيل القردة أو تنشيط الخلايا العصبية الدوبامين في إشارات المكافأة (الشكل التكميلي. 8). لذلك ، أسرع RTs والاستجابات DA أعلى إلى RHC+ جديلة من RLC+ جديلة ليست بسبب الإجهاض إدراجها في حالة LC.

التكلفة المتكبدة تزيد من ردود الدوبامين على مكافأة التسليم

يجب أن تنشأ استجابة الخلايا العصبية الدوبامين إلى إشارات R + من الاستجابة للمكافأة نفسها ، لأن الخلايا العصبية الدوبامين تغير استجابتها لإشارات التنبؤ بالمكافأة بالنسبة إلى رابطة المكافآت التحفيزية8,30. لذلك ، توقعنا أن تظهر الخلايا العصبية الدوبامين تعزيز استجابة تعتمد التكلفة المدفوعة لتسليم مكافأة. لقياس نشاط الخلايا العصبية الدوبامين في تسليم المكافأة ، قامت القردة بمهمة غير مؤكدة في HLC من خلال اثنين من إشارات المكافأة الجديدة (الشكل. 5a). نظرًا لأنه تم تسليم المكافآت في نصف عروض تقديم المكافآت فقط ، فإن إشارات المكافآت لم تتوقع بشكل موثوق ولا تفاضليًا تسليم المكافآت. وقد تم ذلك لتحقيق أقصى قدر من استجابة الخلايا العصبية الدوبامين لاستلام مكافأة (غير متوقعة) ، وذلك لزيادة حساسيتنا للكشف عن تعديل في استجابة الخلايا العصبية كدالة من التكلفة المنفقة.

التين 5
figure5

مهمة غير مؤكدة HLC. a مهمة غير مؤكدة HLC. في هذه المهمة ، تم استخدام إشارات المكافآت غير المؤكدة ، والتي تم تسليم المكافآت فيها بنسبة 50٪ من الوقت بغض النظر عن أي إشارة تم تقديمها. b RTs إلى إشارات التكلفة في التجارب عالية التكلفة ومنخفضة التكلفة. أظهر القرد P فقط RT أسرع إلى جديلة LC من جديلة HC (**P <0.01 ؛ ثنائي الذيل إقران t اختبار؛ t4 = 9.0 ، P = 8.5 × 10-4, n = 5 للقرد P ؛ t18 = 1.4 ، P = 0.19 ، n = 19 للقرد S). الدوائر السوداء وأشرطة الخطأ تشير إلى المتوسط ​​و SEM. c RTs إلى العظة مكافأة في المحاكمات عالية التكلفة ومنخفضة التكلفة. لم يكن هناك فرق في RTs على إشارات المكافأة بين حالة التكلفة العالية والمنخفضة التكلفة (ثنائي الذيل المقترن t اختبار؛ t4 = 0.97 ، P = 0.39 ، n = 5 للقرد P ؛ t18 = 0.99 ، P = 0.39 ، n = 19 للقرد S)

عندما قورنت RTs بين إشارات التكلفة ، أظهر القرد P RT أسرع إلى إشارة LC من إشارة HC (الشكل. 5b). لم يكن هناك فرق في RTs على العظة مكافأة بين HC و LC الشرط في أي قرد (الشكل. 5c).

في المهمة غير المؤكدة في HLC ، أظهرت الخلايا العصبية الدوبامين تنشيطًا متواضعًا في إشارة LC لكنها لم تستجب لإشارات المكافأة لأنها لم تكن تنبؤية للمكافأة (الشكل. 6a). في جميع أنحاء السكان ، كانت الاستجابات التي أثارتها أقل من HC إلى LC cue (الشكل. 6b. اختبار ويلكوكسون ذو التصنيف المزدوج ؛ P = 2.7 × 10-3, n = 19) ، وأظهرت تحليلات ROC استجابات أصغر لتوجيه HC (الشكل. 6c. اختبار ويلكوكسون ذو التصنيف المزدوج ؛ P = 5.5 × 10-3, n = 19). كانت الاستجابة العصبية لتسليم المكافأة في حالة HC أكبر من LC (الشكل XNUMX ب). 6d. اختبار ويلكوكسون ذو التصنيف المزدوج ؛ P = 0.036 ، n = 19). كان توزيع auROCs> 0.5 مما يشير إلى استجابة أكبر لتسليم المكافأة في HC مقارنة بتجارب LC (الشكل XNUMX ب). 6e. اختبار ويلكوكسون ذو التصنيف المزدوج ؛ P = 0.049 ، n = 19). تشير هذه النتائج إلى أن استجابة تسليم المكافأة تم تحسينها في تجربة HC وأن التكلفة المدفوعة تزيد من إشارة RPE الإيجابية عند تسليم المكافأة.

التين 6
figure6

استجابة الخلايا العصبية الدوبامين لتسليم المكافأة. a ممثل نشاط الخلايا العصبية الدوبامين في مهمة غير مؤكدة HLC. يمثل كل لون الظروف (أصفر: HC + ، أخضر: HC− ، وردي: LC + ، سماوي: LC−). يشار إلى توقيت بداية saccade بواسطة الصلبان الرمادية. إن ردود هذه الخلية العصبية الدوبامين على المكافأة التي لا يمكن التنبؤ بها والهواء النفطي موضحة أيضًا في اللوحة اليمنى (أحمر: مكافأة غير متوقعة ، أزرق: نفخة هواء غير متوقعة). b تم تسجيل متوسط ​​النشاط السكاني للخلايا العصبية الدوبامين من القرد S إلى إشارات الحالة. يشير اللونان الأخضر والأرجواني إلى النشاط في التجارب عالية التكلفة ومنخفضة التكلفة ، على التوالي. تمثل الخطوط الصلبة والخطوط المتقطعة متوسط ​​و SEM ، على التوالي. تشير المنطقة ذات اللون الرمادي إلى النافذة الزمنية لحساب معدل إطلاق النار كاستجابة لإشارات الحالة. c توزيع auROCs لتحديد تأثير التكلفة المتوقعة على استجابة الخلايا العصبية لإشارات التكلفة. تشير المربعات المملوءة إلى البيانات من القرد P (n = 3) والدوائر المفتوحة تشير إلى البيانات من القرد S (n = 16). يشير رأس السهم إلى متوسط ​​auROC (0.44). d النشاط السكاني للخلايا العصبية الدوبامين المسجلة من قرد S إلى تسليم المكافأة. تشير الألوان الصفراء والورديّة إلى النشاط في التجارب ذات التكلفة العالية والمنخفضة التكلفة ، على التوالي. تشير المنطقة ذات اللون الرمادي إلى نافذة الوقت لحساب معدل إطلاق النار كرد على تسليم المكافأة. e توزيع auROCs لتحديد تأثير التكلفة المدفوعة على الاستجابة العصبية لتسليم المكافأة. يشير رأس السهم إلى الوسيط لـ auROC (0.55)

بالإضافة إلى ذلك ، قارنا استجابات الدوبامين بعد عدم وجود مكافأة. لم تظهر auROCs توزيعا متحيزا ، مما يشير إلى أن التكلفة المدفوعة لم يكن لها تأثير على RPE السلبية في وقت النتيجة (الشكل التكميلي. 9a). وأظهرت الخلايا العصبية الدوبامين لا يوجد فرق بين الردود على RHC و رLC العظة (الشكل التكميلي. 9b).

التكلفة المتكبدة تعزز سرعة التعلم

نظرًا لأن RPEs لمكافأة التسليم يتم زيادتها بالتكلفة المدفوعة ، في ظل الفرضية القائلة بأن RPEs تشارك بشكل مباشر في التوسط في التعلم من خلال التحفيز والمكافأة ، توقعنا أن تنعكس RPEs المحسنة في سلوك التعلم عبر سرعة التعلم24. لاختبار تأثير التكلفة المدفوعة على التعلم ، قامت القرود بمهمة استكشاف HLC (الشكل. 7a. انظر طرق). في هذه المهمة ، تم تقديم اثنين من العظة مكافأة (R + و R−) في وقت واحد وكان القرود لاختيار واحد. لقد عدّلنا معدلات النجاح واحتمال المكافأة بين أنواع التجارب (ثنائي الذيل t اختبار؛ t48 = 0.15 ، P = 0.89 ، n = 49 للقرد P ؛ t85 = 1.2 ، P = 0.25 ، n = 86 للقرد S). عندما تمت مقارنة RTs لإشارات التكلفة ، أظهر كلا القردين RTs أسرع إلى LC من إشارة HC (الشكل. 7b. ثنائي الذيل المقترنة t اختبار؛ t48 = 12.9 ، P ≈ 0 ، n = 49 للقرد P ؛ t85 = 3.4 ، P = 9.4 × 10-4, n = 86 للقرد S). عند مقارنة RTs بإشارات المكافأة ، أظهر القرد S RTs أسرع في HC من حالة LC (الشكل. 7c. ثنائي الذيل المقترنة t اختبار؛ t48 = 1.3 ، P = 0.19 ، n = 49 للقرد P ؛ t85 = 2.8 ، P = 6.8 × 10-3, n = 86 للقرد S). عند مقارنة RTs خلال النصف الأول والأخير من جلسة التعلم بشكل منفصل ، كانت RTs إلى LC cue أسرع من إشارة HC خلال الأول (الشكل التكميلي SXNUMX). 10a) والنصف الأخير من الدورة (الشكل التكميلي. 10c). على العكس من ذلك ، كانت RTs من القرد S في إشارة المكافأة في حالة HC أسرع مما كانت عليه في حالة LC خلال النصف الأخير من الجلسة فقط (الشكل التكميلي. 10d) ولكن ليس في النصف الأول (الشكل التكميلي. 10b).

التين 7
figure7

مهمة استكشاف HLC. a مهمة استكشاف HLC. في هذه المهمة ، كان على القرود الاختيار بين R + و R− cues ، والتي تم إنشاؤها عشوائيًا في كل جلسة تعليمية. إذا اختاروا R + cue يمكنهم الحصول على مكافأة وإذا اختاروا Rue cue فلن يحصلوا على المكافأة. b RTs إلى إشارات التكلفة في التجارب عالية التكلفة ومنخفضة التكلفة. أظهرت القرود RTs أسرع إلى جديلة منخفضة التكلفة (**P< 0.01 ؛ ثنائي الذيل إقران t اختبار). تشير الدوائر السوداء وأشرطة الخطأ إلى المتوسط ​​و SEM. c RTs إلى العظة مكافأة في المحاكمات عالية التكلفة ومنخفضة التكلفة. أظهر Monkey S RTs بشكل أسرع إلى إشارات المكافأة في حالة التكلفة المرتفعة

في مهمة استكشاف HLC ، تم إنشاء إشارات المكافأة بشكل عشوائي في كل جلسة تعلم. لذلك ، كان على القردة أن تتعلم العلاقة بين المكافآت والمكافآت في كل جلسة. مع تقدم المحاكمات خلال إحدى الجلسات ، اختارت القرود علامات R + أكثر تكرارًا في كل حالة تكلفة (شكل. 8a). لتحديد سرعة التعلم ، نلائم الوظيفة الأسية التراكمية للبيانات ، مع دمج معلمتين مجانيتين ، a و b، مما يدل على انحدار المنحنى والهضبة ، على التوالي (الشكل التكميلي. 11a ، ب). نسبة السجل بين معلمات الانحدار (log aHC/aLC) كان أكبر بكثير من الصفر مما يدل على معلمة الانحدار أكبر في HC من تجارب LC (الشكل. 8b. اثنين من الذيل t اختبار؛ t48 = 2.1 ، P = 0.042 ، يعني = 0.58 ، n = 49 للقرد P ؛ t85 = 2.5 ، P = 0.013 ، يعني = 0.19 ، n = 86 للقرد S). نسبة السجل بين معلمات الهضبة (سجل bHC/bLC) ، لم يكن مختلفًا عن الصفر مع الإشارة إلى عدم وجود فرق بين شروط التكلفة (الشكل. 8c. اثنين من الذيل t اختبار؛ t48 = 0.76 ، P = 0.45 ، يعني = −0.0024 ، n = 49 للقرد P ؛ t85 = 0.56 ، P = 0.58 ، يعني = 0.010 ، n = 86 للقرد S). تشير هذه النتائج إلى أن سرعة التعلم أسرع في تجارب HC. بعد ذلك ، قمنا بنمذجة منحنيات التعلم باستخدام نموذج التعلم المعزز (RL) (انظر الطرق). يتضمن هذا النموذج معلمات معدل التعلم (αHC و αLC) ومعدلات الاستكشاف (βHC و βLC) لكل من شروط التكلفة (الشكل التكميلي 11c ، د). عند ملائمة السلوك ، وجدنا أن نسبة السجل بين معلمات معدل التعلم (log αHC/αLC) كان أكبر من الصفر مما يدل على معلمة معدل التعلم أكبر بكثير في HC من تجارب LC (الشكل. 8d. اثنين من الذيل t اختبار؛ t48 = 2.3 ، P = 0.026 ، يعني = 0.50 ، n = 49 للقرد P ؛ t85 = 2.2 ، P = 0.034 ، يعني = 0.25 ، n = 86 للقرد S) بينما المعلمة β لم يظهر أي فرق (الشكل. 8e. اثنين من الذيل t اختبار؛ t48 = 0.77 ، P = 0.44 ، يعني = 0.0097 ، n = 49 للقرد P ؛ t85 = 0.64 ، P = 0.52 ، يعني = 0.038 ، n = 86 للقرد S). هنا ، قمنا بتقدير معلمات معدل التعلم لكل حالة تكلفة (αHC و αLC) بشكل منفصل لشرح سرعات التعلم أسرع في حالة HC. ومع ذلك ، إذا كانت معدلات التعلم متطابقة بين شروط التكلفة ، فإن النسبة بين معلمات معدل التعلم المقدرة (αHC/αLC) يمكن اعتباره كقيمة تضخيم لـ RPEs في حالة HC. لذلك ، تشير هذه النتائج إلى أن تضخيم RPEs يمكن أن يفسر سرعات التعلم بشكل أسرع في حالة HC.

التين 8
figure8

اختبار سرعة التعلم. a يعني عملية التعلم من القرود P و S. يتم تعيين نسبة خيارات R + كدالة للمحاكمة. تشير النقاط الخضراء والبنفسجية إلى بيانات من التجربة عالية التكلفة ومنخفضة التكلفة ، على التوالي. تمثل الخطوط المنقطة عملية تعلم سلسة. تم تركيب الدوال الأسية التراكمية لنقاط البيانات وتم تمثيلها كخطوط صلبة. b نسبة السجل بين المعلمات المناسب a في الظروف المرتفعة والمنخفضة التكلفة عندما تتلاءم البيانات مع الدالة الأسية التراكمية (*P <0.05 ؛ اختبار رتبة موقع ويلكوكسون ثنائي الذيل). تشير الدوائر السوداء وأشرطة الخطأ إلى المتوسط ​​و SEM. c نسبة السجل بين المعلمات المناسب b في الظروف المرتفعة والمنخفضة التكلفة عندما كانت البيانات ملائمة مع وظيفة الأس التراكمي. d نسبة السجل بين معلمة معدل التعلم α في الظروف عالية ومنخفضة التكلفة عندما كانت البيانات مناسبة مع نموذج التعلم التعزيز. e نسبة السجل بين المعلمة المناسب β في الظروف عالية ومنخفضة التكلفة عندما كانت البيانات مناسبة مع نموذج التعلم التعزيز

حاولنا أيضًا شرح عملية التعلم بنماذج RL البديلة التي تأخذ في الاعتبار احتمال أن تعرف القردة العلاقة المضادة بين المحفزات والمكافأة في كل تجربة. في هذه النماذج ، يتم تحديث قيمة الخيار غير المختار إلى جانب الخيار المختار (شكل إضافي. 12). حتى عند تطبيق هذه النماذج البديلة على البيانات ، كانت المعلمة معدل التعلم أكبر بكثير في HC مقارنة بحالة LC (الشكل التكميلي. 12ب ، و) في حين أن المعلمة β لم يظهر أي فرق (الشكل التكميلي) 12د ، ح). وبالتالي ، فإن اكتشافنا حول تضخيم إشارة RPE في حالة HC يكون قويًا على شكل نموذج RL المناسب للبيانات.

مناقشة

نحن التحقيق في تأثير التكلفة المدفوعة على قيمة العظة التنبؤ المكافأة وعلى الاستجابات المرحلية للخلايا العصبية الدوبامين الدماغ المتوسط. أظهرت القردة تقييمًا متزايدًا لإشارات التنبؤ بالمكافآت عقب أداء إجراء تكبده تكلفة أكبر. وأظهرت الخلايا العصبية الدوبامين ردود متزايدة على كل من جديلة التنبؤ بالمكافأة وتسليم المكافأة ، بعد تكبد تكلفة أعلى. علاوة على ذلك ، أظهرت القرود سرعات تعلم أسرع عندما تكون التكلفة الأعلى مطلوبة للحصول على المكافأة.

أظهرت العديد من الدراسات أن التكلفة المدفوعة تعزز التفضيلات الخاصة بتنبؤات المكافآت1,2,3. في هذه الدراسة ، أظهرت القرود RTs أسرع للعظة تنبؤ المكافأة في حالة HC مقارنة بتلك الموجودة في حالة LC ، بما يتسق مع إمكانية تعزيز قيمة مكافأة المكافأة من خلال التكلفة المدفوعة27. الاحتمال البديل هو أن وقت التثبيت الأطول المرتبط بتحسين الانتباه إلى هدف السكاكيد في حالة HC ، وبالتالي ، يقلل من RTs بعد تثبيت أطول في تجربة HC. ومع ذلك ، لم نجد أي فرق بين RTs إلى العظة R في تجارب HC و LC في مهمة غير مؤكدة HLC. علاوة على ذلك ، في النصف الأول من جلسة الاستكشاف HLC. كانت RTs إلى العظة R لا تختلف اختلافا كبيرا بين التجارب HC و LC. تشير هذه النتائج بالتالي إلى أن التثبيت الطويل ليس تفسيرًا مرجحًا للأشكال القصيرة التي تمت ملاحظتها على إشارات التنبؤ بالمكافأة. بالإضافة إلى تأثير التكلفة المدفوعة على RT cue RTs ، أثرت التكلفة أيضًا على RT على الإشارات غير المتوقعة ، على الرغم من عدم تسليم مكافأة بعد العروض التقديمية. أبلغت دراسة سابقة عن ظاهرة مماثلة ، حيث أظهرت مواضيع القردة اختبارات قصيرة في تجارب غير مجزية عندما استخدمت مكافآت أكثر تفضيلاً في التجارب البديلة داخل كل كتلة30. أحد التفسيرات المحتملة للتأثير في تلك الدراسة هو أن الحافز الأعلى بشكل عام للرد في المجموعة مع وجود مكافآت أكثر تفضيلًا تأثرت أيضًا بتأثير عدم المكافأة داخل الكتلة. وبالمثل ، في هذه الدراسة ، فإن توقع الحصول على مكافأة أكثر قيمة في تجارب HC ربما يكون قد قام بتضمين RTs إلى إشارة عدم المكافأة في تجارب HC في مهمتنا. علاوة على ذلك ، كان تأثير التكلفة المدفوعة على RTs على إشارات المكافأة أصغر من ذلك بالنسبة إلى إشارات عدم التكهن بالمكافأة. هذا على الأرجح قطعة أثرية من حقيقة أنه بسبب أن القرود صنعت صخرة بسرعة أكبر إلى البحث والتطويرLC+ جديلة في المقام الأول ، هناك نطاق أقل للكشف عن تقصير RTs إلى RHC+ جديلة. لذلك ، سيكون الفرق في RTs بين العظة R + صغيرًا كنتيجة لذلك.

القرود أيضا إجراء تجارب الاختيار بين RHC و رLC العظة في مهمة HLC. ومع ذلك ، في حين أظهرت قرد S تفضيل ل RHC+ جديلة إلى RLC+ جديلة ، وأظهر القرد P أي تفضيل من هذا القبيل. يمكن تفسير هذا التناقض من خلال اختلاف السياق بين HLC saccade ومحاكمات الاختيار. في تجارب الاختيار ، تم تقديم إشارتين للتنبؤ بالمكافأة بدلاً من إشارة واحدة للتنبؤ بالمكافأة. علاوة على ذلك ، لم تحصل القرود على أي مكافأة بعد اختيارهم حتى لو اختاروا إشارة التنبؤ بالمكافأة ، وبالتالي تم إجراء اختبار الاختيار في الانقراض. تم تنفيذ إجراء الانقراض للتأكد من أن اختيار القرد كان مدفوعًا بما تم تعلمه في تجارب الجهد ، بدلاً من أن يكون مرتبكًا مع التعلم الجديد في تجارب الاختيار. ومع ذلك ، قد يكون لهذا الإجراء تأثير جانبي على أن القرد يمكنه أن يتعلم بسرعة التعرف على إجراء الانقراض في سياق الاختيار وأنه لا يوجد سبب لاختيار المنبهات الأكثر تفضيلاً. ومع ذلك ، فإن أحد القرود أظهر في الواقع تفضيلًا لمكافأة المكافأة في حالة الإصابة بمرض التهاب الكبد.

في وقت تقديم الإشعار الذي تنبأ بمتطلبات لاحقة لدفع التكلفة ، تم تقليل نشاط الخلايا العصبية الدوبامين ، بما يتفق مع الدراسات السابقة22,23. في دراستنا ، لم نلاحظ حدوث انخفاض عام في الخلايا العصبية الدوبامين التي تستجيب لكل من الإشارات HC و LC بالنسبة إلى خط الأساس. يشير هذا إلى أن إشارة RPE سالبة لا تحدث في تلك الفترة الزمنية على الرغم من التكلفة التالية. يفترض عدم وجود RPE سلبية يعكس تكامل التنبؤ بالمكافأة المستقبلية المتوقعة لاحقًا في المحاكمة. أظهرت الخلايا العصبية الدوبامين تنشيط كبير في تجربة LC وكان النشاط أعلى مقارنة بتجربة HC. هذا يشير إلى أن معلومات التكلفة يتم دمجها في إشارة RPE التي تحملها الخلايا العصبية الدوبامين. وبالتالي ، فإن رمز الخلايا العصبية الدوبامين على حد سواء معلومات المكافأة والتكلفة واستجابة RPE يعكس مجموع التكلفة والمكافأة.

لقد أثبتنا أن إشارة RPE التي تمثلها الخلايا العصبية الدوبامين يتم تعزيزها بالتكلفة المدفوعة في نقطة عرض مكافأة المكافأة (في مهمة HLC saccade) وتسليم المكافآت (في مهمة HLC غير المؤكدة). كان المبلغ الموضوعي للمكافأة المقدمة في تجارب HC و LC متساوية ؛ لذلك ، يجب أن يكون سبب تعديل إشارات RPE عملية لا معنى لها. يتم دعم هذا الاحتمال من خلال العديد من الدراسات التي تشير إلى وجود تأثير سياقي على إشارات الدوبامين RPE بما يتوافق مع معالجة القيمة الذاتية و / أو المنفعة في الخلايا العصبية الدوبامين11,19,20,21,31,32,33,34. إذا كانت إشارة RPE أكبر ، فيجب أن ينتج عن ذلك تحديث أسرع لقيمة جديلة ، مما سيؤثر بالتالي على سرعة التعلم في جمعيات الحوافز والمكافآت. أظهرت الدراسات السابقة تعديلًا لسرعة التعلم من خلال عوامل لا معنى لها24,35. تمشيا مع هذا ، عرضت القرود سرعات التعلم أسرع في HC نسبة إلى حالة LC. لقد وجدنا أن سرعة التعلم المحسنة بالتكلفة المدفوعة يمكن تفسيرها بواسطة نموذج RL باستخدام RPE المتضخم. كان من الصعب فصل آثار RPE المتضخم وزيادة معدل التعلم في تجاربنا ؛ ومع ذلك ، وجدنا إشارة RPE الدوبامين تضخيم في حالة HC. علاوة على ذلك ، أظهرت دراسة سابقة للرنين المغناطيسي الوظيفي أن معلمة معدل التعلم ممثلة في القشرة الحزامية الأمامية وأن نشاط VTA لا يرتبط بمعلمة معدل التعلم في البيئات المتقلبة36. لذلك ، نجادل بأن إشارة RPE المشفرة بواسطة الخلايا العصبية الدوبامين يتم تضخيمها من خلال التكلفة المدفوعة ، وأن إشارة RPE المتزايدة تعزز سرعة التعلم.

عندما تم إنشاء إشارة RPE في وقت تقديم عرض المكافأة وتسليم المكافأة ، كانت القردة قد دفعت بالفعل التكلفة. لذلك ، فإن إحدى الآليات الممكنة لإشارة RPE المحسنة هي أن المكافأة التي يتم الحصول عليها بعد HC قد تكون مجزية أكثر. قد يؤدي التوقع المتزايد لمكافأة أكثر قيمة بعد المفوض السامي إلى تعزيز الدافع لإنهاء التجربة ، وبالتالي تقصير RT إلى إشارات المكافأة في تجارب HC.

التفسير المحتمل الآخر لنتائجنا هو أن الارتياح الذي تم اكتشافه من إنهاء الإجراء المكلف قد يكون بمثابة مكافأة للقرود. أظهرت دراسات التصوير بالرنين المغناطيسي الوظيفي (fMRI) أن تخفيف الألم قد يكون مكافأة للمشاركين من البشر37,38. لذلك ، قد تلعب التكلفة دورًا مشابهًا كحافز مكره للألم. إذا كان التخفيف من التكلفة مجزيًا وإذا كان هذا ينعكس في نشاط الدوبامين ، فإننا نتوقع أن تستجيب الخلايا العصبية الدوبامين في نهاية التثبيت الطويل ، وهو توقيت تقديم عرض جديلة المكافأة. ومع ذلك ، لم نلاحظ أي اختلاف في نشاط الدوبامين في توقيت تقديم عروض مكافأة المكافأة ولا أي فرق في RTs إلى إشارات R بين تجارب HC و LC في مهمة غير مؤكدة HLC. لذلك ، نقترح أن التخفيف من التكلفة لا يوفر تفسيرا كافيا للتأثير الذي لاحظناه في الخلايا العصبية الدوبامين.

وعلاوة على ذلك ، أظهرت الخلايا العصبية الدوبامين استجابات مختلفة نوعيا للحافز ينكر مقارنة مع جديلة التنبؤ التكلفة. أحد التفسيرات المحتملة لذلك هو أن تكلفة الجهد كانت أقل بروزًا من نفخة الهواء أو المكافأة ، لأن تكلفة الجهد تم تمديدها مؤقتًا عبر عدة ثوانٍ نظرًا لأن القردة أجرت عملية التثبيت وليست مثقوبة. لذلك ، قد لا يتم تنشيط الخلايا العصبية الدوبامين إلى إشارات التكلفة أقل وضوحا. الاحتمال الآخر هو أن الخلايا العصبية الدوبامين من النوع البارز تستجيب للأحداث التي تحدث بعدها بعض الحركات. عندما يتم تسليم المكافأة أو نفخة الهواء إلى القرود ، فإنها تقوم ببعض الحركات مثل لعق العين أو وميض العين. ومع ذلك ، في مهمة HLC saccade ، كان على القرود أن تبقي نظرتهم إلى هدف التثبيت دون أي حركة كلفة. في الواقع ، أظهرت دراسة حديثة أن إطلاق الدوبامين في النواة يتلاشى عقب إشارة جديرة بالتنبؤ بالمكافأة ، ما لم يتم بدء الحركة بشكل صحيح39. نظرًا لأن التكلفة في تجاربنا لم تتضمن بدء الحركة ، فقد ينتج عن ذلك استجابة غير متناسقة من الخلايا العصبية الدوبامين من النوع البارز. في كلتا الحالتين ، يمكننا استنتاج أن معلومات التكلفة تتم معالجتها بشكل مختلف عن المعلومات غير الفعالة.

في الختام ، نقترح أن التكلفة المدفوعة تزيد من قيمة إشارات التنبؤ بالمكافأة وهذا بدوره يزيد من إشارة RPE المشفرة في الخلايا العصبية الدوبامين في الدماغ المتوسط. أدى هذا التأثير إلى التنبؤ السلوكي بأن معدل تعلم الحيوانات من شأنه أن يتعزز من أجل التنبؤ بالمكافآت في أعقاب تجربة المفوض السامي. هذا بالفعل ما لاحظناه. وهكذا ، أدت ملاحظاتنا على نشاط الخلايا العصبية الدوبامين لنا إلى افتراض وجود تأثير سلوكي ، وكذلك آلية حسابية مفترضة الكامنة وراء هذا التأثير ، والتي أكدنا عليها لاحقا. تمثل النتائج التي توصلنا إليها مثالًا على كيفية حدوث التثليث بين قياسات البيانات العصبية والنظرية والسلوك الحسابي: إن تطوير فهم أعمق للمعالجة العصبية في المخ يمكن أن يقدم رؤى حول السلوك وأساسه الحسابي الأساسي.

طرق

أشكال حيوانات

استخدمنا اثنين من القرود اليابانية الذكور (مكاكا fuscata. وزن الجسم ، 6.5 كجم = Monkey P ؛ وزن الجسم ، 9.0 كجم = قرد S). زرعنا رأسًا على رأس جمجمة القرد حتى يمكن تثبيته على كرسي في وقت لاحق. كما تم زرع غرفة تسجيل لتمكين تركيب مفاعل دقيق كهربائي للإلكترود. تم إمالة غرفة التسجيل 45 ° بشكل أفقي في المستوى التاجي ووضعها عند إحداثيات التجسيمي: 15 مم الأمامي للقناة الخارجية. بعد فترة نقاهة ، تم تدريب القرود على أداء مهمة الطاحونة. بعد الانتهاء من التدريب ، قمنا بحفر ثقب في الجمجمة داخل غرفة التسجيل لإدخال الإلكترود. تمت الموافقة على جميع بروتوكولات رعاية الحيوان من قبل لجنة التجارب على الحيوانات من جامعة تاماجاوا ، ويتوافق مع دليل المعاهد الوطنية للصحة لرعاية واستخدام حيوانات المختبر.

مهمة سلوكية

تم تدريب القرود على أداء مهمة HLC saccade (الشكل. 1a) ، مهمة غير مؤكدة HLC (الشكل. 5a) ، ومهمة استكشاف HLC (الشكل. 7a). تم تنفيذ جميع المهام في غرفة مظلمة. كانت القرود جالسة على كرسي أمام 22 بوصة. شاشة LCD (S2232W ، Eizo) مع أعمدة رأسية مزروعة مثبتة بالكرسي. كانت المسافة بين عيونهم والشاشة 70 سم. عندما تم تقديم إشارة البداية (دائرة بيضاء ، قطرها 0.3 درجة) في وسط الشاشة ، كان مطلوبًا من القرد الحفاظ على نظرته على الإشارة. اختفى دليل البداية بعد 750 مللي ثانية ثم تم تقديم إشارة تكلفة (نجمة وطاحونة هوائية لتجارب HC و LC ، على التوالي). كان مطلوبًا من القرود أن تتنبه إلى التكلفة خلال 750 مللي ثانية من العرض التقديمي. إذا لم يخدعوا الإشارة ، تم إحباط المحاكمة وبدأت نفس المحاكمة مرة أخرى. أثناء تجارب HC ، تم تقديم هدف التثبيت (0.3 درجة × 0.3 درجة مربع أبيض) مباشرة بعد اختفاء إشارة التكلفة لمدة 2000 مللي ثانية (مهام HLC غير مؤكد و HLC غير مؤكد) أو 1500 مللي ثانية (مهمة استكشاف HLC) وكانت القرود مطلوبة لتلتقطها وتحافظ على نظراتها عليها. إذا حركت القردة نظرها إلى ما وراء نافذة التثبيت البالغة 4 درجات × 4 درجات ، فقد تم إحباط المهمة. تم تنشيط نافذة التثبيت بعد 400 مللي ثانية من العرض التقديمي لنقطة التثبيت لأن القردة احتاجت إلى وقت للتحضير للرشوة ولتعديل التثبيت. لذلك ، كان على القرود أن تثبت ما لا يقل عن 1600 مللي ثانية (مهام HLC saccade و HLC غير مؤكدة) أو 1100 مللي ثانية (مهمة استكشاف HLC) في تجارب HC. في تجارب LC ، تم عرض شاشة فارغة لمدة 1500 مللي ثانية (مهام HLC saccade و HLC غير مؤكدة) أو 1000 مللي ثانية (مهمة استكشاف HLC) ، ثم ظهر هدف التثبيت لمدة 500 مللي ثانية. نظرًا لتنشيط نافذة التثبيت 400 مللي ثانية بعد العرض التقديمي لنقطة التثبيت ، فقد طُلب من القرود التثبيت على الهدف لمدة 100 مللي ثانية على الأقل في تجارب LC. أظهرت القردة المزيد من الأخطاء في تجربة HC ؛ لذلك ، تم إدخال إجهاض قسري عشوائيًا قبل 100 مللي ثانية قبل عرض تلميح المكافأة (400 مللي ثانية بعد عرض هدف التثبيت وهو توقيت بدء نافذة التثبيت) في تجربة LC لمعادلة معدل النجاح. بعد التثبيت على الهدف ، تم تقديم إشارة أو اثنتين من إشارات المكافأة وكان على القرود أن تتنقل إلى الإشارة. إذا نجحوا في إنشاء حلقة لإشارة المكافأة ، فسيتم إصدار صوت صفير 750 مللي ثانية بعد عرض جديلة المكافأة. عندما صنعت القردة مرمىًا بإشارة R + ، تم توصيل 0.3 مل من الماء في نفس وقت التنبيه. لم يتم تسليم أي مكافأة عندما قاموا بإرسال سلسلة إلى R−.

في مهمة HLC saccade ، تم استخدام أربع دوائر ملونة كإشارات مكافأة (RHC+: الأصفر ؛ RHC-: الأخضر ؛ RLC+: وردي ؛ RLC-: الأزرق. تين. 1a). تتألف جلسة تجريبية واحدة من 80 تجربة saccade ، و 20 تجربة مكافأة غير متوقعة ، و 20 تجربة غير متوقعة لنفث الهواء ، و 5 تجارب اختيارية. تضمنت تجارب saccade 40 تجربة HC و 40 تجربة LC ، وكلاهما تضمن 20 تجربة مكافأة و 20 تجربة بدون مكافأة. في المكافأة غير المتوقعة أو تجارب النفخ الهوائي ، تم تسليم 0.3 مل من مكافأة الماء أو 0.2 ميجا باسكال من الهواء النفث (150 مللي ثانية للقرد P ؛ 200 مللي ثانية للقرد S) على وجه القرود دون أن يتم توجيهها. تضمنت تجارب الاختيار تجربة قامت فيها القردة بالاختيار بين إشارات R + (RHC+ مقابل RLC+) في تجربة HC ، بين R− cues (RHC- مقابل رLC-) في تجربة HC ، بين R + (RHC+ مقابل RLC+) العظة في محاكمة LC ، بين R− (RHC- مقابل رLC-) العظة في محاكمة LC ، وبين العظة التكلفة (الشكل التكميلي. 1). في التجارب مع الاختيار بين إشارات المكافآت ، كان هيكل المهمة مطابقًا لمهمة saccade قبل عرض مكافأة cue. بعد ذلك ، بدلاً من تقديم إشارة المكافأة ، تم تقديم اثنين من علامات المكافأة في محاكمات الاختيار ولم يتم تسليم أي مكافأة بعد تقديم عرض مكافأة المكافأة حتى إذا اتخذت القردة الاختيار بين R + cues.

لاختبار استجابة الخلايا العصبية الدوبامين لمكافأة الولادة ، قامت القردة بمهمة غير مؤكد HLC (الشكل. 5a). كانت هذه المهمة مشابهة لمهمة HLC saccade باستثناء إشارات المكافآت. في هذه المهمة ، استخدمنا اثنين من العظة مكافأة (بدلا من العظة أربعة مكافأة المستخدمة في مهمة HLC saccade) ، واحد لمحاكمة HC والآخر لمحاكمة LC. تم تسليم المكافأة في نصف التجارب بعد تقديم عرض مكافأة. تألفت إحدى الجلسات التجريبية من تجارب 80 saccade ، ومحاكمات المكافآت غير المتوقعة 20 ، ومحاكمات النفخ الهوائي غير المتوقعة. اشتملت تجارب saccade على تجارب 20 HC و 40 LC ، وكلاهما شمل تجارب 40 للمكافآت و 20 بدون تجارب على المكافآت. في المحاكمات التي لا يمكن التنبؤ بها ، تم تسليم مكافأة أو نفث الهواء دون أي إشارة.

في مهمة استكشاف HLC ، اثنين من العظة مكافأة (صHC+ ، صHC- أو صLC+ ، صLC-) تم تقديمها في وقت واحد وكانت القرود مطالبة بالتخلي عن واحدة من العظة مكافأة (الشكل. 7a). إذا اختاروا R + cue ، فقد تم تزويدهم بمكافأة مائية. أربعة العظة مكافأة (صHC + ، صHC- ، رLC + ، صLC-) تم إنشاؤها لكل دورة الاستكشاف وكان القرود المطلوبة لمعرفة العلاقة بين العظة ومكافأة المحاكمة على حدة. تألفت جلسة تجريبية واحدة من تجارب 100 HC وتجارب 100 LC. وجدنا أنه بالنسبة لمهمة الاستكشاف ، إذا حددنا مدة التثبيت لتكون 2000 ms في حالة HC بحيث تتطابق مع مدة حالة HC في المهام الأخرى ، فإن القردة تؤدي المهمة بمعدل نجاح منخفض جدًا ربما بسبب صعوبة المهمة و / أو معدل المكافأة المنخفض المترتب على ذلك. لذلك ، لتقليل صعوبات المهمة وزيادة معدل النجاح ، استخدمنا مدة تثبيت 1500 ms كتكلفة مهمة استكشاف HLC.

تم التحكم في المهام باستخدام حزمة برامج متوفرة تجاريا (TEMPO ، Refuting Computing ، St. Louis ، MO ، الولايات المتحدة الأمريكية). تم استخدام برنامج مخصص يستخدم واجهة برمجة تطبيقات (OpenGL) لعرض التحفيز البصري. تم إنشاء المحفزات البصرية للتكلفة والعظة مكافأة من قبل المؤلفين.

تسجيل و الحصول على البيانات

تم تقدير موقع المادة السوداء باستخدام صور MR. تم إدراج قطب التنغستن المطلي بالإيبوكسي (قطر عرقوب ، 0.25 مم ، 0.5 – 1.5 MΩ المقاس عند 1000 Hz ، FHC) في المادة السوداء باستخدام أداة micromanipulator (MO-972 ، Narishige ، طوكيو ، اليابان) أنبوب دليل غير القابل للصدأ. تم تضخيم إشارات الجهد (× 10,000) وتصفيتها (0.5 – 2 kHz). تم عزل إمكانات العمل من خلية واحدة مع خوارزمية مطابقة القالب (OmniPlex ، Plexon ، دالاس ، تكساس ، الولايات المتحدة الأمريكية). تمت مراقبة حركة العين بواسطة نظام كاميرا الأشعة تحت الحمراء بمعدل أخذ عينات من 500 Hz (iView X Hi-Speed ​​Primate ، SMI ، Teltow ، ألمانيا). تم تسجيل توقيت إمكانات العمل والأحداث السلوكية مع دقة الوقت من 1 كيلو هرتز.

تحليل البيانات

لتحليل سلوك القرود ، تم تحديد RTs على أنها الفترة الزمنية بين بداية التحفيز والوقت الذي بدأت فيه القردة في الغرق. تم تحديد بدء saccade عن طريق حساب التوقيت عندما تجاوز موضع النظرة الانحرافات المعيارية 5 عن متوسط ​​موضع النظرة قبل عرض التقديمي.

في مهمة الاستكشاف HLC ، تم تحديد سلوك اختيار القردة من خلال تركيب وظيفة الأس التراكمي. الوظيفة (P) يصف نسبة الاختيار الصحيح على النحو التالي:

P=12+(12-12إكسب(-at))b,
(1)

أين t يعني المحاكمة ، a و b تشير إلى ميل وهضبة المنحنى ، على التوالي. كانت هذه الوظيفة مناسبة بشكل مستقل للبيانات لشرطين التكلفة. تم البحث في معلمات الوظيفة لتعظيم احتمالية مراقبة البيانات من جلسة واحدة والبيانات المتوسطة. تم تطبيق طريقة bootstrap لتقدير فترات الثقة عند ملائمة البيانات المتوسطة. تم استخدام نموذج RL القياسي أيضًا لتحديد البيانات السلوكية. قيم التحفيز Vj(t) للاختيار المحدد j (j = 1 لحالة HC ؛ j = 2 لشرط LC) كما يلي:

Vj(t+1)=Vj(t)+αj(R(t)-Vj(t)),
(2)

أين αj تشير إلى معدلات التعلم ، التي كانت مقيدة للقيم بين 0 و 1. R(t) تشير إلى مبلغ المكافأة (1: المكافأة ، 0: لا مكافأة) في المحاكمة t.

احتمال Pj(t) لاختيار التحفيز j من اثنين من المحفزات في المحاكمة t يتم توفيرها بواسطة قاعدة softmax

Pj(t)=exp(Vj(t)βj)/Σ2i=1exp(Vi(t)βi),
(3)

أين βj يشير إلى مدى الاستكشاف.

لقد سجلنا نشاطًا عصبيًا خلال مهمة HLC saccade و HLC غير المؤكدة ولكن ليس مهمة استكشاف HLC. تم تنفيذ مهمة استكشاف HLC كدراسة سلوكية بحتة. تم التعرف على الخلايا العصبية الدوبامين إذا عرضت كل من الخصائص التالية: معدل إطلاق منشط منخفض (<6 هرتز) ، ومدة طويلة لشكل موجة الارتفاع (> 300 ميكرو ثانية) ، واستجابة طورية للمكافأة غير المتوقعة (الشكل التكميلي SXNUMX). 2a). قمنا بتحليل التجارب التي يمكن أن تكمل فيها القرود التجربة دون أي أخطاء (تثبيت الكبح ، لا السقوط أو الإجهاض الاصطناعي). تم حساب متوسط ​​معدل إطلاق الخلايا العصبية باستخدام سلالات 1 ms وتم تلطيفها بنواة غوسية (σ = 30 مللي ثانية ، العرض = 4σ) لإنتاج وظائف كثافة الارتفاع. تم حساب استجابات الخلايا العصبية الدوبامين لكل حدث مهمة كنسبة إطلاق تطبيع نسبة إلى النشاط التلقائي (يعني معدل إطلاق النار خلال MS 500 قبل بداية جديلة البداية). تم حساب معدلات إطلاق النار في إطار الوقت المحدد لكل حدث المهمة والموضوع. تم تحديد هذه النوافذ الزمنية من النشاط السكاني المتوسط. حددنا نوافذ البداية والنهاية المحددة على أساس وقت صعود وسقوط استجابة متوسط ​​السكان باستخدام دراسات الدوبامين القرد السابقة كمراجع (الشكل التكميلي). 3). تم تعريف نافذة وقت البدء cue على أنها 200 – 400 ms بعد بداية بداية cue للخلايا العصبية المسجلة من القردين P و S. تم تحديد نافذة الوقت لـ جديلة الشرط كـ 150 – 300 ms بعد بداية جديلة الشرط لـ monkey P و 200 – 400 ms for monkey S. تم تعريف النافذة الزمنية لمكافأة المكافآت على أنها 140 – 350 ms بعد بداية المكافأة لـ monkey P و 220 – 420 ms for monkey S. تم تعريف النافذة الزمنية لتسليم المكافأة كـ 225– 475 ms بعد بدء صوت الصفير لـ monkey P و 200 – 450 ms لـ monkey S. تم تعريف النافذة الزمنية لتسليم المكافآت غير المتوقعة على أنها 100 – 300 ms بعد تسليم المكافأة لل monkey P و 150 – 300 ms لـ monkey S. تم تعريف النافذة الزمنية لنفخ الهواء غير القابل للتنبؤ به على أنه 30 – 230 ms بعد تسليم نفث الهواء لـ monkey P و 50 – 200 ms لـ monkey S.

قمنا بتصنيف جميع الخلايا العصبية الدوبامين المسجلة إلى فئتين متميزتين ، القيمة التحفيزية وأنواع البروز. إذا كانت استجابة الخلايا العصبية لمحفزات الهواء أصغر من النشاط التلقائي ، فقد تم تصنيف الخلية العصبية على أنها من نوع القيمة التحفيزية (الشكل. 3d ، ه). في المقابل ، إذا كانت استجابة الخلايا العصبية لمنبهات الهواء النفطي أكبر من النشاط التلقائي ، فقد تم تصنيف الخلايا العصبية على أنها من النوع البارز (الشكل. 3g ، ح).

لتحديد النشاط العصبي التفاضلي بين ظروف المهمة ، تم إجراء تحليل ROC. حسبنا auROC لكل خلية عصبية. تشير auROC الأصغر أو الأكبر من 0.5 إلى استجابة أصغر أو أكبر في تجربة HC ، على التوالي. نظرًا لأن أعداد الخلايا العصبية في بعض مجموعات البيانات العصبية كانت صغيرة ، فقد استخدمنا اختبار تصنيف موقع Wilcoxon لتقليل تأثير القيم المتطرفة لتحديد التوزيع المتحيز لـ auROCs.

البرامج المتاحة تجاريا ، MATLAB (MathWorks ، Natick ، ​​MA ، الولايات المتحدة الأمريكية) ، تم استخدامها لإجراء جميع تحليل البيانات.

الفحص النسيجي

بعد تجربة التسجيل ، تم القتل الرحيم للقردين وتم إجراء التحليل النسيجي للتحقق من موضع التسجيل (الشكل التكميلي). 2b). الموت الرحيم للقردة عن طريق إعطاء جرعة قاتلة من الصوديوم بنتوباربيتال (70 ملغ كجم-1) و perfused مع الفورمالديهايد 4 ٪ في العازلة الفوسفات. تم قطع المقاطع الاكليلية التسلسلية (السُمك ، 10 μm) وتثبيتها من خلال الجسم المضاد التيروزيني هيدروكسيلاز (TH) (كل أقسام 25 ؛ جسم مضاد لـ TH ، 1: 500 ؛ Merck ، Darmstadt ، ألمانيا) أو تلطيخ Nissl (كل أقسام 25) .

ملخص التقارير

مزيد من المعلومات حول تصميم البحوث متاح في ملخص أبحاث أبحاث الطبيعة مرتبطة بهذه المادة.

توافر البيانات

البيانات المستخدمة في تحليل هذه الدراسة متاحة من المؤلف المقابل بناء على طلب معقول. يتوفر ملخص التقارير لهذه المقالة كملف معلومات تكميلية. مصدر البيانات الكامنة وراء التين. 1, 3-8 والتين التكميلية. 1, 4-12 يتم توفيرها كملف بيانات المصدر.

توافر رمز

تتوفر رموز Matlab المستخدمة في تحليل هذه الدراسة من المؤلف المقابل بناء على طلب معقول.

مراجع حسابات

  1. 1.

    Clement، TS، Feltus، JR، Kaiser، DH & Zentall، TR "أخلاقيات العمل" في الحمام: ترتبط قيمة المكافأة ارتباطًا مباشرًا بالجهد أو الوقت المطلوب للحصول على المكافأة. Psychon. الثور. القس 7، 100 – 106 (2000).

  2. 2.

    Klein و ED و Bhatt و RS & Zentall و TR Contrast ومبررات الجهد. Psychon. الثور. القس 12، 335 – 339 (2005).

  3. 3.

    Zentall، TR & Singer، RA التباين داخل التجربة: يفضل الحمام المعززات المكيفة التي تتبع حدثًا أكثر نسبيًا بدلاً من حدث أقل كرهًا. ج. إكسب. شرجي. Behav. 88، 131 – 149 (2007).

  4. 4.

    Aronson، E. & Mills، J. تأثير شدة الابتداء على الإعجاب لمجموعة. J. غير طبيعي. شركة نفط الجنوب. Psychol. 59، 177 – 181 (1959).

  5. 5.

    فيستنغر ، ل. نظرية التنافر المعرفي. (مطبعة جامعة ستانفورد ، كاليفورنيا ، 1957).

  6. 6.

    Alessandri، J.، Darcheville، JC، Delevoye-Turrell، Y. & Zentall، TR Preference للمكافآت التي تتبع جهدًا أكبر وتأخيرًا أكبر. تعلم السلوك. 36، 352 – 358 (2008).

  7. 7.

    Schultz، W.، Carelli، RM & Wightman، RM إشارات الدوبامين المرحلية: من قيمة المكافأة الذاتية إلى المنفعة الاقتصادية الرسمية. داء. أوبان. Behav. الخيال العلمي. 5، 147 – 154 (2015).

  8. 8.

    Schultz، W.، Dayan، P. & Montague، PR ركيزة عصبية للتنبؤ والمكافأة. علوم 275، 1593 – 1599 (1997).

  9. 9.

    Bromberg-Martin ، ES ، Matsumoto ، M. & Hikosaka ، O. Dopamine في التحكم التحفيزي: المكافأة ، والمكره ، والتنبيه. الخلايا العصبية 68، 815 – 834 (2010).

  10. 10

    تقوم Bayer و HM & Glimcher و PW Midbrain dopamine بترميز إشارة خطأ توقع المكافأة الكمية. الخلايا العصبية 47، 129 – 141 (2005).

  11. 11

    Nakahara، H.، Itoh، H.، Kawagoe، R.، Takikawa، Y. & Hikosaka، O. يمكن أن تمثل الخلايا العصبية الدوبامين خطأ تنبؤ يعتمد على السياق. الخلايا العصبية 41، 269 – 280 (2004).

  12. 12

    Tobler، PN، Fiorillo، CD & Schultz، W. الترميز التكيفي لقيمة المكافأة بواسطة خلايا الدوبامين. علوم 307، 1642 – 1645 (2005).

  13. 13

    Nomoto ، K. ، Schultz ، W. ، Watanabe ، T. & Sakagami ، M. مدد مؤقتًا استجابات الدوبامين للمحفزات التنبؤية للمكافأة التي تتطلب إدراكًا. J. نيوروسكي. 30، 10692 – 10702 (2010).

  14. 14

    Watabe-Uchida، M.، Zhu، L.، Ogawa، SK، Vamanrao، A. & Uchida، N. رسم خرائط الدماغ الكامل للمدخلات المباشرة للخلايا العصبية الدوبامين في الدماغ المتوسط. الخلايا العصبية 74، 858 – 873 (2012).

  15. 15

    تاناكا ، SC et al. التنبؤ المكافآت الفورية والمستقبلية تجند بشكل مختلف حلقات العقد القشرية القاعدية. نات. Neurosci. 7، 887 – 893 (2004).

  16. 16

    Haber، SN، Kim، KS، Mailly، P. & Calzavara، R. تحدد المدخلات القشرية المتعلقة بالمكافأة منطقة خطية كبيرة في الرئيسيات التي تتعامل مع الاتصالات القشرية الترابطية ، مما يوفر ركيزة للتعلم القائم على الحوافز. J. نيوروسكي. 26، 8368 – 8376 (2006).

  17. 17

    Doya ، K. المشرفين على صنع القرار. نات. Neurosci. 11، 410 – 416 (2008).

  18. 18

    Roesch و MR و Calu و DJ & Schoenbaum و G. الخلايا العصبية الدوبامين ترميز الخيار الأفضل في الفئران التي تقرر بين المكافآت المؤجلة أو ذات الحجم المختلف. نات. Neurosci. 10، 1615 – 1624 (2007).

  19. 19

    لاك ، أ ، ستوفر ، دبليو آر وشولتز ، دبليو.دوبامين استجابات أخطاء التنبؤ تدمج القيمة الذاتية من أبعاد المكافأة المختلفة. بروك. ناتل أكاد. الخيال العلمي. الولايات المتحدة الأمريكية 111، 2343 – 2348 (2014).

  20. 20

    Stauffer، WR، Lak، A. & Schultz، W. تعكس استجابات خطأ التنبؤ بمكافأة الدوبامين المنفعة الحدية. داء. بيول. 24، 2491 – 2500 (2014).

  21. 21

    Noritake، A.، Ninomiya، T. & Isoda، M. رصد المكافأة الاجتماعية وتقييمها في دماغ المكاك. نات. Neurosci. 21، 1452 – 1462 (2018).

  22. 22

    Pasquereau، B. & Turner، RS Limited ترميز الجهد بواسطة خلايا الدوبامين في مهمة مقايضة التكلفة والعائد. J. نيوروسكي. 33، 8288 – 8300 (2013).

  23. 23

    Varazzani ، C. ، San-Galli ، A. ، Gilardeau ، S. & Bouret ، S. Noradrenaline و dopamine neurons في مقايضة المكافأة / الجهد: مقارنة الفيزيولوجيا الكهربية المباشرة في سلوك القرود. J. نيوروسكي. 20، 7866 – 7877 (2015).

  24. 24

    واتانابي ، ن. ، ساكاغامي ، إم ، وهارونو ، إم. تشرح إشارة خطأ التنبؤ بالمكافأة المعززة بتفاعل المخطط واللوزة تسريع تعلم المكافأة الاحتمالية عن طريق العاطفة. J. نيوروسكي. 33، 4487 – 4493 (2013).

  25. 25

    Di Ciano، P.، Cardinal، RN، Cowell، RA، Little، SJ & Everitt، B. المشاركة التفاضلية لمستقبلات NMDA و AMPA / kainate والدوبامين في النواة المتكئة في اكتساب وأداء سلوك نهج بافلوفيان. J. نيوروسكي. 21، 9471 – 9477 (2001).

  26. 26

    Flagel، SB et al. دور انتقائي للدوبامين في تعلم الحوافز والمكافآت. الطبيعة 469، 53 – 57 (2011).

  27. 27

    Blough ، DS تأثيرات التحضير والتمييز والتعزيز على مكونات وقت رد الفعل في البحث البصري للحمام. J. Exp. Psychol. أنيم. Behav. معالجة. 26، 50 – 63 (2000).

  28. 28

    Matsumoto، M. & Hikosaka، O. ينقل نوعان من الخلايا العصبية الدوبامين بوضوح إشارات تحفيزية إيجابية وسلبية. الطبيعة 459، 837 – 841 (2009).

  29. 29

    ماتسوموتو ، إم وتاكادا ، إم. تمثيلات مميزة للإشارات المعرفية والتحفيزية في الخلايا العصبية الدوبامين في الدماغ المتوسط. الخلايا العصبية 79، 1011 – 1024 (2013).

  30. 30

    واتانابي ، م. وآخرون. ردود الفعل السلوكية التي تعكس توقعات المكافأة التفاضلية في القرود. إكسب. الدماغ الدقة. 140، 511 – 518 (2001).

  31. 31

    Takikawa ، Y. ، Kawagoe ، R. & Hikosaka ، O. دور محتمل للخلايا العصبية الدوبامين في الدماغ المتوسط ​​في التكيف قصير الأجل وطويل الأجل للساكاد لرسم خرائط الموقع والمكافأة. J. نيوروفيزيول. 92، 2520 – 2529 (2004).

  32. 32

    Kobayashi، S. & Schultz، W. تأثير المكافأة يؤخر على استجابات الخلايا العصبية الدوبامين. J. نيوروسكي. 28، 7837 – 7846 (2008).

  33. 33

    Enomoto، K. et al. تتعلم الخلايا العصبية الدوبامين تشفير القيمة طويلة الأجل للعديد من المكافآت المستقبلية. بروك. ناتل أكاد. الخيال العلمي. الولايات المتحدة الأمريكية 108، 15462 – 15467 (2011).

  34. 34

    لاك ، أ ، نوموتو ، ك ، كيراماتي ، إم ، ساكاجامي ، إم وكيبيك ، أ. تشير الخلايا العصبية الدوبامين ميدبرين إلى الاعتقاد في دقة الاختيار أثناء اتخاذ القرار الإدراكي. داء. بيول. 27، 821 – 832 (2017).

  35. 35

    Williams، BA & McDevitt، MA تثبيط وتكييف زائد. Psychol. الخيال العلمي. 13، 454 – 459 (2002).

  36. 36

    Behrens، TE، Woolrich، MW، Walton، ME & Rushworth، MF تعلم قيمة المعلومات في عالم غير مؤكد. نات. Neurosci. 10، 1214 – 1221 (2007).

  37. 37

    سيمور ، ب. وآخرون. العمليات العصبية الشهية المتنافرة تكمن وراء التعلم التنبئي لتخفيف الآلام. نات. Neurosci. 8، 1234 – 1240 (2005).

  38. 38

    Kim، H.، Shimojo، S. & O'Doherty، JP هل يعتبر تجنب النتيجة البغيضة أمرًا مجزيًا؟ الركائز العصبية لتعلم التجنب في دماغ الإنسان. PLoS Biol. 4و e233 (2006).

  39. 39

    سيد ، EC وآخرون. بدء العمل الأشكال ترميز الدوبامين mesolimbic المكافآت في المستقبل. نات. Neurosci. 19، 34 – 36 (2016).

تنزيل المراجع

شكر وتقدير

تم دعم هذا العمل من قِبل منح المنح MEXT / JSPS للمنح المقدمة للبحث العلمي (Kakenhi) JP16H06571 و JP18H03662 to MS. تم دعم هذا البحث جزئيًا من قبل برنامج البحوث الاستراتيجية لعلوم الدماغ بدعم من الوكالة اليابانية للبحوث الطبية والتطوير (AMED) ) وبرنامج التعاون بين اليابان والولايات المتحدة لأبحاث الدماغ. وأيد هذا البحث من قبل المشروع الوطني للموارد الحيوية في المعهد الوطني للعلوم الفسيولوجية (NBRP في NIPS) من الوكالة اليابانية للبحوث الطبية والتنمية ، AMED. نشكر Bernard W. Balleine و Andrew R. Delamater على مساعدتهم في كتابة الورقة.

معلومات الكاتب

ST ، JPO و MS صممت التجارب. قام ST بإجراء التجارب وتحليل البيانات. صقل JPO و MS التجارب وتحليلات البيانات. كتب ST و JPO و MS المخطوطة.

مراسلات ل ماساميتشي ساكاجامي.