تسلسل هرمي متوازن في المدمنين الخارجين من دائرة دوامة الدوبامين المختطفة بالمخدرات (2013)

 

  • مهدي كراماتي بريد,
     
  • بوريس جوتكين

 

ملخص

على الرغم من الرغبة الصريحة في الإقلاع عن التدخين ، فإن المدمنين على المدى الطويل يجدون أنفسهم عاجزين عن مقاومة المخدرات ، على الرغم من إدراكهم أن تعاطي المخدرات قد يكون مسارًا ضارًا. يمثل هذا التناقض بين المعرفة الصريحة بالنتائج السلبية والأنماط السلوكية القهرية صراعًا إدراكيًا / سلوكيًا يمثل خاصية مركزية للإدمان. من الناحية العصبية ، يلعب النشاط الناجم عن التباين في مناطق فرعية مخططة متميزة ، بالإضافة إلى اتصال الدوبامين المتصاعد من المناطق المخططة البطنية إلى المناطق الظهرية ، أدوارًا حاسمة في البحث عن المخدرات القهري. ومع ذلك ، فإن الآلية الوظيفية التي تدمج هذه الملاحظات الدوائية العصبية مع الصراع المعرفي / السلوكي المذكور أعلاه غير معروفة. نقدم هنا تفسيرًا حسابيًا رسميًا للتضارب المعرفي الناجم عن المخدرات والذي يظهر في "الخطأ الموصوف ذاتيًا" للمدمنين. نظهر أن العقاقير التي تسبب الإدمان تنتج تدريجياً تحيزًا تحفيزيًا نحو البحث عن المخدرات في عمليات اتخاذ القرار المعتادة منخفضة المستوى ، على الرغم من التقييم المعرفي التجريدي المنخفض لهذا السلوك. يظهر هذا المرض ضمن إطار التعلم التعزيزي الهرمي عندما ينتج عن التعرض المزمن للدواء دوائيًا إشارات الدوبامين الطورية المستمرة المرضية. وبالتالي ، يخطف الدواء الحلزونات الدوبامينية التي تتسلسل إشارات التعزيز أسفل التسلسل الهرمي القشري البطني الظهري. من الناحية العصبية ، تفسر نظريتنا التطور السريع لتدفق الدوبامين الناتج عن الدواء في المخطط البطني وتأخر الاستجابة في المخطط الظهري. تُظهر نظريتنا أيضًا كيف يعتمد نمط الاستجابة هذا بشكل حاسم على دوائر الدوبامين المتصاعدة. من الناحية السلوكية ، يشرح إطار عملنا الحساسية التدريجية للسعي وراء المخدرات للعقوبات المرتبطة بالمخدرات ، وظاهرة الحجب لنتائج المخدرات ، والتفضيل المستمر للمخدرات على المكافآت الطبيعية من قبل المدمنين. يقترح النموذج تنبؤات قابلة للاختبار وما بعد ذلك ، يمهد الطريق لرؤية الإدمان باعتباره علم أمراض عمليات صنع القرار الهرمي. هذا الرأي مكمل للتفسير التقليدي للإدمان على أنه تفاعل بين أنظمة القرار المعتادة والموجهة نحو الهدف.

المُقدّمة

"لقد اعترفنا بأننا كنا عاجزين عن إدماننا - أن حياتنا أصبحت غير قابلة للإدارة" تنص على أول مبدأ من برنامج الخطوة لمكافحة المخدرات المجهول 12 [1]. هذا يسلط الضوء على كيفية عثور المدمنين الذين لا حول لهم ولا قوة على أنفسهم عندما يتعلق الأمر بمقاومة المخدرات ، على الرغم من معرفة أن تناول المخدرات هو مسار خاطئ في العمل [2]-[4]. في الواقع ، السمة المميزة للإدمان هو السعي القهري للعقاقير حتى على حساب عواقب سلبية واضحة [5]. يتضح ظهور هذا السلوك المرضي في التجارب المسيطر عليها حيث يظهر المدمنون "خطأً موصوفًا ذاتيًا" مميزًا: عدم تناسق بين الاستجابة السلوكية القوية تجاه الخيارات المرتبطة بالعقار والقيمة الذاتية المنخفضة نسبياً التي يبلغ عنها المدمن على العقار [4], [6], [7]. عندما يقترن ذلك بفقد السيطرة الإدراكية المثبطة على السلوك ، بعد التعرض الطويل للمخدرات ، فإن هذا التباعد بين الخطط المعرفية والعادات الموحدة قد يؤدي إلى الانتقال من السلوك العرضي إلى البحث عن المخدرات القهرية. [8].

إن فقدان السيطرة المعرفية والخطأ الموصوف ذاتياً قد استعصى حتى الآن على تفسير مبدئي بواسطة النماذج الرسمية للإدمان. [9]-[13]. النظريات الحوسبية السابقة لإدمان المخدرات ، التي تطرح في الغالب ضمن إطار التعلم التعزيزي ، ترى الإدمان كحالة مرضية لنظام التعلم (التحفيز والاستجابة). [9]-[13]. الفرضية المركزية وراء كل هذه النماذج هي أن التأثير الدوائي للأدوية على إشارات الدوبامين ، التي يُفترض أنها تحمل إشارة تحفيز الاستجابة التعليمية ، ينتج عنها تعزيز تدريجي لهذه الارتباطات. يؤدي هذا التأثير بدوره إلى عادات قهرية في البحث عن المخدرات. في حين أن هذه النظرة المنخفضة للإدمان قد استحوذت على بعض جوانب الظاهرة ، فإن الإجماع المتزايد في أدبيات الإدمان يشير إلى أن أنظمة التعلم المتعددة تشارك في علم الأمراض. فقط مثل هذه الصورة الأكثر تعقيدًا التي تتضمن العمليات المعرفية للدماغ ، وكذلك العمليات المعتادة منخفضة المستوى ، يمكنها تفسير مجموعة متنوعة من السلوكيات الشبيهة بالإدمان [8], [14].

في هذه الورقة ، نتبنى منهجًا تعليميًا للتعزيز الهرمي [15] حيث يتم تمثيل القرارات على مستويات مختلفة من التجريد ، في التسلسل الهرمي المعرفي إلى المحرك. نفترض أن سلسلة من إشارات التعلم المعتمدة على الدوبامين تربط مستويات التسلسل الهرمي معًا [16]. نفترض أيضا أن تعاطي المخدرات إساءة الصيدلانية اختطاف آلية الاتصال بين مستويات التجريد. بناءً على هذه الافتراضات ، نظهر أن التنافر المعرفي الملاحظ في المدمنين يظهر في إطار تعلّم التعزيز الهرمي عندما يعرقل التعرض المزمن للعقاقير التعلم القيّم عبر التسلسل الهرمي للقرارات. وينتج عن هذا الاختلال تقييم مفرط مرضي لاختيارات الدواء في العمليات المعتادة منخفضة المستوى ومن ثم يقود السلوك المعتاد للبحث عن المخدرات. ثم نبرهن على أنه يمكن تفسير "المحبط" ، ولكن البحث عن المخدرات القهري ، على أنه عمليات اعتيادية منخفضة المستوى خاضعة للمخدرات تسيطر على السلوك ، في حين تفقد الأنظمة الإدراكية السليمة في المستويات التمثيلية العليا السيطرة على السلوك. علاوة على ذلك ، نثبت أن النموذج المقترح يمكن أن يفسر الأدلة الحديثة على التطور السريع مقابل تأخر تدفق الدوبامين المنبثق من المخدرات في المخطط البطني مقابل الظهري ، على التوالي ، وكذلك اعتماد هذا النمط على دائر الدوبامين المتصاعد.

مواد وطرق

مقدمات

بالتوافق مع أدب علم النفس المعرفي الغني ، تعلمنا التسلسلي الهرمي [15], [18] يفترض الإطار أنه يمكن تقسيم الخطة المعرفية المجردة مثل "تخمير الشاي" إلى سلسلة من الإجراءات ذات المستوى الأدنى: الماء المغلي ، وضع الشاي في الوعاء ، إلخ. يستمر هذا التحلل حتى الاستجابات المحددة على مستوى المحرك عند أدنى مستوى التسلسل الهرمي (الشكل شنومكسا). من الناحية العصبية ، يتم تمثيل المستويات المختلفة للتسلسل الهرمي للقرار من المستويات المعرفية إلى المحركات على طول المحور الرسغي - الذيلي لدائرة العقد القشرية القشرية (BG) [19]-[21]. تتكون هذه الدائرة من عدة حلقات متوازية مغلقة بين القشرة الأمامية والعقد القاعدية [22], [23] (الشكل شنومكسب). في حين أن الحلقات الأمامية تكمن وراء تمثيل أكثر تجريدًا للأفعال ، فإن الحلقات الذيلية ، التي تتكون من قشرة الحسية الحركية وطبقة الساق الظهرانية ، تشفر العادات منخفضة المستوى [19]-[21].

صورة مصغرة

الرقم 1. التنظيم الهرمي للسلوك والدائرة Cortico-BG.

A، مثال على التسلسل الهرمي للقرار لخيارين بديلين: المخدرات مقابل الغذاء. يتم تمثيل كل مسار من العمل على مستويات مختلفة من التجريد ، ويفترض أنها مشفرة في الحلقات المختلفة من كورتيكو-بي. قد يسعى اتباع كل نوع من نوعي المكافأة إلى معاقبة مقدار 16. Bوصلات الوصل من مناطق مختلفة في الجبهي إلى المناطق الفرعية المخطط لها ، ثم العودة إلى PFC من خلال الشرايين والمهاد ، لتشكيل العديد من الحلقات المتوازية. من خلال شبكة الدوبامين المخططة - المخططة ، تؤثر المناطق البطنية للمخطط على المناطق الظهرية. vmPFC ، قشرة الفص الجبهي الإنسي ؛ OFC ، قشرة أمامية مدارية ؛ dACC ، القشرة الحزامية الأمامية الظهرية ؛ SMC ، القشرة الحسية الحركية ؛ VTA، tegmental ventral area؛ SNc، substantia nigra pars compacta. الشكل شنومكسب تم التعديل من المرجع 21.

دوى: 10.1371 / journal.pone.0061489.g001

داخل هذه الدائرة ، يُشير النشاط الطوري لعصبونات الدوبامين في الدماغ الأوسط إلى الإسقاط إلى الخطأ بين المكافآت المتوقعة والمتوقعة ، وبالتالي يحمل معلومات تعزيز استجابة التحفيز [24]. تشكل هذه التوقعات DAergic اتصال تسلسلي متسلسل يربط أكثر المناطق البطنية من المخطط إلى مناطق ظهريه أكثر تدريجيًا من خلال ما يسمى بـ "الوصلات المتصاعدة". [25]-[27] (الشكل شنومكسب). ومن الناحية الوظيفية ، تسمح هذه المنظمة التي تقدم التغذية إلى الأمام والتي تربط بين منقاري إلى حلقات الذيلية القشرية - BG اقتران الموجهة من الخشنة لتمثيل غرامة. وبناءً على ذلك ، يتم الافتراض بأن الحلزونات DA توفر ركيزة عصبية بيولوجية للضبط التدريجي لخطأ التنبؤ بالمكافأة من خلال المستويات الأعلى للتسلسل الهرمي (ترميز المعرفة المجردة عن قيمة الخيارات السلوكية). ثم يتم استخدام هذا الخطأ لتحديث قيم العمل بمستويات أكثر تفصيلاً [16]. وبعبارة أخرى ، تسمح دواليب DA للمستويات المجردة المعرفية للتقييم بتوجيه التعلم في عمليات تقييم العمل الأكثر تفصيلاً.

رسم النظرية

من حيث النظرية الحسابية للتعلم التعزيز [28] (RL) ، الوكيل (في حالتنا شخصًا أو حيوانًا) يتعلم اتخاذ خيارات عمل مستنيرة عن طريق تحديث قيمته المقدرة السابقة ، لكل زوج عمل حكومي عندما مكافأة يتم استلامه من قبل الوكيل في الوقت المناسب نتيجة لأداء عمل في الحالة السياقية (المنبه) . القيمة يتم تحديثه عن طريق حساب إشارة خطأ التنبؤ بالمكافأة. هذه الإشارة لا تعتمد فقط على المكافأة المستلمة بشكل فوري () ، ولكن أيضًا على قيمة الحالة الجديدة التي ينتهي بها الوكيل ، بعد تنفيذ هذا الإجراء. يرمز بها تمثل وظيفة القيمة المتطورة مؤقتًا مجموع المكافآت المستقبلية التي يتوقع الحيوان استلامها من الحالة الناتجة ، ، فصاعدا. يمكن حساب خطأ التنبؤ بالمعادلة التالية:


(1)

بشكل حدسي ، إشارة الخطأ التنبؤ تحسب التناقض بين القيمة المتوقعة والمكافأة المحققة للعمل. في هيكل قرار هرمي ، ومع ذلك ، بدلا من تعلم القيم بشكل مستقل على مستويات مختلفة ، يمكن لمستويات أكثر تجريدية لحن إشارة التعليم المحسوبة في المستويات الدنيا. بما أن المستويات الأعلى من التسلسل الهرمي تمثل تمثيلاً أكثر تجريدًا لحالات الطوارئ البيئية ، فإن التعلم يحدث بشكل أسرع في تلك المستويات. ويرجع ذلك إلى الأبعاد النسبية المنخفضة للتمثيل التجريدي للسلوك: يمكن تمثيل خطة العمل كخطوة واحدة (بُعد واحد) في المستوى الأعلى للتسلسل الهرمي وكإجراءات مفصلة متعددة (أبعاد متعددة) في المستويات الدنيا من التسلسل الهرمي. سيتم تعلم قيمة المستوى الأعلى لخطة العمل هذه بسرعة بالمقارنة مع المستويات التفصيلية التي تحتاج فيها أخطاء المكافأة إلى نشر جميع خطوات الإجراءات التفصيلية. وبالتالي ، يمكن أن يؤدي ضبط قيم المستوى الأدنى بواسطة معلومات القيمة من المستويات الأعلى إلى تسريع تقارب هذه القيم. طريقة واحدة ذات كفاءة إحصائية للقيام بذلك هي أن نفترض أن لحساب إشارة الخطأ التنبؤ في المستوى الثالث من التجريد ، ، وظيفة القيمة المتقدّمة زمنياً ، ، يأتي من مستوى أعلى من التجريد ، [16]:


(2)

للحفاظ على الأمثلية ، يمكن استخدام المعادلة 2 لحساب خطأ التنبؤ فقط عندما يتم تنفيذ آخر إجراء تأسيسي من الخيار التجريدي (انظر الشكل S1 في ملف S1). في حالات أخرى ، يحدث تعلم القيمة على مستويات مختلفة بشكل مستقل ، كما هو الحال في المعادلة 1. في كلتا الحالتين ، يتم استخدام إشارة التدريس لتحديث القيم السابقة في المستوى المقابل:


(3)
أين هو معدل التعلم. هذا الشكل من تقاسم المعلومات بين المستويات مقبول بيولوجياً لأنه يعكس البنية المتصاعدة لدائرة DA ، التي تحمل المعلومات أسفل التسلسل الهرمي في الاتجاه الظهري. وفي الوقت نفسه ، فإن الاسترشاد بمستويات أكثر تجريدية يسرع بشكل كبير من التعلم ، مما يخفف من الأبعاد العالية لتعلم القيمة على مستويات مفصلة [16].

في هذه الورقة نبين أن التفاعل بين نسخة معدلة من النموذج تم تطويره في [16] ويمكن للتأثيرات الدوائية المحددة لعقاقير الإساءة على النظام الدوباميني أن تلتقط البيانات المتعلقة بالإدمان على مستويات مختلفة من التحليلات: السلوكية العصبية والسلوكية. أولاً ، يجلب النموذج الجديد تفسيرًا مقنعًا محتملاً للعديد من الجوانب السلوكية المثيرة المرتبطة بالإدمان على الأدوية (مثل الخطأ الموصوف ذاتيًا [4], [6], [7]). ثانياً ، يمكننا حساب مجموعة واسعة من الأدلة المتعلقة بديناميات إطلاق الدوبامين المستحث بالمخدرات [17].

نقوم بتعديل النموذج المعروض في [16] على النحو التالي. نجعل النموذج أكثر كفاءة من حيث سعة الذاكرة العاملة عن طريق استبدال مع ، في المعادلة 2 ، حيث تتقارب القيمتان إلى نفس المستوى الثابت (انظر الشكل S2 في ملف S1، للأساس الحسابي والعصبي):


(4)

هنا، هو الخيار التجريدي نسبيا و هو الإجراء البدائي الأخير في التسلسل السلوكي الذي يملأ هذا الخيار بالكامل. وبالمثل، هي قيمة مجزية ، والذي يتضمن (القيمة المجزية لل ).

والأهم من ذلك أن الأدوية المختلفة التي يساء استخدامها من قبل البشر تشترك في خاصية أساسية لزيادة تركيز الدوبامين دوائيا ضمن المخطط [29]. وبناءً على ذلك ، فإننا ندمج هذا التأثير الدوائي للدواء عن طريق إضافة تحيز إيجابي ، ، (أنظر أيضا [9]-[12]) إلى إشارة الخطأ التنبؤ التي تحملها الخلايا العصبية الدوبامين (انظر الشكل S3 في ملف S1، للأساس الحسابي والعصبي):


(5)

هنا يلتقط التأثير الدوائي المباشر للدواء على نظام DA ، و هو قيمته تعزيز بسبب الآثار euphorigenic (انظر ملف S1 للحصول على معلومات تكميلية).

في حين أن المعادلات 3 و 5 تحددان معاً الآلية الحسابية لتحديث القيم في نموذجنا ، فإننا نفترض أيضًا أن آلية المنافسة المستندة إلى عدم اليقين تحدد مستوى التجريد الذي يتحكم في السلوك. هذا مستوحى من الآلية المقترحة في [29] للتحكيم بين الأنظمة المعتادة والموجهة نحو الهدف. في هذا الصدد ، عند كل نقطة اتخاذ قرار ، فإن مستوى التجريد الذي يتمتع بأعلى درجات اليقين في تقدير قيمة الخيارات يتحكم في السلوك. بمجرد أن يتخذ هذا المستوى قرار التصرف ، سيتم نشر جميع المستويات الدنيا من التسلسل الهرمي بواسطة هذا المستوى المهيمن لتنفيذ الإجراء المحدد كتسلسل من الاستجابات الحركية البدائية (انظر ملف S1 للحصول على معلومات تكميلية الشكل S4 في ملف S1. الشكل S5 في ملف S1). عند استلام ملاحظات المكافأة من البيئة ، يتم تحديث القيم على جميع المستويات. وتتنبأ آلية التحكيم المستندة إلى عدم اليقين هذه أنه بما أن العمليات المجردة أكثر مرونة ، فإن لديها قدرة عالية على تقدير القيمة خلال المراحل المبكرة من التعلم وبالتالي ، التحكم في السلوك في هذه المراحل. ومع ذلك ، بما أن المستويات المجردة تستخدم تمثيلًا خافتًا للبيئة (على سبيل المثال ، بسبب احتوائها على عدد قليل نسبيًا من الوظائف الأساسية) ، فإن قدرتها التقريبية للقيمة النهائية ليست دقيقة مثل تلك المستويات التفصيلية. بعبارة أخرى ، بعد التدريب المكثف ، يكون اليقين المرتبط بالقيم المقدرة أقل بالنسبة للمستويات الدنيا للتسلسل الهرمي بالمقارنة مع المستويات العليا. وهكذا ، مع التعلم التدريجي ، تتولى المستويات الأدنى من التسلسل الهرمي السيطرة على اختيار الإجراء ، حيث تقل درجة عدم اليقين تدريجيا. وهذا يتفق مع عدة خطوط من الأدلة التي تبين الهيمنة التدريجية للظهري فوق المخطط البطني في السيطرة على البحث عن المخدرات (وكذلك السعي للحصول على المكافآت الطبيعية) [8], [30], [31].

النتائج

يظهر التناقض في تقييم التسلسل الهرمي في إطار العقاقير ولكن ليس المكافآت الطبيعية

على النقيض من النماذج الحسابية القائمة على التعلم التعزيز السابقة من الإدمان [9]-[13] التي تستند إلى نهج نظام قرار واحد ، حسابنا مبني على إطار عمل متعدد الأنظمة. نتيجة لذلك ، على الرغم من أن شكل تأثير عقار النمذجة على إشارة خطأ التنبؤ في نموذجنا مشابه للإشارات السابقة [9]-[12]، يؤدي إلى عواقب مختلفة جذريا. يزيد الدوبامين العابر الذي يسببه الدواء من خطأ التنبؤ الفوري في كل مستوى من مستويات التسلسل الهرمي ، ونتيجة لذلك ، ينحصر في التحيز ، ، على نقل المعرفة من مستوى واحد من التجريد إلى التالي ، على طول الاتجاه الخشن إلى الغرامة من التسلسل الهرمي. هذا التحيز يسبب القيمة المقاربة من البحث عن المخدرات في مستوى معين ليكون وحدات أعلى من طبقة واحدة أكثر تجريدية (الشكل شنومكسب). إن تراكم هذه التناقضات على طول المحور الرسولي-الذيلي يؤدي بشكل تدريجي إلى اختلافات كبيرة في قيمة سلوكيات البحث عن المخدرات بين القمة القصوى والسفلية في التسلسل الهرمي. وهكذا ، حتى عندما يتبعها عقاب قوي ، تظل قيمة السلوك المرتبط بالعقار إيجابية في حلقات المحركات ذات المستوى المنخفض ، بينما تصبح سلبية عند المستويات الإدراكية. بعبارة أخرى ، يتنبأ النموذج بأن تراكم تأثير الدواء على دواليب DA يزيد من قيمة البحث عن المخدرات في عادات مستوى المحرك إلى هذا الاتساع الكبير لدرجة أنه حتى العقوبة الطبيعية القوية لن تكون قادرة على تقليلها بشكل كافٍ. نقترح أن هذا يفسر عدم الاتساق بين التقييم المعرفي والمنخفض المستوى للسلوكيات المتعلقة بالمخدرات في المدمنين. بعبارة أخرى ، نقترح أن البحث عن المخدرات القهرية والمرونة المنخفضة إلى التكاليف المرتبطة بها ينبعان من التأثير الدوائي الذي يخترق المخدرات لآلية تعتمد على الدوبامين والتي تنقل المعلومات بين مستويات التسلسل الهرمي للقرار.

صورة مصغرة

الرقم 2. الدافع للأغذية مقابل المخدرات عند مستويات مختلفة من التجريد (نتائج المحاكاة).

في أول تجارب 150 حيث لا يتبع أي عقاب المكافأة ، تتقارب قيمة البحث عن المكافآت الطبيعية على جميع المستويات إلى 10 (A). لحالة الدواء ، ومع ذلك ، فإن التأثير الدوائي المباشر للدواء (، ضبط ل) النتائج في القيمة المقارب عند كل مستوى وحدات أعلى من مستوى أعلى واحد من التجريد (B). وهكذا ، عندما تتبعها العقوبة ، في حين أن الحلقات المعرفية تعطي قيمة سالبة بشكل صحيح لخيار البحث عن المخدرات ، فإن الحلقات على مستوى المحرك تجد المرغوب في البحث عن الدواء مرغوبا (قيمة إيجابية). تظهر المنحنيات في هذا الشكل تطور القيم في الحيوان المحاكى "الأول" وبالتالي لا يوجد تحليل إحصائي قابل للتطبيق.

دوى: 10.1371 / journal.pone.0061489.g002

في حين أن الأدوية ، في نموذجنا ، تؤدي إلى تقييم غير متوازن عبر المستويات ، تتقارب قيمة المكافآت الطبيعية مع القيمة نفسها عبر جميع المستويات ، بسبب عدم وجود تأثير دوائي مباشر على آلية التشوير DA (). وبالتالي ، لن يلاحظ أي تناقض أو مغالاة في المستويات المفصلة في حالة المكافآت الطبيعية (الشكل شنومكسا). يجب أن يؤدي المبالغة في تقييم استجابات البحث عن الأدوية عند مستويات أدنى من التسلسل الهرمي إلى تفضيل غير طبيعي للعقاقير على المكافآت الطبيعية ، والتفاعل المفرط في الأنشطة المتعلقة بالمخدرات.

الدوبامين التفاضلي يستجيب في المخطط البطني مقابل الظهري للإشارات المرتبطة بالعقاقير

من الناحية البيولوجية العصبية ، فإن الأدوار التفاضلية للمنطقة دون الإقليمية في المخططات في اكتساب سلوك البحث عن المخدرات والتعبير عنه قد احتلت مركز الصدارة في أبحاث الإدمان. تشير الدلائل المتقاربة من خطوط البحث المختلفة إلى أن الانتقال السلوكي من الاستخدام الترويحي إلى تعاطيه المخدرات القهري يعكس تحولاً عصبيًّا حيوياً في التقييم من البَطْنية إلى المخطوطة الظهرانية الجانبية. [8], [33], [34]، يقابل التحول من المعرفية إلى المستويات التفصيلية في نموذجنا. تماشيا مع نموذجنا ، يظهر أن شبكة DA المتصاعدة التي تربط بين البطين إلى مناطق ظهريه أكثر تدريجيًا من المخططات تلعب دورًا محوريًا في هذا الانتقال [25].

في دراسة حديثة رئيسية Willuhn وآخرون. [17] تقييم نمط إطلاق الدوبامين ردا على الإشارات المرتبطة بالمخدرات في مخطط الفئران البطني والظهراني خلال ثلاثة أسابيع من تجربة الكوكايين. باستخدام مقياس voltammetry دوري مسح سريع ، كانت الملاحظة الحرجة أن تدفق DA الناجم عن التلعثم في المخطط البطني يظهر حتى بعد تدريب محدود للغاية. في المقابل ، أظهر المخطط الظهاري الوحشي تدفق DA أثار جديلة فقط بعد التدريب المكثف ، واختفى تطور هذا النمط الافراج عندما تم lesated المخطط البطني في النصف المخيخي المماثل.

بما أن القرار الزمني لفولتاممتري المسح السريع يلتقط تقلبات التباين في التركيز ، يجب أن يعزى النمط المرصود لتدفق DA إلى تشوير DA "طوري" وبالتالي ، إلى إشارة خطأ التنبؤ ، وفقًا لنظرية RL للدوبامين [24]. وفقاً لنظرية RL ، فإن إشارة الخطأ التنبؤي عند ملاحظة حافز غير متوقع تساوي القيمة المكافئة التي يتوقعها هذا التحفيز. لذلك ، فإن إصدار DA المستحث بـ cue يُعادل القيمة المتنبأ بها.

في هذا الصدد ، يقدم إطارنا الهرمي شرحًا رسميًا للنمط التفاضلي للبطن البطني مقابل الدرز الظهري DA الذي تم الإبلاغ عنه في [17]. تتنبأ القيمة التي يتنبأ بها الجراد المرتبط بالعقار بالمستويات المعرفية المجردة للتسلسل الهرمي بسرعة في المراحل الأولى من التدريب (الشكل شنومكسب) ، بسبب انخفاض الأبعاد لمشكلة التعلم عند مستويات عالية من التجريد. ونتيجة لذلك ، يوضح نموذجنا أنه يجب ملاحظة تدفق DA الناجم عن جديلة في المخطط البطني حتى بعد تدريب محدود (الشكل 3). على أي حال ، عند مستويات التمثيل الأكثر تفصيلاً ، تكون عملية التعلم بطيئة (الشكل شنومكسب) ، بسبب الأبعاد العالية لمساحة المشكلة ، وكذلك الاعتماد على التعلم على مستويات أكثر تجريدية من خلال اللوالب DA. وبالتالي ، يجب أن يتطور تدفق DA المستحث بتأثير DA في المخطط الظهاري الجانبي بشكل تدريجي ولا يمكن ملاحظته إلا بعد تدريب مكثف (الشكل 3).

صورة مصغرة

الرقم 3. دفق الدوبامين في مناطق فرعية مختلفة من الرواسب استجابةً للعواطف المرتبطة بالمخدرات (نتائج المحاكاة).

تمشيا مع البيانات التجريبية [17]يظهر النموذج (العمود الأيسر) أنه استجابةً للعناوين المرتبطة بالمخدرات ، سيكون هناك تدفق الدوبامين في المخطط البطني ، بعد تدريب محدود وشامل. غير أنه في المناطق الفرعية الفرعية الأخرى على ظهر الهاوية ، سيتطور تدفّق DA المتميّز تدريجياً خلال مسار التعلّم. يتنبأ النموذج (العمود الثاني من اليمين) أن هذا التأخر في تطور تدفق DA المفاجئ في المخطط الظهري يعتمد على الاتصال المتسلسل المعتمد على DA الذي يربط بين البطين بالمخطط الظهري. وهذا هو ، نتيجة لفصل حلزونات DA ، في حين أن الاستجابة DA المفعمة بالتحذير تظل سليمة في المخطط البطني ، فإنها تنخفض بشكل ملحوظ في المخطط الجانبي الظهاري. علاوة على ذلك ، يتنبأ النموذج (العمود الثالث من اليمين) بنتائج متشابهة لتدفق DA المستحث بتأثير DA في المخطط الجانبي الظهاري للحالة المخططية البطنية. وأخيرًا ، إذا تم بعد تعاطي دواء شامل في حيوانات سليمة ، تعاقب المخدرات ، يتنبأ النموذج (العمود الأيمن) بأن الجديلة المتعلقة بالمخدرات تؤدي إلى تثبيط الساق البطنية من دوارات DA ، حتى بعد تدريب محدود. ولكن في المناطق الظهرية ، يتناقص تدفق DA ببطء أثناء التعلم ، ولكنه سيبقى إيجابيا حتى بعد الاقتران الشامل للعقاقير. يتم الحصول على البيانات المقدمة في هذا الرقم من حيوان محاكاة "واحد" ، وبالتالي ، لا يوجد تحليل إحصائي قابل للتطبيق.

دوى: 10.1371 / journal.pone.0061489.g003

علاوة على ذلك ، يشرح نموذجنا الأدلة في [17] أن مثل هذا التطور المتأخر لتدفق DA المتدرج في المخطط الظهاري المجهري يعتمد على المخطط البطني (الشكل 3). في نموذجنا ، تقلل الآفة أحادية الجانب المحاكاة للمخطط البطني (مستوى التقييم المجرد في النموذج) بشكل كبير قيمة التنبؤ بالعقار بالمستويات التفصيلية في نصف الكرة الأرضية المماثل ، وبالتالي تقلل بشكل كبير من مستوى تدفق DA المستحث بتأثير. من أجل نموذج آفة من المخطط البطني ، نقوم ببساطة بإصلاح قيمة جميع المنبهات على أعلى مستوى من التسلسل الهرمي إلى الصفر.

وبالمثل ، فإن نموذجنا يتنبأ بأن تطوير إشارات DA الطورية في المخطط الظهاري المجهري يعتمد على سلامة الدائرة المتصاعدة DA (الشكل 3). في الواقع ، إن قطع الاتصال في الدائرة المتصاعدة DA في نموذجنا يقطع الاتصال عبر مستويات التجريد ، وهذا بدوره يمنع تراكم التحيز الناجم عن الدواء على إشارة التعزيز ، على طول مستويات التسلسل الهرمي للقرار. لنمذجة الانفصال في الدائرة التسلسلية التي تعتمد على DA للخطاط البطني إلى الظهري ، نقوم بتثبيط كل مستوى تجريد لحساب إشارة خطأ التنبؤ محليا (كما في المعادلة 3) ، دون الحصول على قيمة الحالة المتقدمة زمنيا من المستوى الأعلى على الفور مستوى التجريد.

علاوة على ذلك ، يتنبأ النموذج بأن نمط تدفق DA المفاجئ سيتغير إذا بعد تدريب مكثف مع الإشارات المرتبطة بالكوكايين والكوكايين ، كما في التجربة السابقة ، يبدأ المرء في إقران توصيل الكوكايين بعقاب قوي. نتوقع أن تدفق DA استجابةً لجديلة الكوكايين المرتبطة يجب أن ينخفض ​​بسرعة أقل من خط الأساس في المخطط البطني. في المخطط الظهاري الوحدي ، على أية حال ، يجب أن يبقى إطلاق DA المستحث بتطبيق cue فوق خط الأساس (الشكل 3) مع احتمال انخفاض جزئي مؤجل. هذا يدل على تعيين قيمة ذاتية إيجابية لمحفز المخدرات عند مستويات مفصلة ، على الرغم من القيم السلبية (أقل من خط الأساس) في المستويات المعرفية. من الجدير بالذكر أن هذا التنبؤ يعتمد على افتراض أن العقاب يعامله الدماغ كمجرد سلبي. هذا الافتراض مثير للجدل إلى حد ما: فهو مدعوم بوضوح من الدراسات التجريبية [35]، ولكن ناقش أيضا خلاف ذلك من قبل الآخرين [14], [36]. وباستثناء هذا التنبؤ ، لا تعتمد جوانب أخرى من النموذج على ما إذا كانت العقوبة مشفرة بواسطة الدوبامين أو بنظام إشارات آخر.

نظام التدريب المستخدم من قبل Willuhn et al. [34] لا يمتد إلى حدٍ كافٍ لإنتاج سلوك إجباري يسعى إلى البحث عن المخدرات ، ويتميز بعدم الاحساس بالعقوبات المرتبطة بالعقاقير [37], [38]. وبالتالي ، فإن السؤال الرئيسي الذي يجب الإجابة عليه هو ما هي العلاقة بين التأخر في تطوير استجابة DA المستحثة في DLS ، والتأخر في الاستجابة للرد القهري. ووفقًا لنموذجنا ، فإن السلوك القهري لا يتطلب فقط التقييم المفرط لاختيار الدواء عند مستويات منخفضة من التسلسل الهرمي ، ولكن أيضًا نقل السيطرة على السلوك من الإدراك التجريدي إلى العمليات المعتادة منخفضة المستوى. يتوقف النطاق الزمني لهاتين العمليتين فقط جزئياً على بعضهما البعض: تعتمد عملية التقدير الزائد على إشارة خطأ التنبؤ ، بينما يعتمد نقل التحكم السلوكي أيضاً على أوجه عدم التيقن النسبية في تقدير القيمة. ومن ثم ، يمكن أن يسبق التقييم المفرط للمنبهات المرتبطة بالمخدرات عند مستويات منخفضة من التسلسل الهرمي انتقال السيطرة على السلوك من أعلى إلى أسفل التسلسل الهرمي. تعتمد المقاييس الزمنية الدقيقة للعمليتين على معدل التعلم والضوضاء المتأصلة في المستويات المختلفة ، على التوالي (انظر ملف S1 للحصول على معلومات تكميلية). وبعبارة أخرى ، من المحتمل أن يكون تدفق الدوبامين الناجم عن التلويث في DLS قد يتطور بشكل كبير قبل أن يتجلى طلب الأدوية القهري بشكل سلوكي.

الآثار السلوكية للتقييم غير المتناسق للعقاقير مقابل المكافآت الطبيعية

من الناحية السلوكية ، في نموذجنا ، إذا تم إقران العقوبة مع الدواء في المراحل المبكرة من الاستخدام الطوعي للمخدرات ، فإن القيمة المجردة لاستجابة البحث عن الدواء تصبح سلبية بسرعة. إذا افترضنا أن البحث عن المخدرات يتم التحكم فيه بمستويات مجردة خلال هذه المراحل المبكرة ، فإن التقييم التجريدي السلبي لاختيار الدواء يجعل الشخص غير راغب في تجربة هذا المسار. سيمنع ذلك توطيد تفضيل قوي منخفض المستوى للعقاقير مع مرور الوقت. وهكذا ، يشرح النموذج مرونة خيارات الأدوية للتكاليف خلال المراحل المبكرة لاستهلاك الدواء ، ولكن ليس بعد الاستخدام المزمن. على نحو ثابت ، تظهر النماذج الحيوانية للإدمان أن عدم استجابة استجابات الأدوية للعواقب الضارة المرتبطة بالعقاقير لا يتطور إلا بعد فترة طويلة من تعاطي المخدرات ذاتيًا ، ولكن ليس استخدامًا محدودًا للمخدرات [37], [38]. على النقيض من نظريتنا ، والنماذج الحسابية في وقت سابق من الإدمان [9], [10] في تناقض مباشر مع هذه المجموعة من الأدلة ، حيث أنها تتنبأ بأن النتائج السلوكية السلبية التي تتبع مباشرة تعاطي المخدرات ، ليس لها تأثير تحفيزي حتى في المراحل المبكرة من تجربة العقاقير (انظر ملف S1 للحصول على معلومات تكميلية).

نموذجنا مزيد من الحسابات عن حدوث تأثير عرقلة لنتائج المخدرات [39]. إن المنع هو ظاهرة تكيّف حيث يكون الإقران المسبق لمحفز A مع تكوين كتل نتيجة ارتباط بين حافز مختلف B مع تلك النتيجة في مرحلة تدريب لاحقة ، حيث يتم تقديم كل من A و B قبل تسليم النتيجة [40]. نتائج محاكاة نموذجنا في تصميم تجريبي Pavlovian (انظر ملف S1 للحصول على معلومات تكميلية عن نسخة Pavlovian من النموذج) يظهر أنه في كلتا الحالتين من المكافآت الطبيعية والمخدرات ، عندما تصل القيمة المقدرة عند مستوى معين من التسلسل الهرمي إلى حالته الثابتة (بدلاً من أن تنمو بدون قيود) ، لا يحدث أي تعلم إضافي عند ذلك المستوى ، حيث أن إشارة خطأ التنبؤ قد انخفضت إلى الصفر (الشكل 4). وبالتالي ، سيتم حظر ربط التحفيز الجديد بالمكافأة المتوقعة بالفعل. أدلة سلوكية تظهر تأثير مانع يرتبط بكل من الأدوية والعقاقير الطبيعية المعززة [39] وقد استخدم كحجة رئيسية لانتقاد نموذج الحوسبة المقترحة من الإدمان القائم على الدوبامين [9]. لقد أوضحنا هنا أن التركيز على الطبيعة الهرمية للتمثيلات وتنظيم حلقة الدوبامين اللولبية الظهرية المتصاعدة يمكن أن يمثل في الحقيقة بيانات المنع ، وبالتالي التحايل على هذا النقد (انظر ملف S1 للحصول على معلومات تكميلية).

صورة مصغرة

الرقم 4. منع تأثير المكافآت الطبيعية مقابل الأدوية.

يتوقع النموذج أن الحظر يحدث للمكافآت الطبيعية (A) والمخدرات (B) ، فقط إذا كانت فترة التدريب الأولية "شاملة" ، بحيث يتنبأ الحافز الأول تمامًا بقيمة النتيجة. بعد التدريب "المعتدل" ، فإن المستويات المعرفية الأكثر مرونة تتنبأ بشكل كامل بالقيم وبالتالي تحد من التعلم. ومع ذلك ، لا يزال التعلم نشطًا في العمليات ذات المستوى المنخفض عندما تبدأ مرحلة التدريب الثانية (العرض المتزامن لكل من المحفزات). وبالتالي ، يتنبأ نموذجنا بأن التدريب الأولي المعتدل في تجربة المنع مع المكافآت الطبيعية سيؤدي أيضًا إلى تناقض معرفي / سلوكي. يتم الحصول على البيانات المقدمة في هذا الرقم من حيوان محاكاة "واحد" ، وبالتالي ، لا يوجد تحليل إحصائي قابل للتطبيق.

دوى: 10.1371 / journal.pone.0061489.g004

كما ذكرنا من قبل ، تظهر عدة أدلة إثباتية للهيمنة التدريجية للظهري فوق المخطط البطني في السيطرة على السلوك أثناء سير التعلم. [8], [31], [32]. عند تفسيره على خلفية هذه الأدلة ، فإن التقييم غير المتوازن للبحث عن المخدرات عبر التسلسل الهرمي يفسر أيضًا جهود المدمنين الفاشلة لتقليل استخدام المخدرات بعد تجربة طويلة مع المخدرات ، عندما تحولت السيطرة على الخيارات المتعلقة بالمخدرات من الإدراك إلى المستوى المنخفض. مستوى العمليات المعتادة. يؤدي تفوق العمليات التي يهيمن عليها الدواء بشكل طبيعي إلى عدم المرونة السلوكية للتكاليف المرتبطة بالعقاقير (البحث القهري عن المخدرات) ، ومن المحتمل أن يكون مصحوبًا بخطأ موصوف ذاتيًا. بالنسبة لحالة المكافآت الطبيعية ، يتنبأ نموذجنا أنه على الرغم من زيادة عدم المرونة السلوكية خلال مسار التعلم ، حيث لا يتطور أي تناقض في التقييم عبر مستويات التسلسل الهرمي ، فإن العقوبات المرتبطة بالمكافأة ستثبط في النهاية السعي وراء المكافأة.

يركز نموذجنا على تقييم الإجراءات في التسلسل الهرمي لقرارات "من المفترض" ، ويترك جانباً كيفية اكتشاف الخيارات التجريبية وما يقابلها من روتينات فرعية منخفضة المستوى أثناء التطوير. يُقترَح اكتشاف التسلسل الهرمي للقرار بأن يكون عملية من أسفل إلى أعلى ، ويتم إنجازها من خلال معاينة متواليات الإجراءات ذات المستوى المنخفض وبناء المزيد من الخيارات المجردة [41]. هذه العملية ، التي يفترض أنها تمر بتحول من الظهرية إلى المخطط البطني ، هي في الاتجاه المعاكس لآلية المنافسة المقترحة هنا ، من أجل السيطرة على السلوك.

مناقشة

عادة ما يتم تفسير الدليل المتنامي على الدور التفاضلي لمختلف المناطق الفرعية في الجسم في الإدمان في إطار التقسيم المعتاد مقابل الهدف. [8], [14], [34]. إن نهج اتخاذ القرار الهرمي الذي نستخدمه هنا مكمل لمثل هذه الحسابات المزدوجة النظام. في حين أن نهج العملية الثنائية يتعامل مع خوارزميات مختلفة (نموذج خال من طراز القاعدة [30]) لحل مشكلة واحدة ، يركز إطار عمل RL الهرمي على تمثيلات مختلفة لنفس المشكلة على مستويات مختلفة من التجريد الزمني. من الناحية النظرية ، إما أن خوارزمية معتادة أو موجهة نحو الهدف يمكن أن تحل كل من هذه التصورات المختلفة للمشكلة. في نموذجنا ، يحدث تراكم التحيزات التي يسببها الدواء عبر اللوالب DA في بيئة تكون فيها خوارزمية تقدير القيمة خالية من النموذج (تعلم العادة). ومع ذلك ، لا يستبعد هذا وجود أنظمة قائمة على نماذج تعمل في المستويات العليا من التسلسل الهرمي. يمكن للمرء ببساطة دمج نظام التقييم والقرار الموجه نحو الأهداف المعتمدة على مركبات الكربون الكلورية فلورية في النموذج بافتراض أن الإجراءات على أعلى مستويات التجريد يتم تقييمها بواسطة نظام موجه نحو الأهداف. على الرغم من أن مثل هذا التعقيد لا يغير طبيعة النتائج المقدمة في هذه المخطوطة ، فإن المرونة الإضافية الناتجة عن ذلك في شرح جانب آخر من الإدمان تترك للدراسات المستقبلية. في الواقع ، في نموذجنا ، بغض النظر عن وجود أو عدم وجود نظام مباشر للأهداف ، فإن التناقض في القيمة المقاربة لطلب الأدوية بين طرفي التسلسل الهرمي يتزايد مع عدد مستويات القرار التي تحكمها العملية "المعتادة" .

في ضوء نظريتنا ، يمكن النظر إلى الانتكاس على أنه إحياء لعادات عدم القدرة على التكيف على المستوى الحركي ، بعد فترة من هيمنة المستويات المعرفية. في الواقع ، يمكن للمرء أن يتصور أنه نتيجة للعلاج المعرفي (في المدمنين على البشر) أو الانقراض القسري (في النماذج الحيوانية من الامتناع عن ممارسة الجنس) ، لا يتم إخماد قيمة عالية من البحث عن المخدرات على المستوى التفصيلي للتسلسل الهرمي ، ولكن تصبح كامنة بسبب لتحويل السيطرة إلى المستويات المعرفية. بما أن السلوك المرتبط بالمخدرات حساس للعواقب الضارة على المستويات المجردة ، فيمكن تجنب البحث عن المخدرات طالما أن العمليات المعرفية عالية المستوى تهيمن على السيطرة على السلوك. يمكن للمرء حتى التكهن بأن برامج الخطوة 12 الشعبية (على سبيل المثال مدمني الخمر المجهولين ، المخدرات مجهول ، الخ) تعمل جزئيا من خلال مطالبة المشاركين صراحة بالاعتراف بعدم تناسق نمط حياتهم المتعلق بالعقاقير ، وبالتالي تمكين المستويات المعرفية المجردة من ممارسة السيطرة الصريحة على سلوك. يمكن اعتبار الظروف العصيبة أو إعادة التعرض للعقار (فتيلة) كعوامل خطر تؤدي إلى إضعاف هيمنة المستويات التجريدية على السلوك ، والتي يمكن أن تؤدي إلى إعادة ظهور استجابات البحث عن الأدوية (بسبب القيم غير المعرفية العالية الكامنة ).

باختصار ، نقترح حسابًا متماسكًا للعديد من الظواهر المتباينة على ما يبدو المميزة لإدمان المخدرات. يوفر نموذجنا حسابًا معياريًا للبيانات المتعلقة بالأدوار التفاضلية للدوائر المخططة البطنية مقابل الظهرية في اكتساب الباحثين عن الأدوية وأداء العادة ، بالإضافة إلى الدور الانتقائي لتوصيل DA للتغذية الأمامية لتأثيرات الدواء مقابل المعززات الطبيعية. الأهم من ذلك ، نوضح كيف أن علم الأمراض الناجم عن المخدرات في إشارات DA البطنية إلى الظهرية التي تتدفق على المعلومات التحفيزية أسفل التسلسل الهرمي للتمثيل المعرفي يمكن أن تؤدي إلى الخلاف بين المواقف المجردة للمدمنين تجاه البحث عن المخدرات وما يفعلونه بالفعل. من الواضح أن نموذجنا لا يقدم وصفاً كاملاً عن إدمان المخدرات وليس المقصود منه تقديم ذلك. يتطلب شرح الجوانب الأخرى غير المبررة للإدمان دمج العديد من أنظمة الدماغ الأخرى التي ثبت أنها تتأثر بتعاطي المخدرات [42]. تبقى كيفية دمج هذه الأنظمة في الشبكة الحسابية الرسمية موضوعًا لمزيد من التحقيق.

دعم المعلومات

File_S1.pdf
 

الشكل S1 ،نموذج لهرمية القرار مع خمسة مستويات من التجريد. الشكل S2 ، الدارة العصبية المقابلة لثلاث خوارزميات تعلم القيمة التي تمت مناقشتها هي بنية قرار هرمية. A, باستخدام خوارزمية بسيطة لتعلم TD (المعادلة S7) ، يتم حساب إشارة خطأ التنبؤ في كل مستوى من مستويات التجريد بشكل مستقل عن المستويات الأخرى. B, في النموذج الذي اقترحه Haruno و Kawato (4) (المعادلة S8) ، تأتي قيمة الحالة المتقدمة زمنياً من مستوى تجريد واحد أعلى. C, في نموذجنا (المعادلة S9) يتم استبدال قيمة الحالة المتقدمة زمنياً بمزيج من المكافأة وقيمة Q للإجراء المنفذ عند مستوى أعلى من التجريد. الشكل S3 ، يتنبأ نموذجنا بمواقع العمل المختلفة للمخدرات على حلبة تعلم المكافآت: مواقع 1 إلى 3. وعلى العكس من ذلك ، فإن الأدوية التي تؤثر على المواقع 4 إلى 6 لن ينتج عنها أنماط سلوكية وعصبية حيوية تنتج عن محاكاة نموذج الأدوية ، ولكنها ستنتج نتائج مشابهة لحالة المكافآت الطبيعية. الشكل S4 ، المهمة المستخدمة لمحاكاة آلية المنافسة القائمة على عدم اليقين بين مستويات التسلسل الهرمي للسيطرة على السلوك. الشكل S5 ، نتيجة المحاكاة ، والتي تبين التحول التدريجي للسيطرة على السلوك من مستويات أعلى إلى أدنى من التسلسل الهرمي. Q (ق، أ) و الولايات المتحدة الأمريكية) إظهار القيمة التقديرية وعدم التأكد من أزواج الإجراءات الحكومية ، على التوالي.

ملف S1.

الشكل S1 ،نموذج لهرمية القرار مع خمسة مستويات من التجريد. الشكل S2 ، الدارة العصبية المقابلة لثلاث خوارزميات تعلم القيمة التي تمت مناقشتها هي بنية قرار هرمية. A, باستخدام خوارزمية بسيطة لتعلم TD (المعادلة S7) ، يتم حساب إشارة خطأ التنبؤ في كل مستوى من مستويات التجريد بشكل مستقل عن المستويات الأخرى. B, في النموذج الذي اقترحه Haruno و Kawato (4) (المعادلة S8) ، تأتي قيمة الحالة المتقدمة زمنياً من مستوى تجريد واحد أعلى. C, في نموذجنا (المعادلة S9) يتم استبدال قيمة الحالة المتقدمة زمنياً بمزيج من المكافأة وقيمة Q للإجراء المنفذ عند مستوى أعلى من التجريد. الشكل S3 ، يتنبأ نموذجنا بمواقع العمل المختلفة للمخدرات على حلبة تعلم المكافآت: مواقع 1 إلى 3. وعلى العكس من ذلك ، فإن الأدوية التي تؤثر على المواقع 4 إلى 6 لن ينتج عنها أنماط سلوكية وعصبية حيوية تنتج عن محاكاة نموذج الأدوية ، ولكنها ستنتج نتائج مشابهة لحالة المكافآت الطبيعية. الشكل S4 ، المهمة المستخدمة لمحاكاة آلية المنافسة القائمة على عدم اليقين بين مستويات التسلسل الهرمي للسيطرة على السلوك. الشكل S5 ، نتيجة المحاكاة ، والتي تبين التحول التدريجي للسيطرة على السلوك من مستويات أعلى إلى أدنى من التسلسل الهرمي. Q (ق، أ) و الولايات المتحدة الأمريكية) إظهار القيمة التقديرية وعدم التأكد من أزواج الإجراءات الحكومية ، على التوالي.

دوى: 10.1371 / journal.pone.0061489.s001

(PDF)

شكر وتقدير

نشكر S. Ahmed و P. Dayan لإجراء مناقشات ناقدة ، و M. Reinoud و D. Redish و N. Daw و E. Koechlin و A. Dezfouli للتعليق على المخطوطة.

الكاتب الاشتراكات

تصور وتصميم التجارب: MK. نفذت التجارب: عضو الكنيست. تحليل البيانات: MK BG. المواد الكاشفة / المواد / أدوات التحليل: MK. كتبت الورقة: MK BG.

مراجع حسابات

  1. 1. Narcotics Anonymous (2008). 6th ed. مكتب الخدمة العالمية.
  2. 2. Goldstein A (2001) Addiction: From Biology to Drug Policy. مطبعة جامعة أكسفورد ، الولايات المتحدة الأمريكية.
  3. 3. Volkow ND، Fowler JS، Wang GJ، Swanson JM (2004) Dopamine in drug abuse and addiction: results from imaging studies and treatment implications. الطب النفسي الجزيئي 9: 557 – 569. دوى: 10.1038 / sj.mp.4001507. العثور على هذه المادة على الانترنت
  4. 4. Stacy AW، Wiers RW (2010) الإدراك الضمني والإدمان: أداة لشرح السلوك المتناقض. المراجعة السنوية لعلم النفس السريري 6: 551 – 575. دوى: 10.1146 / annurev.clinpsy.121208.131444. العثور على هذه المادة على الانترنت
  5. 5. الدليل التشخيصي والإحصائي للاضطرابات العقلية (DSM-IV) (2000). 4th ed. واشنطن العاصمة: الجمعية الأمريكية للطب النفسي.
  6. 6. Lamb RJ، Preston KL، Schindler CW، Meisch RA، Davis F، et al. (1991) التأثيرات المعززة والموضوعية للمورفين في مدمني ما بعد الولادة: دراسة الاستجابة للجرعة. The Journal of pharmacology and experimental therapeutics 259: 1165 – 1173. العثور على هذه المادة على الانترنت
  7. 7. Goldstein RZ، Woicik PA، Moeller SJ، Telang F، Jayne M، et al. (2010) رغبته في الحصول على مكافآت على المخدرات وغير المخدرات لمستخدمي الكوكايين النشطين: استبيان STRAP-R. مجلة علم الادوية النفسية 24: 257 – 266. دوى: 10.1177/0269881108096982. العثور على هذه المادة على الانترنت
  8. 8. Everitt BJ، Robbins TW (2005) الأنظمة العصبية للتعزيز من أجل إدمان المخدرات: من الإجراءات إلى العادات إلى الإكراه. Nature Neuroscience 8: 1481 – 1489. دوى: 10.1038 / nn1579. العثور على هذه المادة على الانترنت
  9. 9. Redish AD (2004) الإدمان كعملية حسابية سارت. العلوم 306: 1944 – 1947. دوى: 10.1126 / science.1102384. العثور على هذه المادة على الانترنت
  10. 10 Dezfouli A، Piray P، Keramati MM، Ekhtiari H، Lucas C، et al. (2009) نموذج تربوي عصبي لإدمان الكوكايين. الحساب العصبي 21: 2869 – 2893. دوى: 10.1162 / neco.2009.10-08-882. العثور على هذه المادة على الانترنت
  11. 11 Piray P، Keramati MM، Dezfouli A، Lucas C، Mokri A (2010) الفروق الفردية في النواة المتكئة لمستقبلات الدوبامين تتنبأ بتطور السلوك الشبيه بالإدمان: نهج حاسوبي. الحساب العصبي 22: 2334 – 2368. دوى: 10.1162 / NECO_a_00009. العثور على هذه المادة على الانترنت
  12. 12 Dayan P (2009) الدوبامين ، التعلم التعزيز ، والإدمان. Pharmacopsychiatry 42: 56 – 65. دوى: 10.1055 / ق 0028-1124107. العثور على هذه المادة على الانترنت
  13. 13 Takahashi Y، Schoenbaum G، Niv Y (2008) إسكات النقاد: فهم آثار تحسس الكوكايين على الجانب الظهري والبطن المخطط في سياق نموذج الممثل / الناقد. Frontiers in Neuroscience 2: 86 – 99. دوى: 10.3389 / neuro.01.014.2008. العثور على هذه المادة على الانترنت
  14. 14 Redish AD، Jensen S، Johnson A (2008) A unified framework for addiction: vulnerabilities in the decision process. العلوم السلوكية و الدماغية 31: 415 – 487. دوى: 10.1017 / S0140525X0800472X. العثور على هذه المادة على الانترنت
  15. 15 Botvinick MM (2008) نماذج هرمية للسلوك والوظيفة قبل الجبهية. الاتجاهات في العلوم المعرفية 12: 201 – 208. دوى: 10.1016 / j.tics.2008.02.009. العثور على هذه المادة على الانترنت
  16. 16 Haruno M، Kawato M (2006) نموذج لتعلم التعزيز المتغاير من أجل تكامل الحلقات متعددة القشرية-المخية: فحص fMRI في تعلم الارتباط التحفيزي-المكافئ. Neural Networks 19: 1242 – 1254. دوى: 10.1016 / j.neunet.2006.06.007. العثور على هذه المادة على الانترنت
  17. 17 Willuhn I، Burgeno LM، Everitt BJ، Phillips PEM (2012) hierarchical recruitment of dapamine signaling in the striatum during the progression of cocaine use. وقائع الأكاديمية الوطنية للعلوم 109: 20703 - 20708. دوى: X. العثور على هذه المادة على الانترنت
  18. 18 Botvinick MM، Niv Y، Barto AC (2009) السلوك المنظم بشكل هرمي وأسسه العصبية: منظور تعلُّم تعزيز. Cognition 113: 262 – 280. دوى: 10.1016 / j.cognition.2008.08.011. العثور على هذه المادة على الانترنت
  19. 19 Badre D، D'Esposito M (2009) هل المحور الروسترو والذيلية للفص الجبهي هرمي؟ مراجعات الطبيعة علم الأعصاب 10: 659 - 669. دوى: 10.1038 / nrn2667. العثور على هذه المادة على الانترنت
  20. 20 Koechlin E، Ody C، Kouneiher F (2003) بنية التحكم المعرفي في القشرة المخية قبل الجبهية البشرية. العلوم 302: 1181 – 1185. دوى: 10.1126 / science.1088545. العثور على هذه المادة على الانترنت
  21. 21 Badre D ، Hoffman J ، Cooney JW ، D'Esposito M (2009) عجز التحكم الإدراكي الهرمي بعد الأضرار التي لحقت الفص الجبهي البشري. علم الأعصاب الطبيعي 12: 515-522. دوى: 10.1038 / nn.2277. العثور على هذه المادة على الانترنت
  22. 22 Alexander GE، DeLong MR، Strick PL (1986) تنظيم موازٍ للدوائر المنفصلة وظيفياً التي تربط بين العقد القاعدية والقشرة. المراجعة السنوية لعلم الأعصاب 9: 357 – 381. دوى: 10.1146 / annurev.neuro.9.1.357. العثور على هذه المادة على الانترنت
  23. 23 Alexander GE، Crutcher MD، DeLong MR (1990) Basal ganglia-thalamocortical circuits: parallel trastrates for motor، oculomotor، prefrontal and limbic functions. التقدم في أبحاث الدماغ 85: 119 – 146. العثور على هذه المادة على الانترنت
  24. 24 Schultz W، Dayan P، Montague PR (1997) الركيزة العصبية للتنبؤ والمكافأة. العلوم 275: 1593 – 1599. دوى: 10.1126 / science.275.5306.1593. العثور على هذه المادة على الانترنت
  25. 25 Belin D، Everitt BJ (2008) تعتمد عادات البحث عن الكوكايين على التوصيل التسلسلي الذي يعتمد على الدوبامين ويربط البطني بالمخطط الظهري. Neuron 57: 432 – 441. دوى: 10.1016 / j.neuron.2007.12.019. العثور على هذه المادة على الانترنت
  26. 26 Haber SN، Fudge JL، McFarland NR (2000) Striatonigrostriatal Pathways in Primates Form an Ascending Spiral from the Shell to the Dorsolateral Striatum. The Journal of Neuroscience 20: 2369 – 2382. العثور على هذه المادة على الانترنت
  27. 27 Haber SN (2003) العقد القاعدي الرئيسيات: شبكات متوازية ومتكاملة. مجلة Neuroanatomy الكيميائية 26: 317 – 330. دوى: 10.1016 / j.jchemneu.2003.10.003. العثور على هذه المادة على الانترنت
  28. 28 Sutton RS، Barto AG (1998) Reinforcement Learning: An Introduction. كامبريدج: معهد ماساتشوستس للتكنولوجيا الصحافة.
  29. 29 Di Chiara G، Imperato A (1988) تعاطي المخدرات التي يساء استخدامها من قبل البشر تفضيلاً لزيادة تركيزات الدوبامين متشابك في نظام mesolimbic من الفئران تتحرك بحرية. وقائع الأكاديمية الوطنية للعلوم في الولايات المتحدة الأمريكية 85: 5274 – 5278. دوى: X. العثور على هذه المادة على الانترنت
  30. 30 Daw ND، Niv Y، Dayan P (2005) التنافس القائم على عدم اليقين بين أنظمة الفطور الأمامية الجبهية والظهرية للتحكم في السلوك. Nature Neuroscience 8: 1704 – 1711. دوى: 10.1038 / nn1560. العثور على هذه المادة على الانترنت
  31. 31 Vanderschuren LJMJ، Ciano PD، Everitt BJ (2005) إشراك المخطط الظهري في البحث عن الكوكايين المتحكم فيه. The Journal of Neuroscience 25: 8665 – 8670. دوى: 10.1523 / JNEUROSCI.0925-05.2005. العثور على هذه المادة على الانترنت
  32. 32 Volkow ND، Wang GJ، Telang F، Fowler JS، Logan J، et al. (2006) عقاقير الكوكايين والدوبامين في المخطط الظهري: آلية الرغبة في إدمان الكوكايين. The Journal of Neuroscience 26: 6583 – 6588. دوى: 10.1523 / JNEUROSCI.1544-06.2006. العثور على هذه المادة على الانترنت
  33. 33 Kalivas PW، Volkow ND (2005) أساس العصبية من الإدمان: علم الأمراض من التحفيز والاختيار. المجلة الأمريكية للطب النفسي 162: 1403 – 1413. دوى: 10.1176 / appi.ajp.162.8.1403. العثور على هذه المادة على الانترنت
  34. 34 Belin D، Jonkman S، Dickinson A، Robbins TW، Everitt BJ (2009) عمليات التعلم المتوازية والتفاعلية داخل العقد القاعدية: ملاءمة لفهم الإدمان. أبحاث الدماغ السلوكية 199: 89 – 102. دوى: 10.1016 / j.bbr.2008.09.027. العثور على هذه المادة على الانترنت
  35. 35 Matsumoto M، Hikosaka O (2009) هناك نوعان من عصب الدوبامين ينقلان بوضوح إشارات تحفيزية إيجابية وسلبية. Nature 459: 837 – 841. دوى: X. العثور على هذه المادة على الانترنت
  36. 36 Frank MJ، Surmeier DJ (2009) Do substantia nigra dopaminergic neurons differentor between reward and punishment؟ مجلة بيولوجيا الخلية الجزيئية 1: 15 – 16. دوى: 10.1093 / jmcb / mjp010. العثور على هذه المادة على الانترنت
  37. 37 Vanderschuren LJMJ، Everitt BJ (2004) يصبح البحث عن المخدرات قهريًا بعد فترة طويلة من تعاطي الكوكايين. العلوم 305: 1017 – 1019. دوى: 10.1126 / science.1098975. العثور على هذه المادة على الانترنت
  38. 38 Deroche-Gamonet V، Belin D، Piazza PV (2004) دليل على السلوك الشبيه بالإدمان في الجرذان. العلوم 305: 1014 – 1017. دوى: 10.1126 / science.1099020. العثور على هذه المادة على الانترنت
  39. 39 Panlilio LV، Thorndike EB، Schindler CW (2007) حظر التكييف لمحفز يقترن بالكوكايين: اختبار الفرضية القائلة بأن الكوكايين ينتج على الدوام إشارة من مكافأة أكبر من المتوقع. علم الصيدلة والكيمياء الحيوية والسلوك 86: 774 – 777. دوى: 10.1016 / j.pbb.2007.03.005. العثور على هذه المادة على الانترنت
  40. 40 Kamin L (1969) القدرة على التنبؤ ، المفاجأة ، الانتباه ، والتكييف. In: Campbell BA، Church RM، editors. العقاب والسلوك التافه. نيويورك: أبليتون-سنشري-كروفتس. pp. 279 – 296.
  41. 41 Dezfouli A ، Balleine BW (2012) العادات ، متواليات العمل والتعلم التعزيز. المجلة الأوروبية لعلم الأعصاب 35: 1036 – 1051. دوى: 10.1111 / j.1460-9568.2012.08050.x. العثور على هذه المادة على الانترنت
  42. 42 Koob GF، Le Moal M (2005) Neurobiology of Addiction. سان دييغو: أكاديمية الصحافة