ลำดับขั้นการตัดสินใจที่ไม่สมดุลในผู้ติดยาที่เกิดจาก Dopamine Spiraling Circuit (2013)

 

  • Mehdi Keramati อีเมล,
     
  • Boris Gutkin

 

นามธรรม

แม้จะต้องการเลิกอย่างชัดเจน แต่ผู้ติดยาในระยะยาวพบว่าตัวเองไม่มีพลังที่จะต่อต้านยาเสพติดแม้จะรู้ว่าการเสพยาอาจเป็นแนวทางปฏิบัติที่เป็นอันตราย ความไม่สอดคล้องกันดังกล่าวระหว่างความรู้ที่ชัดเจนเกี่ยวกับผลกระทบเชิงลบกับรูปแบบพฤติกรรมที่บีบบังคับแสดงถึงความขัดแย้งทางความคิด / พฤติกรรมซึ่งเป็นลักษณะสำคัญของการเสพติด ทางระบบประสาทกิจกรรมที่เกิดจากคิวที่แตกต่างกันในภูมิภาคย่อยของ striatal ที่แตกต่างกันเช่นเดียวกับการเชื่อมต่อของโดปามีนที่หมุนวนจากบริเวณหน้าท้องไปยังบริเวณด้านหลังมีบทบาทสำคัญในการแสวงหายาเสพติด อย่างไรก็ตามกลไกการทำงานที่รวมการสังเกตทางประสาทวิทยาเหล่านี้เข้ากับความขัดแย้งทางความคิด / พฤติกรรมที่กล่าวถึงข้างต้นนั้นไม่เป็นที่ทราบแน่ชัด ในที่นี้เราจะให้คำอธิบายเชิงคำนวณอย่างเป็นทางการสำหรับความไม่สอดคล้องกันของความรู้ความเข้าใจที่เกิดจากยาซึ่งปรากฏใน "ความผิดพลาดที่อธิบายตัวเอง" ของผู้ติดยาเสพติด เราแสดงให้เห็นว่ายาเสพติดค่อยๆสร้างอคติที่สร้างแรงบันดาลใจต่อการแสวงหายาในกระบวนการตัดสินใจที่เป็นนิสัยในระดับต่ำแม้จะมีการประเมินค่าความรู้ความเข้าใจเชิงนามธรรมที่ต่ำของพฤติกรรมนี้ พยาธิวิทยานี้เกิดขึ้นภายในกรอบการเรียนรู้การเสริมแรงตามลำดับชั้นเมื่อการสัมผัสกับยาอย่างต่อเนื่องทางเภสัชวิทยาก่อให้เกิดสัญญาณโดพามีนที่คงอยู่อย่างต่อเนื่องทางพยาธิวิทยา ด้วยเหตุนี้ยาจึงจี้เกลียว dopaminergic ที่เรียงซ้อนการเสริมแรงส่งสัญญาณไปตามลำดับชั้นของ cortico-striatal ventro-dorsal ในทางระบบประสาททฤษฎีของเราอธิบายถึงการพัฒนาอย่างรวดเร็วของ dopamine ที่กระตุ้นให้เกิดการไหลเวียนของยาในช่องท้องและการตอบสนองที่ล่าช้าในผิวหนังด้านหลัง ทฤษฎีของเรายังแสดงให้เห็นว่ารูปแบบการตอบสนองนี้ขึ้นอยู่กับวงจรหมุนวนของโดปามีนอย่างไร ตามพฤติกรรมแล้วกรอบของเราอธิบายถึงความไม่ไวต่อการแสวงหายาต่อการลงโทษที่เกี่ยวข้องกับยาอย่างค่อยเป็นค่อยไปปรากฏการณ์การปิดกั้นผลลัพธ์ของยาเสพติดและการชอบใช้ยาอย่างต่อเนื่องมากกว่าการให้รางวัลตามธรรมชาติของผู้ติดยา แบบจำลองนี้แสดงให้เห็นการคาดการณ์ที่ทดสอบได้และนอกเหนือจากนั้นกำหนดขั้นตอนสำหรับมุมมองของการเสพติดว่าเป็นพยาธิสภาพของกระบวนการตัดสินใจตามลำดับชั้น มุมมองนี้เสริมกับการตีความแบบดั้งเดิมของการเสพติดว่าเป็นปฏิสัมพันธ์ระหว่างระบบการตัดสินใจที่เป็นนิสัยและมุ่งเป้าหมาย

บทนำ

“ เรายอมรับว่าเราไม่มีอำนาจเหนือสิ่งเสพติดของเรา - ชีวิตของเราไม่สามารถจัดการได้” กล่าวถึงโครงการแรกของยาเสพติดนิรนาม Anonymous 12-step program [1]. สิ่งนี้ชี้ให้เห็นว่าผู้เสพติดไร้พลังพบตัวเองอย่างไรเมื่อต้องต่อต้านยาเสพติดแม้จะรู้ว่าการเสพยาเป็นวิธีการที่ผิด [2]-[4]. ในความเป็นจริงจุดเด่นของการติดยาเสพติดคือการแสวงหาการบังคับของยาเสพติดแม้ค่าใช้จ่ายของผลกระทบที่เห็นได้ชัด [5]. ลายเซ็นของพฤติกรรมทางพยาธิวิทยาดังกล่าวจะเห็นได้ชัดเจนในการทดลองควบคุมที่ผู้ติดยาแสดงลักษณะ“ ความผิดพลาดที่อธิบายตัวเอง”: ความไม่สอดคล้องกันระหว่างการตอบสนองพฤติกรรมที่มีศักยภาพต่อการเลือกยาที่เกี่ยวข้องกับยาเสพติด [4], [6], [7]. เมื่อรวมกับการสูญเสียการควบคุมความรู้ความเข้าใจในพฤติกรรมยับยั้งหลังจากยืดเยื้อจากการสัมผัสกับยาความแตกต่างระหว่างแผนความรู้ความเข้าใจและพฤติกรรมรวมอาจส่งผลให้เกิดการเปลี่ยนแปลงจากพฤติกรรมการแสวงหายาเสพติด - ชั่วคราว [8].

การสูญเสียการควบคุมความรู้ความเข้าใจและความผิดพลาดที่อธิบายตนเองได้ทำให้เกิดคำอธิบายอย่างมีหลักการโดยรูปแบบการเสพติดที่เป็นทางการ [9]-[13]. ทฤษฎีการคำนวณก่อนหน้าของการติดยาเสพติดส่วนใหญ่วางอยู่ภายในกรอบการเรียนรู้การเสริมแรงดูติดยาเสพติดเป็นสถานะทางพยาธิวิทยาของระบบการเรียนรู้นิสัย (กระตุ้นการตอบสนอง) [9]-[13]. สมมติฐานหลักที่อยู่เบื้องหลังแบบจำลองเหล่านี้คือผลทางเภสัชวิทยาของยาที่มีต่อการส่งสัญญาณโดปามีนซึ่งคาดว่าจะมีสัญญาณการสอนที่ตอบสนองต่อสิ่งกระตุ้นส่งผลให้เกิดการเสริมแรงของความสัมพันธ์ดังกล่าวทีละน้อย ผลกระทบนี้นำไปสู่นิสัยการแสวงหายาเสพติด แม้ว่ามุมมองที่ลดลงของการเสพติดนี้ได้จับแง่มุมบางประการของปรากฏการณ์นี้ แต่ความเห็นพ้องที่เพิ่มขึ้นในวรรณกรรมการเสพติดบ่งชี้ว่าระบบการเรียนรู้หลายระบบมีส่วนเกี่ยวข้องกับพยาธิวิทยา มีเพียงภาพที่ซับซ้อนมากขึ้นซึ่งรวมถึงความรู้ความเข้าใจของสมองตลอดจนกระบวนการสร้างนิสัยระดับต่ำเท่านั้นที่สามารถอธิบายพฤติกรรมที่คล้ายการเสพติดได้หลากหลาย [8], [14].

ในบทความนี้เราใช้วิธีการเรียนรู้การเสริมแรงแบบลำดับชั้น [15] เมื่อการตัดสินใจถูกนำเสนอในระดับที่แตกต่างกันของนามธรรมในลำดับชั้นความรู้ความเข้าใจเพื่อมอเตอร์ เราสมมติว่าสัญญาณการเรียนรู้ที่ขึ้นกับโดพามีนเชื่อมโยงระดับของลำดับชั้นเข้าด้วยกัน [16]. เราสันนิษฐานอีกว่ายาเสพติดที่ละเมิดทางเภสัชวิทยานั้นเป็นกลไกการสื่อสารระหว่างระดับของสิ่งที่เป็นนามธรรม จากสมมติฐานเหล่านี้เราแสดงให้เห็นว่าความไม่สอดคล้องขององค์ความรู้ที่รายงานในผู้ติดยาเกิดขึ้นภายในกรอบการเรียนรู้การเสริมแรงแบบลำดับชั้นเมื่อยาเสพติดเรื้อรังเปิดรับการรบกวนการเรียนรู้คุณค่าข้ามลำดับการตัดสินใจ การหยุดชะงักนี้ส่งผลให้เกิดการประเมินทางพยาธิวิทยาของการเลือกใช้ยาในกระบวนการที่เป็นนิสัยในระดับต่ำและทำให้เกิดพฤติกรรมการแสวงหายาเสพติด จากนั้นเราแสดงให้เห็นว่า“ ไม่ชอบ” แต่การแสวงหายาเสพติดสามารถอธิบายได้ว่าเป็นกระบวนการนิสัยที่มีพฤติกรรมแย่ในระดับต่ำซึ่งครอบครองยาเสพติดขณะที่ระบบความรู้ที่ดีในระดับตัวแทนชั้นนำสูญเสียการควบคุมพฤติกรรม นอกจากนี้เรายังแสดงให้เห็นว่าแบบจำลองที่เสนอสามารถอธิบายหลักฐานล่าสุดเกี่ยวกับการพัฒนาอย่างรวดเร็วและล่าช้าของยาโดปามีนที่ถูกกระตุ้นด้วยคิวในช่องท้องและหลัง striatum ตามลำดับรวมถึงการพึ่งพาของรูปแบบนี้ในวงจรการหมุนวนโดปามีน

วัสดุและวิธีการ

รอบคัดเลือกโซน

สอดคล้องกับวรรณคดีจิตวิทยาเกี่ยวกับความรู้ความเข้าใจที่หลากหลายการเรียนรู้การเสริมแรงแบบลำดับชั้นของเรา [15], [18] กรอบสันนิษฐานว่าแผนองค์ความรู้ที่เป็นนามธรรมเช่น "การชงชา" สามารถแบ่งออกเป็นลำดับของการกระทำระดับล่าง: น้ำเดือดใส่ชาลงในหม้อและอื่น ๆ การสลายตัวดังกล่าวดำเนินการจนกว่าการตอบสนองระดับมอเตอร์คอนกรีตที่ระดับต่ำสุดของ ลำดับชั้น (รูปที่ 1A) Neurobiologically, ระดับต่าง ๆ ของลำดับการตัดสินใจจากองค์ความรู้ถึงระดับมอเตอร์จะแสดงตามแกน rostro-caudal ของวงจร cortico-basal ganglia (BG) [19]-[21]. วงจรนี้ประกอบด้วยลูปปิดหลายขนานระหว่างเยื่อหุ้มสมองด้านหน้าและฐานปมประสาท [22], [23] (รูปที่ 1B) ในขณะที่วงหน้ามีการแสดงออกถึงการกระทำที่เป็นนามธรรมมากขึ้นการวนลูปหางประกอบด้วยเยื่อหุ้มสมองและประสาทสัมผัส dorsolateral striatum เข้ารหัสพฤติกรรมระดับต่ำ [19]-[21].

ภาพขนาดย่อ

รูป 1 การจัดเรียงลำดับชั้นของพฤติกรรมและวงจร cortico-BG

Aตัวอย่างของลำดับชั้นการตัดสินใจสำหรับตัวเลือกสองทางเลือก: ยาเสพติดและอาหาร การกระทำแต่ละอย่างจะมีระดับความเป็นนามธรรมที่แตกต่างกันซึ่งมีการเข้ารหัสตามที่คาดไว้ใน cortico-BG ลูป การค้นหารางวัลทั้งสองประเภทนี้อาจเป็นไปตามการลงโทษขนาด 16 B, การเชื่อมต่อ Glutamatergic จากพื้นที่ prefrontal ที่แตกต่างกันเพื่อ subregions striatal แล้วโครงการกลับไปที่ PFC ผ่าน pallidum และฐานดอกสร้างห่วงหลายขนาน ผ่านเครือข่ายโดปามีนแบบ dato-nigro-striatal บริเวณหน้าท้องของ striatum มีอิทธิพลต่อบริเวณหลังมากขึ้น vmPFC, เยื่อหุ้มสมองหน้าท้อง prefrontal อยู่ตรงกลาง; OFC, cortex หน้าผากโคจร; dACC, เยื่อหุ้มสมองด้านหลัง cingulate ด้านหน้า; SMC เยื่อหุ้มสมอง - มอเตอร์ VTA พื้นที่หน้าท้อง tegmental; SNc, substantia nigra pars compacta รูปที่ 1B ดัดแปลงจาก ref 21

ดอย: 10.1371 / journal.pone.0061489.g001

ภายในวงจรนี้กิจกรรม phasic ของเซลล์ประสาท midbrain dopamine (DA) ที่ฉายไปยัง striatum ส่งสัญญาณข้อผิดพลาดระหว่างการทำนายและการรับรางวัลดังนั้นจึงมีข้อมูลเสริมการตอบสนองต่อสิ่งเร้า [24]. การคาดการณ์ของ DAergic เหล่านี้ก่อให้เกิดการเชื่อมต่อแบบต่อเนื่องที่เชื่อมโยงพื้นที่หน้าท้องของ striatum ไปยังบริเวณหลังที่มีความก้าวหน้ามากขึ้นผ่านการเชื่อมต่อที่เรียกว่า″ spiraling aling [25]-[27] (รูปที่ 1B) ตามหน้าที่แล้วองค์กรจัดส่งอาหารที่เชื่อมต่อลูป rostral กับคอร์ติคอล -BG ลูปช่วยให้การมีเพศสัมพันธ์โดยตรงจากหยาบไปเป็นตัวแทนที่ดี ดังนั้นเกลียว DA จึงถูกตั้งสมมติฐานเพื่อให้เป็นสารตั้งต้นทางระบบประสาทสำหรับการปรับจูนแบบผิดพลาดของการทำนายผลตอบแทนแบบก้าวหน้าในระดับที่สูงขึ้นของลำดับชั้น (การเข้ารหัสความรู้เชิงนามธรรมเกี่ยวกับคุณค่าของตัวเลือกพฤติกรรม) ข้อผิดพลาดนี้จะถูกใช้เพื่ออัปเดตค่าการกระทำในระดับรายละเอียดเพิ่มเติม [16]. กล่าวอีกนัยหนึ่งเกลียว DA ช่วยให้ระดับการคิดที่เป็นนามธรรมเพื่อเป็นแนวทางในการเรียนรู้ในกระบวนการประเมินมูลค่าการกระทำที่มีรายละเอียดมากขึ้น

ร่างทฤษฎี

ในแง่ของทฤษฎีการคำนวณการเรียนรู้การเสริมแรง [28] (RL) ตัวแทน (ในกรณีของเราบุคคลหรือสัตว์) เรียนรู้ที่จะทำการตัดสินใจทางเลือกที่มีข้อมูลโดยการอัพเดทมูลค่าที่ประเมินไว้ก่อนหน้านี้ สำหรับคู่การกระทำของรัฐแต่ละคู่ เมื่อได้รับรางวัล ได้รับโดยตัวแทนในเวลา เป็นผลจากการดำเนินการ อยู่ในบริบท (กระตุ้น) . มูลค่า มีการปรับปรุงโดยการคำนวณสัญญาณข้อผิดพลาดการทำนายรางวัล สัญญาณนี้ไม่เพียง แต่ขึ้นอยู่กับรางวัลที่ได้รับทันที) แต่ยังรวมถึงมูลค่าของสถานะใหม่ที่เอเจนต์จะสิ้นสุดลงหลังจากดำเนินการดังกล่าวแล้ว แสดงโดย ฟังก์ชันมูลค่าขั้นสูงชั่วคราวนี้แสดงถึงผลรวมของรางวัลในอนาคตที่สัตว์คาดว่าจะได้รับจากสถานะผลลัพธ์ , ต่อไปข้างหน้า. ข้อผิดพลาดการทำนายสามารถคำนวณได้จากสมการต่อไปนี้:


(1)

สัญญาณแจ้งข้อผิดพลาดการคาดคะเนคำนวณความคลาดเคลื่อนระหว่างค่าที่คาดไว้และค่าตอบแทนที่เป็นจริงของการกระทำ ในโครงสร้างการตัดสินใจแบบลำดับชั้นอย่างไรก็ตามแทนที่จะเรียนรู้ - ค่าที่เป็นอิสระในระดับที่แตกต่างกันในระดับที่เป็นนามธรรมมากขึ้นสามารถปรับแต่งสัญญาณการสอนที่คำนวณในระดับที่ต่ำกว่า เนื่องจากระดับที่สูงขึ้นของลำดับชั้นเป็นตัวแทนที่เป็นนามธรรมมากขึ้นของภาระผูกพันด้านสิ่งแวดล้อมการเรียนรู้เกิดขึ้นเร็วกว่าในระดับเหล่านั้น นี่คือสาเหตุที่สัมพันธ์ต่ำ - มิติของการเป็นตัวแทนของพฤติกรรมที่เป็นนามธรรม: แผนปฏิบัติการสามารถแสดงเป็นขั้นตอนเดียว (หนึ่งมิติ) ที่ระดับบนสุดของลำดับชั้นและการกระทำที่มีรายละเอียดหลายอย่าง (หลายมิติ) ที่ระดับต่ำกว่า ของลำดับชั้น มูลค่าระดับสูงสุดของแผนปฏิบัติการนี้จะเรียนรู้ได้อย่างรวดเร็วเมื่อเทียบกับระดับรายละเอียดที่ข้อผิดพลาดของรางวัลจะต้องเผยแพร่ซ้ำขั้นตอนการดำเนินการโดยละเอียดทั้งหมด ดังนั้นการปรับค่าระดับที่ต่ำกว่าโดยข้อมูลค่าจากระดับที่สูงขึ้นสามารถเพิ่มความเร็วการบรรจบกันของค่าเหล่านี้ วิธีหนึ่งที่มีประสิทธิภาพทางสถิติในการทำเช่นนั้นคือสมมติว่าสำหรับการคำนวณสัญญาณข้อผิดพลาดการทำนายที่ - ระดับที่เป็นนามธรรม ฟังก์ชันค่าชั่วคราวขั้นสูง มาจากระดับที่สูงขึ้นหนึ่งของสิ่งที่เป็นนามธรรม [16]:


(2)

เพื่อรักษาความสามารถในการมองเห็นสมการสมการ 2 สามารถใช้สำหรับการคำนวณข้อผิดพลาดในการคาดการณ์ก็ต่อเมื่อมีการกระทำดั้งเดิมแบบดั้งเดิมของตัวเลือกที่เป็นนามธรรม (ดูรูปที่ S1 ใน ไฟล์ S1) ในกรณีอื่นการเรียนรู้คุณค่าในระดับต่าง ๆ เกิดขึ้นอย่างอิสระเช่นเดียวกับในสมการ 1 ในทั้งสองกรณีสัญญาณการสอนจะถูกใช้สำหรับการปรับปรุงค่าก่อนหน้าในระดับที่สอดคล้องกัน:


(3)
ที่ไหน เป็นอัตราการเรียนรู้ รูปแบบของการแบ่งปันข้อมูลระหว่างระดับนี้มีความน่าเชื่อถือทางชีวภาพเนื่องจากสะท้อนโครงสร้างวนของวงจร DA ซึ่งถือข้อมูลตามลำดับชั้นในทิศทาง ventro-dorsal ในเวลาเดียวกันการได้รับคำแนะนำจากระดับนามธรรมมากขึ้นอย่างมีนัยสำคัญเร่งการเรียนรู้บรรเทามิติสูงของการเรียนรู้คุณค่าในระดับรายละเอียด [16].

ในบทความนี้เราแสดงให้เห็นว่าการทำงานร่วมกันระหว่างรุ่นดัดแปลงของรุ่นที่พัฒนาขึ้นมา [16] และผลทางเภสัชวิทยาเฉพาะของยาเสพติดที่มีต่อระบบโดปามินอจิกสามารถจับข้อมูลที่เกี่ยวข้องกับการเสพติดที่ระดับการวิเคราะห์ที่แตกต่างกันอย่างรุนแรง: พฤติกรรมและระดับวงจรประสาทวิทยา ขั้นแรกรูปแบบใหม่นำเสนอคำอธิบายที่เป็นไปได้สำหรับลักษณะพฤติกรรมที่น่าสนใจหลายประการที่เกี่ยวข้องกับการติดยาเสพติด (เช่นความผิดพลาดที่อธิบายตนเองได้ [4], [6], [7]) ประการที่สองเราสามารถอธิบายหลักฐานที่หลากหลายเกี่ยวกับการเปลี่ยนแปลงของการปลดปล่อยโดปามีนที่เกิดจากยา [17].

เราแก้ไขโมเดลที่นำเสนอใน [16] ดังนี้ เราทำให้แบบจำลองมีประสิทธิภาพมากขึ้นในแง่ของความจุหน่วยความจำในการทำงานโดยการแทนที่ กับ ในสมการ 2 เนื่องจากทั้งสองค่ามาบรรจบกันในระดับคงที่เดียวกัน (ดูรูปที่ S2 ใน ไฟล์ S1สำหรับการคำนวณและพื้นฐานทางระบบประสาท):


(4)

ที่นี่ เป็นตัวเลือกที่ค่อนข้างเป็นนามธรรมและ เป็นการกระทำดั้งเดิมในลำดับพฤติกรรมที่เต็มไปด้วยตัวเลือกนี้ ในทำนองเดียวกัน คือคุณค่าที่คุ้มค่าของ ซึ่งรวมถึง ค่าตอบแทนของ ).

สิ่งสำคัญที่สุดคือยาต่าง ๆ ที่ถูกทารุณกรรมโดยมนุษย์แบ่งปันคุณสมบัติพื้นฐานของการเพิ่มความเข้มข้นของโดปามีนทางเภสัชวิทยาใน striatum [29]. ดังนั้นเราจึงรวมผลทางเภสัชวิทยาของยานี้โดยการเพิ่มอคติเชิงบวก , (ดูสิ่งนี้ด้วย [9]-[12]) ไปยังสัญญาณข้อผิดพลาดการทำนายที่ดำเนินการโดยเซลล์ประสาทโดปามีน (ดูรูปที่ S3 ใน ไฟล์ S1สำหรับการคำนวณและพื้นฐานทางระบบประสาท):


(5)

Here จับผลทางเภสัชวิทยาโดยตรงของยาบนระบบ DA และ เป็นค่าเสริมเนื่องจากผลกระทบที่ไพเราะ (ดู ไฟล์ S1 สำหรับข้อมูลเพิ่มเติม)

ในขณะที่สมการ 3 และ 5 ร่วมกันกำหนดกลไกการคำนวณเพื่ออัปเดตค่าในแบบจำลองของเราเรายังตั้งสมมติฐานว่ากลไกการแข่งขันแบบอิงความไม่แน่นอนจะกำหนดระดับของนามธรรมที่ควบคุมพฤติกรรม นี่คือแรงบันดาลใจจากกลไกที่เสนอมา [29] สำหรับอนุญาโตตุลาการระหว่างระบบที่เป็นนิสัยและเป็นเป้าหมาย ในแง่นี้ในแต่ละจุดตัดสินใจเพียงระดับของสิ่งที่เป็นนามธรรมที่มีความเชื่อมั่นสูงสุดในการประเมินค่าของตัวเลือกที่ควบคุมพฤติกรรม เมื่อระดับนี้ได้ทำการตัดสินใจที่จะดำเนินการทุกระดับที่ต่ำกว่าของลำดับชั้นจะถูกนำไปใช้โดยระดับที่โดดเด่นนี้เพื่อดำเนินการตามที่เลือกเป็นลำดับของการตอบสนองของมอเตอร์ดั้งเดิม (ดู ไฟล์ S1 สำหรับข้อมูลเพิ่มเติม; รูปที่ S4 ใน ไฟล์ S1; รูปที่ S5 ใน ไฟล์ S1) เมื่อได้รับการตอบรับรางวัลจากสภาพแวดล้อมค่าในทุกระดับจะได้รับการอัปเดต กลไกการอนุญาโตตุลาการที่ไม่แน่นอนนี้ทำนายว่ากระบวนการที่เป็นนามธรรมมีความยืดหยุ่นมากกว่าพวกเขามีความสามารถในการประมาณค่าที่เหนือกว่าในช่วงเริ่มต้นของการเรียนรู้และพฤติกรรมการควบคุมในขั้นตอนเหล่านี้ อย่างไรก็ตามเนื่องจากระดับนามธรรมใช้การแสดงแบบหยาบของสภาพแวดล้อม (เช่นเนื่องจากมีฟังก์ชันพื้นฐานจำนวนน้อย) ความสามารถในการประมาณค่าสูงสุดของพวกเขาจึงไม่แม่นยำเท่ากับระดับรายละเอียด ในคำอื่น ๆ หลังจากการฝึกอบรมอย่างกว้างขวางความเชื่อมั่นที่เกี่ยวข้องกับค่าประมาณนั้นต่ำกว่าสำหรับระดับล่างของลำดับชั้นเมื่อเปรียบเทียบกับระดับบน ดังนั้นด้วยการเรียนรู้แบบก้าวหน้าระดับล่างของลำดับชั้นจะควบคุมการเลือกการกระทำเนื่องจากความไม่แน่นอนลดลงเรื่อย ๆ นี่คือข้อตกลงที่มีหลักฐานหลายบรรทัดแสดงให้เห็นถึงความก้าวหน้าของหลังเหนือ ventral striatum ในการควบคุมการค้นหายาเสพติด (เช่นเดียวกับการแสวงหาผลตอบแทนตามธรรมชาติ) [8], [30], [31].

ผลสอบ

ความไม่สอดคล้องกันของการประเมินค่าลำดับชั้นนั้นเกิดขึ้นภายใต้ยาเสพติด แต่ไม่ใช่รางวัลตามธรรมชาติ

ในทางตรงกันข้ามกับการติดยาเสพติดที่ใช้รูปแบบการเรียนรู้การเสริมแรงก่อนหน้านี้ [9]-[13] ซึ่งขึ้นอยู่กับวิธีการระบบการตัดสินใจเดียวบัญชีของเราสร้างขึ้นจากกรอบระบบโต้ตอบหลายระบบ เป็นผลให้แม้ว่ารูปแบบของการสร้างแบบจำลองผลกระทบของยาต่อสัญญาณข้อผิดพลาดในการทำนายในแบบจำลองของเราจะคล้ายกับรูปแบบก่อนหน้า [9]-[12]มันส่งผลให้เกิดผลที่แตกต่างกันโดยพื้นฐาน การเพิ่มขึ้นของโดปามีนชั่วคราวที่เกิดจากยาช่วยเพิ่มข้อผิดพลาดในการทำนายผลทันทีในแต่ละระดับของลำดับชั้นและเป็นผลให้เกิดความเอนเอียง , ในการถ่ายทอดความรู้จากระดับหนึ่งของนามธรรมไปสู่อีกระดับหนึ่งตามลำดับที่หยาบไปจนถึงละเอียดของลำดับชั้น ความเอนเอียงนี้ทำให้ค่าซีมโทติคของการค้นหายาเสพติดในระดับที่กำหนดเป็น หน่วยที่สูงกว่าชั้นนามธรรมอีกหนึ่งชั้น (รูปที่ 2B) การสะสมความแตกต่างเหล่านี้ตามแนวแกน rostro-caudal ทำให้เกิดความแตกต่างอย่างมีนัยสำคัญในค่าของพฤติกรรมการแสวงหายาเสพติดระหว่างสุดขั้วและสุดขั้วของลำดับชั้น ดังนั้นแม้เมื่อตามด้วยการลงโทษที่แข็งแกร่งค่าของพฤติกรรมที่เกี่ยวข้องกับยาเสพติดยังคงเป็นบวกที่ห่วงยนต์ระดับต่ำในขณะที่มันจะกลายเป็นลบในระดับความรู้ความเข้าใจ แบบจำลองทำนายว่าการสะสมของยาเสพติดเหนือเกลียว DA เพิ่มมูลค่าการค้นหายาเสพติดที่นิสัยระดับมอเตอร์ถึงแอมพลิจูดสูงเช่นนั้นแม้การลงโทษตามธรรมชาติที่แข็งแกร่งจะไม่สามารถลดลงได้อย่างเพียงพอ เราแนะนำว่าสิ่งนี้จะอธิบายความไม่สอดคล้องระหว่างการประเมินความรู้ความเข้าใจและการประเมินพฤติกรรมที่เกี่ยวข้องกับยาเสพติดในระดับต่ำ กล่าวอีกนัยหนึ่งเราเสนอว่าการค้นหายาเสพติดซึ่งบังคับใช้และความยืดหยุ่นที่ลดลงอย่างมีนัยสำคัญต่อค่าใช้จ่ายที่เกี่ยวข้องเกิดจากผลทางเภสัชวิทยาของยาเสพติดที่ถูกแย่งชิงกลไกที่ต้องพึ่งพาโดพามีนซึ่งถ่ายโอนข้อมูลระหว่างระดับลำดับชั้นการตัดสินใจ

ภาพขนาดย่อ

รูป 2 แรงจูงใจสำหรับอาหารและยาในระดับต่าง ๆ ของสิ่งที่เป็นนามธรรม (ผลการจำลอง)

ในการทดลอง 150 ครั้งแรกที่ไม่มีการลงโทษใด ๆ ก็ตามหลังจากได้รับรางวัลคุณค่าของการแสวงหารางวัลตามธรรมชาติในทุกระดับมารวมกันที่ 10 (A) สำหรับกรณีของยาเสพติดอย่างไรก็ตามผลทางเภสัชวิทยาโดยตรงของยาเสพติด (, ตั้งค่าให้) ส่งผลให้ค่าซีมโทติคในแต่ละระดับเป็น หน่วยที่สูงกว่าระดับที่เป็นนามธรรมสูงกว่าหนึ่งระดับ (B) ดังนั้นเมื่อตามด้วยการลงโทษในขณะที่องค์ความรู้วนรอบอย่างถูกต้องกำหนดค่าเชิงลบให้กับทางเลือกการค้นหายาเสพติด, ลูประดับมอเตอร์พบว่าการค้นหายาเสพติดที่ต้องการ (ค่าบวก) เส้นโค้งในรูปนี้แสดงให้เห็นถึงวิวัฒนาการของค่านิยมในสัตว์จำลอง "หนึ่ง" ดังนั้นจึงไม่มีการวิเคราะห์ทางสถิติที่เกี่ยวข้อง

ดอย: 10.1371 / journal.pone.0061489.g002

ในขณะที่ยาเสพติดในแบบจำลองของเราส่งผลให้การประเมินแบบไม่สมดุลข้ามระดับค่าของผลตอบแทนตามธรรมชาติมารวมกันเป็นค่าเดียวกันในทุกระดับเนื่องจากขาดผลทางเภสัชวิทยาโดยตรงต่อกลไกการส่งสัญญาณ DA () ดังนั้นจะไม่ปฏิบัติตามความไม่สอดคล้องกันหรือการประเมินค่าสูงในระดับรายละเอียดสำหรับกรณีของรางวัลตามธรรมชาติ (รูปที่ 2A) การประเมินการตอบสนองต่อการแสวงหายาในระดับที่ต่ำกว่าของลำดับชั้นควรส่งผลให้เกิดความชอบผิดปกติของยามากกว่าการให้รางวัลตามธรรมชาติและการมีส่วนร่วมในกิจกรรมที่เกี่ยวข้องกับยามากเกินไป

โดปามีนแบบดิฟเฟอเรนเชียลตอบสนองในช่องท้องกับ dorsal striatum กับยาที่เกี่ยวข้อง

บทบาททางประสาทของอนุภูมิภาคย่อยในการได้มาและการแสดงออกของพฤติกรรมการแสวงหายาเสพติดได้ดำเนินการในระยะกลางในการวิจัยติดยาเสพติด หลักฐานจากการวิจัยที่หลากหลายชี้ให้เห็นว่าการเปลี่ยนพฤติกรรมจากการใช้ยาเสพติดเป็นยาเสพติดซึ่งสะท้อนให้เห็นถึงการเปลี่ยนแปลงของการประเมิน neurobiological จากหน้าท้องไป dorsolateral striatum [8], [33], [34]ซึ่งสอดคล้องกับการเปลี่ยนจากการรับรู้เป็นระดับรายละเอียดในแบบจำลองของเรา สอดคล้องกับโมเดลของเราเครือข่าย DA spiraling ที่เชื่อมต่อ ventral ไปยังบริเวณด้านหลังของ striatum มีความก้าวหน้ายิ่งขึ้นแสดงให้เห็นว่ามีบทบาทสำคัญในการเปลี่ยนแปลงนี้ [25].

ในการศึกษาล่าสุดที่สำคัญ Willuhn et al. [17] ประเมินรูปแบบของการปลดปล่อยโดปามีนในการตอบสนองต่อตัวชี้นำที่เกี่ยวข้องกับยาในช่องท้องและ dorsolateral striatum ของหนูในช่วงสามสัปดาห์ที่พบโคเคน การใช้โวลแทมเมทรีแบบวงจรสแกนแบบเร็วการสังเกตที่สำคัญคือการไหลของ DA ที่เกิดขึ้นในคิวใน ventral striatum ที่ปรากฏขึ้นแม้จะผ่านการฝึกอบรม จำกัด ในทางตรงกันข้าม striatum dorsolateral แสดงให้เห็นการไหลของ DA เรียกคิวหลังจากการฝึกอบรมอย่างกว้างขวางและการพัฒนาของรูปแบบการเปิดตัวนี้หายไปเมื่อ striatum หน้าท้องถูกรอยโรคในซีกโลกใบ ipsilateral

เนื่องจากการแก้ปัญหาชั่วคราวของ voltammetry ที่สแกนอย่างรวดเร็วจะจับความผันผวนของส่วนย่อยในระดับความเข้มข้นรูปแบบที่สังเกตของ DA efflux ควรถูกนำมาประกอบกับการส่งสัญญาณ "phasic" DA และด้วยเหตุนี้สัญญาณผิดพลาดการทำนายตามทฤษฎี RL ของโดปามีน [24]. ตามทฤษฎี RL สัญญาณการคาดคะเนข้อผิดพลาดเมื่อสังเกตสิ่งเร้าที่ไม่คาดคิดนั้นเท่ากับค่าตอบแทนที่สิ่งเร้านั้นคาดการณ์ ดังนั้นการปล่อย DA ที่กระตุ้นด้วยคิวจึงเท่ากับค่าที่ทำนายโดยคิวนั้น

ในแง่นี้กรอบลำดับชั้นของเราให้คำอธิบายอย่างเป็นทางการสำหรับรูปแบบที่แตกต่างกันของ ventral เทียบกับ dorsal striatal DA efflux ที่รายงานใน [17]. ค่าที่ทำนายโดยคิวที่เกี่ยวข้องกับยาในระดับความรู้ความเข้าใจที่เป็นนามธรรมของลำดับชั้นเพิ่มขึ้นอย่างรวดเร็วในช่วงแรกของการฝึกอบรม (รูปที่ 2B) เนื่องจากปัญหาการเรียนรู้ในระดับต่ำในระดับสูงของสิ่งที่เป็นนามธรรม เป็นผลให้แบบจำลองของเราแสดงให้เห็นว่าควรมีการสังเกตการไหลของ DA ที่เกิดจากคิวใน ventral striatum แม้หลังจากการฝึกอบรมที่ จำกัด (รูป 3) อย่างไรก็ตามในระดับตัวแทนที่มีรายละเอียดมากขึ้นกระบวนการเรียนรู้ก็ช้า (รูปที่ 2B) เนื่องจากมีมิติปัญหาพื้นที่สูงและการพึ่งพาการเรียนรู้ในระดับนามธรรมผ่านวงเกลียว DA ดังนั้นการไหลของ DA ที่เกิดจากคิวใน dorsolateral striatum ควรพัฒนาอย่างค่อยเป็นค่อยไปและสามารถสังเกตได้หลังจากการฝึกอบรมที่กว้างขวาง (รูป 3).

ภาพขนาดย่อ

รูป 3 Dopamine ไหลที่ subregions striatal ที่แตกต่างกันในการตอบสนองต่อตัวชี้นำที่เกี่ยวข้องกับยาเสพติด (ผลการจำลอง)

สอดคล้องกับข้อมูลการทดลอง [17]แบบจำลองแสดง (คอลัมน์ซ้าย) ที่ตอบสนองต่อสิ่งชี้นำที่เกี่ยวข้องกับยาจะมีโดปามีนไหลใน ventral striatum หลังจากการฝึกอย่าง จำกัด และกว้างขวาง ในภูมิภาคย่อย dorsolateral มากขึ้นอย่างไรก็ตามการไหลของ DA ที่ถูกกระตุ้นจะพัฒนาอย่างค่อยเป็นค่อยไปในระหว่างการเรียนรู้ โมเดลคาดการณ์ (คอลัมน์ที่สองจากด้านขวา) ว่าการพัฒนาล่าช้าของการไหลเวียนของคิวที่ถูกกระตุ้นใน dorsal striatum ขึ้นอยู่กับการเชื่อมต่อแบบอนุกรม DA-dependent ที่เชื่อมโยงช่องท้องกับ striatum ที่ด้านหลัง นั่นคืออันเป็นผลมาจากการตัดการเชื่อมต่อเกลียว DA ในขณะที่การตอบสนอง DA ที่ถูกกระตุ้นยังคงเหมือนเดิมใน ventral striatum มันลดลงอย่างมีนัยสำคัญใน dorsolateral striatum ยิ่งไปกว่านั้นโมเดลทำนายผล (คอลัมน์ที่สามจากขวา) ผลลัพธ์ที่คล้ายกันสำหรับการไหลของ DA ที่เกิดขึ้นในคิวใน dorsolateral striatum สำหรับกรณีของรอยโรคที่หน้าท้อง ในที่สุดหากหลังจากจับคู่ยาเสพติดจำนวนมากในสัตว์ที่ไม่เป็นอันตรายการลงโทษตามด้วยยานั้นแบบจำลองจะทำนาย (คอลัมน์ขวา) ที่คิวยาที่เกี่ยวข้องกับผลลัพธ์ในการยับยั้งขาหน้าท้องของเกลียวเกลียว DA แม้จะผ่านการฝึกอบรม จำกัด ในภูมิภาคหลังมากขึ้นอย่างไรก็ตาม DA efflux ลดลงอย่างช้าๆในระหว่างการเรียนรู้ แต่จะยังคงเป็นบวกแม้หลังจากการจับคู่การลงโทษด้วยยาอย่างกว้างขวาง ข้อมูลที่นำเสนอในรูปนี้ได้มาจากสัตว์จำลอง“ หนึ่ง” ดังนั้นจึงไม่มีการวิเคราะห์ทางสถิติที่เกี่ยวข้อง

ดอย: 10.1371 / journal.pone.0061489.g003

นอกจากนี้แบบจำลองของเรายังอธิบายถึงหลักฐานด้วย [17] การพัฒนาล่าช้าของคิวที่ได้รับจากการไหลของ DA ใน dorsolateral striatum ขึ้นอยู่กับ ventral striatum (รูป 3) ในแบบจำลองของเราแผลจำลองข้างเดียวของ ventral striatum (ระดับการประเมินมูลค่านามธรรมในแบบจำลอง) ลดค่าคิวที่คาดการณ์ของยาเสพติดอย่างมีนัยสำคัญในระดับรายละเอียดในซีกโลกาภิวัตน์ ipsilateral ดังนั้นจึงลดระดับของ DA-efflux คิว ในการสร้างแบบจำลองรอยโรคของ ventral striatum เราเพียงแค่กำหนดค่าของสิ่งเร้าทั้งหมดในระดับสูงสุดของลำดับชั้นให้เป็นศูนย์

แบบจำลองของเราทำนายว่าการพัฒนาของสัญญาณ phasic DA ใน dorsolateral striatum ขึ้นอยู่กับความสมบูรณ์ของวงจรการหมุนวน DA (รูป 3) ในความเป็นจริงการตัดการเชื่อมต่อในวงจร DA วนวนในแบบจำลองของเราตัดการสื่อสารข้ามระดับของสิ่งที่เป็นนามธรรมซึ่งจะป้องกันการสะสมของอคติที่เกิดจากยาบนสัญญาณเสริมแรงตามระดับของลำดับการตัดสินใจ เพื่อจำลองการขาดการเชื่อมต่อในวงจรอนุกรม DA-dependent ของ ventral ไปยัง dorsal striatum เรายึดแต่ละระดับของ abstraction เพื่อคำนวณสัญญาณข้อผิดพลาดการทำนายเฉพาะที่ (ในสมการ 3) โดยไม่ได้รับค่าสถานะขั้นสูงจากชั่วขณะที่สูงขึ้นทันที ระดับของสิ่งที่เป็นนามธรรม

นอกจากนี้แบบจำลองทำนายว่ารูปแบบของ DA-elicited DA efflux จะเปลี่ยนไปหากหลังจากการฝึกอบรมอย่างกว้างขวางกับตัวชี้นำที่เกี่ยวข้องกับโคเคนและโคเคนเช่นเดียวกับในการทดลองข้างต้นเราเริ่มจับคู่การส่งโคเคนด้วยการลงโทษที่รุนแรง เราคาดการณ์ว่าการไหลของ DA ในการตอบสนองต่อคิวที่เกี่ยวข้องกับโคเคนควรจะลดลงอย่างรวดเร็วด้านล่างพื้นฐานใน ventral striatum ใน dorsolateral striatum อย่างไรก็ตามการปลดปล่อย DA ที่กระตุ้นโดยคิวควรอยู่เหนือเส้นฐาน (รูป 3) ด้วยความเป็นไปได้ที่ลดลงบางส่วนล่าช้า สิ่งนี้บ่งชี้ว่าการกำหนดค่าอัตนัยเชิงบวกให้กับการกระตุ้นด้วยยาในระดับรายละเอียดแม้จะมีค่าลบ (ต่ำกว่าพื้นฐาน) ในระดับความรู้ความเข้าใจ เป็นที่น่าสังเกตว่าการทำนายนี้ขึ้นอยู่กับการสันนิษฐานว่าการลงโทษนั้นได้รับการปฏิบัติโดยสมองเพียงแค่เป็นรางวัลเชิงลบ สมมติฐานนี้ค่อนข้างขัดแย้ง: สนับสนุนการศึกษาทดลองอย่างชัดเจน [35]แต่คนอื่นก็พูดถึงเช่นกัน [14], [36]. นอกจากการทำนายนี้แง่มุมอื่น ๆ ของแบบจำลองไม่ได้ขึ้นอยู่กับว่าการลงโทษถูกเข้ารหัสโดยโดปามีนหรือระบบส่งสัญญาณอื่น

ระบบการฝึกอบรมที่ใช้โดย Willuhn และคณะ [34] ไม่เพียงพอที่จะขยายไปสู่การสร้างพฤติกรรมการแสวงหายาเสพติดโดยมีลักษณะที่ไม่ตอบสนองต่อการลงโทษที่เกี่ยวข้องกับยา [37], [38]. ดังนั้นคำถามสำคัญที่ต้องตอบคืออะไรคือความสัมพันธ์ระหว่างการพัฒนาล่าช้าของการตอบสนอง DA แบบคิวที่เกิดขึ้นใน DLS และการพัฒนาที่ล่าช้าในการตอบสนองเชิงบังคับ จากแบบจำลองของเราพฤติกรรมการบีบบังคับไม่เพียง แต่ต้องประเมินค่าตัวเลือกยามากเกินไปในระดับต่ำของลำดับชั้น แต่ยังมีการถ่ายโอนการควบคุมพฤติกรรมจากองค์ความรู้เชิงนามธรรมไปสู่กระบวนการนิสัยระดับต่ำ มาตราส่วนเวลาของกระบวนการทั้งสองนี้ขึ้นอยู่กับบางส่วนเท่านั้น: กระบวนการประเมินค่ามากเกินไปขึ้นอยู่กับสัญญาณข้อผิดพลาดการทำนายในขณะที่การถ่ายโอนการควบคุมพฤติกรรมยังขึ้นอยู่กับความไม่แน่นอนสัมพัทธ์ในการประมาณค่า ดังนั้นการประเมินราคายาที่เกี่ยวข้องกับยาในระดับต่ำของลำดับชั้นสามารถนำหน้าการควบคุมพฤติกรรมจากบนลงล่างสุดของลำดับชั้น ช่วงเวลาที่แน่นอนของกระบวนการทั้งสองนั้นขึ้นอยู่กับอัตราการเรียนรู้และเสียงรบกวนในระดับที่แตกต่างกันตามลำดับ (ดู ไฟล์ S1 สำหรับข้อมูลเพิ่มเติม) กล่าวอีกนัยหนึ่งมีแนวโน้มว่าโดปามีนที่เกิดจากคิวใน DLS อาจพัฒนาอย่างมีนัยสำคัญก่อนที่การค้นหายาเสพติดจะต้องแสดงออกทางพฤติกรรม

ผลกระทบทางพฤติกรรมของการประเมินค่ายาที่ไม่สอดคล้องกับผลตอบแทนตามธรรมชาติ

ในเชิงพฤติกรรมของเราถ้าการลงโทษถูกจับคู่กับยาเสพติดในระยะแรกของการใช้ยาโดยสมัครใจค่านามธรรมของการตอบสนองต่อการแสวงหายาเสพติดจะกลายเป็นลบอย่างรวดเร็ว สมมติว่าการค้นหายาเสพติดถูกควบคุมโดยระดับนามธรรมในช่วงแรกการประเมินบทคัดย่อเชิงลบของการเลือกใช้ยาทำให้ผู้ทดลองไม่อยากสัมผัสกับการกระทำนั้นอีกต่อไป สิ่งนี้จะป้องกันไม่ให้มีการรวมตัวกันของการตั้งค่าระดับต่ำที่แข็งแกร่งต่อยาเสพติดในช่วงเวลา ดังนั้นตัวแบบอธิบายความยืดหยุ่นของการเลือกใช้ยากับค่าใช้จ่ายในช่วงแรกของการบริโภคยา แต่ไม่ใช่หลังการใช้เรื้อรัง รูปแบบการติดของสัตว์แสดงให้เห็นว่าการตอบสนองต่อการแสวงหายาเสพติดไม่ได้ผลที่เป็นอันตรายจากการพัฒนายาหลังจากใช้ยาด้วยตนเองเป็นเวลานาน แต่ไม่ จำกัด การใช้ยา [37], [38]. ตรงกันข้ามกับทฤษฏีของเราแบบจำลองการติดยาเสพติดก่อนหน้านี้ [9], [10] อยู่ในความขัดแย้งโดยตรงกับหลักฐานของร่างกายนี้เนื่องจากพวกเขาทำนายว่าผลพฤติกรรมที่ไม่พึงประสงค์ที่ติดตามการใช้ยาทันทีไม่มีแรงจูงใจแม้แต่ในช่วงแรก ๆ ของการประสบกับยา (ดู ไฟล์ S1 สำหรับข้อมูลเพิ่มเติม)

แบบจำลองของเราอธิบายเพิ่มเติมเกี่ยวกับการเกิดผลการบล็อกสำหรับผลลัพธ์ของยา [39]. การปิดกั้นเป็นปรากฏการณ์การปรับอากาศที่การจับคู่ก่อนหน้าของสิ่งเร้ากับผลลัพธ์บล็อกการสร้างความสัมพันธ์ระหว่างสิ่งกระตุ้นต่าง ๆ B กับผลลัพธ์นั้นในขั้นตอนการฝึกอบรมที่ตามมาซึ่งทั้ง A และ B จะถูกนำเสนอก่อนส่งผลลัพธ์ [40]. ผลลัพธ์ของการจำลองแบบจำลองของเราในการออกแบบการทดลองของ Pavlovian (ดู ไฟล์ S1 สำหรับข้อมูลเพิ่มเติมเกี่ยวกับแบบจำลองของ Pavlovian) แสดงให้เห็นว่าทั้งสองกรณีของรางวัลธรรมชาติและยาเสพติดเมื่อค่าประมาณในระดับหนึ่งของลำดับชั้นมาถึงสถานะที่มั่นคง (แทนที่จะเติบโตอย่างไม่ จำกัด ) ไม่มีการเรียนรู้เพิ่มเติมที่ ระดับเนื่องจากสัญญาณข้อผิดพลาดการทำนายลดลงเป็นศูนย์ (รูป 4) ดังนั้นการเชื่อมโยงสิ่งกระตุ้นใหม่กับรางวัลที่คาดการณ์ไว้จะถูกปิดกั้น หลักฐานพฤติกรรมแสดงผลการปิดกั้นที่เกี่ยวข้องกับยาและสารเสริมธรรมชาติ [39] ถูกนำมาใช้เป็นข้อโต้แย้งที่สำคัญในการวิพากษ์วิจารณ์รูปแบบการคำนวณการเสพติดของโดปามีน [9]. ที่นี่เราแสดงให้เห็นว่าการมุ่งเน้นไปที่ลักษณะการลำดับชั้นของการเป็นตัวแทนและองค์กร dopamine วนที่มีการหมุนวนด้านหลังสามารถทำได้ในความเป็นจริงสำหรับข้อมูลการปิดกั้นจึงหลีกเลี่ยงการวิจารณ์นี้ ไฟล์ S1 สำหรับข้อมูลเพิ่มเติม)

ภาพขนาดย่อ

รูป 4 การปิดกั้นเอฟเฟกต์สำหรับรางวัลจากธรรมชาติและยา

ตัวแบบทำนายว่าการบล็อกเกิดขึ้นเพื่อรับรางวัลตามธรรมชาติ (A) และยาเสพติด (B) เฉพาะในกรณีที่ระยะเวลาการฝึกอบรมเริ่มต้นเป็น“ กว้างขวาง” เช่นการกระตุ้นครั้งแรกคาดการณ์มูลค่าของผลลัพธ์อย่างเต็มที่ หลังจากการฝึกอบรม "ปานกลาง" ระดับความรู้ความเข้าใจที่มีความยืดหยุ่นมากขึ้นจะทำนายค่านิยมได้อย่างเต็มที่จึงปิดกั้นการเรียนรู้เพิ่มเติม อย่างไรก็ตามการเรียนรู้ยังคงทำงานอยู่ในกระบวนการระดับต่ำเมื่อเริ่มการฝึกอบรมครั้งที่สอง ดังนั้นแบบจำลองของเราคาดการณ์ว่าการฝึกอบรมเบื้องต้นในระดับปานกลางในการทดสอบการบล็อกด้วยผลตอบแทนตามธรรมชาติจะส่งผลให้เกิดความไม่สอดคล้องระหว่างความรู้ความเข้าใจและพฤติกรรม ข้อมูลที่นำเสนอในรูปนี้ได้มาจากสัตว์จำลอง“ หนึ่ง” ดังนั้นจึงไม่มีการวิเคราะห์ทางสถิติที่เกี่ยวข้อง

ดอย: 10.1371 / journal.pone.0061489.g004

ดังที่ได้กล่าวไว้ก่อนหน้านี้หลักฐานหลายบรรทัดแสดงให้เห็นถึงการปกครองแบบก้าวหน้าของหลังที่อยู่เหนือ ventral striatum ในการควบคุมพฤติกรรมในระหว่างการเรียนรู้ [8], [31], [32]. การตีความบนพื้นหลังของหลักฐานเหล่านั้นการประเมินมูลค่าการแสวงหายาที่ไม่สมดุลในลำดับชั้นยังอธิบายถึงความพยายามที่ไม่ประสบความสำเร็จของผู้ติดยาในการลดการใช้ยาหลังจากสัมผัสกับยาเป็นเวลานานเมื่อการควบคุมทางเลือกที่เกี่ยวข้องกับยาได้เปลี่ยนจากความรู้ความเข้าใจไปสู่ระดับต่ำ ระดับกระบวนการที่เป็นนิสัย ความสูงสุดของกระบวนการที่ใช้ยาเสพติดนี้นำไปสู่ความไม่ยืดหยุ่นทางพฤติกรรมต่อต้นทุนที่เกี่ยวข้องกับยา (การแสวงหายาเสพติด) ซึ่งอาจมาพร้อมกับความผิดพลาดที่อธิบายตัวเอง อย่างไรก็ตามสำหรับกรณีของรางวัลตามธรรมชาติแบบจำลองของเราคาดการณ์ว่าแม้ว่าความไม่ยืดหยุ่นของพฤติกรรมจะเพิ่มขึ้นในระหว่างการเรียนรู้เนื่องจากไม่มีการประเมินมูลค่าที่ไม่สอดคล้องกันในระดับของลำดับชั้น แต่การลงโทษที่เกี่ยวข้องกับรางวัลจะยับยั้งการแสวงหารางวัลในที่สุด

แบบจำลองของเรามุ่งเน้นที่การประเมินการกระทำในลำดับการตัดสินใจที่“ ให้ไว้ได้” และทิ้งวิธีที่ตัวเลือกเชิงนามธรรมและรูทีนย่อยระดับต่ำที่สอดคล้องกันถูกค้นพบครั้งแรกระหว่างการพัฒนา การค้นพบลำดับชั้นการตัดสินใจนั้นถูกเสนอให้เป็นกระบวนการจากล่างขึ้นบนซึ่งทำได้โดยการเรียงลำดับการกระทำในระดับต่ำและสร้างทางเลือกที่เป็นนามธรรมมากขึ้น [41]. กระบวนการนี้คาดว่าจะได้รับการเปลี่ยนแปลงจากหลังไปยังหน้าท้อง striatum อยู่ในทิศทางตรงกันข้ามกับกลไกการแข่งขันที่เสนอที่นี่เพื่อควบคุมพฤติกรรม

การสนทนา

หลักฐานที่เพิ่มขึ้นเรื่อย ๆ เกี่ยวกับบทบาทที่แตกต่างของอนุภูมิภาคที่แตกต่างกันของการเสพติดนั้นมักถูกตีความในกรอบของนิสัยและการแบ่งขั้วเป้าหมาย [8], [14], [34]. วิธีการตัดสินใจแบบลำดับชั้นที่เราใช้ที่นี่เป็นส่วนเสริมสำหรับบัญชีสองระบบดังกล่าว ในขณะที่วิธีการแบบสองกระบวนการเกี่ยวข้องกับอัลกอริธึมที่แตกต่างกัน (แบบไม่มีเทียบกับแบบจำลองพื้นฐาน [30]) สำหรับการแก้ปัญหาเดียวกรอบ RL ของลำดับชั้นจะมุ่งเน้นไปที่การนำเสนอที่แตกต่างกันของปัญหาเดียวกันที่ระดับที่แตกต่างกันของนามธรรมที่เป็นนามธรรม ในทางทฤษฎีไม่ว่าจะเป็นนิสัยหรืออัลกอริธึมที่มุ่งเป้าหมายสามารถแก้ปัญหาการเป็นตัวแทนที่แตกต่างกันของปัญหาเหล่านี้ ในแบบจำลองของเราการสะสมของอคติที่เกิดจากยาที่เกิดจากเกลียว DA นั้นเกิดขึ้นในการตั้งค่าที่อัลกอริทึมการประมาณค่าไม่มีแบบจำลอง (การเรียนรู้นิสัย) อย่างไรก็ตามสิ่งนี้ไม่ได้ตัดทอนการมีอยู่ของระบบที่ใช้แบบจำลองซึ่งทำงานที่ระดับบนสุดของลำดับชั้น เราสามารถรวมการประเมินมูลค่าและการตัดสินใจที่ขึ้นกับเป้าหมายของ PFC เข้ากับแบบจำลองโดยสมมติว่าการกระทำในระดับสูงสุดของสิ่งที่เป็นนามธรรมได้รับการประเมินโดยระบบที่นำเป้าหมาย ในขณะที่ภาวะแทรกซ้อนดังกล่าวไม่ได้เปลี่ยนลักษณะของผลลัพธ์ที่นำเสนอในต้นฉบับนี้ความยืดหยุ่นที่เพิ่มขึ้นในการอธิบายลักษณะอื่น ๆ ของการเสพติดคือการศึกษาในอนาคต ในความเป็นจริงในแบบจำลองของเราโดยไม่คำนึงว่าระบบเป้าหมายโดยตรงมีอยู่หรือไม่ความคลาดเคลื่อนในมูลค่าเชิงซีโมติกของการค้นหายาเสพติดระหว่างสองขั้วของลำดับชั้นขึ้นกับจำนวนระดับการตัดสินใจที่ควบคุมโดยกระบวนการ“ นิสัย” .

ในแง่ของทฤษฎีของเราการกำเริบของโรคสามารถถูกมองว่าเป็นการคืนชีพของพฤติกรรมการปรับตัวที่ไม่เหมาะสมของมอเตอร์ในระดับที่หยุดชะงักหลังจากช่วงเวลาแห่งการครอบงำของระดับความรู้ความเข้าใจ ในความเป็นจริงเราสามารถจินตนาการได้ว่าเป็นผลมาจากการบำบัดองค์ความรู้ (ในมนุษย์ติดยาเสพติด) หรือบังคับให้สูญพันธุ์ (ในรูปแบบของการเลิกบุหรี่) สัตว์มูลค่าสูงของการค้นหายาเสพติดในระดับรายละเอียดของลำดับชั้นไม่ดับ เพื่อเปลี่ยนการควบคุมกลับสู่ระดับความรู้ความเข้าใจ เนื่องจากพฤติกรรมที่เกี่ยวข้องกับยามีความไวต่อผลกระทบที่ไม่พึงประสงค์ในระดับนามธรรมดังนั้นการค้นหายาจึงสามารถหลีกเลี่ยงได้ตราบใดที่กระบวนการรับรู้ในระดับสูงมีอิทธิพลเหนือการควบคุมพฤติกรรม เราสามารถคาดการณ์ได้ว่าโปรแกรมขั้นตอน 12 ยอดนิยม (เช่นแอลกอฮอล์ไม่ประสงค์ออกนาม, ยาเสพติดนิรนาม, ฯลฯ ) ทำงานโดยการกำหนดให้ผู้เข้าร่วมต้องยอมรับความไม่สอดคล้องของวิถีชีวิตที่เกี่ยวข้องกับยาเสพติดของพวกเขา พฤติกรรม. เงื่อนไขที่เครียดหรือการสัมผัสกับยาอีกครั้ง (ไพรเมอร์) อาจถูกมองว่าเป็นปัจจัยเสี่ยงที่ทำให้การครอบงำของระดับนามธรรมเหนือพฤติกรรมลดลงซึ่งอาจส่งผลให้เกิดการตอบสนองต่อการค้นหายาเสพติดอีกครั้ง )

โดยสรุปเราเสนอบัญชีที่สอดคล้องกันสำหรับปรากฏการณ์ที่แตกต่างกันของลักษณะการติดยาหลายอย่าง แบบจำลองของเราจัดทำบัญชีเชิงบรรทัดฐานสำหรับข้อมูลเกี่ยวกับบทบาทที่แตกต่างกันของวงจรหน้าท้องและส่วนหลังของอวัยวะในช่องท้องในการได้มาซึ่งการแสวงหายาและประสิทธิภาพของนิสัยตลอดจนบทบาทในการคัดเลือกของการเชื่อมต่อ DA แบบฟีดไปข้างหน้าสำหรับผลของยากับสารเสริมแรงตามธรรมชาติ สิ่งสำคัญที่สุดคือเราแสดงให้เห็นว่าพยาธิวิทยาที่เกิดจากยาในสัญญาณ DA ในช่องท้องถึงด้านหลังที่หลอกล่อข้อมูลที่สร้างแรงบันดาลใจลงตามลำดับชั้นการแสดงความรู้ความเข้าใจอาจนำไปสู่ความไม่ลงรอยกันระหว่างทัศนคติเชิงนามธรรมของผู้ติดยาที่มีต่อการแสวงหายาและสิ่งที่พวกเขาทำจริง เห็นได้ชัดว่าแบบจำลองของเราไม่ได้และไม่ได้มีไว้เพื่อให้บัญชีที่สมบูรณ์เกี่ยวกับการติดยาเสพติด การอธิบายลักษณะอื่น ๆ ที่ไม่สามารถอธิบายได้ของการเสพติดนั้นจำเป็นต้องมีการผสมผสานระบบสมองอื่น ๆ อีกมากมายที่แสดงให้เห็นว่าได้รับผลกระทบจากการใช้ยาในทางที่ผิด [42]. วิธีการรวมระบบดังกล่าวภายในเครือข่ายการคำนวณอย่างเป็นทางการยังคงเป็นหัวข้อสำหรับการตรวจสอบต่อไป

ข้อมูลสนับสนุน

File_S1.pdf
 

รูปที่ S1ลำดับชั้นการตัดสินใจตัวอย่างที่มีห้าระดับของนามธรรม รูปที่ S2 วงจรประสาทที่เกี่ยวข้องสำหรับอัลกอริธึมการเรียนรู้คุณค่าทั้งสามที่กล่าวถึงนั้นเป็นโครงสร้างการตัดสินใจแบบลำดับชั้น A, ใช้อัลกอริธึมการเรียนรู้ TD อย่างง่าย (สมการ S7) สัญญาณข้อผิดพลาดการทำนายในแต่ละระดับของนามธรรมจะถูกคำนวณอย่างเป็นอิสระจากระดับอื่น B, ในแบบจำลองที่เสนอโดย Haruno และ Kawato (4) (สมการ S8) ค่าของสถานะชั่วคราวขั้นสูงมาจากระดับที่สูงขึ้นหนึ่งของนามธรรม C, ในแบบจำลองของเรา (สมการ S9) ค่าของสถานะขั้นสูงชั่วคราวจะถูกแทนที่ด้วยการรวมกันของรางวัลและค่า Q- ของการกระทำที่ดำเนินการในระดับที่สูงขึ้นของนามธรรม รูปที่ S3 แบบจำลองของเราทำนายไซต์ต่าง ๆ ของการกระทำของยาเสพติดในวงจรการเรียนรู้รางวัล: ไซต์ 1 ถึง 3 ยาที่มีผลต่อไซต์ 4 ถึง 6 จะไม่ส่งผลให้เกิดรูปแบบพฤติกรรมและ neurobiological ที่ผลิตโดยการจำลองแบบจำลองของยาเสพติด แต่จะให้ผลลัพธ์ที่คล้ายคลึงกับกรณีของรางวัลธรรมชาติ รูปที่ S4 งานที่ใช้ในการจำลองกลไกการแข่งขันที่ไม่แน่นอนตามระดับของลำดับชั้นสำหรับควบคุมพฤติกรรม รูปที่ S5 ผลการจำลองแสดงการเลื่อนการควบคุมพฤติกรรมอย่างค่อยเป็นค่อยไปตั้งแต่ระดับสูงขึ้นไปจนถึงระดับล่าง Q (S, A) และ สหรัฐอเมริกา) แสดงมูลค่าโดยประมาณและความไม่แน่นอนของคู่การกระทำของรัฐตามลำดับ

ไฟล์ S1.

รูปที่ S1ลำดับชั้นการตัดสินใจตัวอย่างที่มีห้าระดับของนามธรรม รูปที่ S2 วงจรประสาทที่เกี่ยวข้องสำหรับอัลกอริธึมการเรียนรู้คุณค่าทั้งสามที่กล่าวถึงนั้นเป็นโครงสร้างการตัดสินใจแบบลำดับชั้น A, ใช้อัลกอริธึมการเรียนรู้ TD อย่างง่าย (สมการ S7) สัญญาณข้อผิดพลาดการทำนายในแต่ละระดับของนามธรรมจะถูกคำนวณอย่างเป็นอิสระจากระดับอื่น B, ในแบบจำลองที่เสนอโดย Haruno และ Kawato (4) (สมการ S8) ค่าของสถานะชั่วคราวขั้นสูงมาจากระดับที่สูงขึ้นหนึ่งของนามธรรม C, ในแบบจำลองของเรา (สมการ S9) ค่าของสถานะขั้นสูงชั่วคราวจะถูกแทนที่ด้วยการรวมกันของรางวัลและค่า Q- ของการกระทำที่ดำเนินการในระดับที่สูงขึ้นของนามธรรม รูปที่ S3 แบบจำลองของเราทำนายไซต์ต่าง ๆ ของการกระทำของยาเสพติดในวงจรการเรียนรู้รางวัล: ไซต์ 1 ถึง 3 ยาที่มีผลต่อไซต์ 4 ถึง 6 จะไม่ส่งผลให้เกิดรูปแบบพฤติกรรมและ neurobiological ที่ผลิตโดยการจำลองแบบจำลองของยาเสพติด แต่จะให้ผลลัพธ์ที่คล้ายคลึงกับกรณีของรางวัลธรรมชาติ รูปที่ S4 งานที่ใช้ในการจำลองกลไกการแข่งขันที่ไม่แน่นอนตามระดับของลำดับชั้นสำหรับควบคุมพฤติกรรม รูปที่ S5 ผลการจำลองแสดงการเลื่อนการควบคุมพฤติกรรมอย่างค่อยเป็นค่อยไปตั้งแต่ระดับสูงขึ้นไปจนถึงระดับล่าง Q (S, A) และ สหรัฐอเมริกา) แสดงมูลค่าโดยประมาณและความไม่แน่นอนของคู่การกระทำของรัฐตามลำดับ

ดอย: 10.1371 / journal.pone.0061489.s001

(PDF)

กิตติกรรมประกาศ

เราขอขอบคุณ S. Ahmed และ P. Dayan สำหรับการอภิปรายที่สำคัญและ M. Reinoud, D. Redish, N. Daw, E. Koechlin และ A. Dezfouli สำหรับการแสดงความคิดเห็นเกี่ยวกับต้นฉบับ

ผลงานของผู้เขียน

รู้สึกและออกแบบการทดลอง: MK ทำการทดลอง: MK วิเคราะห์ข้อมูล: MK BG รีเอเจนต์ที่บริจาค / เครื่องมือ / เครื่องมือวิเคราะห์: MK เขียนบทความ: MK BG

อ้างอิง

  1. 1. ยาเสพติดนิรนาม (2008) 6th เอ็ด สำนักงานบริการโลก
  2. 2. Goldstein A (2001) ติดยาเสพติด: จากชีววิทยากับนโยบายยาเสพติด สำนักพิมพ์มหาวิทยาลัยออกซ์ฟอร์ดสหรัฐอเมริกา
  3. 3. Volkow ND, พรานล่าสัตว์ JS, วัง GJ, สเวนสัน JM (2004) โดปามีนในการใช้ยาเสพติดและติดยาเสพติด: ผลจากการศึกษาการถ่ายภาพและผลกระทบการรักษา จิตเวชศาสตร์โมเลกุล 9: 557 – 569 ดอย: 10.1038 / sj.mp.4001507. ค้นหาบทความนี้ออนไลน์
  4. 4. Stacy AW, Wiers RW (2010) การรับรู้และการเสพติดโดยนัย: เครื่องมือสำหรับอธิบายพฤติกรรมที่ขัดแย้ง การทบทวนประจำปีของจิตวิทยาคลินิก 6: 551 – 575 ดอย: 10.1146 / annurev.clinpsy.121208.131444. ค้นหาบทความนี้ออนไลน์
  5. 5. คู่มือการวินิจฉัยและสถิติของความผิดปกติทางจิต (DSM-IV) (2000) 4th เอ็ด วอชิงตันดีซี: สมาคมจิตแพทย์อเมริกัน
  6. 6. Lamb RJ, Preston KL, Schindler CW, Meisch RA, Davis F, และคณะ (1991) การเสริมแรงและผลเชิงอัตวิสัยของมอร์ฟีนในผู้ติดยา: การศึกษาการตอบสนองต่อยา วารสารเภสัชวิทยาและการบำบัดทดลอง 259: 1165 – 1173 ค้นหาบทความนี้ออนไลน์
  7. 7. Goldstein RZ, Woicik PA, Moeller SJ, Telang F, Jayne M, และคณะ (2010) ความชอบและความต้องการของรางวัลยาเสพติดและไม่ใช่ยาเสพติดในผู้ใช้โคเคนที่ใช้งานอยู่: แบบสอบถาม STRAP-R วารสารเภสัชวิทยา 24: 257 – 266 ดอย: 10.1177/0269881108096982. ค้นหาบทความนี้ออนไลน์
  8. 8. Everitt BJ, Robbins TW (2005) ระบบประสาทของการเสริมแรงสำหรับการติดยา: จากการกระทำไปจนถึงนิสัยจนถึงการบังคับ ประสาทวิทยาศาสตร์ธรรมชาติ 8: 1481 – 1489 ดอย: 10.1038 / nn1579. ค้นหาบทความนี้ออนไลน์
  9. 9. Redish AD (2004) การติดยาเสพติดเนื่องจากกระบวนการคำนวณผิดพลาด วิทยาศาสตร์ 306: 1944 – 1947 ดอย: 10.1126 / science.1102384. ค้นหาบทความนี้ออนไลน์
  10. 10. Dezfouli A, Piray P, Keramati MM, Ekhtiari H, Lucas C, และคณะ (2009) รูปแบบระบบประสาทสำหรับการติดโคเคน การคำนวณระบบประสาท 21: 2869 – 2893 ดอย: 10.1162 / neco.2009.10-08 882-. ค้นหาบทความนี้ออนไลน์
  11. 11. Piray P, Keramati MM, Dezfouli A, Lucas C, Mokri A (2010) ความแตกต่างของแต่ละบุคคลในนิวเคลียส accumbens ตัวรับโดปามีนทำนายการพัฒนาของพฤติกรรมคล้ายติดยาเสพติด: วิธีการคำนวณ การคำนวณระบบประสาท 22: 2334 – 2368 ดอย: 10.1162 / NECO_a_00009. ค้นหาบทความนี้ออนไลน์
  12. 12. Dayan P (2009) โดปามีนการเรียนรู้การเสริมแรงและการเสพติด เภสัชศาสตร์จิตเวช 42: 56 – 65 ดอย: 10.1055 / s-0028 1124107-. ค้นหาบทความนี้ออนไลน์
  13. 13. Takahashi Y, Schoenbaum G, Niv Y (2008) ปิดปากนักวิจารณ์: ทำความเข้าใจเกี่ยวกับผลกระทบของอาการแพ้โคเคนต่อ dorsolateral และ ventral striatum ในบริบทของรูปแบบนักแสดง / นักวิจารณ์ พรมแดนในระบบประสาท 2: 86 – 99 ดอย: 10.3389 / neuro.01.014.2008. ค้นหาบทความนี้ออนไลน์
  14. 14. Redish AD, Jensen S, Johnson A (2008) กรอบการทำงานร่วมกันสำหรับการติด: ช่องโหว่ในกระบวนการตัดสินใจ วิทยาศาสตร์เชิงพฤติกรรมและสมอง 31: 415 – 487 ดอย: 10.1017 / S0140525X0800472X. ค้นหาบทความนี้ออนไลน์
  15. 15. Botvinick MM (2008) โมเดลพฤติกรรมและฟังก์ชัน prefrontal แนวโน้มของวิทยาศาสตร์พุทธิปัญญา 12: 201 – 208 ดอย: 10.1016 / j.tics.2008.02.009. ค้นหาบทความนี้ออนไลน์
  16. 16. Haruno M, Kawato M (2006) รูปแบบการเรียนรู้การเสริมแรงแบบ Heterarchical สำหรับการบูรณาการของลูปคอร์ติโค - สตาทอลหลายครั้ง: การตรวจสอบ fMRI ในการเรียนรู้การกระตุ้นการกระทำของสมาคม โครงข่ายประสาทเทียม 19: 1242 – 1254 ดอย: 10.1016 / j.neunet.2006.06.007. ค้นหาบทความนี้ออนไลน์
  17. 17. Willuhn I, Burgeno LM, Everitt BJ, ฟิลลิปส์ PEM (2012) การรับสมัครระดับสูงของการส่งสัญญาณ dopamine phasic ใน striatum ในระหว่างการใช้โคเคน การดำเนินการของ National Academy of Sciences 109: 20703 – 20708 ดอย: 10.1073 / pnas.1213460109. ค้นหาบทความนี้ออนไลน์
  18. 18. Botvinick MM, Niv Y, Barto AC (2009) พฤติกรรมการจัดลำดับชั้นและรากฐานของระบบประสาท: มุมมองการเรียนรู้เสริมแรง ความรู้ความเข้าใจ 113: 262 – 280 ดอย: 10.1016 / j.cognition.2008.08.011. ค้นหาบทความนี้ออนไลน์
  19. 19. Badre D, D'Esposito M (2009) แกน rostro-caudal ของกลีบหน้าผากเป็นลำดับชั้นหรือไม่? บทวิจารณ์ธรรมชาติประสาท 10: 659–669 ดอย: 10.1038 / nrn2667. ค้นหาบทความนี้ออนไลน์
  20. 20. Koechlin E, Ody C, Kouneiher F (2003) สถาปัตยกรรมของการควบคุมการรับรู้ในเยื่อหุ้มสมองส่วนหน้าของมนุษย์ วิทยาศาสตร์ 302: 1181 – 1185 ดอย: 10.1126 / science.1088545. ค้นหาบทความนี้ออนไลน์
  21. 21. Badre D, Hoffman J, Cooney JW, D'Esposito M (2009) การควบคุมความรู้ความเข้าใจตามลำดับชั้นขาดดุลตามความเสียหายต่อกลีบหน้าผากของมนุษย์ ธรรมชาติวิทยา 12: 515–522 ดอย: 10.1038 / nn.2277. ค้นหาบทความนี้ออนไลน์
  22. 22. Alexander GE, DeLong MR, Strick PL (1986) องค์กรแบบคู่ขนานของวงจรที่แยกการทำงานซึ่งเชื่อมโยงปมประสาทฐานและเยื่อหุ้มสมอง ทบทวนประจำปีของประสาทวิทยาศาสตร์ 9: 357 – 381 ดอย: 10.1146 / annurev.neuro.9.1.357. ค้นหาบทความนี้ออนไลน์
  23. 23. Alexander GE, Crutcher MD, DeLong MR (1990) วงจรปมประสาท - ธาลัมอกคอร์พื้นฐาน: พื้นผิวแบบขนานสำหรับมอเตอร์, กล้ามเนื้อหน้าท้อง, ฟังก์ชั่นด้านหน้าและแขนขา ความก้าวหน้าในการวิจัยสมอง 85: 119 – 146 ค้นหาบทความนี้ออนไลน์
  24. 24. Schultz W, Dayan P, Montague PR (1997) สารตั้งต้นทางประสาทของการทำนายและการให้รางวัล วิทยาศาสตร์ 275: 1593 – 1599 ดอย: 10.1126 / science.275.5306.1593. ค้นหาบทความนี้ออนไลน์
  25. 25. Belin D, Everitt BJ (2008) การค้นหาโคเคนขึ้นอยู่กับการเชื่อมต่อแบบอนุกรมที่ต้องพึ่งพาโดปามีนซึ่งเชื่อมโยงช่องท้องกับส่วนหลัง เซลล์ประสาท 57: 432 – 441 ดอย: 10.1016 / j.neuron.2007.12.019. ค้นหาบทความนี้ออนไลน์
  26. 26. ฮาเบอร์ SN, ฟัดจ์ JL, McFarland NR (2000) เส้นทาง Striatonigrostriatal ในสัตว์เลี้ยงลูกด้วยนมในรูปแบบเกลียวขึ้นจากเปลือกหอยไปยัง Dorsolateral Striatum วารสารประสาทวิทยาศาสตร์ 20: 2369 – 2382 ค้นหาบทความนี้ออนไลน์
  27. 27. ฮาเบอร์ SN (2003) ฐานปมประสาทเจ้าคณะ: เครือข่ายแบบขนานและบูรณาการ วารสารเคมีประสาทระบบประสาท 26: 317 – 330 ดอย: 10.1016 / j.jchemneu.2003.10.003. ค้นหาบทความนี้ออนไลน์
  28. 28. Sutton RS, Barto AG (1998) การเรียนรู้การเสริมแรง: การแนะนำ Cambridge: MIT Press
  29. 29. Di Chiara G, Imperato A (1988) ยาเสพติดที่ถูกทารุณกรรมโดยมนุษย์เพิ่มความเข้มข้นของโดปามีนใน synaptic dopamine ในระบบ mesolimbic ของหนูที่เคลื่อนไหวอย่างอิสระ การดำเนินการของ National Academy of Sciences ของสหรัฐอเมริกา 85: 5274 – 5278 ดอย: 10.1073 / pnas.85.14.5274. ค้นหาบทความนี้ออนไลน์
  30. 30. Daw ND, Niv Y, Dayan P (2005) การแข่งขันที่ไม่แน่นอนระหว่างระบบ prefrontal และ dorsolateral striatal เพื่อการควบคุมพฤติกรรม ประสาทวิทยาศาสตร์ธรรมชาติ 8: 1704 – 1711 ดอย: 10.1038 / nn1560. ค้นหาบทความนี้ออนไลน์
  31. 31. Vanderschuren LJMJ, Ciano PD, Everitt BJ (2005) การมีส่วนร่วมของ striatum หลังในการแสวงหาโคเคนที่ควบคุมด้วยคิว วารสารประสาทวิทยาศาสตร์ 25: 8665 – 8670 ดอย: 10.1523 / JNEUROSCI.0925-05.2005. ค้นหาบทความนี้ออนไลน์
  32. 32. Volkow ND, วัง GJ, Telang F, Fowler JS, Logan J, และคณะ (2006) ตัวชี้นำโคเคนและโดปามีนในแถบด้านหลัง: กลไกของความอยากในการติดโคเคน วารสารประสาทวิทยาศาสตร์ 26: 6583 – 6588 ดอย: 10.1523 / JNEUROSCI.1544-06.2006. ค้นหาบทความนี้ออนไลน์
  33. 33. Kalivas PW, Volkow ND (2005) พื้นฐานทางประสาทของการติดยาเสพติด: พยาธิวิทยาของแรงจูงใจและทางเลือก วารสารจิตเวชศาสตร์อเมริกัน 162: 1403 – 1413 ดอย: 10.1176 / appi.ajp.162.8.1403. ค้นหาบทความนี้ออนไลน์
  34. 34. Belin D, Jonkman S, Dickinson A, Robbins TW, Everitt BJ (2009) กระบวนการเรียนรู้แบบขนานและแบบโต้ตอบภายในฐานปมประสาท: ความเกี่ยวข้องสำหรับความเข้าใจในการเสพติด การวิจัยเกี่ยวกับพฤติกรรมทางสมอง 199: 89 – 102 ดอย: 10.1016 / j.bbr.2008.09.027. ค้นหาบทความนี้ออนไลน์
  35. 35. Matsumoto M, Hikosaka O (2009) เซลล์ประสาทโดปามีนสองประเภทถ่ายทอดสัญญาณแรงบันดาลใจในเชิงบวกและเชิงลบอย่างชัดเจน ธรรมชาติ 459: 837 – 841 ดอย: 10.1038 / nature08028. ค้นหาบทความนี้ออนไลน์
  36. 36. Frank MJ, Surmeier DJ (2009) เซลล์ประสาทโดปามีเนอร์ซิกมีความแตกต่างระหว่างรางวัลและการลงโทษหรือไม่? วารสารชีววิทยาโมเลกุลเซลล์ 1: 15 – 16 ดอย: 10.1093 / jmcb / mjp010. ค้นหาบทความนี้ออนไลน์
  37. 37. Vanderschuren LJMJ, Everitt BJ (2004) การค้นหายาเสพติดกลายเป็นเรื่องต้องทำหลังจากได้รับโคเคนเป็นเวลานาน วิทยาศาสตร์ 305: 1017 – 1019 ดอย: 10.1126 / science.1098975. ค้นหาบทความนี้ออนไลน์
  38. 38. Deroche-Gamonet V, Belin D, Piazza PV (2004) หลักฐานสำหรับพฤติกรรมการติดยาเสพติดในหนู วิทยาศาสตร์ 305: 1014 – 1017 ดอย: 10.1126 / science.1099020. ค้นหาบทความนี้ออนไลน์
  39. 39. Panlilio LV, Thorndike EB, ชินด์เล่อร์ CW ​​(2007) การปิดกั้นการปรับอากาศเพื่อกระตุ้นคู่โคเคน: การทดสอบสมมติฐานที่ว่าโคเคนผลิตสัญญาณของรางวัลใหญ่กว่าที่คาดไว้ตลอด เภสัชวิทยาชีวเคมีและพฤติกรรม 86: 774 – 777 ดอย: 10.1016 / j.pbb.2007.03.005. ค้นหาบทความนี้ออนไลน์
  40. 40. Kamin L (1969) ความสามารถในการคาดการณ์ความประหลาดใจความสนใจและการปรับสภาพ ใน: Campbell BA, Church RM, บรรณาธิการ การลงโทษและพฤติกรรมที่หลีกเลี่ยง นิวยอร์ก: Appleton-Century-Crofts pp. 279 – 296
  41. 41. Dezfouli A, Balleine BW (2012) นิสัยลำดับการกระทำและการเรียนรู้การเสริมแรง วารสารยุโรปของระบบประสาท 35: 1036 – 1051 ดอย: 10.1111 / j.1460-9568.2012.08050.x. ค้นหาบทความนี้ออนไลน์
  42. 42. Koob GF, Le Moal M (2005) ชีววิทยาของการเสพติด San Diego: Academic Press