โดปามีนความไม่แน่นอนและการเรียนรู้ TD (2005)

ความคิดเห็น: ความไม่แน่นอนหมายถึงความแปลกใหม่ การศึกษาที่ซับซ้อนนี้ยืนยันว่าความแปลกใหม่เพิ่มโดพามีน นอกจากนี้ยังอธิบายว่ายิ่งไม่แน่ใจรางวัลก็จะยิ่งเรียนรู้ได้ดีขึ้น สื่อลามกทางอินเทอร์เน็ตแตกต่างจากสื่อลามกในอดีตเนื่องจากมีความแปลกใหม่ไม่สิ้นสุดซึ่งหมายถึงโดพามีนที่ไม่มีที่สิ้นสุด การเสพติดที่สำคัญคือการเรียนรู้และความจำ การเปลี่ยนไปใช้สื่อลามกประเภทใหม่จะเปิดใช้งานโดพามีนและการเรียนรู้ - เนื่องจากความไม่แน่ใจในสิ่งที่คุณกำลังจะได้สัมผัส ความไม่แน่นอนยังเกิดขึ้นเมื่อผู้ใช้สื่อลามกท่องเว็บเพื่อดูหนังโป๊ คุณไม่รู้ว่าคุณกำลังจะเห็นอะไรและมันทำให้โดพามีนขึ้น
ความแปลกใหม่ความไม่แน่นอนและการค้นหาโดปามีนทั้งหมดเปิดใช้งาน

การศึกษาเต็มรูปแบบ: ความไม่แน่นอนของโดปามีนและการเรียนรู้ TD

ฟังก์ชันเกี่ยวกับพฤติกรรมและสมอง 2005, 1:6doi:10.1186/1744-9081-1-6

Yael Niv1,2 , Michael O Duff2 และ Peter Dayan2
1 ศูนย์สหวิทยาการเพื่อการคำนวณระบบประสาท, มหาวิทยาลัยฮิบรู, เยรูซาเล็ม, อิสราเอล
2 Gatsby หน่วยประสาทวิทยาศาสตร์การคำนวณ, University College London, ลอนดอน, สหราชอาณาจักร
รุ่นอิเล็กทรอนิกส์ของบทความนี้เป็นฉบับสมบูรณ์และสามารถพบได้ทั่วไปที่: http://www.behavioralandbrainfunctions.com/content/1/1/6
© 2005 Niv et al; ผู้รับใบอนุญาต BioMed Central Ltd.

นามธรรม

หลักฐานสำคัญแสดงให้เห็นว่ากิจกรรม phasic ของเซลล์ประสาท dopaminergic ในเจ้าคณะ midbrain แสดงถึงความแตกต่างชั่วคราว (TD) ข้อผิดพลาดในการทำนายผลตอบแทนในอนาคตด้วยการเพิ่มขึ้นสูงกว่าและลดลงต่ำกว่าพื้นฐานที่เกิดจากข้อผิดพลาดในการทำนายเชิงบวกและเชิงลบตามลำดับ อย่างไรก็ตามเซลล์โดพามีนมีกิจกรรมพื้นฐานต่ำมากซึ่งหมายความว่าการแสดงความผิดพลาดสองประเภทนี้ไม่สมมาตร เราสำรวจผลกระทบของความไม่สมดุลที่ดูเหมือนไร้อันตรายนี้สำหรับการตีความรูปแบบการยิงโดปามีนในการทดลองด้วยรางวัลความน่าจะเป็นซึ่งนำไปสู่ข้อผิดพลาดในการทำนายแบบถาวร โดยเฉพาะอย่างยิ่งเราแสดงให้เห็นว่าเมื่อเฉลี่ยข้อผิดพลาดการคาดคะเนที่ไม่คงที่ตลอดการทดลองการกระเพื่อมในกิจกรรมของเซลล์ประสาทโดปามีนควรชัดเจนซึ่งมีขนาดขึ้นอยู่กับอัตราการเรียนรู้ ปรากฏการณ์ที่แน่นอนนี้ถูกพบในการทดลองเมื่อไม่นานมานี้แม้ว่าจะถูกตีความในแง่ตรงกันข้ามว่าเป็นการเข้ารหัสที่ไม่แน่นอน

บทนำ

มีข้อมูลทางสรีรวิทยาการถ่ายภาพและ psychopharmacological ขนาดใหญ่ที่น่าประทับใจเกี่ยวกับกิจกรรม phasic ของเซลล์ dopaminergic (DA) ในกึ่งกลางของลิงหนูและมนุษย์ในงานปรับสภาพแบบดั้งเดิมและเป็นเครื่องมือที่เกี่ยวข้องกับการทำนายรางวัลในอนาคต [1-5] ข้อมูลเหล่านี้ถูกนำมาใช้เพื่อแนะนำ [6,7] ว่ากิจกรรมของเซลล์ประสาท DA แสดงถึงข้อผิดพลาดชั่วคราว (TD) ในการทำนายรางวัลในอนาคต [8,9] ทฤษฎี TD ของโดปามีนนี้ให้รากฐานการคำนวณที่แม่นยำสำหรับการทำความเข้าใจโฮสต์ของข้อมูลพฤติกรรมและระบบประสาท ยิ่งไปกว่านั้นมันแสดงให้เห็นว่า DA ให้สัญญาณที่เหมาะสมในทางทฤษฎีในการควบคุมการเรียนรู้ของการทำนายและการกระทำที่ให้ผลตอบแทนสูงสุด

หลักฐานที่น่าสนใจที่สุดบางประการที่สนับสนุนทฤษฎี TD มาจากการศึกษาการตรวจสอบการกระตุ้นของเซลล์โดปามีนใน phasic เพื่อตอบสนองต่อสิ่งเร้าตามอำเภอใจ (เช่นรูปแบบเศษส่วนบนจอภาพ) ที่ทำนายความพร้อมของรางวัลใกล้เคียง (เช่นหยดน้ำผลไม้) . ในหลาย ๆ สายพันธุ์สิ่งเหล่านี้แสดงให้เห็นว่าด้วยการฝึกอบรมสัญญาณ phasic DA ถ่ายโอนจากเวลาที่คาดเดาไม่ได้ตั้งแต่เริ่มแรกจนถึงเวลาที่มีคิวแรกสุดที่ทำนายการให้รางวัล นี่เป็นผลลัพธ์ที่คาดหวังสำหรับข้อผิดพลาดการทำนายตามความแตกต่างชั่วคราว (เช่น [1,2,10-13]) การค้นพบพื้นฐาน [7] คือเมื่อรางวัลไม่คาดฝัน (ซึ่งหลีกเลี่ยงไม่ได้ในการทดลองช่วงต้น) เซลล์โดปามีนตอบสนองอย่างยิ่งต่อมัน เมื่อมีการคาดการณ์รางวัลเซลล์จะตอบสนองต่อตัวทำนายและไม่ใช่ของรางวัลที่คาดหวังในขณะนี้

หากไม่ได้รับรางวัลตามที่คาดการณ์ไว้เซลล์จะถูกยับยั้ง phasically ในเวลาปกติของรางวัล การยับยั้งซึ่งเผยให้เห็นระยะเวลาที่แม่นยำของการทำนายรางวัล [10] และตัวชี้วัดชั่วคราวอยู่ภายใต้การให้ความสำคัญทางนิติวิทยาศาสตร์ [14] การเปลี่ยนแปลงของกิจกรรมจากช่วงเวลาแห่งการให้รางวัลเป็นเวลาของผู้ทำนายนั้นคล้ายกับการเปลี่ยนแปลงของปฏิกิริยาทางพฤติกรรมที่อยากอาหารของสัตว์จากช่วงเวลาที่ได้รับรางวัล (สิ่งกระตุ้นที่ไม่มีเงื่อนไข) ไปเป็นสิ่งเร้าที่มีเงื่อนไขในการทดลองปรับสภาพแบบคลาสสิก [7,10] .

ในการศึกษาเมื่อเร็ว ๆ นี้ที่น่าสนใจที่สุด Fiorillo และคณะ [15] ตรวจสอบกรณีของการเสริมแรงบางส่วนซึ่งมีข้อผิดพลาดในการทำนายแบบถาวรไม่สามารถปฏิเสธได้ในทุกการทดลอง การตีความสมมติฐานข้อผิดพลาดการทำนาย TD ตรงไปตรงมาจะแนะนำว่าในกรณีนี้ (a) กิจกรรมโดปามีนในช่วงเวลาของการกระตุ้นการทำนายจะปรับขนาดด้วยความน่าจะเป็นของรางวัลและ (b) โดยเฉลี่ยต่อการทดลอง และตลอดระยะเวลาของรางวัลควรเป็นศูนย์ แม้ว่าสมมติฐานแรกจะได้รับการยืนยันในการทดลอง แต่ข้อที่สองก็ไม่ใช่ การตอบกลับโดยเฉลี่ยระหว่างการทดลองแสดงให้เห็นว่ากิจกรรมที่เพิ่มขึ้นอย่างชัดเจนในระหว่างความล่าช้าระหว่างการเริ่มต้นการกระตุ้นและรางวัลที่ดูเหมือนจะไม่สอดคล้องกับบัญชี TD Fiorillo และคณะ ตั้งสมมติฐานว่ากิจกรรมนี้แสดงถึงความไม่แน่นอนในการส่งมอบรางวัลมากกว่าข้อผิดพลาดในการทำนาย

ในบทความนี้เราไปที่ปัญหาข้อผิดพลาดการทำนายแบบถาวร เราแสดงให้เห็นว่าความไม่สมดุลที่สำคัญในการเข้ารหัสข้อผิดพลาดในการทำนายผลบวกและลบทำให้เราคาดว่าสัญญาณโดปามีนเฉลี่ยระหว่างการพิจารณาคดีจะเพิ่มขึ้น และบัญชีที่ดีสำหรับสองคุณสมบัติเพิ่มเติมของสัญญาณ DA - กิจกรรมถาวรที่เห็นได้ชัดในเวลาของรางวัล (ที่อาจเกิดขึ้น) และการหายตัวไปของสัญญาณ ramping แต่ไม่ได้สัญญาณในเวลาของรางวัล ในการเผชิญกับร่องรอยมากกว่าการปรับสภาพล่าช้า ปรากฏการณ์ทั้งสองนี้ยังได้รับการสังเกตในการทดลองปรับสภาพเครื่องมือที่เกี่ยวข้องของ Morris และคณะ [16] ในที่สุดเราตีความสัญญาณ ramping เป็นหลักฐานที่ดีที่สุดที่มีอยู่ในปัจจุบันสำหรับธรรมชาติของกลไกการเรียนรู้ซึ่งการเปลี่ยนแปลงในกิจกรรมโดปามีนไปเป็นช่วงเวลาของการกระตุ้นการทำนายที่เกิดขึ้น

ความไม่แน่นอนในการให้รางวัลเกิดขึ้น: DA ramping

Fiorillo และคณะ [15] เชื่อมโยงการนำเสนอสิ่งเร้าทางสายตา 0 แบบให้กับลิงแสมกับการส่งมอบรางวัลน้ำผลไม้ที่ล่าช้าและน่าจะเป็น (pr = 0.25, 0.5, 0.75, 1, 2) พวกเขาใช้กระบวนทัศน์การปรับสภาพความล่าช้าซึ่งสิ่งกระตุ้นยังคงมีอยู่เป็นช่วงเวลาคงที่ XNUMX วินาทีโดยจะมีการมอบรางวัลเมื่อสิ่งกระตุ้นหายไป หลังการฝึกพฤติกรรมการเลียที่คาดการณ์ไว้ของลิงบ่งชี้ว่าพวกเขาตระหนักถึงความน่าจะเป็นของรางวัลที่แตกต่างกันที่เกี่ยวข้องกับสิ่งกระตุ้นแต่ละอย่าง

รูปที่ 1a แสดงฮิสโทแกรมประชากรของกิจกรรมเซลล์ DA ที่บันทึกไว้นอกเซลล์สำหรับแต่ละ pr ทฤษฎี TD คาดการณ์ว่าการกระตุ้นเซลล์ phasic ของเซลล์ DA ในช่วงเวลาของการกระตุ้นด้วยสายตาควรสอดคล้องกับค่าเฉลี่ยที่คาดหวังและควรเพิ่มขึ้นเมื่อราคาลดลง รูปที่ 1a แสดงให้เห็นอย่างนี้แน่นอน - จากจำนวนประชากรที่เพิ่มขึ้นนั้นค่อนข้างเป็นเส้นตรง มอร์ริสและคณะ [16] รายงานผลลัพธ์ที่คล้ายกันในงานการปรับสภาพเครื่องมือ (ติดตาม) ที่เกี่ยวข้องกับการเสริมความน่าจะเป็น

รูปที่ 1 ข้อผิดพลาดการทำนายโดยเฉลี่ยในงานให้รางวัลความน่าจะเป็น
(ก) การตอบสนองของ DA ในการทดลองที่มีความน่าจะเป็นของรางวัลที่แตกต่างกัน ฮิสโตแกรมเวลากระตุ้น - กระตุ้นประชากร (PSTHs) แสดงกิจกรรม spiking โดยสรุปของเซลล์ประสาท DA หลายตัวในการทดลองหลายครั้งสำหรับแต่ละ pr ซึ่งรวมเข้ากับการทดลองที่ได้รับรางวัลและไม่ได้รับรางวัลที่ความน่าจะเป็นระดับกลาง (b) ข้อผิดพลาดในการทำนาย TD ที่มีมาตราส่วนไม่สมมาตร ในงานจำลองในการทดลองแต่ละครั้งจะมีการสุ่มเลือกสิ่งเร้าหนึ่งในห้าสิ่งและแสดงในเวลา t = 5 สิ่งเร้าถูกปิดที่ t = 25 ซึ่งในขณะนั้นรางวัลจะได้รับโดยมีความน่าจะเป็นของราคาที่ระบุโดยสิ่งกระตุ้น เราใช้การแสดงเส้นหน่วงเวลาแบบแตะของสิ่งเร้า (ดูข้อความ) โดยสิ่งเร้าแต่ละตัวจะแสดงโดยหน่วยต่างกัน ('เซลล์ประสาท') ข้อผิดพลาด TD คือδ (t) = r (t) + w (t - 1) • x (t) - w (t - 1) • x (t - 1) โดย r (t) ได้รับรางวัลในเวลา t และ x (t) และ w (t) เวกเตอร์สถานะและน้ำหนักสำหรับหน่วย กฎการเรียนรู้ TD ออนไลน์มาตรฐานถูกใช้กับอัตราการเรียนรู้คงที่α, w (t) = w (t - 1) + αδ (t) x (t - 1) ดังนั้นน้ำหนักแต่ละตัวจึงแสดงถึงมูลค่ารางวัลในอนาคตที่คาดหวัง เช่นเดียวกับ Fiorillo et al. เราแสดงให้เห็นถึงข้อผิดพลาดในการคาดการณ์δ (t) โดยเฉลี่ยจากการทดลองหลายครั้งหลังจากเรียนรู้งานแล้ว ความไม่สมมาตรที่เป็นตัวแทนเกิดขึ้นเมื่อค่าเชิงลบของδ (t) ได้รับการปรับขนาดโดย d = 1/6 ก่อนที่จะสรุป PSTH จำลองแม้ว่าการเรียนรู้จะดำเนินไปตามข้อผิดพลาดที่ไม่ได้ปรับขนาดก็ตาม สุดท้ายเพื่ออธิบายการตอบสนองเชิงบวกเล็กน้อยในช่วงเวลาของการกระตุ้นสำหรับ pr = 0 และในช่วงเวลาของรางวัล (ทำนาย) สำหรับ pr = 1 ที่เห็นใน (a) เราถือว่ามีโอกาสเล็กน้อย (8%) ที่ a มีการระบุสิ่งกระตุ้นเชิงคาดการณ์ผิด (c) การตอบสนอง DA ใน pr = 0.5 การทดลองโดยแยกออกเป็นการทดลองที่ได้รับรางวัล (ซ้าย) และการทดลองที่ยังไม่ได้รับรางวัล (ขวา) (d) TD Model ของ (c) (a, c) พิมพ์ซ้ำโดยได้รับอนุญาตจาก [15] © 2003 AAAS ต้องได้รับอนุญาตจาก AAAS สำหรับการใช้งานอื่น ๆ ทั้งหมด

ในทางตรงกันข้ามในเวลาที่มีการให้รางวัลที่เป็นไปได้ทฤษฎี TD คาดการณ์ว่าโดยเฉลี่ยไม่ควรมีกิจกรรมใด ๆ เช่นโดยเฉลี่ยแล้วจะไม่มีข้อผิดพลาดในการทำนายในเวลานั้น แน่นอนว่าในการออกแบบการเสริมแรงแบบน่าจะเป็น (อย่างน้อยสำหรับ pr ≠ 0, 1) ในความเป็นจริงแล้วมีข้อผิดพลาดในการคาดการณ์ ณ เวลาที่ส่งมอบหรือไม่ส่งมอบรางวัลในการทดลองทุกครั้ง สำหรับการทดลองที่มีการมอบรางวัลข้อผิดพลาดในการคาดการณ์ควรเป็นค่าบวก (เนื่องจากรางวัลที่ได้รับนั้นใหญ่กว่าค่าเฉลี่ยที่คาดหวังไว้) ในทางกลับกันการทดลองที่ไม่มีรางวัลควรเป็นค่าลบ (ดูรูปที่ 1c) ที่สำคัญภายใต้ TD ค่าเฉลี่ยของความแตกต่างเหล่านี้ซึ่งถ่วงน้ำหนักตามความน่าจะเป็นที่เกิดขึ้นควรเป็นศูนย์ หากไม่ใช่ศูนย์ข้อผิดพลาดในการคาดคะเนนี้ควรทำหน้าที่เป็นสัญญาณพลาสติกเปลี่ยนการทำนายจนกระทั่งไม่มีข้อผิดพลาดในการทำนาย ที่ความแปรปรวนกับความคาดหวังนี้ข้อมูลในรูปที่ 1a ซึ่งเฉลี่ยทั้งการทดลองที่ได้รับรางวัลและไม่ได้กลับมาแสดงให้เห็นว่าในความเป็นจริงกิจกรรมเชิงบวกในเวลานี้ สิ่งนี้ยังปรากฏชัดเจนในข้อมูลของ Morris และคณะ [16] (ดูรูปที่ 3c) คำตอบ DA เชิงบวกแสดงว่าไม่มีสัญญาณของการหายไปแม้จะมีการฝึกอบรมมากมาย (ในช่วงหลายเดือน)

เลวร้ายยิ่งกว่านี้สำหรับรุ่น TD และแน่นอนความสำคัญของ Fiorillo และคณะ [15] เป็นกิจกรรมที่ชัดเจนของกิจกรรม DA ต่อเวลาที่คาดหวังของรางวัล เนื่องจากขนาดของทางลาดนั้นยิ่งใหญ่ที่สุดสำหรับ pr = 0.5, Fiorillo et al แนะนำว่าจะรายงานความไม่แน่นอนในการส่งมอบรางวัลแทนที่จะเป็นข้อผิดพลาดในการคาดการณ์และคาดการณ์ว่าสัญญาณนี้สามารถอธิบายคุณสมบัติที่น่าสงสัยของความไม่แน่นอน (ดังที่เห็นในการพนัน)

ทั้งกิจกรรม ramping และกิจกรรมตามเวลาที่คาดหวังของรางวัลก่อให้เกิดความท้าทายที่สำคัญต่อทฤษฎี TD การเรียนรู้ TD ดำเนินการโดยจัดกิจกรรม DA ในครั้งเดียวในการทดลองเพื่อคาดการณ์ล่วงหน้าโดยตัวชี้นำที่มีอยู่ก่อนหน้านี้ในการทดลองนั้น ดังนั้นจึงไม่ชัดเจนว่ากิจกรรมใดที่สามารถคาดการณ์ได้ดูเหมือนว่าในช่วงเวลาของรางวัลหรือในทางลาดมาก่อนสามารถคงอยู่ได้โดยไม่ถูกคาดการณ์ล่วงหน้าจากการกระตุ้นของภาพ ท้ายที่สุดแล้วกิจกรรมที่ต้องพึ่งพาเพื่อตอบสนองต่อสิ่งเร้าได้ยืนยันสถานะของมันว่าเป็นตัวทำนายที่ถูกต้อง นอกจากนี้ลักษณะสำคัญของ TD [17] ก็คือการทำนายการเลือกดำเนินการโดยใช้ค่าของรัฐเป็นตัวบ่งชี้ถึงผลตอบแทนในอนาคตที่มีอยู่จากรัฐนั้นดังนั้นความน่าดึงดูดใจของมันจึงเป็นเป้าหมายสำหรับการกระทำ จากมุมมองนี้เนื่องจากกิจกรรม ramping ไม่ได้ถูกคาดการณ์ไว้ล่วงหน้าจากคิวก่อนหน้านี้จึงไม่สามารถมีอิทธิพลต่อการกระทำในช่วงต้นเช่นการตัดสินใจเดิมพัน ยกตัวอย่างเช่นพิจารณาการแข่งขันระหว่างสองการกระทำ: ในที่สุดก็นำไปสู่รัฐที่มีรางวัลที่กำหนดขึ้นดังนั้นจึงไม่มีทางลาดและอีกอันที่นำไปสู่รัฐตามด้วยรางวัลความน่าจะเป็นที่มีค่าเฉลี่ยเท่ากันและเป็นทางลาด เนื่องจากทางลาดไม่ได้ส่งผลกระทบต่อกิจกรรมในเวลาที่มีการกระตุ้นตามเงื่อนไขจึงไม่สามารถใช้ในการประเมินหรือสนับสนุนการกระทำที่สอง (การพนัน) ในช่วงแรกแม้จะมีความไม่แน่นอนเป็นพิเศษ

เราแนะนำสมมติฐานทางเลือกว่ารูปแบบการยิงผิดปกติทั้งสองนี้ส่งผลโดยตรงจากข้อ จำกัด ที่แสดงโดยอัตราพื้นฐานที่ต่ำของกิจกรรมของเซลล์ประสาท DA (2 – 4 Hz) ในการเข้ารหัสของข้อผิดพลาดการทำนายที่เซ็นชื่อ ตามที่ระบุไว้โดย Fiorillo และคณะ [15] ข้อผิดพลาดในการคาดการณ์เชิงบวกแสดงด้วยอัตราการยิงที่ ~ 270% เหนือระดับพื้นฐานในขณะที่ข้อผิดพลาดเชิงลบจะถูกแสดงด้วยการลดลงของ ~ 55% ต่ำกว่าพื้นฐาน (ดู [14,18]) ความไม่สมดุลนี้เป็นผลลัพธ์ที่ตรงไปตรงมาของการเข้ารหัสของปริมาณที่มีการเซ็นชื่อโดยการเผาซึ่งมีพื้นฐานที่ต่ำ แต่เห็นได้ชัดว่าสามารถบวกได้ อัตราการยิงเหนือระดับพื้นฐานสามารถเข้ารหัสข้อผิดพลาดการคาดการณ์ในเชิงบวกโดยใช้ช่วงไดนามิกที่มีขนาดใหญ่อย่างไรก็ตามอัตราการเผาพื้นฐานต่ำกว่าสามารถลงสู่ศูนย์ได้เท่านั้นซึ่งจะมีข้อ จำกัด ในการเข้ารหัสข้อผิดพลาดการทำนายเชิงลบ

ดังนั้นเราต้องระมัดระวังในการตีความผลรวม (หรือค่าเฉลี่ย) ของกิจกรรม peri-stimulus-time-histograms (PSTHs) ในการทดลองที่แตกต่างกันดังที่ได้ทำในรูปที่ 1a สัญญาณข้อผิดพลาดเชิงบวกและเชิงลบที่เข้ารหัสแบบไม่สมมาตร ณ เวลาที่ได้รับหรือไม่ได้รับรางวัลไม่ควรรวมเป็นศูนย์แม้ว่าจะแสดงถึงข้อผิดพลาดในการทำนาย TD ที่ถูกต้องก็ตาม เมื่อสรุปแล้วการยิงที่ต่ำซึ่งแสดงถึงข้อผิดพลาดเชิงลบในการทดลองที่ไม่ได้รับรางวัลจะไม่ "ยกเลิก" การยิงอย่างรวดเร็วที่เข้ารหัสข้อผิดพลาดเชิงบวกในการทดลองที่ได้รับรางวัลและโดยรวมแล้วค่าเฉลี่ยจะแสดงการตอบสนองในเชิงบวก แน่นอนในสมองเนื่องจากการตอบสนองไม่ได้ถูกเฉลี่ยจากการทดลอง (ที่ได้รับรางวัลและไม่ได้รับรางวัล) แต่สำหรับเซลล์ประสาทภายในการทดลองสิ่งนี้ไม่จำเป็นต้องก่อให้เกิดปัญหา

สิ่งนี้อธิบายกิจกรรมเชิงบวกที่คงอยู่ (โดยเฉลี่ย) ณ เวลาที่จัดส่งหรือไม่ส่งมอบรางวัล แต่สิ่งที่เกี่ยวกับทางลาดก่อนหน้านี้หรือไม่ อย่างน้อยที่สุดในช่วงเวลาระหว่างการกระตุ้นประสาทและการให้รางวัลเมื่อการทดลองมีค่าเฉลี่ยความไม่สมมาตรแบบเดียวกันนี้จะนำไปสู่ผลลัพธ์ที่ไม่สมมาตร td ในกิจกรรมที่ตรงกับเวลาของรางวัล กลไกการเรียนรู้ TD มีผลต่อการแพร่กระจายข้อผิดพลาดการทำนายที่เกิดขึ้นในการทดลองครั้งเดียว (เช่นในช่วงเวลาของการให้รางวัล) ต่อการคาดการณ์ที่อาจเกิดขึ้น (เช่น CS) ที่เกิดขึ้นครั้งเดียว ในช่วงเวลาก่อนหน้านี้ในการทดลองแต่ละครั้ง ภายใต้การนำเสนอแบบไม่สมมาตรของข้อผิดพลาดในการทำนายผลบวกและลบที่เราเพิ่งพูดถึงการหาค่าเฉลี่ยข้อผิดพลาดเหล่านี้ในการทดลองหลายครั้ง (ดังรูปที่ 1a) จะนำไปสู่วิธีการเชิงบวกสำหรับยุคในการทดลองก่อนรับรางวัล รูปร่างที่แม่นยำของกิจกรรมที่เกิดขึ้นนั้นขึ้นอยู่กับวิธีการแสดงสิ่งเร้าในช่วงเวลาเช่นเดียวกับความเร็วของการเรียนรู้ดังที่จะกล่าวถึงด้านล่าง

รูปที่ 2 แสดงให้เห็นถึงมุมมองของที่มาของกิจกรรมทางลาดนี้ ในที่นี้การแสดงเส้นหน่วงเวลาแบบแตะตั้งแต่มีการใช้สิ่งกระตุ้น สำหรับสิ่งนี้แต่ละหน่วย ('เซลล์ประสาท') จะทำงาน (กล่าวคือถือว่าค่า 1) ในช่วงเวลาที่ล่าช้าหลังจากที่มีการนำเสนอสิ่งกระตุ้นดังนั้นทุกการประทับเวลาหลังจากเริ่มมีอาการกระตุ้นจะแสดงโดยการยิงหนึ่งหน่วยอย่างสม่ำเสมอ การเรียนรู้ขึ้นอยู่กับข้อผิดพลาด TD (รายงานโดย dopaminergically) เป็นทางการเป็นδ (t) = r (t) + V (t) - V (t - 1) โดย V (t) อินพุตที่ถ่วงน้ำหนักจากหน่วยที่ใช้งานอยู่ที่ เวลา t และ r (t) รางวัลที่ได้รับในช่วงเวลา t การอัปเดตน้ำหนักของหน่วยตามกฎการอัปเดต TD มาตรฐานด้วยอัตราการเรียนรู้คงที่ช่วยให้ V (t) เป็นตัวแทนของรางวัลในอนาคตที่คาดหวังโดยเฉลี่ย (ดูคำอธิบายภาพที่ 1) เนื่องจากแต่ละการประทับเวลาที่ตามมาจะแสดงแยกกันข้อผิดพลาดในการทำนาย TD อาจเกิดขึ้นได้ตลอดเวลาภายในการทดลอง รูปที่ 2a แสดงข้อผิดพลาดเหล่านี้ในการทดลองจำลองหกครั้งติดต่อกันซึ่ง pr = 0.5 ในการทดลองทุกครั้งข้อผิดพลาดเชิงบวกหรือเชิงลบใหม่จะเกิดขึ้นในขณะที่ได้รับรางวัลซึ่งเป็นผลมาจากการได้รับหรือไม่ได้รับรางวัลและข้อผิดพลาดทีละขั้นตอนจากการทดลองก่อนหน้านี้จะแพร่กระจายกลับไปยังช่วงเวลาของการกระตุ้นผ่าน การอัปเดตน้ำหนักอย่างต่อเนื่อง (เช่นข้อผิดพลาดที่เน้นด้วยสีแดง) เมื่อมีการหาค่าเฉลี่ย (หรือใน PSTH รวมกัน) เหนือการทดลองข้อผิดพลาดเหล่านี้จะยกเลิกซึ่งกันและกันโดยเฉลี่ยส่งผลให้ฮิสโตแกรมแบนโดยรวมในช่วงเวลาหลังการกระตุ้นเริ่มมีอาการและนำไปสู่ช่วงเวลาของรางวัล (เส้นสีดำในรูป 2b สรุปการทดลอง 10 ครั้งแสดงเป็นสีน้ำเงินบาง ๆ ) อย่างไรก็ตามเมื่อสรุปผลหลังการปรับขนาดของข้อผิดพลาดเชิงลบแบบไม่สมมาตรด้วยค่า d = 1/6 (ซึ่งจำลองการเข้ารหัสแบบอสมมาตรของข้อผิดพลาดในการทำนายเชิงบวกและเชิงลบโดยเซลล์ประสาท DA) จะเกิดการเพิ่มขึ้นในเชิงบวกของกิจกรรมดังที่แสดงโดยเส้นสีดำ ในรูปที่ 2c. โปรดทราบว่าการปรับขนาดนี้เป็นเพียงปัญหาในการนำเสนอเท่านั้นซึ่งเป็นผลมาจากข้อ จำกัด ของการเข้ารหัสค่าลบเกี่ยวกับอัตราการยิงพื้นฐานที่ต่ำและไม่ควรส่งผลต่อการเรียนรู้ของน้ำหนักเพื่อไม่ให้เรียนรู้ค่าที่ผิด (ดูการอภิปราย) อย่างไรก็ตามเนื่องจาก PSTH เป็นผลรวมของการเพิ่มขึ้นของเซลล์ประสาทโดยตรงปัญหานี้จึงเกิดขึ้นกับฮิสโตแกรมที่เป็นผลลัพธ์

รูปที่ 2 การแพร่กระจายของข้อผิดพลาดการทำนายอธิบายกิจกรรมการกระโจน
(a) ข้อผิดพลาดการทำนาย TD ในการทดลองต่อเนื่องหกครั้ง (บนลงล่าง) จากการจำลองในรูปที่ 1b โดยมี pr = 0.5 ที่เน้นด้วยสีแดงคือข้อผิดพลาดในช่วงเวลาของการให้รางวัลในการทดลองครั้งแรกและการแพร่กระจายกลับอย่างค่อยเป็นค่อยไปไปยังช่วงเวลาของการกระตุ้นในการทดลองครั้งต่อไป ตัวอักษรบล็อกระบุผลของการทดลองแต่ละครั้ง (R = รางวัล; N = ไม่ได้รับรางวัล) ลำดับของรางวัลก่อนการทดลองเหล่านี้จะมีให้ที่มุมขวาบน (b) ข้อผิดพลาด TD จากการทดลองหกครั้งนี้และอีกสี่การติดตามถูกแทนที่ เส้นสีแดงและสีเขียวแสดงให้เห็นถึงซองจดหมายของข้อผิดพลาดในการทดลองเหล่านี้ การสรุปเกี่ยวกับการทดลองเหล่านี้ส่งผลให้ไม่มีกิจกรรมบนพื้นฐานพื้นฐานโดยทั่วไป (เส้นสีดำ) เนื่องจากข้อผิดพลาดเชิงบวกและเชิงลบเกิดขึ้นโดยการสุ่ม 50% ของเวลาและยกเลิกซึ่งกันและกัน (c) อย่างไรก็ตามเมื่อข้อผิดพลาดในการทำนายถูกแสดงแบบไม่สมมาตรด้านบนและด้านล่างอัตราการยิงพื้นฐาน (ที่นี่ข้อผิดพลาดเชิงลบถูกปรับขนาดแบบไม่สมมาตรโดย d = 1 / 6 เพื่อจำลองการเข้ารหัสแบบไม่สมมาตรโดยเซลล์ประสาท DA) โผล่ออกมาเมื่อเฉลี่ยการทดลองตามที่แสดงโดยเส้นสีดำ พารามิเตอร์การจำลองทั้งหมดเหมือนกับในรูปที่ 1b, d

รูปที่ 1b, d แสดงทางลาดที่เกิดขึ้นจากการรวมกันของการเข้ารหัสแบบอสมมาตรและการหาค่าเฉลี่ยระหว่างการทดลองเพื่อเปรียบเทียบกับข้อมูลการทดลอง รูปที่ 1b แสดง PSTH ที่คำนวณจากข้อมูลจำลองของเราโดยเฉลี่ยผ่านสัญญาณ signal (t) ที่แสดงแบบอสมมาตรในการทดลอง ~ 50 สำหรับแต่ละประเภทการกระตุ้น รูปที่ 1d แสดงผลลัพธ์สำหรับกรณี pr = 0.5 ซึ่งแบ่งเป็นการทดลองที่ให้รางวัลและไม่ได้รับการตอบแทนเมื่อเปรียบเทียบกับรูปที่ 1c ผลลัพธ์ที่จำลองขึ้นมีลักษณะคล้ายกับข้อมูลการทดลองอย่างใกล้ชิดว่าพวกเขาทำซ้ำการตอบสนองเชิงบวกสุทธิต่อผลตอบแทนที่ไม่แน่นอนเช่นเดียวกับผลกระทบจากการอาละวาดซึ่งสูงที่สุดในกรณี pr = 0.5

มันง่ายที่จะได้รับการตอบสนองโดยเฉลี่ย ณ เวลาที่ให้รางวัล (t = N) ในการทดลองใช้ T เช่น ข้อผิดพลาด TD เฉลี่ย δT(N) จากกฎการเรียนรู้ TD ที่มีการแสดงเวลาการหน่วงเวลาการแตะแบบง่าย และ อัตราการเรียนรู้คงที่ α ค่าที่ถัดจากขั้นตอนสุดท้ายในการทดลองใช้ตามฟังก์ชันของหมายเลขการทดลอง (โดยค่าเริ่มต้นจะเป็นศูนย์) คือ

โดยที่ r (t) คือรางวัลเมื่อสิ้นสุดการทดลอง t สัญญาณข้อผิดพลาดในช่วงเวลาสุดท้ายของการทดลอง T เป็นเพียงความแตกต่างระหว่างรางวัลที่ได้รับ r (T) และค่าที่ทำนายว่ารางวัล VT - 1 (N - 1) ข้อผิดพลาดนี้เป็นบวกกับค่าความน่าจะเป็นและค่าลบพร้อมความน่าจะเป็น (1 - pr) การปรับขนาดข้อผิดพลาดเชิงลบด้วยตัวประกอบ d ∈ (0, 1] เราจึงได้

สำหรับการเข้ารหัสสมมาตรของข้อผิดพลาดบวกและลบ (d = 1) การตอบสนองเฉลี่ยคือ 0 สำหรับการเข้ารหัสแบบไม่สมมาตร (0 ร่องรอยปรับอากาศ: กรณีทดสอบ

กรณีทดสอบที่สำคัญสำหรับการตีความของเราเกิดขึ้นในรูปแบบของงาน [15] ของ Fiorillo et al. เช่นเดียวกับในงานเครื่องมือที่คล้ายคลึงกันของ Morris et al [16] ทั้งสองเกี่ยวข้องกับการปรับสภาพการติดตาม ตรงกันข้ามกับการปรับสภาพความล่าช้า (รูปที่ 3a) ซึ่งรางวัลเกิดขึ้นพร้อมกับการชดเชยของสิ่งกระตุ้นเชิงทำนายที่นี่มีช่องว่างที่สำคัญระหว่างการชดเชยของสิ่งกระตุ้นเชิงคาดการณ์และการให้รางวัล (รูปที่ 3b) เห็นได้ชัดว่าในกรณีนี้ความไม่แน่นอนเกี่ยวกับรางวัลอาจมีมากขึ้นเท่านั้นเนื่องจากเสียงรบกวนในช่วงเวลาระหว่างสิ่งกระตุ้นและรางวัล [19] ดังนั้นภายใต้บัญชีความไม่แน่นอนควรมีทางลาดที่เทียบเคียงกันได้หรือใหญ่กว่า อย่างไรก็ตามผลการทดลองแสดงให้เห็นว่ากิจกรรมทางลาดมีขนาดเล็กลงหรือแม้แต่เล็กน้อย (รูปที่ 3c; d) อย่างไรก็ตามโปรดทราบว่าขนาดของกิจกรรมการทดลองโดยเฉลี่ยในช่วงเวลาที่คาดว่าจะได้รับรางวัลจะยังคงอยู่โดยชี้ไปที่ความแตกต่างระหว่างความสูงของทางลาดและจำนวนกิจกรรมเชิงบวกในช่วงเวลาที่คาดว่าจะได้รับรางวัล

รูปที่ 3 ติดตามการปรับสภาพด้วยรางวัลที่น่าจะเป็น
(a) ภาพประกอบของการทดลองหนึ่งในภารกิจการปรับสภาพความล่าช้าของ Fiorillo et al [15]. การทดลองประกอบด้วยการกระตุ้นด้วยภาพความยาว 2 วินาทีซึ่งชดเชยซึ่งเกิดขึ้นพร้อมกับการให้รางวัลน้ำผลไม้หากรางวัลดังกล่าวได้รับการตั้งโปรแกรมตามความน่าจะเป็นที่เกี่ยวข้องกับคิวภาพ ในการทดลองที่ไม่ได้รับรางวัลการกระตุ้นจะยุติลงโดยไม่ได้รับรางวัล ในทั้งสองกรณีช่วงเวลาระหว่างการทดลองโดยเฉลี่ย 9 วินาทีจะแยกการทดลองออกจากกัน (b) ภาพประกอบของการทดลองหนึ่งในภารกิจการปรับสภาพการติดตามของ Morris et al [16]. ความแตกต่างที่สำคัญคือขณะนี้มีความล่าช้าชั่วคราวอย่างมากระหว่างการชดเชยของสิ่งกระตุ้นและการเริ่มได้รับรางวัล (ช่วง "ติดตาม") และไม่มีสิ่งกระตุ้นจากภายนอกที่บ่งบอกถึงเวลาที่คาดว่าจะได้รับรางวัล สิ่งนี้ทำให้เกิดความไม่แน่นอนเพิ่มเติมเนื่องจากระยะเวลาที่แน่นอนของรางวัลที่คาดการณ์จะต้องได้รับการแก้ไขภายในโดยเฉพาะอย่างยิ่งในการทดลองที่ไม่ได้รับรางวัล ในงานนี้เช่นเดียวกับ [15] มีการนำเสนอสิ่งเร้าทางสายตาหลายอย่าง (ไม่แสดง) ในการทดลองแต่ละครั้งและสิ่งเร้าแต่ละอย่างมีความเกี่ยวข้องกับความน่าจะเป็นของรางวัล นอกจากนี้ลิงได้รับการร้องขอให้ทำการตอบสนองด้วยเครื่องมือ (กดปุ่มที่ตรงกับด้านที่มีการนำเสนอสิ่งกระตุ้น) ซึ่งความล้มเหลวในการยุติการทดลองโดยไม่ได้รับรางวัล การทดลองแยกตามช่วงเวลาระหว่างการทดลองที่ผันแปรได้ (c, d) อัตราการยิง DA (ปรับให้เรียบ) เทียบกับพื้นฐานรอบเวลาที่คาดหวังของรางวัลในการทดลองที่ได้รับรางวัล (c) และในการทดลองที่ไม่ได้รับรางวัล (d) (c, d) พิมพ์ซ้ำจาก [16] © 2004 โดยได้รับอนุญาตจาก Elsevier ร่องรอยบ่งบอกถึงการตอบสนองเชิงบวกโดยรวมในช่วงเวลาที่คาดว่าจะได้รับรางวัล แต่มีทางลาดที่น้อยมากหรือไม่มีเลย ผลลัพธ์ที่คล้ายกันนี้ได้รับในภารกิจการปรับสภาพแบบคลาสสิกที่อธิบายสั้น ๆ ใน [15] ซึ่งใช้ขั้นตอนการปรับสภาพการติดตามเพื่อยืนยันว่าระยะเวลาการติดตามไม่ใช่ลักษณะเครื่องมือของงานที่ปรากฎใน (b) เป็นความแตกต่างที่สำคัญจาก (ก) .

โมเดล TD ของ DA พร้อมอธิบายข้อมูลที่ทำให้งงงวยเหล่านี้ ดังที่แสดงในรูปที่ 4 รูปร่างของทางลาดแม้ว่าจะไม่ใช่ความสูงของยอดเขานั้นจะได้รับผลกระทบจากอัตราการเรียนรู้ ขนาดของข้อผิดพลาดการคาดการณ์การส่งสัญญาณย้อนกลับถูกกำหนดส่วนหนึ่งโดยอัตราการเรียนรู้เนื่องจากข้อผิดพลาดเหล่านี้เกิดขึ้นเป็นส่วนหนึ่งของการเรียนรู้ออนไลน์ของการคาดการณ์ใหม่ แน่นอนว่ามีการปรับปรุงการคาดการณ์อย่างต่อเนื่องเช่นนี้หลังจากการทดลองที่ได้รับรางวัลมีความคาดหวังของรางวัลที่สูงขึ้น (และรางวัลต่อไปจะเกิดข้อผิดพลาดในการทำนายที่น้อยกว่า) และตรงกันข้ามหลังจากการทดลองที่ไม่ได้รับรางวัล [18] (ดูรูปที่ 2a) การอัปเดตการคาดการณ์นี้เกี่ยวข้องโดยตรงกับอัตราการเรียนรู้ - ยิ่งอัตราการเรียนรู้สูงขึ้นการคาดการณ์ที่ใหญ่ขึ้นตามการคาดการณ์ข้อผิดพลาดในปัจจุบันและส่วนของข้อผิดพลาดการทำนายที่ยิ่งใหญ่ขึ้น ด้วยวิธีนี้เมื่อมีอัตราการเรียนรู้ที่สูงกว่าความแตกต่างของความคาดหวังหลังจากได้รับการตอบแทนเมื่อเทียบกับการทดลองที่ไม่ได้รับการตอบแทนจะยิ่งใหญ่กว่าและทำให้ข้อผิดพลาดในการทำนายเมื่อรางวัลต่อไปคือ

รูปที่ 4 การพึ่งพาทางลาดต่ออัตราการเรียนรู้
รูปร่างของทางลาด แต่ไม่ใช่ความสูงของยอดเขานั้นขึ้นอยู่กับอัตราการเรียนรู้ กราฟแสดงกิจกรรมจำลองสำหรับกรณีของ pr = 0.5 ใกล้ถึงเวลาของรางวัลที่คาดหวังสำหรับอัตราการเรียนรู้ที่แตกต่างกันโดยเฉลี่ยสำหรับการทดลองทั้งที่ได้รับรางวัลและไม่ได้รับการตอบแทน ตามการเรียนรู้ของ TD ด้วยข้อผิดพลาดการทำนายแบบไม่สมมาตรการหาค่าเฉลี่ยของกิจกรรมในการทดลองที่ได้รับรางวัลและไม่ได้กลับมามีผลในทางลาดจนถึงเวลาที่ได้รับรางวัล ความสูงของจุดสูงสุดของทางลาดนั้นพิจารณาจากอัตราส่วนของการทดลองที่ได้รับรางวัลและไม่ได้รับผลตอบแทนอย่างไรก็ตามความกว้างของทางลาดนั้นถูกกำหนดโดยอัตราการกระจายสัญญาณย้อนกลับของสัญญาณผิดพลาดเหล่านี้จากเวลาของรางวัล เวลาของการกระตุ้นการทำนาย อัตราการเรียนรู้ที่สูงขึ้นส่งผลให้เกิดข้อผิดพลาดในการกระจายกลับมากขึ้นและเป็นทางลาดที่สูงขึ้น ด้วยอัตราการเรียนรู้ที่ลดลงทางลาดจะกลายเป็นเล็กน้อยแม้ว่ากิจกรรมเชิงบวก (โดยเฉลี่ย) ณ เวลาที่ได้รับรางวัลจะยังคงอยู่ โปรดทราบว่าถึงแม้ว่าอัตราการเรียนรู้ที่ใช้ในแบบจำลองที่แสดงในรูปที่ 1b, d คือ 0.8 แต่ไม่ควรนำมาใช้เป็นอัตราการเรียนรู้แบบซินนาติคตามตัวอักษรของสารตั้งต้นทางประสาท ในการแสดงที่เหมือนจริงมากขึ้นซึ่งประชากรของเซลล์ประสาทมีการใช้งานในทุก ๆ เวลาอัตราการเรียนรู้ที่ต่ำกว่ามากจะให้ผลลัพธ์ที่คล้ายกัน

แท้จริงแล้วเมื่อเทียบกับการปรับสภาพการหน่วงเวลาการปรับสภาพการสืบค้นกลับช้ากว่าที่ควรบอกว่าอัตราการเรียนรู้อยู่ในระดับต่ำและควรมีทางลาดที่ต่ำกว่าตามผลการทดลอง การตรวจสอบอัตราการเรียนรู้โดยตรงในข้อมูลของ Morris และคณะ [16] ซึ่งมีภารกิจที่ต้องใช้การฝึกอบรมมากเกินไปเพราะไม่เพียง แต่เป็นเงื่อนไขการติดตาม แต่ยังเกี่ยวข้องกับการกระทำด้วยเครื่องมือยืนยันว่ามันต่ำมาก (Genela Morris - การสื่อสารส่วนตัว 2004)

การสนทนา

การเข้ารหัสที่แตกต่างของค่าบวกและลบโดยเซลล์ประสาท DA ชัดเจนในการศึกษาทั้งหมดของสัญญาณ DA Phasic DA และถือได้ว่าเป็นผลที่หลีกเลี่ยงไม่ได้จากกิจกรรมพื้นฐานต่ำของเซลล์ประสาทเหล่านี้ อันที่จริงมีแรงบันดาลใจโดยตรงข้อเสนอแนะว่าสารสื่อประสาทคู่ต่อสู้, putatively serotonin มีส่วนร่วมในการเป็นตัวแทนและดังนั้นจึงเรียนรู้ข้อผิดพลาดการทำนายเชิงลบ [20] เพื่อให้พวกเขายังมีไตรมาสเต็ม อย่างไรก็ตามที่นี่เราได้ จำกัด ตัวเองให้พิจารณาผลกระทบของความไม่สมดุลในการวิเคราะห์ค่าเฉลี่ยของกิจกรรมโดปามีนและได้แสดงให้เห็นว่ากิจกรรม DA ที่เพิ่มขึ้นเช่นเดียวกับการตอบสนองเชิงบวกเฉลี่ยในช่วงเวลาของรางวัลเป็นผลโดยตรงจาก การเข้ารหัสที่ไม่สมมาตรของข้อผิดพลาดการทำนาย

นอกเหนือจากมุมมองที่ชัดเจนของสัญญาณความผิดพลาดผลที่สำคัญที่สุดของการตีความใหม่คือทางลาดนั้นสามารถมองเห็นได้ว่าเป็นลายเซ็นของปรากฏการณ์ TD ที่ยากจะเข้าใจได้ นี่คือการถ่ายทอดสัญญาณย้อนกลับแบบก้าวหน้าของสัญญาณข้อผิดพลาดที่แสดงโดยกิจกรรม DA ตั้งแต่เวลาของรางวัลจนถึงเวลาของตัวทำนาย (รูปที่ 2a) การศึกษาก่อนหน้านี้ของ dopaminergic activity ได้ใช้ pr = 1 ดังนั้นการทำ back-propagation นี้ให้ดีที่สุดเป็นปรากฏการณ์ชั่วคราวที่ชัดเจนในช่วงเริ่มต้นของการฝึกอบรม (โดยปกติแล้วการบันทึกยังไม่ได้เริ่ม) และอาจยากที่จะมองเห็นได้ช้า การยิงเซลล์ประสาท DA ยิ่งกว่านั้นดังที่กล่าวไว้ข้างต้นการขยายพันธุ์กลับขึ้นอยู่กับวิธีที่ช่วงเวลาระหว่างการกระตุ้นการทำนายและการให้รางวัลเป็นตัวแทน - มันมีอยู่สำหรับการแสดงการหน่วงเวลาแบบเคาะในขณะที่ [6] แต่ไม่ใช่สำหรับการรับรองที่ครอบคลุมทั้งหมด ความล่าช้าเช่นใน [21] โปรดทราบว่ารูปร่างของทางลาดนั้นขึ้นอยู่กับการใช้คุณสมบัติการมีสิทธิ์และกฎการเรียนรู้ที่เรียกว่า TD (λ) (การจำลองไม่แสดง) ซึ่งจัดเตรียมกลไกเพิ่มเติมสำหรับการเชื่อมโยงเวลาระหว่างเหตุการณ์ในระหว่างการเรียนรู้ น่าเสียดายที่รูปแบบของทางลาดในข้อมูลค่อนข้างแปรผัน (รูปที่ 1) และมีเสียงดังพวกเขาไม่สามารถให้ข้อ จำกัด ที่ชัดเจนเกี่ยวกับกลไก TD ที่แม่นยำที่ใช้โดยสมอง
การศึกษาเมื่อเร็ว ๆ นี้ที่เกี่ยวข้องกับข้อผิดพลาดในการทำนายแบบถาวรยังแสดงให้เห็นถึงกิจกรรมที่มีนัยสำคัญของการเผยแพร่กลับ ในการศึกษานี้ข้อผิดพลาดการทำนายเป็นผลมาจากการเปลี่ยนแปลงเป็นระยะในงานและการบันทึก DA ถูกสร้างขึ้นจากการเริ่มต้นของการฝึกอบรมดังนั้นกิจกรรมที่เหมือนการเผยแพร่กลับเป็นสิ่งที่ชัดเจนโดยตรงแม้ว่ากิจกรรมนี้จะไม่ถูกวัด

เราคาดว่าทางลาดจะคงอยู่ตลอดการฝึกอบรมเฉพาะในกรณีที่อัตราการเรียนรู้ไม่ลดลงเป็นศูนย์เมื่อการเรียนรู้ดำเนินไป ทฤษฎี [22] ของ Pearce & Hall เกี่ยวกับการควบคุมการเรียนรู้โดยความไม่แน่นอนชี้ให้เห็นถึงความคงอยู่ของการเรียนรู้นี้ - และมีหลักฐานจากตารางการเสริมแรงบางส่วนว่าอัตราการเรียนรู้อาจสูงขึ้นเมื่อมีความไม่แน่นอนมากขึ้นที่เกี่ยวข้องกับรางวัล จากมุมมองทางสถิติที่ 'มีเหตุผล' การเรียนรู้ควรยังคงมีอยู่เมื่อมีความไม่แน่นอนอย่างมากเกี่ยวกับความสัมพันธ์ระหว่างตัวทำนายและผลลัพธ์ซึ่งอาจเกิดขึ้นจากความเป็นไปได้ในปัจจุบันของการเปลี่ยนแปลงความสัมพันธ์เชิงทำนาย รูปแบบของความไม่แน่นอนถาวรนี้ร่วมกับความไม่แน่นอนอันเนื่องมาจากความไม่รู้เบื้องต้นเกี่ยวกับงานนี้ได้ถูกนำมาใช้เพื่อทำให้ทฤษฎีของ Pearce & Hall เป็นทางการว่าความไม่แน่นอนขับเคลื่อนการเรียนรู้ [23] ดังนั้นการกล่าวอ้างของเราว่าความไม่แน่นอนอาจไม่ได้แสดงโดยตรงจากทางลาดไม่ควรถูกนำมาใช้อย่างแน่นอนเพื่อหมายความว่าการเป็นตัวแทนและการจัดการนั้นไม่สำคัญ ในทางตรงกันข้ามเราได้เสนอว่าความไม่แน่นอนมีผลต่อการอนุมานของเยื่อหุ้มสมองและการเรียนรู้ผ่านระบบประสาทอื่น ๆ [24] และอาจเป็นตัวกำหนดลักษณะของการเลือกการกระทำด้วย [25]

ควรสังเกตคุณสมบัติอื่น ๆ ของความไม่สมดุลต่างๆ ที่สำคัญที่สุดคือผลกระทบของความไม่สมดุลในการเรียนรู้แบบพึ่งพา DA [26] หากกิจกรรม DA พื้นฐานด้านล่างมีหน้าที่รับผิดชอบในการลดการคาดการณ์ซึ่งสูงเกินไป เพื่อให้แน่ใจว่าการคาดการณ์ที่เรียนรู้ยังคงถูกต้องเราจะต้องสมมติว่าการแสดงแบบอสมมาตรไม่ส่งผลกระทบต่อการเรียนรู้นั่นคือกลไกต่าง ๆ เช่นการปรับขนาดสำหรับ potentiation และความหดหู่ของจุดแข็ง synaptic แน่นอนว่าสิ่งนี้จะกลายเป็นสิ่งที่สงสัยหากสารสื่อประสาทคู่ต่อสู้มีส่วนร่วมในการเรียนรู้จากข้อผิดพลาดในการทำนายเชิงลบ ปัญหานี้มีความซับซ้อนโดยคำแนะนำของไบเออร์ [14] ว่าอัตราการยิงของดาน่าจะคล้ายกันกับข้อผิดพลาดในการทำนายทั้งหมดต่ำกว่าขีด จำกัด ติดลบบางประการซึ่งอาจเป็นผลจากอัตราการยิงต่ำ การเข้ารหัสความสูญเสียดังกล่าวไม่ส่งผลกระทบต่อภาพเชิงคุณภาพของผลกระทบของการเฉลี่ยระหว่างการทดลองในการเกิดทางลาด แต่เป็นการเสริมความต้องการสัญญาณของฝ่ายตรงข้ามสำหรับการเรียนรู้แบบสมมาตรที่จำเป็น

สุดท้ายการทดสอบการตีความของเราที่ตรงที่สุดคือการเปรียบเทียบการหาค่าเฉลี่ยของสัญญาณ DA ภายในและระหว่างการทดลอง สิ่งสำคัญคือต้องทำในลักษณะที่ซับซ้อนชั่วคราวเพื่อหลีกเลี่ยงปัญหาในการหาค่าเฉลี่ยสัญญาณที่ไม่อยู่นิ่ง เพื่อที่จะเอาชนะเสียงรบกวนในการยิงของระบบประสาทและตรวจสอบว่ามีทางลาดที่ค่อยเป็นค่อยไปภายในการทดลองหรือตามที่เราคาดการณ์ - ข้อผิดพลาดในการทำนายเชิงบวกและเชิงลบเป็นระยะ ๆ จำเป็นต้องเฉลี่ยมากกว่าเซลล์ประสาทจำนวนมากที่บันทึกพร้อมกันภายใน การทดลองหนึ่งครั้งและเซลล์ประสาทที่เกี่ยวข้องกับอัตราการเรียนรู้ที่ใกล้เคียงกัน หรืออีกวิธีหนึ่งคือร่องรอยของเซลล์ประสาทเดี่ยวสามารถถดถอยเทียบกับการตอบสนอง backpropagation ที่ทำนายโดยการทดลองก่อนหน้านี้และการเรียนรู้ TD การเปรียบเทียบปริมาณความแปรปรวนที่อธิบายโดยแบบจำลองดังกล่าวเมื่อเทียบกับการถดถอยเทียบกับกิจกรรมทางลาดเชิงเดี่ยวอาจชี้ไปที่รูปแบบที่เหมาะสมที่สุด การคาดการณ์ที่ตรงไปตรงมาน้อยกว่า แต่สามารถทดสอบได้มากกว่าคือรูปร่างของทางลาดควรขึ้นอยู่กับอัตราการเรียนรู้ อัตราการเรียนรู้สามารถประเมินได้จากการตอบสนองต่อผลตอบแทนที่น่าจะเป็นโดยไม่ขึ้นกับรูปร่างของทางลาด (Nakahara et al. [18] แสดงให้เห็นในลักษณะดังกล่าวว่าในภารกิจการปรับสภาพการติดตามการเสริมแรงบางส่วนอัตราการเรียนรู้เท่ากับ 0.3) และอาจถูกปรับเปลี่ยนโดยการปรับเปลี่ยนปริมาณการฝึกอบรมหรือความถี่ในการเปลี่ยนแปลงภาระงานและการเรียนรู้ใหม่ อันที่จริงการวัดปริมาณการดำรงอยู่และรูปร่างของทางลาดในกิจกรรม DA ที่บันทึกไว้ของ Nakahara et al. สามารถให้ความกระจ่างเกี่ยวกับข้อเสนอปัจจุบันได้เป็นอย่างดี

สนใจการแข่งขัน
ผู้เขียนประกาศว่าพวกเขาไม่มีส่วนได้เสียในการแข่งขัน

ผลงานของผู้เขียน
YN, MD และ PD ร่วมกันคิดและดำเนินการศึกษานี้และช่วยร่างต้นฉบับ ผู้เขียนทั้งหมดอ่านและได้รับการอนุมัติต้นฉบับสุดท้าย.

กิตติกรรมประกาศ
เราขอขอบคุณ H. Bergman, C. Fiorillo, N. Daw, D. Joel, P. Tobler, P. Shizgal และ W. Schultz สำหรับการอภิปรายและแสดงความคิดเห็นในบางกรณีแม้การตีความข้อมูลจะแตกต่างกันไป เรารู้สึกซาบซึ้งอย่างยิ่งต่อ Genela Morris สำหรับการวิเคราะห์ข้อมูลที่ตีพิมพ์และไม่ได้เผยแพร่ของเธอเกี่ยวกับการอาละวาด งานนี้ได้รับทุนจากเครือข่ายเฉพาะเรื่อง EC (YN), มูลนิธิการกุศล Gatsby และโครงการ EU BIBA

อ้างอิง

1. Ljungberg T, Apicella P, Schultz W: การตอบสนองของเซลล์ประสาท dopamine ของลิงในระหว่างการเรียนรู้ปฏิกิริยาพฤติกรรม
วารสาร Neurophysiol 1992, 67: 145-163
กลับไปที่ข้อความ
2. Schultz W: สัญญาณรางวัลทำนายของเซลล์ประสาทโดปามีน [http://jn.physiology.org/cgi/content/full/80/1/1] เว็บไซต์
วารสารสรีรวิทยา 1998, 80: 1-27 PubMed บทคัดย่อ
กลับไปที่ข้อความ
3. O'Doherty J, Dayan P, Friston K, Critchley H, Dolan R: โมเดลความแตกต่างทางโลกและการเรียนรู้ที่เกี่ยวข้องกับรางวัลในสมองมนุษย์
เซลล์ประสาท 2003, 38: 329-337 PubMed บทคัดย่อ ข้อความเต็มของสำนักพิมพ์
กลับไปที่ข้อความ
4. Seymour B, O'Doherty J, Dayan P, Koltzenburg M, Jones A, Dolan R, Friston K, Frackowiak R: แบบจำลองความแตกต่างทางโลกอธิบายการเรียนรู้ลำดับที่สูงขึ้นในมนุษย์
ธรรมชาติ 2004, 429: 664-667 PubMed บทคัดย่อ ข้อความเต็มของสำนักพิมพ์
กลับไปที่ข้อความ
5. Montague PR, Hyman SE, Cohan JD: บทบาททางคอมพิวเตอร์สำหรับโดปามีนในการควบคุมพฤติกรรม
ธรรมชาติ 2004, 431: 760-767 PubMed บทคัดย่อ ข้อความเต็มของสำนักพิมพ์
กลับไปที่ข้อความ
6. Montague PR, Dayan P, Sejnowski TJ: เฟรมเวิร์กสำหรับระบบโดปามีนของ mesencephalic โดยอิงจากการเรียนรู้ภาษาฮิบเบียเชิงทำนาย
วารสารประสาทวิทยาศาสตร์ 1996, 16: 1936-1947 PubMed บทคัดย่อ ข้อความเต็มของสำนักพิมพ์
กลับไปที่ข้อความ
7. Schultz W, Dayan P, Montague PR: สารตั้งต้นทางประสาทของการทำนายและให้รางวัล
วิทยาศาสตร์ 1997, 275: 1593-1599 PubMed บทคัดย่อ ข้อความเต็มของสำนักพิมพ์
กลับไปที่ข้อความ
8. Sutton RS: เรียนรู้ที่จะทำนายด้วยวิธีความแตกต่างทางโลก
การเรียนรู้ของเครื่อง 1988, 3: 9-44
กลับไปที่ข้อความ
9. Sutton RS, Barto AG: [http://www.cs.ualberta.ca/~sutton/book/ebook/the-book.html] เว็บไซต์
การเรียนรู้การเสริมแรง: การแนะนำ กด MIT; 1998
กลับไปที่ข้อความ
10. Hollerman J, Schultz W: เซลล์ประสาทโดปามีนรายงานข้อผิดพลาดในการทำนายรางวัลชั่วคราวระหว่างการเรียนรู้
ประสาทวิทยาศาสตร์ธรรมชาติ 1998, 1: 304-309 PubMed บทคัดย่อ ข้อความเต็มของสำนักพิมพ์
กลับไปที่ข้อความ
11. Schultz W, Apicella P, Ljungberg T: การตอบสนองของเซลล์ประสาทโดปามีนของลิงเพื่อให้รางวัลและกระตุ้นแบบมีเงื่อนไขในระหว่างขั้นตอนต่อเนื่องของการเรียนรู้งานตอบสนองที่ล่าช้า
วารสารประสาทวิทยาศาสตร์ 1993, 13: 900-913 PubMed บทคัดย่อ ข้อความเต็มของสำนักพิมพ์
กลับไปที่ข้อความ
12. Tobler P, Dickinson A, Schultz W: การเข้ารหัสการละเว้นรางวัลที่คาดการณ์ไว้โดยเซลล์ประสาทโดปามีนในกระบวนทัศน์การยับยั้งแบบมีเงื่อนไข
วารสารประสาทวิทยาศาสตร์ 2003, 23 (32): 10402-10410 PubMed บทคัดย่อ ข้อความเต็มของสำนักพิมพ์
กลับไปที่ข้อความ
13. Takikawa Y, Kawagoe R, Hikosaka O: บทบาทที่เป็นไปได้ของเซลล์ประสาท dopamine ในสมองส่วนกลางในการปรับ saccades ในระยะสั้นและระยะยาวเพื่อทำแผนที่รางวัลตำแหน่ง
วารสารสรีรวิทยา 2004, 92: 2520-2529 PubMed บทคัดย่อ ข้อความเต็มของสำนักพิมพ์
กลับไปที่ข้อความ
14. Bayer H: บทบาทของ substantia nigra ในการเรียนรู้และการควบคุมมอเตอร์
วิทยานิพนธ์ปริญญาเอกมหาวิทยาลัยนิวยอร์ก 2004
กลับไปที่ข้อความ
15. Fiorillo C, Tobler P, Schultz W: การเข้ารหัสแบบไม่ต่อเนื่องของความน่าจะเป็นรางวัลและความไม่แน่นอนโดย Dopamine Neurons
วิทยาศาสตร์ 2003, 299 (5614): 1898-1902 PubMed บทคัดย่อ ข้อความเต็มของสำนักพิมพ์
กลับไปที่ข้อความ
16. Morris G, Arkadir D, Nevet A, Vaadia E, Bergman H: ข้อความที่บังเอิญแต่แตกต่างกันของโดปามีนในสมองส่วนกลางและเซลล์ประสาทที่ใช้งานอยู่
เซลล์ประสาท 2004, 43: 133-143 PubMed บทคัดย่อ ข้อความเต็มของสำนักพิมพ์
กลับไปที่ข้อความ
17. Barto A, Sutton R, Watkins C: การเรียนรู้และการตัดสินใจตามลำดับ ในประสาทวิทยาศาสตร์การเรียนรู้และการคำนวณ: รากฐานของเครือข่ายที่ปรับเปลี่ยนได้ แก้ไขโดย Gabriel M, Moore J. Cambridge, MA: MIT Press; 1990:539-602.
กลับไปที่ข้อความ
18. Nakahara H, Itoh H, Kawagoe R, Takikawa Y, Hikosaka O: เซลล์ประสาทโดปามีนสามารถแสดงข้อผิดพลาดในการทำนายตามบริบท
เซลล์ประสาท 2004, 41: 269-280 PubMed บทคัดย่อ ข้อความเต็มของสำนักพิมพ์
กลับไปที่ข้อความ
19. Gallistel CR, Gibbon J: เวลา อัตรา และการปรับสภาพ
รีวิวจิตวิทยา 2000, 107: 289-344 PubMed บทคัดย่อ ข้อความเต็มของสำนักพิมพ์
กลับไปที่ข้อความ
20 Daw ND, Kakade S, Dayan P: ปฏิกิริยาของฝ่ายตรงข้ามระหว่างเซโรโทนินและโดปามีน
โครงข่ายประสาทเทียม 2002, 15 (4 – 6): 603-616 PubMed บทคัดย่อ ข้อความเต็มของสำนักพิมพ์
กลับไปที่ข้อความ
21. Suri RE, Schultz W: แบบจำลองโครงข่ายประสาทเทียมที่มีสัญญาณเสริมแรงคล้ายโดปามีนที่เรียนรู้งานตอบสนองเชิงพื้นที่ที่ล่าช้า
ประสาทวิทยาศาสตร์ 1999, 91: 871-890 PubMed บทคัดย่อ ข้อความเต็มของสำนักพิมพ์
กลับไปที่ข้อความ
22. Pearce JM, Hall G: แบบจำลองสำหรับการเรียนรู้แบบพาฟโลเวียน: การแปรผันของประสิทธิผลของสิ่งเร้าแบบมีเงื่อนไขแต่ไม่มีเงื่อนไข
รีวิวจิตวิทยา 1980, 87: 532-552 PubMed บทคัดย่อ ข้อความเต็มของสำนักพิมพ์
กลับไปที่ข้อความ
23. Dayan P, Kakade S, Montague PR: การเรียนรู้และการเลือกความสนใจ
ประสาทวิทยาศาสตร์ธรรมชาติ 2000, 3: 1218-1223 PubMed บทคัดย่อ ข้อความเต็มของสำนักพิมพ์
กลับไปที่ข้อความ
24. Dayan P, Yu A: ความไม่แน่นอนที่คาดหวังและคาดไม่ถึง: Ach และ NE ใน neocortex [http://books.nips.ce/papers/files/nips15/NS08.pdf] เว็บไซต์
ในความก้าวหน้าในการประมวลผลข้อมูลระบบประสาท Sysytems แก้ไขโดย Dietterich T, Becker S, Ghahramani Z. Cambridge, MA: MIT Press; 2002, 14: 189-196
กลับไปที่ข้อความ
25. Daw N, Niv Y, Dayan P: การกระทำ นโยบาย ค่านิยม และ Basal Ganglia ในความก้าวหน้าล่าสุดในการวิจัย Basal Ganglia เรียบเรียงโดย Bezard E. New York, USA: Nova Science Publishers, Inc; ในการกด
กลับไปที่ข้อความ
26. Wickens J, Kötter R: แบบจำลองเซลลูล่าร์ของการเสริมแรง ในแบบจำลองการประมวลผลข้อมูลใน Basal Ganglia เรียบเรียงโดย Houk JC, Davis JL, Beiser DG สำนักพิมพ์เอ็มไอที; 1995:187-214.
กลับไปที่ข้อความ