J神经生理学。 1998 Jul;80(1):1-27.
舒尔茨W1.
抽象
病变,受体阻断,电自我刺激和滥用药物的影响表明,中脑多巴胺系统参与处理奖励信息和学习方法行为。 大多数多巴胺神经元在初级液体和食物奖励和条件,奖励预测视觉和听觉刺激后显示阶段性激活。 它们表现出类似于奖励预测刺激或新颖或特别显着的刺激后的双相激活抑制反应。 然而,只有少数阶段性激活遵循厌恶刺激。 因此,多巴胺神经元标记具有食欲价值的环境刺激,预测和检测奖励以及信号警报和激励事件。 由于未能区分不同的奖励,多巴胺神经元似乎会发出关于惊人的奖励存在与否的警报信息。 对奖励和奖励预测刺激的所有反应都取决于事件的可预测性。 通过奖励比预测更好的事件激活多巴胺神经元,保持不受预测的事件影响,并且被比预测更糟的事件抑制。 通过根据预测误差发出奖励,多巴胺反应具有强化学习理论假定的教学信号的形式特征。 在从初级奖励到奖励预测刺激的学习过程中,多巴胺反应转移。 这可能有助于神经元机制作为奖励逆行动作的基础,这是强化学习的主要难题之一。 脉冲响应在多个树突上释放多巴胺的短脉冲,从而向突触后神经元传播相当全面的强化信号。 该信号可以通过在行为发生之前提供预先奖励信息来改善接近行为,并且可以通过修改突触传输来促进学习。 多巴胺奖赏信号由纹状体,额叶皮层和杏仁核中的神经元中的活性补充,其处理特定的奖励信息但不发出全局奖励预测误差信号。 不同奖励信号之间的合作可以确保使用特定奖励来选择性地增强行为。 在其他投影系统中,去甲肾上腺素神经元主要服务于注意机制,而基底核神经元编码不均匀地奖励。 小脑攀爬纤维表示运动表现的错误或预测小脑浦肯野细胞的厌恶事件的错误。 多巴胺消耗损伤后的大多数缺陷不容易通过有缺陷的奖赏信号来解释,但可能反映出缺乏细胞外多巴胺的强直水平的一般促成功能。 因此,多巴胺系统可具有两种功能,即奖励信息的阶段性传递和突触后神经元的强直性使能。
引言
当多细胞生物通过自我繁殖分子的进化而兴起时,它们便发展出内源性的自我调节机制,从而确保其福利和生存需求得到满足。 受试者进行各种形式的进近行为,以获得维持稳态平衡和繁殖的资源。 一类资源称为奖励,它引起并加强进近行为。 在高等哺乳动物进化过程中,奖励的功能得到了进一步发展,以支持更为复杂的个人和社会行为形式。 因此,生物学和认知上的需求定义了奖励的性质,而奖励的可用性决定了受试者生活条件的一些基本参数。
奖励有各种物理形式,在时间上变化很大,并且取决于主题的特定环境。 尽管它们具有重要性,但奖励不会通过调整到有限范围的物理形态的专用外周受体来影响大脑,如初级感觉系统的情况。 相反,通过使用特定的神经元机制,大脑从多种多感觉,不均匀和不稳定的刺激中提取奖励信息。 奖励的高度可变性要求在处理它们的神经元系统中进行高度适应。
参与处理奖励信息的主要神经元系统之一似乎是多巴胺系统。 行为研究表明,多巴胺对纹状体和额叶皮质的投射在调节奖励对进近行为和学习的影响方面发挥着核心作用。 这些结果来自多巴胺系统的不同组分的选择性损伤,直接和间接多巴胺受体激动剂和拮抗剂药物的全身和脑内给药,电自我刺激和主要滥用药物的自我给药,例如可卡因,苯丙胺,阿片类,酒精和尼古丁(Beninger和Hahn 1983; Di Chiara 1995; Fibiger和Phillips 1986; Robbins和Everitt 1992; 罗宾逊和贝里奇1993; 明智的1996; Wise和Hoffman 1992; Wise等人。 1978).
本文总结了最近关于多巴胺神经元对环境激励刺激的信号传导的研究,并通过参考解剖学组织,学习理论,人工神经元模型,其他神经元系统和病变后的缺陷来评估这些信号在改变行为反应中的潜在功能。 将描述多巴胺神经元的所有已知响应特征,但是主要是对奖赏相关刺激的响应将被概念化,因为它们是目前最好理解的。 由于文献中可获得的大量数据,所讨论的主要系统将是黑质纹状体多巴胺投射,但是就本知识所允许的情况而言,也将考虑从中脑多巴胺神经元到腹侧纹状体和额叶皮层的投射。
奖励和预测
奖励的功能
环境中的某些物体和事件通过其对福利,生存和繁殖的影响具有特别的动机意义。 根据引发的行为反应,环境对象的动机价值可以是食欲(奖励)或厌恶(惩罚)。 (注意,“appetitive”用于“奖励”的同义词,但不用于“准备”。)Appetitive对象有三个可分离的基本功能。 在他们的第一个功能中,奖励引出方法和完成行为。 这是因为物体通过先天机制被标记为食欲价值,或者在大多数情况下是学习。 在他们的第二个功能中,奖励增加了导致这些对象(学习)的行为的频率和强度,并且他们通过防止濒临灭绝来维持学习行为。 奖励在经典和仪器调节程序中充当行为的积极强化剂。 在一般的激励学习中,环境刺激在经典条件刺激 - 奖励关联和诱导接近行为之后获得食欲价值(宾德拉1968)。 在仪器调节中,奖励通过加强刺激和行为反应之间的联系来“强化”行为(效果法则: Thorndike 1911)。 这是“回归更多”的本质,与为完成某项工作而获得的奖励的共同概念有关。 在激励学习的工具形式中,奖励是“激励”,并且在行为反应和结果之间的关联之后充当行为目标(Dickinson和Balleine 1994)。 在他们的第三个功能中,奖励诱导主观的愉悦感(hedonia)和积极的情绪状态。 厌恶刺激在相反的方向上起作用。 它们通过在重复呈现时增加和维持回避行为来诱导戒断反应并充当负强化物,从而减少破坏性事件的影响。 此外,他们引发愤怒,恐惧和恐慌的内部情绪状态。
预测的功能
预测提供有关未来刺激,事件或系统状态的预先信息。 它们提供了获得行为反应时间的基本优势。 某些形式的预测通过与特定结果相关联将动机值归因于环境刺激,从而识别具有至关重要性的对象并将它们与不太有价值的对象区分开来。 其他形式编码预测对象的物理参数,例如空间位置,速度和重量。 预测允许有机体在实际发生之前评估未来事件,允许选择和准备行为反应,并增加接近或避免标记有动机值的对象的可能性。 例如,以相同顺序重复移动物体允许人们预测即将到来的位置并且在追求当前物体时已经准备好下一个移动。 这减少了各个目标之间的反应时间,加快了整体性能,并导致更早的结果。 预测性眼球运动通过提前聚焦改善行为表现(鲜花和唐宁1978).
在更高级别,预测提供的预先信息允许人们在替代方案之间做出决定以获得特定系统状态,接近不常发生的目标对象,或避免不可挽回的不利影响。 工业应用程序使用内部模型控制来预测系统状态并在系统状态发生之前做出反应(加西亚等人。 1989)。 例如,现代航空中的“电传操纵”技术计算出可预测的即将到来的飞机状态。 飞行机动的决定考虑了这些信息,有助于避免飞机机械部件的过度应变,从而减轻重量并增加操作范围。
预测信息的使用取决于所代表的未来事件或系统状态的性质。 简单的表示直接涉及即将到来的目标的位置和随后的行为反应,从而以相当自动的方式减少反应时间。 更高形式的预测基于允许逻辑推理的表示,可以通过不同程度的意向性和选择来访问和处理。 它们通常在人类中有意识地加工。 在预测的事件或系统状态发生并且进行行为反应之前,这样的预测允许人们通过整合来自不同来源的知识,设计各种反应方式并比较每种可能反应的收益和损失来在心理上评估各种策略。
行为调节
关联性食欲学习涉及任意刺激和主要奖励之间的重复和偶然配对(图。 1)。 这导致由现在“条件化”刺激引起的越来越频繁的接近行为,其部分地类似于由主要奖励引起的接近行为并且还受条件刺激的性质的影响。 似乎条件刺激作为奖励的预测因子,并且通常基于适当的驱动,设定导致行为反应的内部动机状态。 接近反应的相似性表明,行为反应的一些一般性预备成分从主要奖励转移到最早的条件性奖励预测刺激。 因此,条件刺激可能部分地作为主要刺激的动机替代,可能通过巴甫洛夫学习(迪金森1980).
在学习期间处理食欲刺激。 通过重复的,偶然的配对,任意刺激与主要食物或液体奖励相关联。 这种条件性的奖励预测刺激通过引起奖励的期望来诱导内部动机状态,通常基于相应的饥饿或口渴驱动,并引发行为反应。 该方案复制了由此制定的激励动机理论的基本概念 宾德拉(1968) 和 Bolles(1972)。 它适用于经典调节,其中奖励在条件刺激之后自动递送,并且适用于器乐(操作)调节,其中奖励递送需要受试者对条件刺激的反应。 该方案也适用于厌恶调节,出于简洁的原因,该调节不再进一步阐述。
许多所谓的“无条件”食物和液体奖励可能是通过经验来学习的,因为每个到国外的游客都可以证实。 然后,主要奖励可能包括当物体激活味觉受体时所经历的味道,但也可以学习。 营养物质的最终奖励效果可能在于它们对基本生物变量的特定影响,例如血浆和脑中的电解质,葡萄糖或氨基酸浓度。 这些变量由生物体的营养需求定义,并通过进化产生。 动物避免不能影响重要植物变量的营养素,例如缺乏组氨酸等必需氨基酸的食物(罗杰斯和哈珀1970),苏氨酸(Hrupka等。 1997; 王等人。 1996),或蛋氨酸(Delaney和Gelperin 1986)。 一些主要的奖励可以通过先天的本能来确定,并支持早期生活中的初始接近行为和摄取,而大多数奖励将在随后的受试者的生活经历中学习。 然后,奖励的物理外观可用于预测慢得多的植物效应。 这将极大地加速对奖励的检测,并构成生存的主要优势。 学习奖励还允许受试者使用更多种类的营养素作为有效奖励,从而增加他们在稀缺资源区生存的机会。
对适应性刺激的适应性反应
多巴胺神经元的细胞体主要位于中脑组A8(背侧至外侧黑质),A9(黑质致密部位)和A10(腹侧被黑质内侧区域)。 这些神经元释放神经递质多巴胺,神经冲动来自纹状体(尾状核,壳核和腹侧纹状体,包括伏隔核)和额叶皮层的轴突静脉曲张,以确定最重要的部位。 我们在20-60分钟期间记录来自单个多巴胺神经元细胞体的脉冲活动,其中可移动的微电极来自细胞外位置,而猴子学习或执行行为任务。 在低频下放电的特征性多相,相对长的脉冲使得多巴胺神经元易于与其他中脑神经元区分开。 所采用的行为范式包括反应时间任务,直接和延迟的任务,空间延迟响应和交替任务,空气喷射和盐水主动回避任务,操作和经典条件视觉辨别任务,自发动作和不可预测的交付没有任何正式任务的奖励。 关于100-250多巴胺神经元在每种行为情况下进行研究,任务调节神经元的部分参考这些样本。
初步记录研究搜索了多巴胺神经元中帕金森病运动和认知缺陷的相关性,但没有发现手臂和眼球运动的明显协变量(德龙等人。 1983; Schultz和Romo 1990; 舒尔茨等人。 1983)或延迟响应任务的助记符或空间组件(舒尔茨等人。 1993)。 相比之下,发现多巴胺神经元通过广泛的体感,视觉和听觉刺激的奖赏特征以非常独特的方式被激活。
通过主要的食欲刺激激活
关于75%的多巴胺神经元在没有其他阶段性刺激的情况下在探索性运动期间触摸一小部分隐藏食物时显示出阶段性激活,而不被运动本身激活(Romo和Schultz 1990)。 剩余的多巴胺神经元对任何测试的环境刺激都没有反应。 多巴胺神经元也被任何行为任务之外的口腔输送的一滴液体激活,或者在学习视觉或听觉反应时间任务,空间延迟响应或交替以及视觉辨别等不同范例时,通常在同一动物中(图。 2 最佳)(霍勒曼和舒尔茨1996; Ljungberg等。 1991, 1992; Mirenowicz和Schultz 1994; 舒尔茨等人。 1993)。 奖励响应独立于学习环境而发生。 因此,多巴胺神经元似乎不区分不同的食物和液体奖励。 但是,他们的回答将奖励与非回报对象区分开来(Romo和Schultz 1990)。 只有14%的多巴胺神经元显示出主要厌恶刺激时的阶段性激活,例如手部空气喷射或口腔高渗盐水,大多数激活的神经元也响应奖励(Mirenowicz和Schultz 1996)。 尽管是无害的,但这些刺激是厌恶的,因为它们破坏行为并诱导主动回避反应。 然而,多巴胺神经元对厌恶刺激并不完全不敏感,如麻醉猴子疼痛捏刺激后缓慢抑郁或偶尔缓慢激活所示(Schultz和Romo 1987并且在醒来的大鼠中电击和尾巴捏后纹状体多巴胺释放增加(Abercrombie等人。 1989; Doherty和Gratton 1992; Louilot等。 1986; Young et al。 1993)。 这表明多巴胺神经元的阶段性反应优先报告具有主要食欲值的环境刺激,而厌恶事件可以用相当慢的时间过程发出信号。
多巴胺神经元根据奖励预测中的错误报告奖励。 置顶:虽然此时没有预测到奖励,但会发生液体滴。 因此,奖励的发生构成了奖励预测中的积极错误。 多巴胺神经元被液体的不可预测的发生激活。 中间:条件刺激预测奖励,奖励根据预测发生,因此奖励预测没有错误。 多巴胺神经元未被预测的奖励激活 (对)。 它还显示奖励预测刺激之后的激活,其发生与后期奖励的预测中的错误无关 (剩下)。 半身裙/裤:有条件的刺激可以预测奖励,但由于动物缺乏反应,奖励无法发生。 多巴胺神经元的活动正好在奖励会发生的时候就被压低了。 请注意,在条件刺激后> 1 s内出现抑郁,没有任何中间刺激,这表明了奖励期望的内部过程。 3张图中的神经元活动遵循以下公式:多巴胺反应(奖励)=发生的奖励-预测的奖励。 CS,条件刺激; R,主要奖励。 转载自 舒尔茨等人。 (1997) 经美国科学促进会许可。
奖励的不可预测性
多巴胺反应的一个重要特征是它们对事件不可预测性的依赖性。 当食物和液体奖励之前的阶段性刺激被预测为预测此类奖励时,奖励后的激活不会发生(图 2, 中间)(Ljungberg等。 1992; Mirenowicz和Schultz 1994; Romo和Schultz 1990)。 学习和完全获得行为之间的一个关键区别是奖励不可预测性的程度。 多巴胺神经元在学习阶段通过奖励激活,但在完全获取视觉和听觉反应时间任务后停止响应(Ljungberg等。 1992; Mirenowicz和Schultz 1994),空间延迟响应任务(舒尔茨等人。 1993)和同时视觉辨别(霍勒曼和舒尔茨1996)。 失去回应并不是由于对奖励的普遍不敏感,因为在几个月的实验过程中,在任务之外提供的奖励之后的激活不会减少(Mirenowicz和Schultz 1994)。 不可预测性的重要性包括奖励的时间,正如奖励之后的瞬时激活所证明的那样,突然发生的时间比预测的更早或更晚(霍勒曼和舒尔茨1996)。 总之,奖励的发生,包括其时间,必须是不可预测的,以激活多巴胺神经元。
遗漏预测奖励导致抑郁
即使在没有紧接在前的刺激的情况下,当完全预测的奖励未能发生时,多巴胺神经元在通常发生奖励时精确抑制(图2)。 2, 底部)。 当动物由于错误行为而无法获得奖励,当实验者尽管行为正确而停止液体流动,或者在没有输送液体的情况下阀门打开时,观察到这种情况(霍勒曼和舒尔茨1996; Ljungberg等。 1991; 舒尔茨等人。 1993)。 当奖励传递延迟0.5或1.0时,在奖励的常规时间发生神经元活动的抑制,并且在新时间激活之后激活(霍勒曼和舒尔茨1996)。 两个响应仅在几次重复期间发生,直到再次预测奖励递送的新时间。 相比之下,提供早于习惯的奖励会导致在新的奖励时间激活,但却无法在习惯时间引起抑郁。 这表明异常早期的奖励递送取消了对习惯时间的奖励预测。 因此,多巴胺神经元监测奖励的发生和时间。 在忽略奖励之前没有刺激的情况下,凹陷不构成简单的神经元反应,而是反映基于跟踪预测奖励的精确时间的内部时钟的期望过程。
通过条件性奖励预测刺激激活
关于55-70%多巴胺神经元在前面描述的各种经典或仪器条件化任务中被条件化视觉和听觉刺激激活(图2)。 2, 中间 和 底部)(霍勒曼和舒尔茨1996; Ljungberg等。 1991, 1992; Mirenowicz和Schultz 1994; Schultz 1986; Schultz和Romo 1990; P. Waelti,J。Mirenowicz和W. Schultz,未发表的数据)。 报告了第一种多巴胺对条件光的反应 米勒等人。 (1981) 在用氟哌啶醇治疗的大鼠中,其增加了多巴胺神经元的发病率和自发活性,但导致比未被破坏的动物更持久的反应。 虽然反应发生在行为反应附近(Nishino等。 1987),它们与手臂和眼睛的运动本身无关,因为它们也发生在移动手臂的同侧并且在没有手臂或眼睛运动的试验中(Schultz和Romo 1990)。 在响应幅度和激活的神经元分数方面,条件刺激的效果略低于初级奖励。 即使刺激偏移预测奖励,多巴胺神经元仅响应条件刺激的发作而不响应它们的偏移(Schultz和Romo 1990)。 多巴胺神经元不区分条件性食欲刺激的视觉和听觉方式。 然而,只要它们在物理上足够不同,它们就会区分食欲和中性或厌恶刺激(Ljungberg等。 1992; P. Waelti,J。Mirenowicz和W. Schultz,未发表的数据)。 只有11%的多巴胺神经元,其中大多数具有食欲反应,显示典型的阶段性激活也响应于主动回避视觉或听觉刺激的主动回避任务,其中动物释放钥匙以避免空气抽吸或一滴高渗盐水(Mirenowicz和Schultz 1996虽然这种回避可能被视为“有益的”。这些少数激活不足以引起平均人口反应。 因此,多巴胺神经元的阶段性反应优先报告具有食欲动机值的环境刺激,但不区分不同的感觉形态。
转移激活
在学习过程中,多巴胺神经元逐渐被条件性的奖励预测刺激激活,逐渐失去对初级食物或液体奖励的反应(霍勒曼和舒尔茨1996; Ljungberg等。 1992; Mirenowicz和Schultz 1994)(图。 2 和 3)。 在短暂学习期间,奖励和条件刺激都会引发多巴胺激活。 这种从初级奖励转变为条件性刺激的瞬间发生在单个多巴胺神经元中,在两个充分学习的任务中测试,分别采用不可预测和预测的奖励(Romo和Schultz 1990).
多巴胺反应转移到最早的预测刺激。 响应不可预测的主要奖励转移到逐步提前的奖励预测刺激。 所有显示器显示通过平均在所指示的行为情况中记录的所有多巴胺神经元的归一化的经过时间直方图而获得的群体直方图,而与响应的存在或不存在无关。 置顶:在任何行为任务之外,在用小光测试的44神经元中没有群体反应(数据来自 Ljungberg等。 1992),但平均有35个神经元对动物嘴前的水嘴中的一滴液体产生反应(Mirenowicz和Schultz 1994). 中间:对2选择空间到达任务中的奖励预测触发刺激的响应,但在相同的23神经元中建立的任务执行期间没有对奖励的响应(舒尔茨等人。 1993). 半身裙/裤:在指示的空间到达任务(1神经元)中,通过19的固定间隔对奖励预测触发刺激之前的指令提示做出响应(XNUMX神经元)(舒尔茨等人。 1993)。 由于条件刺激和奖励之间的间隔变化,时基被分裂。 转载自 舒尔茨等人。 (1995b) 经麻省理工学院出版社许可。
条件刺激的不可预测性
当在完全建立的行为情况下通过阶段性条件刺激以固定间隔开始这些刺激本身时,不会发生条件性奖励预测刺激之后的激活。 因此,对于连续条件刺激,多巴胺神经元被最早的奖励预测刺激激活,而之后在可预测时刻跟随的所有刺激和奖励都是无效的(图2)。 3)(舒尔茨等人。 1993)。 只有随机间隔的连续刺激才能引发个体反应。 此外,广泛的过度训练和高度刻板的任务表现削弱了对条件刺激的反应,可能是因为前一次试验中的事件预测了刺激(Ljungberg等。 1992)。 这表明刺激不可预测性是激活多巴胺神经元的所有刺激的共同要求。
通过省略预测的条件刺激来抑制抑郁症
先前实验的初步数据(舒尔茨等人。 1993)表明,当条件性的奖励预测刺激通过先前的刺激在固定时间预测时,多巴胺神经元也会被抑制,但由于动物的错误而无法发生。 与初级奖励一样,抑郁症发生在通常发生条件刺激时,而不是由先前的刺激直接引发。 因此,遗漏诱导的抑郁症可以推广到所有食欲事件。
激活抑制与响应泛化
多巴胺神经元也对不能预测奖励的刺激做出反应,但与在相同背景下发生的奖励预测刺激非常相似。 这些反应主要包括激活,然后立即抑郁,但偶尔可能由纯激活或纯抑郁组成。 激活比奖励预测刺激之后的激活更小且更不频繁,并且在30-60%神经元中观察到凹陷。 尽管有正确的行为歧视,多巴胺神经元对视觉刺激有反应,这些刺激没有奖励,但与奖励预测刺激非常相似(Schultz和Romo 1990)。 打开一个空盒子无法激活多巴胺神经元,但只要盒子偶尔含有食物,就会在每次试验中都有效(Ljungberg等。 1992; Schultz 1986; Schultz和Romo 1990)或当一个相邻的,相同的盒子总是含有食物随机交替打开时(Schultz和Romo 1990)。 空盒子比诱饵盒引发更弱的激活。 动物对每个盒子进行不加区别的眼睛定向反应,但只用手接近诱饵盒。 在学习期间,多巴胺神经元继续响应先前条件的刺激,当奖励突发事件发生变化时,这些刺激会失去奖励预测(舒尔茨等人。 1993)或响应类似先前条件刺激的新刺激(霍勒曼和舒尔茨1996)。 即使是随机交替出现的厌恶刺激也会出现反应,这些刺激是同一感觉形态的物理相似,条件性食欲刺激,厌恶反应弱于食欲刺激(Mirenowicz和Schultz 1996)。 反应甚至推广到行为上消失的食欲刺激。 显然,神经元反应推广到非依赖性刺激,因为它们与食欲刺激有物理相似性。
新奇的回应
新的刺激会引起多巴胺神经元的激活,通常会伴随抑郁,只要行为定向反应发生(例如眼球扫视)就会持续存在。 重复刺激几次后,激活和定向反应一起消退,具体取决于刺激的物理影响。 小型发光二极管几乎不会引起新颖性响应,而闪光灯闪烁以及小盒子的快速视觉和听觉打开会引起激活,该激活在<100次试验中逐渐衰减至基线(Ljungberg等。 1992)。 在动物面前立即发出响亮的咔嗒声或大图,会引起强烈的新颖性反应,这种反应会衰减,但仍会通过> 1,000次试验来诱导可测量的激活(霍勒曼和舒尔茨1996; Horvitz等人。 1997; Steinfels等人。 1983)。 数字 4 图1示意性地示出了具有不同物理显着性的新刺激的不同响应量值。 反复随着反复接触而逐渐衰减,但可能会以非常显着的刺激持续降低幅度。 当相同的刺激被恰当地调节时,响应幅度再次增加。 相比之下,当刺激被用于调节主动回避行为时,对新颖甚至大的刺激的反应迅速消退(Mirenowicz和Schultz 1996)。 很少有神经元(<5%)对明显而又身体上较弱的刺激(例如,纸片碎裂或实验者的总体手部动作)做出的一些试验做出反应。
多巴胺神经元激活为新型,警报和条件刺激的时间过程。 在连续试验中反复暴露后,新刺激后的激活减少。 它们的大小取决于刺激的物理显着性,因为更强的刺激会引起更高的激活,偶尔会超过条件刺激后的刺激。 特别是突出的刺激继续激活多巴胺神经元,即使在失去其新颖性而不与主要奖励配对后也具有有限的量级。 当刺激与主要奖励相关时,再次出现一致的激活。 该计划由Jose Contreras-Vidal提供。
回应的同质性
到目前为止进行的实验已经发现,中脑多巴胺细胞群A8,A9和A10中的大多数神经元在给定的行为情况下显示出非常相似的激活和抑郁,而剩余的多巴胺神经元根本没有反应。 与更多的侧面区域相比,有更高比例的神经元在中脑的更内侧区域(例如腹侧被盖区域和内侧黑质)中有反应,这有时会达到统计学意义(Schultz 1986; 舒尔茨等人。 1993)。 主要奖励,条件刺激和新颖刺激之间的反应潜伏期(50–110毫秒)和持续时间(<200毫秒)相似。 因此,多巴胺反应构成相对均匀的标量群体信号。 它的大小由单个神经元的响应能力和总体中响应神经元的分数来分级。
摘要1:学习剧集期间的自适应响应
多样性对奖赏相关刺激的反应的特征在学习期间得到最好的说明,因为奖励对于获得行为反应特别重要。 多巴胺奖赏信号在学习过程中经历系统性变化,并发生在最早的阶段性奖赏相关刺激中,这可能是主要奖励或奖励预测刺激(Ljungberg等。 1992; Mirenowicz和Schultz 1994)。 在学习过程中,新颖的,本质上中性的刺激会瞬间诱发反应,这些反应会很快消失并消失(图 4)。 在与这种刺激的初始配对期间,主要奖励不可预测地发生并引发神经元激活。 通过重复配对,通过条件刺激来预测奖励。 奖励后的激活逐渐减少并转移到条件性的奖励预测刺激。 然而,如果由于动物的错误而未能发生预测的奖励,则在奖励发生时多巴胺神经元被抑制。 在反复学习任务期间(舒尔茨等人。 1993)或任务组件(霍勒曼和舒尔茨1996),最早的条件刺激在所有学习阶段激活多巴胺神经元,因为对先前学习的类似刺激的推广,而随后的条件刺激和初级奖励仅在它们不确定并且正在建立新的突发事件时瞬时激活多巴胺神经元。
总结2:多巴胺神经元的有效刺激
多巴胺反应由三类刺激引发。 第一类包括通过重复和偶然配对奖励而成为有效奖励预测因子的主要奖励和刺激。 这些刺激形成了一类共同的明确奖励预测刺激,因为主要奖励可作为植物奖励效应的预测因子。 有效刺激显然具有警报成分,因为只有具有明确起效的刺激才有效。 多巴胺神经元显示出明确的奖励预测刺激后的纯激活,并且当预测但遗漏的奖励未能发生时被抑制(图 5, 最佳).
多巴胺神经元对2类型条件刺激的反应的示意图。 置顶:明确的奖励预测刺激的呈现导致刺激后的激活,对预测的奖励没有响应,以及当预测的奖励未能发生时的抑郁。 半身裙/裤:呈现类似于条件性奖励预测刺激的刺激,导致激活,然后是抑郁,奖励后激活,没有奖励时没有反应。 由于物理相似性,刺激后的激活可能反映了响应的泛化。 这种刺激没有明确地预测奖励,而是通过其与预测奖励的刺激的相似性与奖励相关。 与明确的奖励预测刺激相比,激活较低并且通常随后是抑郁症,因此区分奖励(CS +)和无奖励(CS-)条件刺激。 该方案总结了先前和当前实验的结果(霍勒曼和舒尔茨1996; Ljungberg等。 1992; Mirenowicz和Schultz 1996; Schultz和Romo 1990; 舒尔茨等人。 1993; P. Waelti和W. Schultz,未发表的结果)。
第二类包括引发一般化反应的刺激。 这些刺激没有明确地预测奖励,但是由于它们与通过调节已成为明确的奖励预测因子的刺激的物理相似性而有效。 与明确的奖励预测刺激相比,这些刺激诱导的激活程度较低,并且参与的神经元较少。 5, 底部)。 他们经常紧接着是沮丧。 尽管初始激活可以构成表示可能的奖励的广义的食欲反应,但是随后的抑郁可以反映在一般奖励预测背景中没有奖励的预测并且取消错误的奖励假设。 通过主要奖励后的激活和没有奖励的抑郁症的存在进一步表明缺乏明确的奖励预测。 与奖励预测刺激的反应一起,似乎多巴胺激活报告附加到与奖励相关的刺激的食欲“标签”。
第三类包括新颖或特别突出的刺激,其不一定与特定奖励相关。 通过引发行为导向反应,这些刺激提醒并引起注意。 然而,他们也有激励功能,可以奖励(藤田1987)。 新的刺激可能是有吸引力的。 新型或特别突出的刺激诱导经常伴随抑郁的激活,类似于对一般刺激的反应。
因此,多巴胺神经元的阶段性反应报告具有积极和潜在积极激励效应的事件,例如主要奖励,奖励预测刺激,奖励类似事件和警报刺激。 然而,它们在很大程度上没有检测到具有负面激励效果的事件,例如厌恶刺激。
总结3:多巴胺奖赏预测误差信号
多元胺对显性奖赏相关事件的反应可以通过正式学习理论进行最佳概念化和理解。 多巴胺神经元报告相对于其预测的奖励,而不是无条件地发出主要奖励(图 2)。 当主要奖励在没有预测的情况下发生时,多巴胺反应是阳性的(激活)。 当奖励按预期发生时,响应为零。 当省略预测奖励时,响应为负(抑郁)。 因此,多巴胺神经元根据奖励的发生和预测之间的差异报告主要奖励,这可以被称为奖励预测中的错误(舒尔茨等人。 1995b, 1997并且暂时正式化为
方程1T这个建议可以扩展到条件性食欲事件,这些事件也是多巴胺神经元相对于预测报告的。 因此,多巴胺神经元可能在所有食欲事件的预测中报告错误,并且 式。 1 可以用更一般的形式陈述
方程2这种概括与大多数奖励实际上是条件刺激的想法是一致的。 通过几个连续的,完善的奖励预测事件,只有第一个事件是不可预测的并且引发多巴胺激活。
多巴胺神经元的连接性
多巴胺反应的起源
哪些解剖学输入可能是多巴胺反应的选择性和多感官性质的原因? 哪种输入活动可能导致预测错误的编码,诱导自适应响应转移到最早的不可预测的食欲事件并估计奖励的时间?
背部和腹部纹状体。
纹状体的纹状体(斑块)中的GABA能神经元以几乎整个黑质致密部的广泛地形和部分重叠,交叉的方式投射到多巴胺神经元,而更大的纹状体基质的神经元主要接触非多巴胺的神经元。除了它们对苍白球的投射之外,还有黑质网状结构(Gerfen 1984; Hedreen和DeLong 1991; 霍尔斯坦等人。 1986; Jimenez-Castellanos和Graybiel 1989; Selemon和Goldman-Rakic 1990; Smith和Bolam 1991)。 腹侧纹状体中的神经元以非光学方式投射到内侧黑质和腹侧被盖区的致密部和网状结构(Berendse等人。 1992; 哈伯等人。 1990; Lynd-Balta和Haber 1994; Somogyi等人。 1981)。 GABAergic striatonigral投射可能对多巴胺神经元产生两种截然不同的影响,直接抑制和间接激活(Grace和Bunney 1985; 史密斯和格蕾丝1992; 泰珀等人。 1995)。 后者通过对网状神经节神经元的纹状体抑制和随后的网状神经节输出神经元的局部轴突侧支持到多巴胺神经元的GABA能抑制来介导。 这构成双重抑制环节并导致纹状体对多巴胺神经元的净激活。 因此,纹状体和腹侧纹状体可以单突触抑制,并且基质可以间接激活多巴胺神经元。
背侧和腹侧纹状体神经元显示许多激活可能有助于多巴胺奖励反应,即对主要奖励的反应(Apicella等。 1991a; 威廉姆斯等人。 1993),对奖励预测刺激的反应(霍勒曼等人。 1994; Romo等人。 1992)在期望奖励预测刺激和主要奖励期间持续激活(Apicella等。 1992; 舒尔茨等人。 1992)。 然而,这些神经元相对于striosomes和基质的位置是未知的,并且尚未报道反映预期奖赏时间的纹状体激活。
多感官奖励反应可能是皮质关联区域特征提取的结果。 30-75 ms在主要和关联视觉皮层中的响应延迟(Maunsell和Gibson 1992; 米勒等人。 1993)可能与纹状体的快速传导和黑质的双重抑制相结合,从而引起<100 ms的短多巴胺反应潜伏期。 尽管尚无关于后联想皮层奖励相关活动的报道,但背外侧和眼眶前额叶皮层中的神经元对主要奖励和奖励预测刺激有反应,并在奖励期望期间表现出持续的激活作用(Rolls等人。 1996; 索普等人。 1983; Tremblay和Schultz 1995; Watanabe 1996)。 额叶皮层的一些奖励反应取决于奖励的不可预测性(Matsumoto等人。 1995; L. Tremblay和W. Schultz,未发表的结果)或反映行为错误或遗漏奖励(Niki和Watanabe 1979; Watanabe 1989)。 通过直接投射,皮质对多巴胺神经元的影响甚至更快,起源于大鼠的前额皮质(Gariano和Groves 1988; Sesack和Pickel 1992; Tong等人。 1996但是猴子很弱(Künzle1978).
NUCLEUS PEDUNCULOPONTINUS。
奖励响应的短暂延迟可以源自脑干中的适应性特征处理机制。 细胞核pedunculopontinus是黑质的进化前体。 在非哺乳动物的脊椎动物中,它含有多巴胺神经元并投射到古纹状体(Lohman和Van Woerden-Verkley 1978)。 在哺乳动物中,这种细胞核对大部分多巴胺神经元发出强烈的兴奋性,胆碱能和谷氨酸能影响,潜伏期为〜7 ms(Bolam等人。 1991; 克拉克等人。 1987; Futami等。 1995; Scarnati等。 1986)。 脚趾脑 - 多巴胺预测的激活诱导盘旋行为(新岛和吉田1988),表明对多巴胺神经元的功能影响。
杏仁核。
多巴胺神经元的巨大的,可能是兴奋性的输入来自杏仁核的不同核(Gonzalez和Chesselet 1990; 价格和Amaral 1981)。 Amygdala神经元响应主要奖励和奖励预测视觉和听觉刺激。 到目前为止已知的神经元反应与刺激不可预测性无关,并且在食欲和厌恶事件之间没有区别(Nakamura等人。 1992; Nishijo等。 1988)。 大多数反应显示140-310 ms的延迟,其长于多巴胺神经元,尽管在60-100 ms的潜伏期中发生一些反应。
DORSALRAPHÉ。
背梢单突触投射(Corvaja等。 1993; Nedergaard等。 1988)对多巴胺神经元有抑制作用(Fibiger等。 1977; Trent和Tepper 1991)。 Raphé神经元显示高强度环境刺激后的短潜伏期激活(Heym等人。 1982),允许它们在新的或特别突出的刺激后促成多巴胺反应。
合成。
一些众所周知的输入结构最可能是调节多巴胺反应的候选者,尽管也可能存在额外的输入。 通过初级奖励和奖励预测刺激激活多巴胺神经元可以通过来自纹状体基质的双重抑制,净激活输入来介导(对于简化图,参见图2)。 6)。 动脉也可能来自于脑桥脑核或可能来自丘脑底核神经元投射到多巴胺神经元的奖赏期望相关活动(哈蒙德等人。 1983; Matsumura等人。 1992; 史密斯等人。 1990)。 完全预测的奖励没有激活可能是由于striosomes的单突触抑制,同时抵消激活基质输入的结果。 遗漏奖励时的抑郁可以通过纹状体纹状体中神经元的抑制性输入来介导(Houk等人。 1995)或苍白球(哈伯等人。 1993; Hattori等人。 1975; Y. Smith和Bolam 1990, 1991)。 多巴胺神经元之前或之间的不同输入之间的收敛可导致奖励预测误差的相当复杂的编码以及从主要奖励到奖励预测刺激的自适应响应转移。
中脑多巴胺神经元输入的简化图可能介导多巴胺反应。 仅出于简单的原因,仅示出了来自尾状体到黑质(SN)的圆锥形和网状的输入。 激活可能是由于尾状核和壳核中的GABA能神经基质神经元通过SN网纹的GABAergic神经元对SN pars compacta的多巴胺神经元产生的双重抑制,净激活影响。 激活也可以通过来自pedunculopontinus核的兴奋性胆碱能或含氨基酸的突起介导。 沮丧可能是由于尾状核和壳核中的纹状体(斑块)与多巴胺神经元的单突触GABAergic预测。 腹侧纹状体中的腹侧纹状体和多巴胺神经元以及腹侧被盖区域中的A10组和从背侧纹状体到SNN背侧的A8多巴胺神经元存在类似的预测(Lynd-Balta和Haber 1994)。 重圈代表多巴胺神经元。 这些预测代表了多巴胺反应的最可能的输入,而没有排除来自苍白球和丘脑底核的输入。
相位多巴胺影响目标结构
多巴胺信号的全球性质。
分歧投射。 每只黑质大鼠都有~8,000多巴胺神经元(Oorschot 1996)和猕猴中的80,000-116,000(德国等人。 1988; Percheron等。 1989)。 每个纹状体在大鼠中含有~2.8百万个神经元,在猕猴中含有31百万个神经元,导致300-400的黑质纹状体发散因子。 每个多巴胺轴突在纹状体的有限末端区域大量分枝并具有~500,000纹状体静脉曲张,多巴胺从该静脉曲张释放(Andén等人。 1966)。 这导致多巴胺输入几乎每个纹状体神经元(Groves等人。 1995)和适度的地形黑质纹状投影(Lynd-Balta和Haber 1994)。 猴子的皮质多巴胺神经支配在4和6区域最高,在额叶,顶叶和颞叶仍然相当大,在枕叶中最低(伯杰等人。 1988; Williams和Goldman-Rakic 1993)。 皮质多巴胺突触主要存在于I和V-VI层,与那里的大部分皮质神经元接触。 结合相当均匀的反应性质,这些数据表明多巴胺反应作为从中脑到纹状体和额叶皮层的同时平行活动波前进(图2)。 7).
全球多巴胺信号进入纹状体和皮质。 大多数多巴胺神经元对食欲和警觉刺激的相对均匀的群体反应及其从黑质到突触后结构的进展可以被示意性地看作是以1-2 m / s的速度前进的同步,平行活动的波(Schultz和Romo 1987沿着从中脑到纹状体(尾状核和壳核)和皮质的发散投影。 在黑质(SN)压缩区和腹侧被盖区(VTA)的神经元之间定性地无法区分响应。 纹状体中所有神经元的多巴胺神经支配和额叶皮层中的许多神经元将允许多巴胺强化信号发挥相当全局的作用。 Wave已被压缩以强调并行性。
多巴胺释放。 20-100 ms间隔的多巴胺神经元的脉冲导致纹状体中的多巴胺浓度比200 ms间隔的相同数量的脉冲高得多(Garris和Wightman 1994; Gonon 1988)。 这种非线性主要是由于多巴胺再摄取转运蛋白的快速饱和,其清除了突触外区域释放的多巴胺(Chergui等。 1994)。 在伏隔核中观察到相同的效果(怀特曼和齐默尔曼1990)由于较稀疏的再摄取位点,即使脉冲间隔较长也会发生(加里斯等人。 1994b; 马歇尔等人。 1990; 斯坦福等人。 1988)。 <300 ms的脉冲爆发后,多巴胺释放太短,无法激活自身受体介导的释放减少(Chergui等。 1994)或甚至更慢的酶降解(迈克尔等人。 1985)。 因此,破裂的多巴胺反应对于释放多巴胺特别有效。
基于体内伏安法的估计表明,单个脉冲在纹状体和伏核中的突触处释放~1,000多巴胺分子。 这导致0.5-3.0μM的即时突触多巴胺浓度(加里斯等人。 1994a; Kawagoe等。 1992)。 释放开始后40 s,多于90%的多巴胺离开突触,其余部分随后被突触重摄取所消除(半个发作时间为30-37 ms)。 在释放开始后3–9 ms,当所有邻近的静脉曲张同时释放多巴胺时,多巴胺浓度达到约250 nM的峰值。 直径为4μm的球体内的浓度是均匀的(Gonon 1997),这是静脉曲张之间的平均距离(Doucet等。 1986; Groves等人。 1995)。 再摄取转运蛋白将最大扩散限制在12μm,并且在释放开始后75 ms内达到最大扩散(半转运蛋白的起始时间为30-37 ms)。 在静脉曲张较少或激活<100%的多巴胺神经元的区域,浓度会稍低一些,均匀性会降低,但是在脉冲爆发时,浓度会高出两到三倍。 因此,在约75%的多巴胺神经元中,奖励诱导的轻度同步爆发性激活可能会导致浓度均匀峰,约为150-400 nM。 一次脉冲后,持续200 ms持续胞外多巴胺增加,在500–600 ms内多次间隔20–100 ms进行多次脉冲后,细胞外多巴胺的总增加持续100–200 ms(Chergui等。 1994; Dugast等人。 1994)。 突触外再摄取转运蛋白(Nirenberg等。 1996随后将多巴胺浓度恢复到5-10 nM的基线(Herrera-Marschitz等。 1996)。 因此,与经典的严格突触神经传递相反,突触释放的多巴胺迅速扩散到直接的juxtasynaptic区域并达到区域同质细胞外浓度的短峰。
受体。 在两种主要类型的多巴胺受体中,腺苷酸环化酶激活的D1型受体构成纹状体中多巴胺受体的〜80%。 其中80%处于2-4μM的低亲和力状态和20-9 nM的高亲和力状态下的74%(Richfield等人。 1989)。 剩余的20%纹状体多巴胺受体属于抑制腺苷酶环化酶的D2类型,其中10-0%处于低亲和力状态,80-90%处于高亲和力状态,具有与D1受体相似的亲和力。 因此,D1受体总体上具有比D100受体低~2倍的亲和力。 纹状体D1受体主要位于投射到内部苍白球和黑质网状神经元的神经元上,而纹状体D2受体主要位于投射到外部苍白球的神经元上(Bergson等人。 1995; Gerfen等。 1990; Hersch等人。 1995; Levey等人。 1993)。 然而,受体敏感性的差异可能不会在信号转导之外发挥作用,从而减少两种纹状体输出神经元之间多巴胺敏感性的差异。
多巴胺从突触中释放到30-40%,从突触外静脉曲张释放到60-70%(Descarries等人。 1996)。 突触释放的多巴胺作用于突触后多巴胺受体在纹状体的四个解剖学上不同的部位,即多巴胺突触内部,紧邻多巴胺突触,皮质纹状体谷氨酸突触内部,以及远离释放部位的突触外部位(图2)。 8)(Levey等人。 1993; Sesack等人。 1994; 容等人 1995)。 D1受体主要位于多巴胺突触之外(Caillé等人。 1996)。 相位脉冲爆发后多巴胺的高瞬时浓度将激活活性释放位点附近的D1受体,并激活甚至使各处的D2受体饱和。 当相位增加后环境多巴胺浓度回到基线时,D2受体将保持部分活化。
多巴胺释放对背侧和腹侧纹状体典型中型多刺神经元的影响。 来自突触静脉曲张的脉冲释放的多巴胺激活一些突触受体(可能是低亲和力状态下的D2型)并迅速扩散出突触以达到位于皮质纹状体突触附近的低亲和力D1型受体(D1?)。 ,或在有限的距离。 相位增加的多巴胺激活附近的高亲和力D2型受体至饱和(D2?)。 在相位增加释放后,D2受体仍然被环境多巴胺浓度部分激活。 突触外释放的多巴胺可能被扩散稀释并激活高亲和力的D2受体。 应该注意的是,与该示意图不同,大多数D1和D2受体位于不同的神经元上。 从皮质纹状体末端释放的谷氨酸到达位于与多巴胺静脉曲张相同的树突棘上的突触后受体。 谷氨酸还可以达到突触前多巴胺静脉曲张,控制多巴胺的释放。 多巴胺对额叶皮质中多刺神经元的影响在许多方面是相当的。
总结。 大多数多巴胺神经元的观察到的中度破裂,短时,几乎同步的反应导致从大多数紧密间隔的纹状体静脉曲张中最佳的同时多巴胺释放。 神经元反应诱导短暂的多巴胺释放,其从突触外部位释放或迅速从突触扩散到突触囊区域。 多巴胺迅速达到区域同质浓度,可能影响可能所有纹状体和许多皮层神经元的树突。 通过这种方式,60-80%的多巴胺神经元中的奖励信息被广播为对纹状体,伏隔核和额叶皮层的发散,相当全局的强化信号,确保对处理中涉及的最大突触数量的阶段性影响。刺激和行动导致奖励(图 7)。 在奖励和奖励预测刺激之后通过神经元激活释放的多巴胺将影响纹状体神经元上的juxtasynaptic D1受体,其投射到内部苍白球和黑质网状物以及投射到外部苍白球的神经元上的所有D2受体。 由凹陷引起的多巴胺释放的减少与省略的奖励和奖励预测刺激将减少环境多巴胺对D2受体的强直刺激。 因此,正奖励预测误差将影响所有类型的纹状体输出神经元,而负预测误差可能主要影响投射到外部苍白球的神经元。
潜在的可卡因机制。 通过可卡因或苯丙胺等药物阻断多巴胺再摄取转运蛋白可增强和延长多巴胺浓度的相位增加(教会等。 1987a; Giros等。 1996; Suaud-Chagny等人。 1995)。 当反馈调节变得有效之前多巴胺浓度的快速,爆发诱导的增加达到峰值时,增强将特别明显。 在主要奖励和奖励预测刺激之后,这种机制将导致大量增强的多巴胺信号。 在刺激类似于奖励,新刺激,特别是在日常生活中可能频繁的突出刺激之后,它还会增加稍微弱一些的多巴胺信号。 可卡因的增强会让这些无用的刺激物看起来比没有可卡因的自然奖励更强壮甚至更强。 突触后神经元可以将这种信号误解为特别突出的奖赏相关事件,并在突触传递中经历长期变化。
多巴胺膜作用。
多巴胺对纹状体神经元的作用取决于受体激活的类型,与膜电位的去极化与超极化状态有关,并且通常涉及谷氨酸受体。 D1多巴胺受体的激活增强了激活激活引起的激发 N经皮质输入经L型钙后,甲基-d-天冬氨酸(NMDA)受体2+ 膜电位处于去极化状态时的通道(Cepeda等。 1993, 1998; Hernandez-Lopez等。 1997; Kawaguchi等。 1989)。 相比之下,当膜电位处于超极化状态时,D1激活似乎可以减少诱发激发(Hernandez-Lopez等。 1997)。 体内多巴胺离子电渗疗法和轴突刺激诱导持续1-100超过多巴胺释放的D500介导的激发(Gonon 1997; Williams和Millar 1991)。 D2多巴胺受体的激活减少了Na+ 和N型钙2+ 在任何膜状态下,通过激活NMDA或α-氨基-3-羟基-5-甲基-4-异恶唑丙酸(AMPA)受体引起的电流和减弱激发(Cepeda等。 1995; 严等人。 1997)。 在系统水平,多巴胺发挥聚焦作用,只有最强的输入通过纹状体到外部和内部苍白球,而较弱的活动丢失(布朗和Arbuthnott 1983; Filion等。 1988; Toan和Schultz 1985; Yim和Mogenson 1982)。 因此,多巴胺反应释放的多巴胺可导致纹状体活性的立即总体降低,尽管可通过D1受体介导对皮质诱发的激动的促进作用。 以下讨论将表明多巴胺神经传递的影响可能不限于膜极化的变化。
多巴胺依赖性可塑性。
对纹状体和伏隔核的皮质或边缘输入的破伤风电刺激诱导持续数十分钟的切片后延迟抑郁(Calabresi等。 1992a; Lovinger等。 1993; Pennartz等人。 1993; 沃尔什1993; 威肯斯等人。 1996)。 这种操作也增强了皮质纹状体末端的兴奋性(Garcia-Munoz等。 1992)。 当通过去除镁或应用γ-氨基丁酸(GABA)拮抗剂促进突触后去极化时,在纹状体和伏隔核中观察到相似持续时间的后期增强(Boeijinga等。 1993; Calabresi等。 1992b; Pennartz等人。 1993)。 D1或D2多巴胺受体拮抗剂或D2受体敲除废除后期皮质纹状体凹陷(Calabresi等。 1992a; Calabresi等。 1997; Garcia-Munoz等。 1992)但不影响伏隔核的增强(Pennartz等人。 1993)。 多巴胺在多巴胺损伤大鼠切片中应用纹状体后抑郁症的应用Calabresi等。 1992a)但未能改变后期增强(Pennartz等人。 1993)。 当与强直性皮质纹状体刺激和突触后去极化同时应用时,多巴胺的短脉冲(5-20 ms)在纹状体切片中诱导长期增强,符合三因子强化学习规则(威肯斯等人。 1996).
多巴胺相关突触可塑性的进一步证据可见于其他脑结构或不同方法。 在海马中,D1激动剂的浴液应用可增加术后增强(Otmakhova和Lisman 1996)受到D1和D2受体阻断的影响(弗雷等人。 1990)。 多普勒和多巴胺激动剂的突发偶然但不爆发的非连续局部应用增加海马切片中的神经元破裂(斯坦因等人。 1994)。 在鱼视网膜中,D2多巴胺受体的激活诱导光感受器进出色素上皮细胞的运动(Rogawski 1987)。 将安非他明和多巴胺受体激动剂注射到大鼠尾状核中可改善记忆任务的表现(Packard和White 1991)。 纹状体中的多巴胺去神经减少了树突棘的数量(Arbuthnott和Ingham 1993; Anglade等。 1996; 英厄姆等人。 1993),表明多巴胺神经支配对皮质纹状体突触具有持久作用。
在角质神经元中加工。
估计10,000皮质末端和1,000多巴胺静脉曲张接触每个纹状体神经元的树突棘(Doucet等。 1986; Groves等人。 1995; 威尔逊1995)。 密集的多巴胺神经支配变得可见,在篮子古纹状体中勾勒出个别的perikarya(Wynne和Güntürkün1995)。 多巴胺静脉曲张在纹状体神经元的相同树突棘上形成突触,与皮质谷氨酸传入物接触(图2)。 8)(Bouyer等。 1984; Freund等人。 1984; Pickel等人。 1981; 史密斯等人。 1994),一些多巴胺受体位于皮质纹状体突触内(Levey等人。 1993; 容等人 1995)。 纹状体神经元的大量皮质输入,纹状体神经元脊柱的多巴胺和谷氨酸输入之间的收敛,以及可能到达所有纹状体神经元的大部分均匀的多巴胺信号是纹状体神经元脊柱中多巴胺依赖性突触变化的理想底物。 。 这也可能适用于皮质,其中树突棘与多巴胺和皮质神经元的突触输入接触(Goldman-Rakic等人。 1989虽然多巴胺可能不会影响每个皮质神经元。
基底神经节通过开放和闭合环与皮质和皮质下边缘结构连接。 纹状体在不同程度上接受来自所有皮层区域的输入。 基底神经节输出主要指向额叶皮质区域,但也到达颞叶(米德尔顿和斯特里克1996)。 从功能异质的皮层区域到纹状体的许多输入被组织在隔离的平行通道中,内部苍白球的输出被导向不同的运动皮质区域(亚历山大等人。 1986; Hoover和Strick 1993)。 然而,来自功能相关但解剖学上不同的皮质区域的传入可能会聚集在纹状体神经元上。 例如,从初级躯体感觉和运动皮层的生理相关区域投射到共同的纹状体区域(Flaherty和Graybiel 1993, 1994)。 皮质纹状体投射分化成单独的纹状体“matrisomes”并在苍白球中重新收敛,从而增加突触“表面”的调节相互作用和关联(Graybiel等。 1994)。 这种解剖学安排将允许多巴胺信号确定高度结构化的任务特异性皮质输入对纹状体神经元的功效,并对参与行为动作控制的前脑中心产生广泛影响。
使用多巴胺奖励预测错误信号
多巴胺神经元似乎根据预测误差报告食欲事件(公式。 1 和 2 )。 目前的学习理论和神经元模型证明了预测误差对学习的重要性。
学习理论
RESCORLA-WAGNER模型。
行为学习理论正式化了经典条件范式中任意刺激与主要激励事件之间关联的获得。 刺激通过与主要激励事件重复配对而在连续试验中获得联想强度
公式3where V 是刺激的当前联想强度,λ是主要激励事件可能维持的最大联想强度,α和β分别是反映条件刺激和无条件刺激的显着性的常数(迪金森1980; 麦金托什1975; Pearce和Hall 1980; Rescorla和Wagner 1972)。 (λ-V)术语表示主要激励事件发生不可预测的程度,并表示强化预测中的错误。 它决定了学习的速度,因为当误差项为正且条件刺激不能完全预测强化时,关联强度会增加。 什么时候 V =λ,条件刺激完全预测强化物,和 V 不会进一步增加。 因此,学习仅在主要激励事件未被条件刺激完全预测时发生。 这种解释是由阻塞现象所暗示的,根据该现象,当与另一种刺激本身完全预测强化物一起呈现时,刺激无法获得联想强度(Kamin 1969)。 (λ-V当预测的增强物不能发生时,误差项变为负值,导致条件刺激(消退)的缔合强度的丧失。 请注意,这些模型在广义上使用术语“强化”来增加特定行为的频率和强度,而不是指任何特定类型的学习。
DELTA RULE。
Rescorla-Wagner模型涉及由期望输出和实际输出之间的误差驱动的学习的一般原理,例如最小均方误差程序(卡尔曼1960; Widrow和Sterns 1985)。 该原理已应用于Delta规则中的神经网络模型,根据该模型调整突触权重(ω)
公式4where t 是网络的期望(目标)输出, a 是实际输出,η和 x 分别是学习率和输入激活(Rumelhart等人。 1986; Widrow和Hoff 1960)。 所需的输出(t)类似于结果(λ),实际输出(a)类似于学习期间修改的预测(V)和delta误差项(δ= t - a)相当于钢筋误差项(λ-V)Rescorla-Wagner规则 (公式。 3) (Sutton和Barto 1981).
对结果不可预测性的一般依赖直觉地与学习的本质相关。 如果学习涉及结果预测的获得或改变,那么当预测结果完全预测时,预测不会发生变化,因此也不会发生学习。 这限制了学习刺激和行为反应,导致惊人或改变的结果,并且没有学习其他事件已预测的结果之前的多余刺激。 除了他们在实现学习方面的作用外,强化者还具有第二种截然不同的功能。 学习完成后,充分预测的强化物对于保持学习行为和防止灭绝至关重要。
许多形式的学习可能涉及减少预测误差。 在一般意义上,这些系统处理外部事件,生成该事件的预测,计算事件与其预测之间的误差,并根据预测误差修改性能和预测。 这可能不仅限于处理生物强化物的学习系统,而是涉及更多种类的神经操作,例如大脑皮层中的视觉识别(Rao和Ballard 1997).
强化算法
无条件的加强。
神经网络模型可以通过简单的强化信号进行训练,当正确执行行为反应但没有错误反应的信号时,这些信号发出与预测无关的信号。 在这些主要的工具学习模型中学习包括根据改变模型神经元的突触权重(ω)
公式5其中ɛ是学习率, r 是强化,和 x 和 y 分别是突触前和突触后神经元的激活,确保只有参与增强行为的突触被修改。 一个流行的例子是关联奖励惩罚模型(巴托和阿南丹1985)。 这些模型获得骨骼或动眼反应,学习序列,并执行威斯康星卡片分类测试(Arbib和Dominey 1995; Dehaene和Changeux 1991; Dominey等人。 1995; Fagg和Arbib 1992)。 这些模型中的处理单元获得与顶叶协会皮层神经元相似的特性(Mazzoni等人。 1991).
然而,学习后教学信号的持续存在需要额外的算法来防止逃避突触强度(Montague和Sejnowski 1994并且用于避免获得与强化物预测刺激一起呈现的多余刺激。 当意外情况发生变化时,先前学习的行为仍然存在,因为省略的强化不会导致负面信号。 通过添加教师的外部信息可以提高学习速度(Ballard 1997)并纳入有关过去表现的信息(麦卡勒姆1995).
时间差异学习。
在一类特别有效的强化算法中(萨顿1988; Sutton和Barto 1981),根据连续时间步长计算的强化预测误差修改突触权重(t)在每个试验中
公式6where r 是强化和 P 是强化预测。 P(t)的 通常将其乘以0≤γ<1的折现因子γ,以说明越来越少的奖励所产生的影响减小。 为了简单起见,此处将γ设置为1。 在单一刺激预测单个补强剂的情况下, P(t - 1)存在于时间之前 t 加固但在加固时终止[P(t)的 = 0]。 这导致当时有效的强化信号 (T) 加固
公式6a [R(t)术语表示实际和预测钢筋之间的差异。 在学习过程中,不完全预测强化,当强化发生时误差项为正,并且突触权重增加。 学习之后,通过前面的刺激完全预测强化[P(t - 1)= r(t)],正确行为的误差项为零,突触权重保持不变。 当由于性能不足或偶然事件改变而省略加固时,误差为负并且突触权重减小。 该 [R(t)术语类似于(λ-V)Rescorla-Wagner模型的误差项(式。 4 )。 但是,它涉及个人时间步骤(t)在每个试验中,而不是在连续试验中发展的预测。 这些加固的时间模型利用了获得的预测包括确切的加固时间这一事实(迪金森等人。 1976; Gallistel 1990; 史密斯1968).
时间差(TD)算法还采用获得的预测来改变突触权重。 在预测单个强化物的预测的单一条件刺激的情况下,预测 P(t)的 从一开始 (吨), 没有先前的预测[P(t - 1)= 0],尚未发生强化[r(t)= 0]。 根据 式。 6, 该模型在当时发出纯粹的预测有效强化信号(t预测
公式6b在多个连续预测刺激的情况下,再次在预测时没有强化,当时的有效强化信号 (T) 预测的反映了当前预测之间的差异 P(t)的 和前面的预测 P(t - 1)
公式6c这构成了高阶强化的误差项。 与完全预测的强化物相似,所有完全预测的预测刺激都会被抵消[P(t - 1)= P(t)], 导致 [R 有时是0 (T) 这些刺激。 只有最早的预测刺激有助于有效的强化信号,就像这种刺激一样 P(t)的 是不是通过另一种刺激预测[P(t - 1)= 0]。 这导致相同的结果 [R = P(t)的 当时 (T) 在单个预测的情况下的第一次预测(式。 6b).
实现时间差异算法的神经网络模型的基本体系结构与基础神经节连通性相比较。 A:在原有的实施中有效的教学信号 y – ȳ 在模型神经元中计算 A 并发送到突触前终端的输入 x 对神经元 B, 从而影响 x → B 处理和改变突触权重 x → B 突触。 神经元 B 通过轴突影响行为输出 y 同时有助于神经元的适应性 A, 即它对强化预测刺激的反应。 这种简单架构的最新实现使用神经元 A 而不是神经元 B 用于发出输出 O 模型(蒙塔古等人。 1996; 舒尔茨等人。 1997)。 转载自 萨顿和巴托(1981) 经美国心理学会许可。 B:最近的实现分离了教学组件 A, 称批评家 (右) 来自由几个处理单元组成的输出组件 B, 称为演员 (剩下)。 有效的强化信号 [R(t通过减去加权增强器预测γ中的时间差来计算)P(t) - P(t - 来自初级加固的1) r(t)从环境中接收(γ是减少更远距离增强物值的折扣因子)。 增强器预测在单独的预测单元中计算 C, 这是批评家的一部分,与教学要素形成一个闭环 A而初级强化则通过单独的输入进入评论家 rt. 有效的强化信号影响演员中进入轴突的突触权重,其调节输出并且在评论家的自适应预测单元中。 转载自 巴托(1995) 经麻省理工学院出版社许可。 C:基底神经节的基本连接揭示了与演员 - 评论家建筑的惊人相似之处。 多巴胺投射向纹状体发射强化信号,并与该单位相当 A 部分 A 和 B, 边缘纹状体(或striosome-patch)占据预测单元的位置 C 在评论家中,感觉运动纹状体(或矩阵)类似于演员单位 B. 在原始模型中 (一个), 与既定基底神经节解剖结构的单一主要偏差在于神经元的影响 A 针对突触前末梢,而多巴胺突触位于纹状体神经元的突触后树突上(Freund等人。 1984)。 转载自 史密斯和波拉姆(1990) 经Elsevier Press许可。
总之,有效的强化信号(式。 6 )由初级强化组成,随着新出现的预测而减少(式。 6a并且被获得的预测逐渐取代(公式。 6b 和 6c)。 对于连续的预测刺激,有效的强化信号在时间上从初级强化物向后移动到最早的强化物预测刺激。 逆行转移导致对所涉及的突触的更具体的信用分配,因为与试验结束时的强化相比,预测在时间上更接近刺激和行为反应被调节(Sutton和Barto 1981).
强化学习算法的实现以两种方式使用预测误差,用于改变行为输出的突触权重和用于获取预测本身以连续计算预测误差(图2)。 9 A)(迈凯轮1989; Sutton和Barto 1981)。 这两个函数在最近的实现中是分开的,其中在自适应评论组件中计算预测误差并且改变演员组件中调节行为输出的突触权重(图2)。 9 B)(巴托1995)。 正误差增加了评论者的强化预测,而省略强化的负误差减少了预测。 这使得有效增强信号具有高度自适应性。
时间差异学习的神经生物学实现
多巴胺反应与增强模型的比较。
多巴胺反应编码奖励预测中的错误(式。 1 )非常类似于动物学习规则的有效误差项(λ-V; 式。 4 )和当时TD算法的有效强化信号(t)加固[r(t) - P(t - 1); 式。 6a],如前所述(蒙塔古等人。 1996)。 同样,多巴胺食欲预测错误(式。 2 )类似于更高阶的TD加固误差[P(t) - P(t - 1); 式。 6c]。 多巴胺神经元可能对纹状体中的所有神经元和额叶皮质中的许多神经元进行广泛,不同的预测的性质与TD全局强化信号的概念相容,该信号由评论家发出,用于影响演员中的所有模型神经元。 (比较图。 7 用图。 9 B)。 由于其独立的教学和表演模块,评论家 - 演员建筑对神经生物学特别有吸引力。 特别是,它与基底神经节的连通性密切相关,包括纹状阴影投射的互易性(图2)。 9 C),首先注意到 Houk等人。 (1995)。 评论家模拟多巴胺神经元,奖励预测从striosomal striatonigral投射进入,并且演员类似于具有多巴胺依赖性可塑性的纹状体基质神经元。 有趣的是,多巴胺反应和理论误差都是符号依赖的。 它们与误差项不同,绝对值不区分采集和灭绝,并且应该主要具有注意力效应。
应用于神经生物学问题。
虽然最初是在Rescorla-Wagner经典调节模型的基础上开发的,但使用TD算法的模型通过基本的工具形式的调节来学习各种各样的行为任务。 这些任务来自平衡车轮上的杆(巴托等人。 1983)玩世界级步步高(Tesauro 1994)。 使用TD算法的机器人学习移动二维空间并避开障碍物,触及和掌握(Fagg 1993)或将一个挂钉插入一个洞(Gullapalli等。 1994)。 使用TD增强信号直接影响和选择行为(图 9 A),TD模型复制蜜蜂的觅食行为(蒙塔古等人。 1995)并模拟人类决策(蒙塔古等人。 1996)。 具有明确的评论家 - 演员架构的TD模型构成了有效学习眼动的非常强大的模型(弗里斯顿等人。 1994; 蒙塔古等人。 1993),连续运动(图 10)和定向反应(Contreras-Vidal和Schultz 1996)。 最近的一个模型添加了激活抑制新奇信号,用于改善教学信号,在评论家和演员中使用刺激和动作痕迹,并采用赢家通吃规则来改善教学信号和选择具有最大激活的演员神经元。 这再次详细地再现了多巴胺神经元的反应和动物在延迟反应任务中的学习行为(苏瑞和舒尔茨1996)。 特别有趣的是,与无条件强化信号相比,使用预测误差的教学信号导致更快更完整的学习(图2)。 10)(弗里斯顿等人。 1994).
预测强化信号对学习的好处。 在连续的2步骤-3选择任务中训练了具有评论家 - 演员架构和演员资格跟踪的时间差异模型(插页左上角)。 当预测强化信号被用作教学信号时,学习进步更快,达到更高的性能(自适应评论家, 最佳)与在试验结束时使用无条件强化信号相比(底部)。 随着更长的序列,这种效应逐渐变得更加明显。 与无条件强化信号的可比性能需要更长的合格迹线。 数据来自10模拟(R.Suri和W. Schultz,未发表的观察结果)。 在动眼神经行为模型中发现了类似的预测性强化学习改进(弗里斯顿等人。 1994).
使用多巴胺信号的可能学习机制
前一部分已经表明,由多巴胺响应发出的形式预测误差信号可以构成用于模型学习的特别合适的教学信号。 以下部分描述了生物多巴胺反应如何可能用于基底神经节结构的学习,并提出可检验的假设。
奖励预测信号所体现的消极可塑性。
学习将分两步进行。 第一步涉及获得多巴胺奖励预测反应。 在随后的试验中,预测性多巴胺信号将特异性地增强在奖赏预测刺激时活跃的Hebbian型皮质纹状体突触的突触权重(ω),而非活动性皮质纹状体突触保持不变。 这导致三因素学习规则
公式8where [R 是多巴胺强化信号, i 是输入活动, o 是输出活动,ɛ是学习率。
在简化的模型中,四个皮质输入(i1-i4)接触三个中等大小的多刺纹状体神经元的树突棘(o1-o3;图。 11)。 皮质输入会聚在纹状体神经元上,每个输入接触不同的脊柱。 通过共同的多巴胺输入R非选择性地接触相同的脊柱。多巴胺输入R的激活表明在环境中发生了不可预测的奖赏预测刺激,而没有提供进一步的细节(良好信号)。 让我们假设皮质输入i2与多巴胺神经元同时激活,并编码相同奖励预测刺激的几个特定参数之一,例如其感觉形态,身体侧面,颜色,纹理和位置,或运动的特定参数。由刺激引发。 该事件的一组参数将由一组皮质输入i2编码。 与当前刺激和运动无关的皮质输入i1,i3和i4无效。 多巴胺反应导致所有静脉曲张的非选择性多巴胺释放,但仅选择性地增强活性皮质纹状体突触i2-o1和i2-o2,条件是皮质输入足够强以激活纹状体神经元o1和o2。
全球多巴胺强化信号对选择性皮质纹状体活动的不同影响。 3中型多刺纹状体神经元o1,o2和o3的树突棘被4皮质输入i1,i2,i3和i4以及来自单个多巴胺神经元R(或来自均质激活的多巴胺神经元群体)的轴突静脉曲张接触。 )。 每个纹状体神经元接受〜10,000皮质和1,000多巴胺输入。 在单个树突棘中,不同的皮质输入与多巴胺输入会聚。 在1版本的模型中,多巴胺信号相对于非活性传递同时增强活跃的皮质纹状体传递。 例如,多巴胺输入R与皮质输入i2同时有活性,而i1,i3,i4无活性。 这导致i2→o1和i2→o2传输的修改,但使i1→o1,i3→o2,i3→o3和i4→o3传输保持不变。 在采用可塑性的模型中,根据相同的规则,多巴胺信号长期修饰皮质纹状体突触的突触权重。 当多巴胺对条件刺激的反应作用于皮质纹状体突触时也可能发生这种情况,皮质纹状体突触也被这种刺激激活。 在采用可塑性的另一个版本中,多巴胺对主要奖赏的反应可能在先前活动的皮质纹状体突触上及时反向。 这些突触将有资格通过该活动留下的假设突触后神经元追踪进行修饰。 将基底神经节结构与最近的TD模型进行比较。 9 B, 多巴胺输入R用神经元复制批评者 A, 具有神经元的纹状体o1-o3用神经元复制该演员 B, 皮质输入i1-i4复制演员输入,并且多个纹状体神经元的多个脊柱上的多巴胺神经元R的发散投影o1-o3复制了评论家对演员的全局影响。 进行了类似的比较 Houk等人。 (1995)。 该图基于解剖学数据 Freund等人。 (1984), 史密斯和波拉姆(1990), 弗莱厄蒂和格雷比尔(1993)及 史密斯等人。 (1994).
该学习机制在奖励预测刺激时使用获得的多巴胺反应作为诱导持久突触变化的教导信号(图2)。 12 A)。 学习预测刺激或触发运动是基于证实的多巴胺对奖赏预测刺激的反应,以及纹状体中多巴胺依赖的可塑性。 在多巴胺介导的纹状体中突触传递的短期增强后,可塑性变化可能发生在纹状体下游的皮层或皮质下结构中。 奖励对奖励之前的刺激和动作的追溯效果是通过响应转移到最早的奖励预测刺激来调节的。 多巴胺对预测或省略的主要奖励的反应不用于纹状体的可塑性变化,因为它不会与待调节的事件同时发生,尽管它可能参与计算多巴胺对奖励预测刺激的反应,类似于TD模型的架构和机制。
多巴胺强化信号对纹状体可能学习机制的影响。 A:对条件刺激(CS)的预测性多巴胺奖赏响应对与该刺激相关的纹状体神经传递具有直接增强或可塑性作用。 B:多巴胺对主要奖赏的反应对与先前条件刺激相关的纹状体神经传递具有逆行可塑性作用。 这种机制由终止纹状体活动的合格迹线介导。 实线箭头表示多巴胺信号对纹状体神经传递的直接影响 (A) 或资格跟踪 (B), 小箭头 B 表明通过合格迹线对纹状体神经传递的间接影响。
具有突发性资格追踪的消极可塑性。
如果多巴胺奖励信号对纹状体突触具有追溯作用,则可以在单个步骤中进行学习。 这需要假设的突触活动痕迹,这些痕迹一直持续到强化发生,并使这些突触有资格通过加强前激活的教学信号进行修改(赫尔1943; Klopf 1982; Sutton和Barto 19811)。 突触权重(ω)根据改变
公式9where [R 是多巴胺强化信号, h(i,o) 是联合输入输出活动的合格痕迹,ɛ是学习率。 合格迹线的潜在生理基质包括钙浓度的长期变化(Wickens和Kötter1995),形成钙调蛋白依赖性蛋白激酶II(Houk等人。 1995),或在纹状体中经常发现持续的神经元活动(舒尔茨等人。 1995a)和皮质。
涉及合格迹线的多巴胺依赖性可塑性构成了向后学习序列的优雅机制(Sutton和Barto 1981)。 首先,多巴胺对不可预测的主要奖励的反应通过修改皮质纹状体突触功效来介导前一事件的行为学习(图2)。 11)。 同时,多巴胺反应转移到奖励预测事件。 忽略奖励时的抑郁会阻止学习错误的反应。 在下一步骤中,多巴胺对不可预测的奖励预测事件的响应介导对紧接在前的预测事件的学习,并且多巴胺响应同样转移回该事件。 当这种情况反复发生时,多巴胺反应在时间上向后移动,直到没有其他事件发生,允许在每个步骤中前一事件获得奖励预测。 这种机制非常适合形成导致最终奖励的行为序列。
这种学习机制充分利用多巴胺误差预测食欲事件,作为追溯性教学信号诱导持久的突触变化(图2)。 12 B)。 它使用多巴胺依赖性可塑性以及纹状体可靠性痕迹,其生物学习性仍有待研究。 这导致了结果的直接学习,基本上与教学信号对TD模型的演员的影响兼容。 所展示的多巴胺反应的逆行运动用于学习早期和早期的刺激。
替代机制:预测多巴胺信号的促进作用。
上述两种机制都使用多巴胺反应作为改变纹状体神经传递的教导信号。 由于多巴胺依赖性纹状体可塑性对学习的贡献尚不完全清楚,另一种机制可能基于所证实的多巴胺反应的可塑性,而不需要纹状体可塑性。 在第一步中,多巴胺神经元获得对奖赏预测刺激的反应。 在随后的步骤中,预测响应可用于增加在纹状体神经元的相同树突棘处同时发生的皮质输入的影响。 突触后活动会根据改变
公式10where [R 是多巴胺强化信号, i 是输入活动,δ是放大常数。 预测性多巴胺反应不是构成教学信号,而是在奖励预测刺激时为纹状体神经传递提供增强或激励信号。 利用竞争刺激,将优先处理与奖励预测多巴胺信号同时发生的神经元输入。 行为反应将从预先信息中获益,并变得更频繁,更快速,更精确。 通过将条件刺激与杠杆按压配对,在行为实验中证明了预先信息的促进性影响(Lovibond 1983).
可能的机制可以采用多巴胺的聚焦效应。 在图1的简化模型中。 11多巴胺全面减少所有皮质影响。 这使得只有最强的输入传递给纹状体神经元,而其他较弱的输入变得无效。 这需要非线性的对比度增强机制,例如用于产生动作电位的阈值。 在主要由多巴胺激发的神经元中可能发生相似的最强输入增强。
该机制采用获得的奖励预测多巴胺反应作为影响突触后处理的偏置或选择信号(图2)。 12 A)。 改善的性能完全基于所证明的多巴胺反应的可塑性,并且不需要纹状体神经元中的多巴胺依赖性可塑性。 对不可预测或遗漏的奖励的反应对于影响纹状体处理而言发生得太迟,但可能有助于计算与TD模型类似的预测性多巴胺反应。
电刺激多巴胺神经元作为无条件刺激
对局限脑区域的电刺激可靠地充当获取和维持进近行为的强化(Olds和Milner 1954)。 一些非常有效的自我刺激部位与中脑中的多巴胺细胞体和轴突束重合(Corbett和Wise 1980伏隔核(伏隔核)菲利普斯等人。 1975),纹状体(菲利普斯等人。 1976)和前额皮质(莫拉和迈尔斯1977; 菲利普斯等人。 1979),但也发现在与多巴胺系统无关的结构中(White和Milner 1992)。 电自我刺激涉及多巴胺神经元的激活(Fibiger和Phillips 1986; Wise和Rompré1989)并被6-羟基多巴胺诱导的多巴胺轴突损伤减少(Fibiger等。 1987; Phillips和Fibiger 1978),抑制多巴胺合成(Edmonds和Gallistel 1977),多巴胺神经元的去极化失活(Rompré和Wise 1989)和多巴胺受体拮抗剂全身给药(Furiezos和Wise 1976)或伏隔核(或伏隔核)Mogenson等。 1979)。 可卡因或安非他明诱导的细胞外多巴胺增加促进自我刺激(Colle和Wise 1980; Stein 1964; Wauquier 1976)。 自我刺激直接增加伏隔核,纹状体和额叶皮质中的多巴胺利用率(Fibiger等。 1987; 莫拉和迈尔斯1977).
有趣的是,电诱发的多巴胺冲动和释放可能在联想学习中起到无条件的刺激作用,类似于蜜蜂中章鱼胺神经元的刺激,学习长鼻反射(锤子1993)。 然而,多巴胺相关的自我刺激在至少三个重要方面与多巴胺神经元的自然激活不同。 自然奖励通常并行激活多个神经元系统而不是仅激活多巴胺神经元,并允许不同奖励成分的分布式编码(参见更多文本)。 其次,电刺激被应用为无条件强化而不反映奖励预测中的错误。 第三,电刺激仅在行为反应之后作为奖励传递,而不是在奖励预测刺激时。 以与多巴胺神经元发出信号完全相同的方式应用电自我刺激将是有趣的。
学习多巴胺神经传递受损的缺陷
许多研究调查了局部或全身应用多巴胺受体拮抗剂或腹侧中脑,伏隔核或纹状体中多巴胺轴突破坏后多巴胺神经传递受损的动物的行为。 除了观察与帕金森病相关的运动和认知缺陷外,这些研究还揭示了奖励信息处理中的损伤。 最早的研究认为,主观,享乐的奖励感受不足(明智的1982; Wise等人。 1978)。 进一步的实验表明,对于接近和完成行为,主要奖励和条件性食欲刺激的使用受损(贝宁格等人。 1987; Ettenberg 1989; 米勒等人。 1990; Salamone 1987; Ungerstedt 1971; Wise和Colle 1984; Wise和Rompre 1989)。 许多研究描述了在食欲性学习中潜在的动机和注意力过程中的损伤(贝宁格1983, 1989; Beninger和Hahn 1983; Fibiger和Phillips 1986; LeMoal和Simon 1991; Robbins和Everitt 1992, 1996; White和Milner 1992; 明智的1982)。 大多数学习缺陷与伏核中多巴胺神经传递受损有关,而背侧纹状体损伤导致感觉运动缺陷(Amalric和Koob 1987; Robbins和Everitt 1992; 白色1989)。 然而,特别是对器乐任务的学习以及特别是歧视性刺激特性的学习似乎经常不受影响,并且一些明显的学习缺陷是否可能被运动性能缺陷所混淆并不能完全解决(Salamone 1992).
帕金森氏病中多巴胺神经元的变性还导致许多声明性和程序性学习缺陷,包括联想学习(林登等人。 1990; Sprengelmeyer等。 1995)。 在试错法学习中存在缺陷并立即加强(Vriezen和Moscovitch 1990)当将显性刺激与不同结果联系起来时(Knowlton等。 1996),即使在帕金森氏病的早期阶段也没有皮质萎缩(Canavan等。 1989)。 帕金森病患者也表现出时间感受受损(牧师等人。 1992)。 所有这些缺陷都发生在L-多巴治疗的情况下,其恢复了强直的纹状体多巴胺水平而不恢复相位多巴胺信号。
这些研究表明,多巴胺神经传递在处理接近行为的奖励和涉及刺激与奖励之间关联的学习形式中起着重要作用,而参与更多工具性学习形式可能会受到质疑。 目前尚不清楚这些缺陷是否反映了由于多巴胺受体刺激减少而不是缺乏相位多巴胺奖赏信号而导致的更普遍的行为失活。 为了解决这个问题,以及更具体地阐明多巴胺在不同学习形式中的作用,研究在多巴胺对食欲刺激的阶段性反应实际发生的情况下学习是有帮助的。
可能由多巴胺信号介导的学习形式
多巴胺反应的特征和多巴胺对纹状体神经元的潜在影响可能有助于描绘一些可能涉及多巴胺神经元的学习形式。 与厌恶事件相反的对食欲的优惠反应将有利于参与学习接近行为和调解积极的强化效果,而不是撤回和惩罚。 在任务和学习环境之外对主要奖励的反应将允许多巴胺神经元在涉及主要奖励的相对广泛的学习中发挥作用,无论是在经典调节还是仪器调节中。 对奖励预测刺激的反应反映了刺激 - 奖励关联,并且与参与一般激励学习的奖励期望相一致(宾德拉1968)。 相比之下,多巴胺反应并未明确地将奖励编码为目标对象,因为它们仅报告奖励预测中的错误。 他们似乎对动机状态不敏感,因此不喜欢在目标导向行为的国家依赖性激励学习中发挥特定作用(Dickinson和Balleine 1994)。 与手臂和眼睛运动缺乏明确的关系将不利于直接调节遵循激励刺激的行为反应。 然而,个体神经元的放电与整个生物体的学习之间的比较本质上是困难的。 在突触水平,相位释放的多巴胺可能在每个纹状体神经元上到达许多树突,因此可以对涉及纹状体的各种各样的行为成分发挥可塑性作用,这可能包括运动的学习。
相位多巴胺信号在学习中起作用的具体条件取决于有效诱导多巴胺反应的刺激种类。 在动物实验室中,多巴胺反应需要发生食欲,新颖或特别突出的刺激,包括初级营养奖励和奖励预测刺激,而厌恶刺激不起主要作用。 多巴胺反应可能发生在由阶段性和显性结果控制的所有行为情境中,尽管尚未测试高阶条件刺激和次级强化物。 相位多巴胺反应可能不会在不是由相位发生的结果介导的学习形式中发挥作用,并且预测反应不能在不发生相位预测刺激的情况下促进学习,例如相对缓慢的上下文变化。 这导致了一个有趣的问题,即多巴胺损伤或神经安定药的一些学习形式的保留是否可能仅仅首先反映了缺乏相位多巴胺反应,因为没有使用引发它们的有效刺激。
多巴胺信号在学习中的参与可以通过理论实例来说明。 想象一下,当正确的反应突然导致营养奖励时,在获得连续反应时间任务期间多巴胺反应。 随后将奖励响应转移到逐渐更早的奖励预测刺激。 随着目标的空间位置变得越来越可预测,随着实践的延长,反应时间进一步改善。 虽然多巴胺神经元继续响应奖励预测刺激,但进一步的行为改善可能主要是由于其他神经元系统对空间位置的预测处理的获得。 因此,多巴胺反应将在学习的初始激励部分期间发生,其中受试者接近物体并获得明确的初级和可能有条件的奖励。 他们将更少参与学习进度超出诱导行为的情况。 这不会将多巴胺作用限制在初始学习步骤,因为许多情况需要首先从示例中学习,然后才能通过明确的结果进行学习。
奖励信号之间的合作
预测错误
多巴胺神经元的预测误差信号将是环境事件相对于预测的食欲值的极好指标,但是不能区分食物,液体和奖励预测刺激以及视觉,听觉和体感模式。 该信号可以构成奖励警报消息,通过该消息警告突触后神经元被告知有益的或可能有益的事件的惊人外观或遗漏而不进一步指示其身份。 它具有强大的学习强化信号的所有形式特征。 但是,有关奖励的具体性质的信息对于确定应该接近哪些对象以及以何种方式进行至关重要。 例如,饥饿的动物应该主要接近食物而不是液体。 为了区分相关和不相关的奖励,多巴胺信号需要通过附加信息来补充。 最近的体内透析实验显示,饥饿的大鼠食物诱导的多巴胺释放量高于饱食大鼠(威尔逊等人。 1995)。 多巴胺释放的这种驱动依赖性可能不涉及脉冲响应,因为当比较动物变得充满液体的个体实验期的早期和晚期时,我们未能发现明显的驱动依赖性与多巴胺反应(JL Contreras-Vidal和W.舒尔茨,未发表的数据)。
奖励细节
关于液体和食物奖励的信息也在除多巴胺神经元之外的脑结构中处理,例如背侧和腹侧纹状体,丘脑底核,杏仁核,背外侧前额皮质,眶额皮质和前扣带皮层。 然而,这些结构似乎不会发出类似于多巴胺神经元的全局奖励预测误差信号。 在灵长类动物中,这些结构将奖励视为 1)奖励交付后的短暂反应(Apicella等。 1991a,b, 1997; 鲍曼等人。 1996; Hikosaka等。 1989; Niki和Watanabe 1979; Nishijo等。 1988; Tremblay和Schultz 1995; Watanabe 1989), 2)对奖励预测线索的瞬态响应(Aosaki等。 1994; Apicella等。 1991b; 1996; 霍勒曼等人。 1994; Nishijo等。 1988; 索普等人。 1983; Tremblay和Schultz 1995; 威廉姆斯等人。 1993), 3)在期待即将到来的奖励期间持续激活(Apicella等。 1992; Hikosaka等。 1989; Matsumura等人。 1992; 舒尔茨等人。 1992; Tremblay和Schultz 1995), 4)通过预测奖励调整行为相关的激活(霍勒曼等人。 1994; Watanabe 1990, 1996)。 许多这些神经元在不同的食物奖励和不同的液体奖励之间很好地区分。 因此,他们处理奖励事件的特定性质,并可以提供奖励的感知。 一些奖励反应取决于奖励的不可预测性,并且当条件刺激预测奖励时,奖励反应会减少或消失(Apicella等。 1997; Matsumoto等人。 1995; L. Tremblay和W. Schultz,未发表的数据)。 他们可能会处理特定奖励的预测,但不清楚他们是否发出预测错误信号,因为他们对遗漏奖励的回应未知。
保持既定的业绩
三个神经元机制似乎对于维持既定的行为表现很重要,即检测遗漏的奖励,检测奖励预测刺激,以及检测预测的奖励。 当省略预测的奖励时,多巴胺神经元被抑制。 该信号可以降低与错误的行为反应相关的突触功效并防止它们的重复。 在确定的行为期间维持多巴胺对奖赏预测刺激的反应,因此继续充当预先信息。 尽管多巴胺神经元未检测到完全预测的奖赏,但它们由上述非多巴胺能皮质和皮质下系统处理。 这对避免学习行为的消失很重要。
总而言之,似乎对学习和维持接近行为的特定奖励的处理将从多巴胺神经元之间的合作中强烈地获益,所述多巴胺神经元同时发信号通知其他结构中的奖励和神经元的不可预测的发生或遗漏,指示奖励的特定性质。
与其他投影系统的比较
去甲肾上腺素神经元
在大鼠,猫和猴子的蓝斑中,几乎所有的去甲肾上腺素神经元群体都显示出相当均匀的双相活化抑制剂对视觉,听觉和体感刺激的反应,引起定向反应(Aston-Jones和Bloom 1981; Foote等。 1980; 拉斯穆森等人。 1986)。 特别有效的是动物注意的不常见事件,例如奇怪的歧视任务中的视觉刺激(阿斯顿 - 琼斯等人。 1994)。 去甲肾上腺素神经元在唤起或激励和中性事件之间进行非常好的区分。 他们在逆转期间迅速获得对新目标刺激的反应,并在行为逆转完成之前失去对先前目标的反应(阿斯顿 - 琼斯等人。 1997)。 任何任务之外的自由液体都会发生反应,并转移到任务中的奖励预测目标刺激以及初级和有条件的厌恶刺激(阿斯顿 - 琼斯等人。 1994; Foote等。 1980; Rasmussen和Jacobs 1986; Sara和Segal 1991)。 反应通常是短暂的,似乎反映了刺激发生或意义的变化。 只有少数试验反复出现食物时才会发生激活(Vankov等人。 1995)或与液体奖励,厌恶气泡或电击足相关的条件性听觉刺激(Rasmussen和Jacobs 1986; Sara和Segal 1991)。 在调节过程中,新的刺激的前几次呈现会产生反应,并且在获取,逆转和消退期间每当强化突发事件发生变化时,都会出现短暂的反应(Sara和Segal 1991).
同时,去甲肾上腺素神经元的反应类似于多巴胺神经元在几个方面的反应,由初级奖励,奖励预测刺激和新型刺激激活,并将反应从原发性食欲事件转移到条件性食欲事件。 然而,去甲肾上腺素神经元与多巴胺神经元不同,通过响应更多种类的唤醒刺激,通过对原发性和条件性厌恶刺激作出良好反应,通过快速区分中性刺激,通过快速跟随行为逆转,并通过反复刺激显示递减反应介绍可能需要100试验以获得稳定的食欲反应(阿斯顿 - 琼斯等人。 1994)。 去甲肾上腺素反应与引起定向反应的刺激的唤起或引起注意的特性密切相关,而不像大多数多巴胺神经元那样集中于食欲刺激特性。 他们可能更多地受到引人注目的驱使,而不是激发食欲事件的组成部分。
5-羟色胺神经元
不同中缝核的活动通过设定肌肉张力和刻板的运动活动来促进运动输出(Jacobs和Fornal 1993)。 猫的背中缝神经元显示出对没有特定行为意义的视觉和听觉刺激的阶段性,非生化反应(Heym等人。 1982; LeMoal和Olds 1979)。 这些反应类似于多巴胺神经元对新的和特别显着的刺激的反应。 进一步的比较需要更详细的实验。
Nucleus basalis Meynert
灵长类动物基底前脑神经元通过多种行为事件进行相位激活,包括条件,奖励预测刺激和主要奖励。 许多激活取决于记忆和与强化歧视和延迟反应任务的联系。 激活反映了对刺激的熟悉程度(Wilson和Rolls 1990a),接近奖励时间的刺激和动作变得更加重要(Richardson和DeLong 1990),在食欲和厌恶关联的基础上很好地区分视觉刺激(Wilson和Rolls 1990b),并在逆转期间在几个试验中改变(Wilson和Rolls 1990c)。 神经元也被厌恶刺激,预测的视觉和听觉刺激以及运动激活。 他们经常回应在完善的行为任务中完全预测的奖励(米切尔等人。 1987; Richardson和DeLong 1986, 1990虽然在一些研究中对不可预知奖励的反应更为丰富(Richardson和DeLong 1990)但不在其他人(Wilson和Rolls 1990a–c)。 与多巴胺神经元相比,它们被更大范围的刺激和事件激活,包括厌恶事件,并且不显示对不可预测的奖励及其转移到奖励预测刺激的相当均匀的群体反应。
小脑攀爬纤维
可能是大脑中第一个错误驱动的教学信号被假定为涉及从下橄榄到小脑皮质Purkinje神经元的攀爬纤维投射(Marr 1969),许多小脑学习研究都是基于这一概念(Houk等人。 1996; 伊藤1989; Kawato和Gomi 1992; Llinas和威尔士1993)。 当运动和视觉反馈之间的运动或增益的负荷发生变化并且猴子适应新情况时,攀爬到Purkinje神经元的纤维输入会瞬间改变它们的活动(Gilbert和Thach 1977; Ojakangas和Ebner 1992)。 大多数这些变化包括活动增加而不是激活与抑郁反应,多巴胺神经元的反方向错误。 如果攀爬纤维激活作为教学信号,联合攀爬纤维 - 平行纤维激活应导致平行纤维输入到Purkinje神经元的变化。 这确实发生在平行纤维输入的长期抑制中,主要是在体外制剂中(伊藤1989)。 然而,在行为学习情境中更难找到可比的平行光纤变化(Ojakangas和Ebner 1992),留下潜在攀爬纤维教学信号的后果。
攀爬纤维在学习中的作用的第二个论点涉及厌恶的经典条件反射。 一小部分攀爬纤维被厌恶的气泡激活到角膜。 在使用听觉刺激进行巴甫洛夫眼睑调理后,这些反应消失了(Sears和Steinmetz 1991),暗示与主要厌恶事件的不可预测性的关系。 调理后,小脑中间神经核中的神经元对条件刺激作出反应(Berthier和Moore 1990; 麦考密克和汤普森1984)。 这种细胞核的损伤或GABA拮抗剂荷包牡丹碱注射到下橄榄中可防止在调理后失去劣质橄榄气泡的反应,这表明从调节后的下部橄榄的单突触或多突触抑制抑制了调节后的反应(汤普森和格鲁克1991)。 这可能允许劣质橄榄神经元在没有预测的厌恶刺激的情况下被抑制,因此在预测与多巴胺神经元类似的厌恶事件时报告负面错误。
因此,攀爬纤维可以报告运动性能的误差和厌恶事件预测中的误差,尽管这可能并不总是涉及与多巴胺神经元一样的双向变化。 攀爬纤维似乎没有获得对条件性厌恶刺激的反应,但这种反应在细胞核中发现。 厌恶预测误差的计算可能涉及下行橄榄神经元的抑制输入下降,类似于对多巴胺神经元的纹状体投射。 因此,小脑回路处理错误信号,尽管与多巴胺神经元和TD模型不同,它们可能实施像Rescorla-Wagner规则那样的错误学习规则(汤普森和格鲁克1991)或正式等效的Widrow-Hoff规则(Kawato和Gomi 1992).
多巴胺奖励信号与帕金森人的缺点
与帕金森氏症,实验性病变或精神抑制药治疗有关的多巴胺神经传递受损与运动(运动不足(运动不足),震颤,僵直),认知(注意力,运动迟缓,计划,学习)和动机(情绪反应降低,沮丧)的许多行为缺陷有关。 缺陷的范围似乎太宽泛,无法用多巴胺奖赏信号故障来简单地解释。 全身性多巴胺前体或受体激动剂疗法可大大缓解大多数缺陷,尽管这不能以简单的方式恢复神经元冲动的相位信息传递。 但是,这种疗法无法解决许多食欲不振的问题,例如药理学上引起的辨别力缺陷(Ahlenius 1974)和帕金森病学习缺陷(Canavan等。 1989; Knowlton等。 1996; 林登等人。 1990; Sprengelmeyer等。 1995; Vriezen和Moscovitch 1990).
从这些考虑,似乎多巴胺神经传递在大脑中起着两个独立的功能,食欲和警报信息的阶段性处理以及没有时间编码的广泛行为的补品。 类似的双多巴胺功能缺陷可能是精神分裂症病理生理学的基础(格雷斯1991)。 值得注意的是,多巴胺活性的相位变化可能发生在不同的时间尺度。 虽然奖励反应遵循数十和数百毫秒的时间过程,但伏安法和微透析的多巴胺释放研究涉及分钟的时间尺度并揭示更广泛的多巴胺功能,包括奖励,喂养,饮用,惩罚,压力和社会行为(Abercrombie等人。 1989; 教会等。 1987b; Doherty和Gratton 1992; Louilot等。 1986; Young et al。 1992, 1993)。 似乎多巴胺神经传递遵循至少三个时间尺度,行为中的作用逐渐扩大,从信号奖励和警报刺激的快速,相当受限的功能,通过处理相当大范围的积极和消极激励事件到强直功能的较慢功能实现各种各样的运动,认知和动机过程。
强直多巴胺功能基于纹状体中低,持续的细胞外多巴胺浓度(5-10 nM)和其他多巴胺神经支配区域,足以刺激突触外,多为D2型多巴胺受体的高亲和力状态(9-74) nM;图 8)(Richfield等人。 1989)。 通过突触性自发脉冲活动,再摄取转运,代谢,自身受体介导的释放和合成控制以及突触前谷氨酸对多巴胺释放的影响诱导突触溢出和突触外多巴胺释放,局部调节该浓度。Chesselet 1984)。 通过非生理水平的受体刺激的有害作用实验证明了环境多巴胺浓度的重要性。 多巴胺传入损伤或前额叶皮质局部给予多巴胺拮抗剂后多巴胺受体刺激减少导致大鼠和猴子空间延迟反应任务的表现受损(Brozoski等。 1979; Sawaguchi和Goldman-Rakic 1991; 西蒙等人。 1980)。 有趣的是,前额叶多巴胺转换的增加会导致类似的损伤(艾略特等人。 1997; 墨菲等人。 1996)。 显然,多巴胺受体的强直刺激既不应太低也不应太高,以确保给定脑区域的最佳功能。 改变良好调节的环境多巴胺的影响将损害纹状体和皮质神经元的正确功能。 不同的大脑区域可能需要特定水平的多巴胺来介导特定的行为功能。 可以推测,环境多巴胺浓度对于维持由多巴胺奖励信号诱导的纹状体突触可塑性也是必需的。 多巴胺受体阻断或D2受体敲除对后遗症性抑郁的有害作用表明了强直性多巴胺对突触可塑性的作用(Calabresi等。 1992a, 1997).
许多其他神经递质也存在于细胞外液体中的低环境浓度,例如纹状体中的谷氨酸(0.9μM)和皮质(0.6μM)(Herrera-Marschitz等。 1996)。 这可能足以刺激高度敏感的NMDA受体(Sands和Barish 1989)但不是其他谷氨酸受体类型(基斯金等人。 1986)。 环境谷氨酸通过海马NMDA受体刺激促进动作电位活动(Sah等人。 1989)并激活大脑皮质中的NMDA受体(Blanton和Kriegstein 1992)。 强直谷氨酸水平受小脑摄取调节,并在系统发育过程中增加,通过NMDA受体刺激影响神经元迁移(罗西和斯莱特1993)。 其他神经递质也存在于低环境浓度下,如纹状体和额叶皮质中的天冬氨酸和GABA(分别为0.1μM和20 nM)(Herrera-Marschitz等。 1996)和海马中的腺苷,它参与突触前抑制(Manzoni等。 1994)。 虽然不完整,但这份清单表明许多大脑结构中的神经元永久地浸泡在神经递质的汤中,这些神经递质具有对神经元兴奋性的强大,特异的生理作用。
鉴于强直细胞外神经递质浓度的一般重要性,似乎广泛的帕金森病症状不是由于多巴胺神经元的奖赏信息传递不足,而是由于通过减少环境多巴胺导致的受损能力而导致纹状体和皮质神经元的功能障碍。 多巴胺神经元不会积极参与帕金森病缺乏的广泛过程,而只是提供维持这些过程中涉及的纹状体和皮质神经元正常功能所必需的多巴胺的背景浓度。
致谢
我感谢Drs。 Dana Ballard,Anthony Dickinson,Francois Gonon,David D. Potter,Traverse Slater,Roland E. Suri,Richard S. Sutton和R. Mark Wightman进行了深入的讨论和评论,还有两名匿名裁判广泛评论。
瑞士国家科学基金会(现为31.43331.95),欧洲共同体的人力资本和流动性以及生物医学2计划通过瑞士教育和科学办公室(CHRX-CT94-0463,通过93.0121和BMH4-CT95)支持实验工作-0608通过95.0313-1),詹姆斯·麦克唐纳基金会,罗氏研究基金会,联合帕金森基金会(芝加哥)和英国文化协会。
参考文献:
- ↵
- ↵
- 阿伦纽斯
(1974)低剂量和高剂量左旋多巴对丁苯那嗪或α-甲基酪氨酸诱导的连续辨别任务行为抑制的影响。 Psychopharmacologia 39:199-212。
- ↵
- ↵
- Amalric M.,
- Koob GF
(1987)尾状核中多巴胺的消耗,但伏核中的多巴胺损失会损害反应时间性能。 J.Neurosci。 7:2129-2134。
- ↵
- ↵
- ↵
- Aosaki T.,
- Tsubokawa H.,
- 石田A.,
- Watanabe K.,
- Graybiel AM,
- 木村M.
(1994)灵长类动物纹状体中调性活跃神经元的反应在行为感觉运动调节过程中发生系统变化。 J.Neurosci。 14:3969-3984。
- ↵
- ↵
- ↵
- ↵
- Apicella P.,
- Scarnati E.,
- Ljungberg T.,
- 舒尔茨
(1992)猴纹状体中的神经元活动与可预测的环境事件的期望相关。 J.神经生理学。 68:945-960。
- ↵
- ↵
- Arbib MA,
- Dominey PF
(1995)模拟基底神经节在扫视眼球运动的时间和顺序中的作用。 在Basal Ganglia的信息处理模型中,编辑Houk JC,Davis JL,Beiser DG(MIT Press,Cambridge,MA),pp 149-162。
- ↵
- ↵
- 阿斯顿 - 琼斯G.,
- 绽放FE
(1981)行为大鼠中含去甲肾上腺素的蓝斑神经元表现出对无害环境刺激的明显反应。 J.Neurosci。 1:887-900。
- ↵
- ↵
- 阿斯顿 - 琼斯G.,
- Rajkowski J.,
- 库比亚克P.,
- 亚历山大斯基
(1994)猴子中的蓝斑神经元在警戒任务中由有人提示选择性地激活。 J.Neurosci。 14:4467-4480。
- ↵
- 巴拉德DH
(1997)神经计算简介。 (麻省理工学院出版社,剑桥,马萨诸塞州)
- ↵
- Barto AG
(1995)适应性批评者和基底神经节。 在Basal Ganglia的信息处理模型中,编辑Houk JC,Davis JL,Beiser DG(MIT Press,Cambridge,MA),pp 215-232。
- ↵
- Barto AG,
- 阿南丹P.
(1985)模式识别随机学习自动机。 IEEE Trasnact。 SYST。 男子Cybern。 15:360-375。
- ↵
- Barto AG,
- 萨顿RS,
- 安德森CW
(1983)神经元类自适应元素,可以解决困难的学习问题。 IEEE Trans Syst。 人Cybernet。 13:834-846。
- ↵
- 贝宁格RJ
(1983)多巴胺在运动活动和学习中的作用。 Brain Res。 启示录 6:173-196。
- ↵
- ↵
- ↵
- Beninger RJ,
- 哈恩BL
(1983)Pimozide阻断了安非他明产生的环境特异性调节的建立但不表达。 科学 220:1304-1306。
- ↵
- Berendse HW,
- Groenewegen HJ,
- Lohman AHM
(1992)腹侧纹状体神经元突出到大鼠中脑的区室分布。 J.Neurosci。 12:2079-2103。
- ↵
- ↵
- 柏格森C.,
- Mrzljak L.,
- 笑脸JF,
- Pappy M.,
- Levenson R.,
- Goldman-Rakic PS
(1995)D分布的区域,细胞和亚细胞变异1 和D5 灵长类动物大脑中的多巴胺受体。 J.Neurosci。 15:7821-7836。
- ↵
- ↵
- ↵
- Blanton MG,
- Kriegstein AR
(1992)当被外源和内源激动剂激活时胚胎皮质神经元的氨基酸神经递质受体的性质。 J.神经生理学。 67:1185-1200。
- ↵
- ↵
- ↵
- ↵
- Bowman EM,
- 艾格纳特TG,
- 里士满BJ
(1996)猴腹侧纹状体中的神经信号与果汁和可卡因奖励的动机相关。 J.神经生理学。 75:1061-1073。
- ↵
- ↵
- ↵
- Brozoski TJ,
- 布朗RM,
- 罗斯沃尔德,
- 高盛PS
(1979)由恒河猴前额叶皮质中多巴胺的区域耗竭引起的认知缺陷。 科学 205:929-932。
- ↵
- ↵
- Calabresi P.,
- Maj R.,
- 皮萨尼A.,
- Mercuri NB,
- 伯纳迪
(1992a)纹状体中的长期突触抑制:生理学和药理学表征。 J.Neurosci。 12:4224-4233。
- ↵
- ↵
- Calabresi P.,
- Saiardi A.,
- 皮萨尼A.,
- Baik JH,
- Centonze D.,
- Mercuri NB,
- Bernardi G.,
- Borelli E.
(1997)缺乏多巴胺D2受体的小鼠纹状体中的突触可塑性异常。 J.Neurosci。 17:4536-4544。
- ↵
- ↵
- Cepeda C.,
- Buchwald NA,
- 莱文MS
(1993)新纹状体中多巴胺的神经调节作用取决于激活的兴奋性氨基酸受体亚型。 PROC。 国家科。 科学院。 科学。 美国 90:9576-9580。
- ↵
- Cepeda C.,
- 钱德勒SH,
- Shumate LW,
- 莱文MS
(1995)持久性Na+ 在中等大小的新纹状体神经元中的电导:使用红外视频显微镜和全细胞膜片钳记录进行表征。 J.神经生理学。 74:1343-1348。
- ↵
- Cepeda C.,
- Colwell CS,
- Itri JN,
- 钱德勒SH,
- 莱文MS
(1998)切片中新纹状体神经元中NMDA诱导的全细胞电流的多巴胺能调节:钙传导的贡献。 J.神经生理学。 79:82-94。
- ↵
- ↵
- ↵
- ↵
- ↵
- Colle WM,
- 聪明的RA
(1980)伏隔核安非他明对外侧下丘脑脑刺激奖赏的影响。 Brain Res。 459:356-360。
- ↵
- Contreras-Vidal JL,
- 舒尔茨W.
(1996)神经网络模型的奖励相关学习,动机和定向行为。 SOC。 神经科学。 文摘。 22:2029。
- ↵
- ↵
- ↵
- Dehaene S.,
- Changeux J.-P.
(1991)威斯康星卡片分类测试:神经元网络中的理论分析和建模。 Cerebr。 皮质 1:62-79。
- ↵
- ↵
- ↵
- 迪金森A.
(1980)当代动物学习理论。 (剑桥大学出版社,英国剑桥)。
- 迪金森A.,
- Balleine B.
(1994)目标导向行动的动机控制。 动画。 学习。 Behav。 22:1-18。
- Fagg AH
(1993)机器人到达和抓取的强化学习。 在“控制伸手可及运动”的新视角中,编辑Bennet KMB,Castiello U.(北荷兰,阿姆斯特丹),第281-308页。
- Fagg AH,
- Arbib MA A.
(1992)灵长类视觉运动条件学习模型。 适应。 Behav。 1:3-37。
- Fibiger HC,
- LePiane FG,
- Jakubovic A.,
- 菲利普斯股份公司
(1987)多巴胺在腹侧被盖区颅内自我刺激中的作用。 J.Neurosci。 7:3888-3896。
- Fibiger HC,
- 菲利普斯股份公司
奖励,动机,认知:中脑多发性多巴胺系统的心理生物学。生理学手册。 神经系统。 脑的内在调节系统.1986Am。 生理学。 Soc.Bethesda,MA,sect。 1,第一卷 四,p。 647-675。
- Flaherty AW,
- Graybiel A.
(1993)灵长类动物纹状体基质中的身体表征的两个输入系统:松鼠猴的实验证据。 J.Neurosci。 13:1120-1137。
- Flaherty AW,
- Graybiel A.
(1994)松鼠猴感觉运动纹状体的输入输出组织。 J.Neurosci。 14:599-610。
- Foote SL,
- 阿斯顿 - 琼斯G.,
- 绽放FE
(1980)清醒大鼠和猴子中蓝斑神经元的脉冲活动是感觉刺激和唤醒的函数。 PROC。 国家科。 科学院。 科学。 美国 77:3033-3037。
- Gallistel CR
(1990)学习组织。 (麻省理工学院出版社,剑桥,马萨诸塞州)
- 加里斯PA,
- Ciolkowski EL,
- 帕斯托雷P.,
- Wightman RM
(1994a)来自大鼠脑伏核中突触间隙的多巴胺的流出。 J.Neurosci。 14:6084-6093。
- 加里斯PA,
- Wightman RM
(1994)不同的动力学控制杏仁核,前额叶皮质和纹状体中的多巴胺能传递:体内伏安研究。 J.Neurosci。 14:442-450。
- Gerfen CR,
- Engber TM,
- 马汉LC,
- Susel Z.,
- 追逐TN,
- Monsma FJ Jr.,
- Sibley DR
(1990)D1和D2多巴胺受体调节的纹状体和纹状体神经元的基因表达。 科学 250:1429-1432。
- Goldman-Rakic PS,
- Leranth C.,
- 威廉姆斯MS,
- Mons N.,
- Geffard M.
(1989)多巴胺突触复合物与灵长类动物大脑皮质中的锥体神经元。 PROC。 国家科。 科学院。 科学。 美国 86:9015-9019。
- Gonon F.
(1997)体内大鼠纹状体中D1受体介导的多巴胺的延长和突触外兴奋作用。 J.Neurosci。 17:5972-5978。
- Graybiel AM,
- Aosaki T.,
- Flaherty AW,
- 木村M.
(1994)基底神经节和自适应运动控制。 科学 265:1826-1831。
- Groves PM,
- Garcia-Munoz M.,
- Linder JC,
- 曼利MS,
- Martone ME,
- 年轻的SJ
(1995)neostriatum内在组织和信息处理的要素。 在Basal Ganglia的信息处理模型中,编辑Houk JC,Davis JL,Beiser DG(MIT Press,Cambridge,MA),pp 51-96。
- 锤子M.
(1993)鉴定的神经元在蜜蜂的相关嗅觉学习中介导无条件刺激。 自然 366:59-63。
- Hernandez-Lopez S.,
- Bargas J.,
- Surmeier DJ,
- 雷耶斯A.,
- Galarraga E.
(1997)D1受体激活通过调节L型Ca增强新纹状体中型多刺神经元的诱发放电2+ 电导。 J.Neurosci。 17:3334-3342。
- Hersch SM,
- Ciliax BJ,
- Gutekunst C.-A.,
- Rees HD,
- 海尔曼CJ,
- 容KKL,
- Bolam JP,
- Ince E.,
- Yi H.,
- Levey AI
(1995)D1和D2多巴胺受体蛋白在背侧纹状体中的电子显微镜分析及其与运动皮质纹状体传入神经的突触关系。 J.Neurosci。 15:5222-5237。
- Hikosaka O.,
- Sakamoto M.,
- 臼井
(1989)猴尾状神经元的功能特性。 III。 与期望目标和奖励相关的活动。 J.神经生理学。 61:814-832。
- Hollerman JR,
- 舒尔茨
(1996)在熟悉的任务环境中学习期间多巴胺神经元的活动。 SOC。 神经科学。 文摘。 22:1388。
- Hollerman JR,
- Tremblay L.,
- 舒尔茨
(1994)灵长类动物纹状体中几种神经元活动的奖赏依赖性。 SOC。 神经科学。 文摘。 20:780。
- Hoover JE,
- Strick PL
(1993)基底神经节中的多个输出通道。 科学 259:819-821。
- Houk JC,
- 亚当斯JL,
- 巴托股份公司
(1995)基底神经节如何产生和使用预测强化的神经信号的模型。 在Basal Ganglia的信息处理模型中,编辑Houk JC,Davis JL,Beiser DG(MIT Press,Cambridge,MA),pp 249-270。
- Hrupka BJ,
- 林YM,
- Gietzen DW,
- 罗杰斯QR
(1997)必需氨基酸浓度的微小变化改变了氨基酸缺乏大鼠的饮食选择。 J. Nutr。 127:777-784。
- 船体CL
(1943)行为原则。 (Appleton-Century-Crofts,纽约)。
- 卡尔曼RE A.
(1960)线性过滤和预测问题的新方法。 J.基础工程 跨。 ASME 82:35-45。
- Kawaguchi Y.,
- 威尔逊CJ,
- Emson PC
(1989)在保留皮质输入的切片制剂中细胞内记录鉴定的新纹状体贴片和基质多刺细胞。 J.神经生理学。 62:1052-1068。
- Klopf AH
(1982)享乐主义神经元:记忆,学习和智力理论。 (Hemisphere,华盛顿特区)。
- Knowlton BJ,
- Mangels JA,
- 乡绅LR A
(1996)人类的新纹状体习惯学习系统。 科学 273:1399-1402。
- LeMoal M.,
- 西蒙·H
(1991)Mesocorticolimbic dopaminergic network:功能和调节作用。 生理学。 启示录 71:155-234。
- Levey AI,
- Hersch SM,
- 黑麦DB,
- Sunahara RK,
- Niznik HB,
- Kitt CA,
- 价格DL,
- Maggio R.,
- 布兰恩先生,
- Ciliax BJ
(1993)脑内D1和D2多巴胺受体与亚型特异性抗体的定位。 PROC。 国家科。 科学院。 科学。 美国 90:8861-8865。
- 林登A.,
- Bracke-Tolkmitt R.,
- Lutzenberger W.,
- Canavan AGM,
- Scholz E.,
- Diener HC,
- Birbaumer N.
(1990)在联合学习任务过程中帕金森病患者的皮质潜能缓慢。 J. Psychophysiol。 4:145-162。
- Ljungberg T.,
- Apicella P.,
- 舒尔茨
(1991)延迟交替表现中猴中脑多巴胺神经元的反应。 Brain Res。 586:337-341。
- Ljungberg T.,
- Apicella P.,
- 舒尔茨
(1992)学习行为反应期间猴多巴胺神经元的反应。 J.神经生理学。 67:145-163。
- Lovinger DM,
- 泰勒EC,
- 梅里特A.
(1993)大鼠新纹状体的短期和长期突触抑制。 J.神经生理学。 70:1937-1949。
- Manzoni OJ,
- Manabe T.,
- Nicoll RA
(1994)通过激活海马中的NMDA受体释放腺苷。 科学 265:2098-2101。
- 马尔D. A.
(1969)小脑皮层理论。 J. Physiol。 (林斯顿。) 202:437-470。
- Matsumura M.,
- Kojima J.,
- 加德纳TW,
- Hikosaka O.
(1992)猴丘脑下核的视觉和动眼神经功能。 J.神经生理学。 67:1615-1632。
- Maunsell JHR,
- 吉布森JR
(1992)猕猴纹状皮层的视觉反应潜伏期。 J.神经生理学。 68:1332-1344。
- Mazzoni P.,
- 安徒生RA,
- 乔丹MI A.
(1991)生物学上合理的学习规则比应用于皮质区域7的网络模型的反向传播。 Cereb。 皮质 1:293-307。
- 麦考密克DA,
- 汤普森RF
(1984)兔小脑在获得和经典条件性瞬膜 - 眼睑反应的表现期间的神经元反应。 J.Neurosci。 4:2811-2822。
- 迈凯轮一世
(1989)计算单元作为神经元的集合:纠错学习算法的实现。 在The Computing Neuron,eds Durbin R.,Miall C.,Mitchison G.(Addison-Wesley,Amsterdam),pp 160-178。
- 米德尔顿足协,
- Strick PL
(1996)颞叶是基底神经节输出的目标。 PROC。 国家科。 科学院。 科学。 美国 93:8683-8687。
- 米勒EK,
- 李L.,
- Desimone R.
(1993)短期记忆任务期间颞下皮质神经元的活动。 J.Neurosci。 13:1460-1478。
- Mirenowicz J.,
- 舒尔茨
(1994)灵长类多巴胺神经元中奖励反应的不可预测性的重要性。 J.神经生理学。 72:1024-1027。
- 蒙塔古公关,
- 达扬P.,
- Nowlan SJ,
- Pouget A.,
- Sejnowski TJ
(1993)在开发过程中使用非周期性强化进行定向自组织。 在神经信息处理系统5,编辑Hanson SJ,Cowan JD,Giles CL(Morgan Kaufmann,San Mateo,CA),pp 969-976。
- 蒙塔古公关,
- 达扬P.,
- Sejnowski TJ A.
(1996)基于预测性Hebbian学习的中脑多巴胺系统框架。 J.Neurosci。 16:1936-1947。
- 蒙塔古公关,
- Sejnowski TJ
(1994)预测性大脑:突触学习机制中的时间重合和时间顺序。 学习。 记忆 1:1-33。
- 莫拉F.
- 迈尔斯RD
(1977)脑自我刺激:多巴胺参与前额皮质的直接证据。 科学 197:1387-1389。
- 墨菲BL,
- Arnsten AF,
- Goldman-Rakic PS,
- 罗斯RH
(1996)前额皮质中多巴胺转换增加损害了大鼠和猴子的空间工作记忆性能。 PROC。 国家科。 科学院。 科学。 美国 93:1325-1329。
- Nakamura K.,
- Mikami A.,
- 久保田K.
(1992)在执行视觉辨别任务期间猴子杏仁核中单个神经元的活动。 J.神经生理学。 67:1447-1463。
- Nirenberg MJ,
- Vaughan RA,
- Uhl GR,
- Kuhar MJ,
- Pickel VM
(1996)多巴胺转运蛋白定位于黑质纹状体多巴胺能神经元的树突状和轴突质膜。 J.Neurosci。 16:436-447。
- Nishijo H.,
- 小野T.,
- 西野H.
(1988)警报猴子中形态特异性杏仁核神经元的地形分布。 J.Neurosci。 8:3556-3569。
- Ojakangas CL,
- Ebner TJ
(1992)Purkinje细胞复合体和简单的穗在猴子的自愿手臂运动学习任务中发生变化。 J.神经生理学。 68:2222-2236。
- Otmakhova NA,
- Lisman JE
(1996)D1 / D5多巴胺受体激活增加了CA1海马突触的早期长时程增强的幅度。 J.Neurosci。 16:7478-7486。
- 马牧师,
- Artieda J.,
- Jahanshahi M.,
- Obeso JA
(1992)在帕金森氏病中,时间估计和繁殖异常。 大脑 115:211-225。
- 价格JL,
- Amaral DG
(1981)猴子杏仁核中央核投射的放射自显影研究。 J.Neurosci。 1:1242-1259。
- Rescorla RA,
- 瓦格纳AR A.
(1972)巴甫洛夫条件反射理论:强化和非强化的有效性的变化。 在Classical Conditioning II:Current Research and Theory,eds Black AH,Prokasy WF(Appleton Century Crofts,New York),pp 64-99。
- Richardson RT,
- 德龙先生
(1990)在go / no-go任务中灵长类核基底神经元的上下文依赖性反应。 J.Neurosci。 10:2528-2540。
- 罗宾斯TW,
- Everitt BJ
(1992)多巴胺在背侧和腹侧纹状体中的功能。 肖明。 神经科学。 4:119-128。
- Rolls ET,
- Critchley HD,
- 梅森R.,
- Wakeman EA
(1996)眶额皮层神经元:嗅觉和视觉关联学习中的作用。 J.神经生理学。 75:1970-1981。
- Romo R.,
- 舒尔茨
(1990)猴子中脑的多巴胺神经元:在自我发起的手臂运动期间对活动触摸的反应的偶然性。 J.神经生理学。 63:592-606。
- Rumelhart DE,
- Hinton GE,
- 威廉姆斯RJ
(1986)通过错误传播学习内部表示。 在Parallel Distributed Processing I,eds Rumelhart DE,McClelland JL(MIT Press,Cambridge,MA),pp 318-362。
- Sah P.,
- Hestrin S.,
- Nicoll RA
(1989)环境谷氨酸对NMDA受体的强效激活增强了神经元的兴奋性。 科学 246:815-818。
- Salamone JD
(1987)精神抑制药物对食欲器官行为的作用。 在 精神药理学手册,编辑Iversen LL,Iversen SD,Snyder SH(Plenum,纽约),19:576-608。
- Sawaguchi T.,
- Goldman-Rakic PS
(1991)前额叶皮质中的D1多巴胺受体:参与工作记忆。 科学 251:947-950。
- 舒尔茨
(1986)中脑多巴胺神经元对猴子行为触发刺激的反应。 J.神经生理学。 56:1439-1462。
- Schultz W.,
- Apicella P.,
- Ljungberg T.
(1993)猴子多巴胺神经元在学习延迟响应任务的连续步骤中对奖励和条件刺激的反应。 J.Neurosci。 13:900-913。
- Schultz W.,
- Apicella P.,
- Romo R.,
- Scarnati E.
(1995a)灵长类纹状体中依赖于上下文的活动,反映过去和未来的行为事件。 在Basal Ganglia的信息处理模型中,编辑Houk JC,Davis JL,Beiser DG(MIT Press,Cambridge,MA),pp 11-28。
- Schultz W.,
- Apicella P.,
- Scarnati E.,
- Ljungberg T.
(1992)猴腹侧纹状体的神经元活动与奖赏的期望有关。 J.Neurosci。 12:4595-4610。
- Schultz W.,
- 达扬P.,
- Montague RR A.
(1997)神经基质的预测和奖励。 科学 275:1593-1599。
- Schultz W.,
- Romo R.
(1987)麻醉猴中黑质纹状体多巴胺神经元对高强度体感刺激的反应。 J.神经生理学。 57:201-217。
- Schultz W.,
- Romo R.
(1990)猴子中脑的多巴胺神经元:对刺激的反应的偶然性引起立即的行为反应。 J.神经生理学。 63:607-624。
- Schultz W.,
- Romo R.,
- Ljungberg T.,
- Mirenowicz J.,
- Hollerman JR,
- 迪金森A.
(1995b)由多巴胺神经元携带的奖赏相关信号。 在Basal Ganglia的信息处理模型中,编辑Houk JC,Davis JL,Beiser DG(麻省理工学院出版社,Cambrdige,MA),第233-248页。
- Schultz W.,
- Ruffieux A.,
- Aebischer P.
(1983)猴子黑质致密神经元的活动与运动激活有关。 进出口。 Brain Res。 51:377-387。
- Sesack SR,
- 青木C.,
- Pickel VM
(1994)D2受体样免疫反应性在中脑多巴胺神经元及其纹状体靶标中的超微结构定位。 J.Neurosci。 14:88-106。
- Surmeier DJ,
- Eberwine J.,
- 威尔逊CJ,
- Stefani A.,
- Kitai ST
(1992)多巴胺受体亚型在大鼠纹状体神经元中共定位。 PROC。 国家科。 科学院。 科学。 美国 89:10178-10182。
- Suri RE,
- 舒尔茨W.
(1996)神经学习模型基于灵长类多巴胺神经元的活动。 SOC。 神经科学。 文摘。 22:1389。
- 萨顿RS
(1988)学习通过时间差异的方法进行预测。 机器学习。 3:9-44。
- Tepper J. M,
- 马丁LP,
- 安德森DR
(1995)GABAA 受体介导的网状突起神经元抑制大鼠黑质多巴胺能神经元。 J.Neurosci。 15:3092-3103。
- 汤普森RF,
- 格鲁克MA
(1991)基本联想学习和记忆的脑底物。 透视认知神经科学,编辑Lister RG,Weingartner HJ(Oxford Univ.Press,New York),pp 25-45。
- 桑迪克EL
(1911)动物智力:实验研究。 (麦克米伦,纽约)。
- Tremblay L.,
- 舒尔茨
(1995)处理灵长类动物眶额神经元中的奖赏相关信息。 SOC。 神经科学。 文摘。 21:952。
- 王Y.,
- Cummings SL,
- Gietzen DW
(1996)大鼠脑中c-fos表达的时空模式,以响应不可缺少的氨基酸缺乏。 I.初始认可阶段。 摩尔。 Brain Res。 40:27-34。
- Wauquier A.
(1976)精神活性药物对大鼠脑自我刺激的影响:综述。 在Brain Stimulation Reward中,编辑Wauquier A.,Rolls ET(Elsevier,纽约),第123-170页。
- Wickens J.,
- KötterR。
(1995)细胞增强模型。 在Basal Ganglia的信息处理模型中,编辑Houk JC,Davis JL,Beiser DG(MIT Press,Cambridge,MA),pp 187-214。
- 威廉姆斯SM,
- Goldman-Rakic PS
(1993)使用多巴胺特异性抗体表征灵长类动物额叶皮质的多巴胺能神经支配。 Cereb。 皮质 3:199-222。
- 威尔逊C.,
- Nomikos GG,
- Collu M.,
- Fibiger HC
(1995)多巴胺能相关的动机行为:驱动的重要性。 J.Neurosci。 15:5169-5178。
- 威尔逊CJ
(1995)皮层神经元对纹状体多刺神经元放电模式的贡献。 在Basal Ganglia的信息处理模型中,编辑Houk JC,Davis JL,Beiser DG(MIT Press,Cambridge,MA),pp 29-50。
- 威尔逊一汽,
- Rolls ET
(1990c)学习和记忆反映在灵长类动物基底前脑中强化相关神经元的反应中。 J.Neurosci。 10:1254-1267。
- 聪明的RA
(1982)神经安定药和操作行为:快感缺失假说。 Behav。 脑科学。 5:39-87。
- Wise RA,
- Spindler J.,
- de Wit H.,
- 格柏GJ
(1978)大鼠中的神经安定药诱导的“快感缺乏症”:匹莫齐特阻断了食物的质量。 科学 201:262-264。
- 严Z.,
- 宋WJ,
- Surmeier DJ
(1997)D2多巴胺受体减少N型钙2+ 通过膜限定的蛋白激酶-C-不敏感途径在大鼠新纹状体胆碱能中间神经元中产生电流。 J.神经生理学。 77:1003-1015。