多巴胺信号奖励价值和风险基本和最新数据(2010)

Wolfram Schultz 1

Behav Brain Funct。 2010; 6:24。

在线发布2010 April 23。 doi:10.1186 / 1744-9081-6-24。

全面研究:多巴胺信号奖励价值和风险基本和最新数据

1剑桥大学唐宁街剑桥大学生理学,发育与神经科学系CB2 3DY,英国

通讯作者。

Wolfram Schultz: [电子邮件保护]

抽象

背景

以前的病变,电子自我刺激和药物成瘾研究表明,中脑多巴胺系统是大脑奖励系统的一部分。 该综述提供了关于多巴胺神经元对环境刺激的基本信号的最新概述。

方法

所描述的实验使用标准行为和神经生理学方法来记录特定行为任务期间清醒猴中单个多巴胺神经元的活性。

成果

多巴胺神经元显示出对外部刺激的相位激活。 该信号以响应神经元的分数的降序反映奖励,物理突显,风险和惩罚。 预期奖励价值是经济选择的关键决策变量。 奖励响应代码奖励价值,概率及其总和产品,期望值。 神经元编码奖励值与预测不同,从而满足学习理论假设的双向预测误差教学信号的基本要求。 该响应以标准偏差为单位进行缩放。 相比之下,相对较少的多巴胺神经元显示出惩罚者和条件厌恶刺激后的阶段性激活,表明奖励反应与一般注意力和唤醒之间缺乏关系。 大比例的多巴胺神经元也被强烈的物理突出刺激激活。 当刺激是新颖的时,这种反应会增强; 它似乎与奖励价值信号截然不同。 多巴胺神经元还表现出对非奖励刺激的非特异性激活,这可能是由于类似刺激的泛化和主要奖励的假调节。 这些激活比奖励反应短,并且通常随后抑制活动。 单独的,较慢的多巴胺信号通知风险,这是另一个重要的决策变量。 预测错误响应仅在奖励时发生; 它是通过预测奖励的风险来衡量的。

结论

神经生理学研究揭示了相位多巴胺信号,这些信号传递的信息主要与奖励有关,但并非完全相关。 虽然不是完全同质的,但多巴胺信号在目标导向行为中涉及的大多数其他脑结构中比神经元活动更受限制和刻板印象。

背景

病变和精神药理学研究的结果表明中脑多巴胺系统具有广泛的行为功能。 关键问题是,这些许多功能中的哪一个是由与快速神经元机制兼容的相位多巴胺信号主动编码的? 良好的提示来自药物成瘾和电子自我刺激,这表明多巴胺活性具有回报和接近生成效应[1,2]。

我们可以将奖励定义为产生方法和完成行为的对象或事件,产生对这种行为的学习,代表经济决策的积极结果并参与积极情绪和享乐感受。 奖励对于个体和基因的生存至关重要,并支持饮酒,进食和繁殖等基本过程。 该行为定义还将奖励功能归因于某些非现实和非性实体,包括金钱,技术手段,审美刺激属性和心理事件。 奖励让代理商参与各种行为,如在股票市场上觅食和交易。

基本概念

奖励具有特定的数量级,并且具有特定的概率。 代理旨在优化选项之间的选择,这些选项的值取决于选择对象的种类及其大小和概率[3]。 因此,可以通过奖励值的概率分布充分描述奖励。 在理想的世界中,这些分布遵循高斯函数,与中间结果相比,极端奖励的发生频率较低。 实验测试通常使用具有等概率值的二进制概率分布(每个奖励值出现在p = 0.5处)。 高斯和二元概率分布由数学期望值(概率分布的第一矩​​)以及值与平均值的离散或偏差(即(期望)方差(第二矩)或(期望)标准偏差(平方根))完整描述。的方差)。 方差和标准偏差通常被视为风险的度量。 在行为经济学中,术语“风险”是指不确定性的一种形式,其中概率分布是已知的,而“模糊性”表示对概率的知识不完整,通常简称为“不确定性”。 风险是指获胜或失败的机会,而不是与损失之间更狭义的常识联系。

预测对于通过提供有关可用选择选项的预先信息做出明智决策至关重要,而不是在结果未知时发生的猜测。 由于奖励可以通过价值的概率分布来量化,因此奖励预测指定期望值和(预期)方差或分布的标准差。

进化压力有利于信息的节能处理。 一种可能的解决方案是存储关于更高脑中心的未来事件的预测,并且在下脑中心计算新环境信息与存储的预测之间的差异。 实际事件与其预测之间的差异称为事件预测误差。 通过更高的大脑中心跟上不断变化的环境状况,只需要用更少的信息包含更少的能量消耗预测错误来更新预测,而不是每当一件小事改变时处理完整的外围信息[4]。 通过这种方式,更高的大脑中心能够以更低的能源成本获得有关外部世界的全部信息,从而获得感知,决策和行为反应。 预测的这种基本属性导致可观察到的学习现象,如基于更新的预测的行为变化所定义的。

动物学习理论和有效的时差增强模型假定,结果预测误差对于巴甫洛夫式和操作者调节至关重要[5,6]。 当前观点将巴甫洛夫式学习概念化为获取预测的任何形式,只要该预测不以行为反应为条件,则该预测会导致营养反应或横纹肌收缩改变。 因此,巴甫洛夫式的奖励预测不仅传达有关奖励价值(期望值)的信息,而且还传达有关未来奖励的风险(方差)的信息,这构成了巴甫洛夫一百年前提出的概念的重要扩展。 预测错误的重要性是基于卡明的阻挡效应[7]的,这表明学习和消亡只会在增强剂比预期的更好或更坏的程度进行。 随着预测渐近逼近钢筋的价值,学习逐渐减慢。

多巴胺对奖励接待的反应

大多数中脑多巴胺神经元(75-80%)表现出定型的,阶段性的激活,在暂时性的食物和液体奖励后,潜伏期<100 ms,持续时间<200 ms(图(图1A).1A)。 这种爆发反应取决于位于多巴胺神经元上的谷氨酸能NMDA和AMPA受体的激活和可塑性[8-12]。 爆发对于学习有竞争性任务的行为至关重要,例如条件条件的位置偏好和食物或可卡因奖励的T型迷宫选择以及条件条件的恐惧反应[9]。

图1

多巴胺神经元的神经生理冲动活动的阶段性激活。 答:主要奖励之后的阶段性激活。 B:条件刺激后的阶段性激活,奖励预测性刺激。 C:顶部:初级后缺乏阶段性激活(更多…)

奖励预测错误编码

多巴胺对奖励递送的反应似乎编码预测错误; 比预测更好的奖励引发激活(正预测误差),完全预测的奖励没有得到响应,并且比预测更差的奖励引起抑郁(负面错误)[13-24]。 因此,多巴胺反应完全实现了Rescorla-Wagner学习模型的关键术语,并且与高效时间差异强化学习模型[6,23]的教学信号非常相似。

错误响应随接收的奖励值和预期奖励值[18-23]之间的差异而定量地变化。 预测错误响应对奖励的时间敏感; 延迟奖励会导致其原始时间的抑郁和新时间的激活[24,25]。 对于反映正预测误差的激活,定量误差编码是明显的。 相比之下,阴性预测误差发生的抑郁自然表现出较窄的动态范围,因为神经元活动不能低于零,并且适当的定量评估需要考虑整个抑郁期[26]。

因此,多巴胺神经元仅在与预测不同的程度上响应奖励。 由于预测源自先前经历的奖励,因此仅当当前奖励优于先前奖励时才激活多巴胺神经元。 再次相同的奖励不会激活多巴胺神经元。 如果多巴胺神经元的激活对行为具有积极的增强作用,则仅增加的奖励将通过多巴胺能机制提供持续的增强。 这可能是为什么持续不变的奖励似乎失去了刺激性影响,以及为什么我们总是需要更多奖励的原因之一。

奖励预测错误编码的严格测试

动物学习理论已经开发出用于测试奖励预测错误的正式范例。 在阻塞测试[7]中,无法学习与完全预测的奖励配对的刺激,因此不会成为有效的奖励预测者。 即使在广泛的刺激 - 奖励配对[27]之后,在阻断的刺激之后没有奖励也不构成预测误差并且不会导致多巴胺神经元的反应。 相反,在阻塞刺激之后递送奖励构成阳性预测误差并因此引发多巴胺激活。

条件抑制范例[28]为预测误差提供了额外的测试。 在我们的实验中使用的任务中,测试刺激与预先确定的奖励预测刺激同时呈现,但是在化合物之后没有给予奖励,使得测试刺激成为没有奖励的预测因子。 在这种条件抑制剂后的奖励遗漏不构成阴性预测误差,因此不能诱导多巴胺神经元的抑制[29]。 相反,在抑制剂之后递送奖励产生强烈的阳性预测误差并因此产生强烈的多巴胺激活。

这两个正式测试的结果证实多巴胺神经元显示出奖励预测误差的双向编码。

自适应奖励预测错误编码

在一般意义上,奖励预测刺激通过告知奖励值的概率分布来指定未来奖励的价值。 因此,刺激指示预期值(第一时刻)和(预期)方差(第二时刻)或分布的标准偏差。

多巴胺值预测误差响应对刺激后两秒的预测奖励分布的第一和第二时刻都敏感。 在一个实验中,不同的视觉刺激可以预测具有不同预期值和方差的等概率奖励量的特定二元概率分布。 由于预测误差响应反映了所获得的和预期的奖励值之间的差异,所以接收的奖励的相同幅度分别产生多巴胺活性的增加或减少,这取决于该奖励是分别大于还是小于其预测[23]。 该结果表明值预测误差编码提供了与参考或锚值相关的信息。

奖励值预测误差的多巴胺编码适应于分布的方差或标准偏差。 在等概率奖励的二元分布中,尽管在获得的奖励幅度(和结果值预测误差)[10]之间存在23倍数差异,但在每个分布内具有较大幅度的奖励的递送引发与每个分布相同的多巴胺激活。 数值计算表明,多巴胺响应将值预测误差除以预测分布的标准偏差。 这相当于在标准偏差方面对值预测误差响应进行有效归一化或缩放,表示所获得的奖励值与标准偏差单位的预期值有多大差异。 理论上的考虑表明,通过方差或标准差而非平均值来衡量的错误教学信号可以调节对预测的结果风险具有抵抗力的稳定学习[30]。

多巴胺对奖励预测刺激的反应

多巴胺神经元在奖励预测视觉,听觉和体感刺激后显示激活(“兴奋”)(图(图1B)1B)[31-33]。 响应的发生与刺激的感觉方式和空间位置无关,并且与效应器是手臂,嘴巴或眼睛的运动无关。

激活随着奖励概率[18]和奖励幅度单调增加,例如液体量[23]。 然而,只要预期值相同[23],多巴胺反应就不能区分奖励概率和幅度。 因此,激活似乎编码预测的奖励概率分布的预期值。 预期值是更简约的解释,并且神经元反应中的噪声阻止了在预期(主观)效用方面的表征。 请注意,下面描述的时间贴现揭示了主观编码,并可能对该问题提供一些启示。

反应量随着行为反应时间的减少而增加,表明多巴胺反应对动物的动机敏感[19]。 在不同奖励值或延迟之间的选择中,多巴胺对选择选项呈现的反应反映了动物未来的选择奖励[34]或两个可用选择选项中最高的奖励[35]。

在学习过程中,多元胺对奖赏的激活在连续学习试验中逐渐减少,并且同时对奖励预测刺激的激活[36,37]。 条件反应的获得对阻断敏感,表明预测错误在获得对条件刺激的多巴胺反应中起作用[27]。 对奖励预测刺激的响应转移符合有效时间差异强化模型[38]的教学信号的主要特征。 响应偏移不涉及跨越早期时间差异模型[27,38]的刺激 - 奖励间隔的预测误差的反向传播,而是在原始时间差异模型中以及在原始和更近期的时间差异实现[6,37,39]中再现。

通过时间贴现显示的主观奖励价值编码

通过选择偏好对主观奖励价值进行客观测量表明,奖励在延迟时会失去一些价值。 事实上,老鼠,鸽子,猴子和人类通常更喜欢较早的较大奖励[40-42]。 因此,即使物理奖励和客观奖励值相同,奖励的主观价值似乎随着时间延迟的增加而衰减。

在早期和晚期奖励之间的跨期行为选择的心理测量指标调整早期奖励的幅度,直到选择无差异的发生,定义为用p = 0.5选择每个选项的概率。 因此,选择无差异时较低的早期奖励表明后期奖励的较低主观价值。 在我们最近关于猴子的实验中,与4 [8]之后的奖励相比,延迟了16,25和50的奖励的选择无差异值分别单调减少约75%,2%和43%。 减少适合双曲线折扣功能。

尽管在每次延迟后提供相同的奖励物理量,但对于奖励预测刺激的多巴胺反应在2到16 [25,43]的奖励延迟之间单调减少。 这些数据表明,时间延迟影响多巴胺反应,以类似的方式奖励预测刺激,因为它们影响由跨期选择评估的主观奖励值。 有趣的是,随着奖励延迟,多巴胺反应的减少与响应减少无法区分,奖励幅度较低。 这种相似性表明,时间延迟通过奖励值的变化影响多巴胺反应。 因此,对于多巴胺神经元,延迟的奖励看起来好像它们更小。

因此,多巴胺神经元似乎编码主观而不是延迟奖励的物理,客观价值。 鉴于效用是衡量主观而不是客观价值的一种衡量标准,随着时间贴现的反应减少可能表明多巴胺神经元将奖励视为(主观)效用而不是(客观)价值。 进一步的实验可能有助于更直接地测试效用编码。

多巴胺对厌恶刺激的反应

气喘,高渗盐水和电击之类的刺激性刺激在清醒动物中的一小部分多巴胺神经元中引起激活(“兴奋性”)响应(14%[33]; 18-29%[44]; 23%[45]) ; 11%[46]),大多数多巴胺神经元的活动受到抑制或不受厌恶事件的影响(图(图1C1C上图))与奖赏相反,吹气未能引起奖赏典型的双向预测错误反应;预测仅调节厌恶性激活[45,46]。

在麻醉的动物中的厌恶刺激产生变化但通常较低程度的大多数较慢的激活反应(50%[47]; 18%[48]; 17%[49]; 14%[50])并且经常抑制活性。 通过更好地鉴定多巴胺神经元的神经生理学再研究证实了麻醉动物中厌恶多巴胺激活的总体低发生率[51]并且位于中脑腹内侧被盖区域中反向多巴胺神经元[52]。

预测清醒猴子中的刺激的条件性吹气引发少数多巴胺神经元的激活,以及更大部分多巴胺神经元中的抑郁(11%[33]; 13%[45]; 37%[46])。 抑制剂反应抵消了多巴胺神经元对厌恶刺激的平均群体反应的少数激活[33](参见图图XNXXC1C底部,黑色)。 在一项研究中,条件性厌恶刺激比空气喷射本身激活了更多的神经元(1%对比37%[11]),尽管条件刺激比它预测的主要厌恶事件(例如吹气)更具厌恶性。 与空气抽吸相比,条件刺激的激活次数越多表明厌恶和激活之间的反比关系(激励越厌恶激活的频率越低)或负责增加激活比例的额外的非厌恶刺激成分。神经元从46%到11%。 尽管刺激激活与群体中的空气抽吸概率呈正相关,但它们并未在个体神经元中进行评估[37]。 群体相关性可能来自该群体中相对较少数量的正相关神经元,并且真正的厌恶刺激激活可能比46%更接近11%。 在另一项研究中,大量比例的多巴胺神经元显示出相位激活条件下的厌恶刺激,当这些刺激随机交替呈现相同感觉模式的奖励预测刺激时(图(37C1C底部,灰色)(1%[65]);激活当两种类型的条件刺激具有不同的感觉方式时,频率要低得多(图(图33C1C底部,黑色)(1%)。下一章将讨论这些无法解释的激活对厌恶和其他无奖励刺激的潜在因素。

虽然一些多巴胺神经元被厌恶事件激活,但最大的多巴胺激活与奖赏有关。 用其他方法获得的数据得出类似的结论。 行为大鼠的快速扫描伏安法显示由奖赏引起的纹状体多巴胺释放和调节后的奖励预测刺激[53],表明多巴胺神经元的脉冲反应导致相应的多巴胺从纹状体静脉曲张中释放。 多巴胺增加仅持续几秒钟,因此具有最接近电生理激活的所有神经化学方法的最短时间过程。 多巴胺释放是奖励(蔗糖)的差异,并且不会发生惩罚(奎宁)[54]。 由于伏安法评估多巴胺浓度的局部平均值,因此不存在可测量的奎宁释放可能会掩盖一些激活因多巴胺群体反应中的凹陷而消除[33]。 使用非常敏感的体内微透析的研究检测厌恶刺激后的多巴胺释放[55]。

这种反应可能反映了由厌恶刺激激活的少数神经元诱导的多巴胺变化,尽管微透析测量的时间过程比脉冲响应慢约300-500倍,并且可能足以使突触前相互作用影响多巴胺释放[56] 。 破坏多巴胺神经元的爆发会扰乱几种食欲的学习任务,但也会害怕调节[9]。 如果排除了较低多巴胺浓度的非特异性,通常致残作用,结果可能表明厌恶多巴胺反应的学习功能,这仍有待证实。 通过遗传插入的通道视紫红质的光遗传学方法对多巴胺神经元的特异性刺激诱导小鼠的巴甫洛夫地方偏好调节[57]。 相比之下,多巴胺刺激的净厌恶效应可能会产生避免学习的地方。 这些结果证实了多巴胺系统的全局正强化功能的概念,这些功能源于早期损伤,电自我刺激和药物成瘾[1,2]。 然而,这些论点假定奖励既不是多巴胺系统的唯一功能,也不是所有奖励功能都涉及多巴胺神经元。

相位多巴胺激活不编码奖励

当刺激在身体上很重要(生理上的显着性)或与增援者有关时(“动机性”或“情感上”的显着性),刺激会引起警觉和注意反应。 对突出刺激的行为反应分别由刺激的物理强度和增强剂的值分级。 身体上的显着性根本不依赖于强化,动机上的显着性也不依赖于强化者的效价(奖励和惩罚)。

对身体突出刺激的反应

身体强烈的视觉和听觉刺激诱导多巴胺神经元的激活(图(图XNXXD).1D)。 这些反应通过刺激新奇[1-58]得到增强,但如果刺激物理强度足够强,可持续数月保持较低水平。 响应根据刺激的大小进行分级(图[60]中的4)。 物理突显也可能部分解释了对具有实质强度的初级惩罚者的反应[15]。 这些反应可以构成与引起环境刺激的注意力的物理显着性相关的单独类型的多巴胺反应,或者它们可以与强烈和新颖刺激的积极激励和强化属性相关。

对物理突出刺激的激活似乎并不反映多巴胺神经元被任何注意力产生事件激活的一般趋势。 特别是,其他强烈的注意力产生事件,如奖励遗漏,条件抑制剂和厌恶刺激,主要诱导抑郁症,很少真正的多巴胺激活[14,29]。 因此,通过物理显着刺激的多巴胺激活可能不构成一般的警报响应。 奖励回应可能构成单独的回应,可能无法反映奖励的动机显着性所产生的注意力。

其他非奖励编码激活

其他刺激诱导多巴胺神经元的激活,而没有明显的奖励值编码。 这些激活比奖励预测刺激的反应更小和更短,并且当刺激未得到奖励时通常会伴随抑郁(图(图1E1E))。

多巴胺神经元显示在控制刺激之后的激活,其以伪随机交替呈现与奖赏刺激[27,29,32]。 激活的发生率取决于行为任务中替代奖励刺激的数量; 当四个任务刺激中的三个被奖励时(25%-63%[27]),当四个任务刺激中只有一个没有得到奖励时(1%[29]),激活是很常见的。 这种依赖性反对反应的纯粹感官性质。

多巴胺神经元显示出相当刻板的初始激活成分,用于预测在不同延迟[43]之后发生的奖励的刺激。 初始激活与奖励延迟变化很小,因此似乎不代码奖励值。 相比之下,随后的响应分量随着延迟的增加而减小,因此编码(主观)奖励值(见上文)。

多巴胺神经元在随机交替出现的条件性厌恶刺激后表现出频繁的激活,具有奖励预测刺激; 当使用不同的感觉方式时(65%对神经元的11%[33]),激活很大程度上消失,表明编码非厌恶刺激成分。 即使当厌恶和食欲刺激被分成不同的试验块时,多巴胺神经元也会被条件性的厌恶刺激激活。 然而,与更厌恶的初级空气抽吸(37%对比11%[46])相比,对条件刺激的更频繁的激活表明与刺激的厌恶性和可能的​​非厌恶反应成分成反比关系。

这些不同的多巴胺激活的原因可能在于泛化,假调节或激励刺激显着性。 泛化源于刺激之间的相似性。 它可能解释了多种情况下的多巴胺激活,即当这些激励与奖励预测视觉刺激交替时,激活无奖励的视觉刺激(图(图1E1E左)[27,29,32]和初始的,分级不良的激活成分,以奖励延迟预测刺激(图(图1E1E右)[43]。当视觉厌恶和听觉食欲刺激时,具有不同感觉方式的刺激产生的多巴胺激活对未受奖励的刺激产生的刺激比具有相同形态的刺激更少(图(1C1C底部)[33]。 。

当主要强化物设定背景背景并引发对该背景下的任何事件的非特异性行为反应时,可能会出现假性调节[61]。 由于多巴胺神经元对奖赏非常敏感,因此有益的背景可能会诱导对此背景下设定的刺激的假性调节,从而导致神经元激活。 这种机制可能是在有益的环境中发生的无奖赏刺激的神经元激活的基础,例如动物接受每日奖励的实验室,无论刺激是以随机交替的方式呈现给予奖励的刺激还是在单独的试验块中[46]。 假调节可以解释对无效控制刺激[27,29,32]的激活,在厌恶刺激[33,45,46]之后的大多数激活以及用于奖励延迟预测刺激[43]的初始的,分级不良的激活成分。 因此,假补充可能来自主要奖励而不是条件刺激,并影响多巴胺对有条件的刺激和初级强化物的激活,这些刺激发生在有益的环境中。

尽管具有显着物理显着性的刺激似乎驱动多巴胺神经元[15,58-60](参见上文),但诱导非奖励编码多巴胺激活的刺激通常很小并且在物理上非常显着。 根据定义,励志显着性对于奖励和惩罚者来说是共同的,并且它本身可以解释10-20%多巴胺神经元中奖励和惩罚的激活。 非强化刺激可能通过通过假调节接近奖励和惩罚而变得具有动机性。 然而,多巴胺激活似乎对奖励比惩罚更敏感。 由于动机显着性涉及对两种强化剂的敏感性,通过假性调节获得的动机显着性可能无法很好地解释非奖励编码多巴胺激活。

总之,许多非奖励编码多巴胺激活可能是由于刺激概括,或特别是假凝血。 尽管如此,当排除这些因素时,似乎仍然会对有效比例的多巴胺神经元中无法控制的对照刺激以及原发性和条件性厌恶刺激进行真正的激活。 评估此类反应的进一步实验应使用更好的控制,并完全消除实验室中与刺激相关的所有情境奖励关联。

鉴于非奖励编码激活的发生,有理由询问动物如何基于多巴胺反应区分奖赏和无奖励刺激。 非常快速,初始,假调节和差别歧视的反应组件可能为促进快速,默认的行为反应提供时间奖励,帮助动物快速检测潜在的奖励[62]。 相比之下,紧随其后的响应组件通过其奖励值[43]的分级激活及其与无奖励和厌恶刺激[27,29,32,33]的频繁抑制来检测事件的真实性质(图(图1E).1E)。 此外,多巴胺系统不是唯一的脑结构编码奖励,并且诸如眶额皮质,纹状体和扁桃体的其他神经元系统可以提供额外的辨别信息。

多巴胺奖励风险信号

如果奖励信号反映了通过奖励概率分布的标准差来缩放的平均奖励预测误差,并且如果我们将标准差视为风险度量,那么是否存在风险的直接神经信号? 当奖励概率从0变为1并且奖励幅度保持不变时,平均奖励值随概率单调增加,而风险量遵循在p = 0.5处达到峰值的倒U函数(图(图2,2,插图))。在p = 0.5,获得奖励的机会与错过奖励的机会一样多,而高于和低于p = 0.5的概率分别使得收益和损失更加确定,因此与较低的风险相关联。

图2

与风险有关的持续激活。 风险响应发生在激励-奖励间隔(箭头)之后,是与价值(与三角形)有关的阶段性,价值相关的激活之后。 右上方的插图表明风险(纵坐标)根据(更多……)而变化

大约三分之一的多巴胺神经元显示出相对缓慢,中度,统计学上显着的激活,其在奖励预测刺激和奖励之间的间隔期间逐渐增加; 这种反应随风险单调变化(图(图2)2)[18]。 激活发生在个体试验中,并且似乎不构成从奖励向奖励预测刺激传播的预测误差响应。 当使用不同的等概率,非零奖励量值的二元分布时,激活也随着标准偏差或方差单调增加。 因此,标准偏差或方差似乎是由多巴胺神经元编码的可行的风险度量。 与奖励价值对刺激和奖励的反应相比,风险相关激活具有更长的延迟(约1 s),更慢的时间进程和更低的峰值。

由于其较低的量级,与编码奖励值的更多相位激活相比,风险信号可能在多巴胺静脉曲张中诱导更低的多巴胺释放。 可能由风险信号诱导的相对低的多巴胺浓度可能激活D2受体,其主要处于高亲和力状态但不是低亲和力D1受体[63]。 相比之下,较高的阶段性奖赏值响应可能导致更多的多巴胺浓度足以在其大多数低亲和力状态下短暂激活D1受体。 因此,基于激活的不同多巴胺受体,突触后神经元可以区分这两种信号。 此外,多巴胺值和风险信号一起将导致D1和D2受体几乎同时激活,这在许多正常和临床情况下对于足够的多巴胺依赖性功能是必需的。

多巴胺风险信号可具有若干功能。 首先,它可以在奖励[23]之后立即通过标准偏差影响紧接着的预测误差响应的缩放。 其次,它可以增强由紧随其后的预测误差响应引起的多巴胺释放。 由于风险引起了注意,根据相关性学习理论[64,65],风险增强潜在教学信号将与注意力在学习中的作用相一致。 第三,它可以为参与评估奖励风险本身的大脑结构提供输入。 第四,它可以与经济预期价值信号相结合,根据金融决策理论[66]中的均值 - 方差法,代表风险敏感个体预期效用的可观信息。 然而,大约1的延迟太长,以至于信号在不确定性的选择中发挥即时作用。

相互竞争的利益

作者声明他没有竞争利益。

作者的贡献

WS写了这篇论文。

致谢

本评论是在挪威奥斯陆举行的注意力缺陷多动障碍(ADHD)研讨会上撰写的,2月2010。 我们的工作得到了Wellcome Trust,瑞士国家科学基金会,人类前沿科学计划以及其他资助和奖学金机构的支持。

参考资料

1。 Wise RA,Rompre PP。 脑多巴胺和奖励。 Ann Rev Psychol。 1989; 40:191-225。 doi:10.1146 / annurev.ps.40.020189.001203。

2。 Everitt BJ,Robbins TW。 药物成瘾的强化神经系统:从行为到习惯再到强迫。 Nat Neurosci。 2005; 8:1481-1489。 doi:10.1038 / nn1579。[PubMed] [Cross Ref]

3。 Bernoulli D. Specimen theoriae novae de mensura sortis。 Comentarii Academiae Scientiarum Imperialis Petropolitanae(Papers Imp.Acad.Sci.St。Petersburg)1738; 5:175-192。 翻译为:关于风险度量的新理论的揭示。 Econometrica 1954,22:23-36。

4。 Rao RPN,Ballard DH。 视觉皮层中的预测编码:对一些非经典的感受野效应的功能性解释。 Nat Neurosci。 1999; 2:79-87。 doi:10.1038 / 4580。[PubMed] [Cross Ref]

5。 Rescorla RA,Wagner AR。 在:经典调节II:当前的研究和理论。 Black AH,Prokasy WF,编辑。 纽约:Appleton Century Crofts; 1972。 巴甫洛夫条件理论:强化和非强化的有效性的变化; pp.64-99。

6。 Sutton RS,Barto AG。 走向现代自适应网络理论:期望和预测。 Psychol Rev. 1981; 88:135-170。 doi:10.1037 / 0033-295X.88.2.135。[PubMed] [Cross Ref]

7。 Kamin LJ。 在:器乐学习的基本问题。 Mackintosh NJ,Honig WK,编辑。 哈利法克斯:达尔豪斯大学出版社; 1969。 选择性关联和调节; pp.42-64。

8。 Blythe SN,Atherton JF,Bevan MD。 树突状AMPA和NMDA受体的突触激活在体外黑质多巴胺神经元中产生瞬时高频点火。 J神经生理学。 2007; 97:2837-2850。 doi:10.1152 / jn.01157.2006。[PubMed] [Cross Ref]

9。 Zweifel LS,Parker JG,Lobb CJ,Rainwater A,Wall VZ,Fadok JP,Darvas M,Kim MJ,Mizumori SJ,Paladini CA,Phillips PEM,Palmiter RD。 多巴胺神经元对NMDAR依赖性突发发作的破坏提供了对相位多巴胺依赖性行为的选择性评估。 Proc Natl Acad Sci。 2009; 106:7281-7288。 doi:10.1073 / pnas.0813415106。 [PMC免费文章] [PubMed] [交叉参考]

10。 Harnett MT,Bernier BE,Ahn KC,Morikawa H. Burst-Timing-Dependence Plasticity of NMDA Receptor介导的传播在中脑多巴胺神经元中。 神经元。 2009; 62:826-838。 doi:10.1016 / j.neuron.2009.05.011。 [PMC免费文章] [PubMed] [交叉参考]

11。 Jones S,Bonci A.突触可塑性和吸毒成瘾。 Curr Opin Pharmacol。 2005; 5:20-25。 doi:10.1016 / j.coph.2004.08.011。[PubMed] [Cross Ref]

12。 Kauer JA,Malenka RC。 突触可塑性和成瘾。 Nat Rev Neurosci。 2007; 8:844-858。 doi:10.1038 / nrn2234。[PubMed] [Cross Ref]

13。 Ljungberg T,Apicella P,Schultz W.猴子中脑多巴胺神经元在延迟交替表现期间的反应。 Brain Res。 1991; 586:337-341。 doi:10.1016 / 0006-8993(91)90816-E。

14。 Schultz W,Apicella P,Ljungberg T.猴子多巴胺神经元在学习延迟响应任务的连续步骤中对奖励和条件刺激的反应。 J Neurosci。 1993; 13:900-913 [搜索PubMed]

15。 Schultz W.多巴胺神经元的预测性奖励信号。 J神经生理学。 1998; 80:1-27 [搜索PubMed]

16。 Schultz W,Dayan P,Montague RR。 预测和奖励的神经基质。 科学。 1997; 275:1593-1599。 doi:10.1126 / science.275.5306.1593。[PubMed] [Cross Ref]

17。 Hollerman JR,Schultz W. Dopamine神经元报告学习期间奖励的时间预测中的错误。 Nature Neurosci。 1998; 1:304-309。 doi:10.1038 / 1124。[PubMed] [Cross Ref]

18。 Fiorillo CD,Tobler PN,Schultz W.多巴胺神经元对奖励概率和不确定性的离散编码。 科学。 2003; 299:1898-1902。 doi:10.1126 / science.1077349。[PubMed] [Cross Ref]

19。 Satoh T,Nakai S,Sato T,Kimura M.关联多巴胺神经元决策的动机和结果编码。 J Neurosci。 2003; 23:9913-9923 [搜索PubMed]

20。 Morris G,Arkadir D,Nevet A,Vaadia E,Bergman H.重合但中脑多巴胺和纹状体活跃神经元的明显信息。 神经元。 2004; 43:133-143。 doi:10.1016 / j.neuron.2004.06.012。[PubMed] [Cross Ref]

21。 Nakahara H,Itoh H,Kawagoe R,Takikawa Y,Hikosaka O.多巴胺神经元可以表示依赖于上下文的预测误差。 神经元。 2004; 41:269-280。 doi:10.1016 / S0896-6273(03)00869-9。[PubMed] [Cross Ref]

22。 拜耳HM,Glimcher PW。 中脑多巴胺神经元编码定量奖励预测误差信号。 神经元。 2005; 47:129-141。 doi:10.1016 / j.neuron.2005.05.020。 [PMC免费文章] [PubMed] [交叉参考]

23。 Tobler PN,Fiorillo CD,Schultz W.多巴胺神经元的自适应编码奖励值。 科学。 2005; 307:1642-1645。 doi:10.1126 / science.1105370。[PubMed] [Cross Ref]

24。 Zaghloul KA,Blanco JA,Weidemann CT,McGill K,Jaggi JL,Baltuch GH,Kahana MJ。 人类黑质神经元编码意外的经济回报。 科学。 2009; 323:1496-1499。 doi:10.1126 / science.1167342。 [PMC免费文章] [PubMed] [交叉参考]

25。 Fiorillo CD,Newsome WT,Schultz W.多巴胺神经元中奖励预测的时间精度。 Nat Neurosci。 2008; 11:966-973。 doi:10.1038 / nn.2159。

26。 Bayer HM,Lau B,Glimcher PW。 清醒灵长类动物中多巴胺神经元穗列车的统计数据。 J神经生理学。 2007; 98:1428-1439。 doi:10.1152 / jn.01140.2006。[PubMed] [Cross Ref]

27。 Waelti P,Dickinson A,Schultz W. Dopamine的反应符合正式学习理论的基本假设。 性质。 2001; 412:43-48。 doi:10.1038 / 35083500。[PubMed] [Cross Ref]

28。 Rescorla RA。 巴甫洛夫条件抑制。 心理公牛。 1969; 72:77-94。 doi:10.1037 / h0027760。

29。 Tobler PN,Dickinson A,Schultz W.编码预测的多巴胺神经元在条件抑制范例中的奖励遗漏。 J Neurosci。 2003; 23:10402-10410 [搜索PubMed]

30。 Preuschoff,Bossaerts P.将预测风险添加到奖励学习理论中。 Ann NY Acad Sci。 2007; 1104:135-146。 doi:10.1196 / annals.1390.005。[PubMed] [Cross Ref]

31。 Romo R,Schultz W.猴子中脑的多巴胺神经元:在自我发起的手臂运动期间对主动触摸的反应的偶然性。 J神经生理学。 1990; 63:592-606 [搜索PubMed]

32。 Schultz W,Romo R.猴子中脑的多巴胺神经元:对刺激的反应的偶然性引起立即的行为反应。 J神经生理学。 1990; 63:607-624 [搜索PubMed]

33。 Mirenowicz J,Schultz W.通过食欲而不是厌恶刺激优先激活中脑多巴胺神经元。 性质。 1996; 379:449-451。 doi:10.1038 / 379449a0。[PubMed] [Cross Ref]

34。 Morris G,Nevet A,Arkadir D,Vaadia E,Bergman H. Midbrain多巴胺神经元编码未来行动的决定。 Nat Neurosci。 2006; 9:1057-1063。 doi:10.1038 / nn1743。[PubMed] [Cross Ref]

35。 Roesch MR,Calu DJ,Schoenbaum G.多巴胺神经元在大鼠中编码更好的选择,决定不同延迟或大小的奖励。 Nat Neurosci。 2007; 10:1615-1624。 doi:10.1038 / nn2013。 [PMC免费文章] [PubMed] [交叉参考]

36。 Takikawa Y,Kawagoe R,Hikosaka O.中脑多巴胺神经元在短期和长期适应眼跳到位置奖励maping中的可能作用。 J神经生理学。 2004; 92:2520-2529。 doi:10.1152 / jn.00238.2004。[PubMed] [Cross Ref]

37。 Pan WX,Schmidt R,Wickens JR,Hyland BI。 多巴胺细胞对经典条件反射中的预测事件做出响应:奖励 - 学习网络中的合格性痕迹证据。 J Neurosci。 2005; 25:6235-6242。 doi:10.1523 / JNEUROSCI.1478-05.2005。[PubMed] [Cross Ref]

38。 Montague PR,Dayan P,Sejnowski TJ。 基于预测性Hebbian学习的中脑多巴胺系统框架。 J Neurosci。 1996; 16:1936-1947 [搜索PubMed]

39。 Suri R,Schultz W.一种具有多巴胺样强化信号的神经网络,可以学习空间延迟响应任务。 神经科学。 1999; 91:871-890。 doi:10.1016 / S0306-4522(98)00697-6。[PubMed] [Cross Ref]

40。 Ainslie G. Specious奖励:一种冲动和冲动控制的行为理论。 心理公牛。 1975; 82:463-496。 doi:10.1037 / h0076860。

41。 Rodriguez ML,Logue AW。 调整延迟加强:比较鸽子和人类的选择。 J Exp Psychol Anim Behav Process。 1988; 14:105-117。 doi:10.1037 / 0097-7403.14.1.105。[PubMed] [Cross Ref]

42。 Richards JB,Mitchell SH,de Wit H,Seiden LS。 用调整量程序确定大鼠的折扣功能。 J Exp Anal Behav。 1997; 67:353-366。 doi:10.1901 / jeab.1997.67-353。 [PMC免费文章] [PubMed] [交叉参考]

43。 Kobayashi S,Schultz W.奖励延迟对多巴胺神经元反应的影响。 J Neurosci。 2008; 28:7837-7846。 doi:10.1523 / JNEUROSCI.1600-08.2008。[PubMed] [Cross Ref]

44。 Guarraci FA,Kapp BS。 腹腔被盖区多巴胺能神经元在清醒兔中差异性帕夫洛病恐惧条件下的电生理特征。 Behav Brain Res。 1999; 99:169-179。 doi:10.1016 / S0166-4328(98)00102-8。[PubMed] [Cross Ref]

45。 Joshua M,Adler A,Mitelman R,Vaadia E,Bergman H. Midbrain多巴胺能神经元和纹状体胆碱能中间神经元编码在概率经典条件试验的不同时期的奖励和厌恶事件之间的差异。 J Neurosci。 2008; 28:1673-11684。 doi:10.1523 / JNEUROSCI.3839-08.2008。

46。 Matsumoto M,Hikosaka O.两种类型的多巴胺神经元明显地传达正面和负面的动机信号。 性质。 2009; 459:837-841。 doi:10.1038 / nature08028。 [PMC免费文章] [PubMed] [交叉参考]

47。 Chiodo LA,Antelman SM,Caggiula AR,Lineberry CG。 感觉刺激改变多巴胺(DA)神经元的放电率:黑质中两种功能类型的DA细胞的证据。 Brain Res。 1980; 189:544-549。 doi:10.1016 / 0006-8993(80)90366-2。[PubMed] [Cross Ref]

48。 Mantz J,Thierry AM,Glowinski J.有毒尾部夹伤对中皮质和中脑边缘多巴胺神经元放电率的影响:中皮质系统的选择性激活。 Brain Res。 1989; 476:377-381。 doi:10.1016 / 0006-8993(89)91263-8。[PubMed] [Cross Ref]

49。 Schultz W,Romo R.在麻醉的猴子中,黑质纹状体多巴胺神经元对高强度体感刺激的反应。 J神经生理学。 1987; 57:201-217 [搜索PubMed]

50。 Coizet V,Dommett EJ,Redgrave P,Overton PG。 中脑多巴胺能神经元的伤害性反应受到大鼠上丘的调节。 神经科学。 2006; 139:1479-1493。 doi:10.1016 / j.neuroscience.2006.01.030。[PubMed] [Cross Ref]

51。 Brown MTC,Henny P,Bolam JP,Magill PJ。 神经化学异质多巴胺能神经元在黑质自发和驱动的脑状态变化过程中的活动。 J Neurosci。 2009; 29:2915-2925。 doi:10.1523 / JNEUROSCI.4423-08.2009。[PubMed] [Cross Ref]

52。 Brischoux F,Chakraborty S,Brierley DI,Ungless MA。 通过伤害性刺激对腹侧VTA中多巴胺神经元的相位激发。 Proc Natl Acad Sci USA。 2009; 106:4894-4899。 doi:10.1073 / pnas.0811507106。 [PMC免费文章] [PubMed] [交叉参考]

53。 Day JJ,Roitman MF,Wightman RM,Carelli RM。 联想学习介导伏隔核中多巴胺信号传导的动态变化。 Nat Neurosci。 2007; 10:1020-1028。 doi:10.1038 / nn1923。[PubMed] [Cross Ref]

54。 Roitman MF,Wheeler RA,Wightman RM,Carelli RM。 伏隔核中的实时化学反应区分了奖赏和厌恶刺激。 Nat Neurosci。 2008; 11:1376-1377。 doi:10.1038 / nn.2219。[PubMed] [Cross Ref]

55。 年轻的AMJ。 伏木核中细胞外多巴胺的增加是对无条件和条件厌恶刺激的反应:在大鼠中使用1 min微透析的研究。 J Neurosci Meth。 2004; 138:57-63。 doi:10.1016 / j.jneumeth.2004.03.003。

56。 Schultz W.多种多巴胺在不同的时间过程中起作用。 Ann Rev Neurosci。 2007; 30:259-288。 doi:10.1146 / annurev.neuro.28.061604.135722。[PubMed] [Cross Ref]

57。 Tsai HC,Zhang F,Adamantidis A,Stuber GD,Bonci A,de Lecea L,Deisseroth K.多巴胺能神经元中的阶段性射击足以进行行为调节。 科学。 2009; 324:1080-1084。 doi:10.1126 / science.1168878。[PubMed] [Cross Ref]

58。 Strecker RE,Jacobs BL。 表现为猫的黑质多巴胺能单位活性:唤醒对自发放电和感觉诱发活动的影响。 Brain Res。 1985; 361:339-350。 doi:10.1016 / 0006-8993(85)91304-6。[PubMed] [Cross Ref]

59。 Ljungberg T,Apicella P,Schultz W.在学习行为反应期间对猴多巴胺神经元的反应。 J神经生理学。 1992; 67:145-163 [搜索PubMed]

60。 Horvitz JC,Stewart T,Jacobs BL。 腹部被盖多巴胺神经元的爆发活动是由清醒猫的感觉刺激引起的。 Brain Res。 1997; 759:251-258。 doi:10.1016 / S0006-8993(97)00265-5。[PubMed] [Cross Ref]

61。 Sheafor PJ。 兔子的假性下颌运动反映了与情境背景线索相关的关联。 J Exp Psychol:Anim Behav Proc。 1975; 104:245-260。 doi:10.1037 / 0097-7403.1.3.245。

62。 Kakade S,Dayan P. Dopamine:概括和奖金。 神经网络。 2002; 15:549-559。 doi:10.1016 / S0893-6080(02)00048-5。[PubMed] [Cross Ref]

63。 Richfield EK,Pennney JB,Young AB。 多巴胺D1和D2受体在大鼠中枢神经系统中的解剖和亲和状态比较。 神经科学。 1989; 30:767-777。 doi:10.1016 / 0306-4522(89)90168-1。[PubMed] [Cross Ref]

64。 麦金托什新泽西州。 注意理论:刺激与强化的可联系性的变化。 Psychol Rev. 1975; 82:276-298。 doi:10.1037 / h0076778。

65。 Pearce JM,Hall G.巴甫洛夫条件反射的模型:条件但不是无条件刺激的有效性的变化。 Psychol Rev. 1980; 87:532-552。 doi:10.1037 / 0033-295X.87.6.532。[PubMed] [Cross Ref]

66。 Levy H,Markowitz HM。 通过均值和方差函数逼近期望效用。 Am Econ Rev. 1979; 69:308-317。