可预测性调节人类大脑对奖励的反应(2001)

评论:不可预知的奖励导致更多的多巴胺峰值。 这就是使高速互联网色情与过去的色情不同的原因
 
J Neurosci。 2001 Apr 15;21(8):2793-8.
 

来源

埃默里大学医学院精神病学和行为科学系,佐治亚州亚特兰大30322,美国。 [电子邮件保护]

抽象

某些类型的刺激,如食物和药物,在激活奖励区域方面非常有效。 我们在人类中表明,这些区域的活动可以通过两种轻度愉快的刺激,口服递送的果汁和水的测序递送的可预测性来调节。 使用功能性磁共振成像,当刺激不可预测时,伏隔核和内侧眶额皮质中奖励刺激的活动最大。 此外,受试者对果汁或水的陈述偏好与奖励区域的活动并不直接相关,而是与感觉运动皮层的活动相关。 对于愉悦的刺激,这些发现表明可预测性调节人类奖励区域的反应,并且主观偏好可以与该反应分离。

介绍

追求食物,饮料和性等自然奖励是对人类行为的主要外在影响。 然而,奖励如何影响人类行为的问题仍未得到解决。 在我们的知识中,有许多因素导致了这种差距; 然而,一个障碍是难以定义和测量奖励对人类行为或大脑激活的孤立影响。 在动物中,奖励被定义为一种操作概念:如果刺激能够积极地强化行为,那么它就被认为是有益的(赫尔,1943; Rescorla和Wagner,1972; Robbins和Everitt,1996),也就是说,可靠地增加了这种行为的可能性。 同样的概念也适用于人类。 但是,人类有能力对自己的行为施加各种执行控制,因此仅行为分析是探索奖励过程的不完整方法。 类似地,对喜欢和不喜欢(即偏好)的明确报告会因个人对自己喜欢和选择的内容的主观感知而混淆。 为了克服这些实验困难,人们希望在定义明确的任务中同时监视行为输出,主观偏好和大脑反应。 采用这种方法,我们在此报告,人类奖励区域的活动与一系列愉悦刺激的可预测性紧密相关,而不是与明确陈述的偏好紧密相关。

在人类中,奖励区域的激活可以在施用药物(例如可卡因)后通过功能性磁共振成像(fMRI)可视化。Breiter等,1997); 然而,由于可卡因的直接和间接药理作用,这种输注可能无法代表正常的奖励处理。 此外,可卡因等药物可能作用于奖励制度的不同部分,而不是食物和水等所谓的自然奖励(Bradberry等,2000; Carelli等人,2000)。 有条件的奖励,例如金钱,也可以作用于奖励制度的不同部分(Thut等,1997; Elliott等人,2000; Knutson等,2000并且可能不是人类主要奖励回路的适当探测器。 通过实验提出了另一种方法,证明主要奖励刺激的可预测性是激活奖励途径的关键参数(Schultz等人,1992, 1997; 舒尔茨,1998; Garris等,1999)。 非人类灵长类动物的生理记录表明,腹侧被盖区(VTA),伏隔核和腹侧纹状体等区域的神经元以适应性的方式响应奖励刺激物,如果汁或水(Shidara等,1998)。 因此,刺激序列的可预测性本身可以以fMRI可检测的方式募集奖赏相关的神经结构。 此外,多巴胺释放的理论模型表明,不可预测的奖励应该在这些地区引起更大的活动(Schultz等人,1997)。 我们试图通过使用功能磁共振成像(fMRI)测量可预测性对人类大脑对点状,愉悦刺激序列的反应的影响来检验这一假设。

材料和方法

主题。 二十五名正常成人接受fMRI扫描,同时服用少量口服果汁或水。 受试者的年龄范围从18到43,并且所有受试者都给予埃默里大学人类调查委员会批准的方案的知情同意书。

实验任务。 在扫描仪中,受试者以可预测或不可预测的方式接受少量口服递送的果汁和水。 我们选择了果汁和水的有序递送有三个原因:(1)人类发现果汁和水都是主观愉悦的; (2)两种刺激通常用作强化刺激,同时训练非人类灵长类动物的行为任务; 和(3)中脑多巴胺能神经元,并且可能是它们投射的神经元,显示出作为顺序刺激的时间可预测性的函数的射击速率的相位变化(Schultz等人,1992)。 参与者在两次扫描中以可预测或不可预测的方式接收果汁和水(图2)。 1)。 在可预测的运行期间,果汁和水团块以10秒的固定间隔交替。 在不可预测的运行期间,果汁和水的顺序是随机的,并且通过采样平均值为10秒的泊松间隔分布来随机化刺激间隔。 每次运行持续5 min,并且两次运行的顺序(可预测的或不可预测的)在受试者中随机化。 因为适应可预测性或不可预测性的时间是未知的,并且因为频繁切换条件可能导致彼此之间的相互作用,即“可预测性的可预测性”,我们选择在扫描运行中分离条件而不是使用较小的条件块在扫描运行中。 因为实验的所有方面都取决于操纵可预测性,我们选择不重复主题内的条件,而是专注于研究更多的主题。

图。 1。  

fMRI实验的设计。 使用2×2因子设计,具有偏好因子(果汁或水)和可预测性(可预测或不可预测)。 受试者以可预测或不可预测的顺序接受0.8 ml汁液和水的推注。 使用事件相关的fMRI,在偏好和可预测性以及它们之间的相互作用方面分析脑激活。

受试者通过两个塑料管接受0.8 ml果汁和水的口服推注。 一个吹嘴将管子的末端固定在舌头上,果汁从喉舌的左侧注入,水从右侧注入。 这些管长~10,并连接到扫描室外的计算机控制的双注射泵(Harvard Apparatus,Holliston,MA)。 受试者在扫描期间没有执行任何其他任务,并且被指示在每次施用时简单地吞咽流体。 在扫描会话之后,对受试者的流体偏好进行了汇报。

获取MRI数据。 扫描在1.5 Tesla Philips NT扫描仪上进行。 在获得高分辨率T1加权解剖扫描后,受试者经历了两次150扫描的全脑功能运行(回波平面成像,梯度回忆回声;重复时间,2000毫秒;回波时间,40毫秒;翻转角, 90°; 64×64矩阵,平行于前后连合线采集的24 5 mm轴向切片),用于测量血氧水平依赖性(BOLD)效应(Kwong等人,1992; Ogawa等,1992)。 通过填充和约束使头部运动最小化。

分析。 使用统计参数图(SPM99; Wellcome Department of Cognitive Neurology,London,UK)分析数据(Friston等,1995b)。 使用六参数刚体变换在对象内对第一功能扫描进行运动校正。 由于吞咽不可避免地导致头部运动,因此还使用运动校正参数来确定两个条件之间头部运动是否存在显着差异。 然后,使用24参数仿射变换将运动校正后的图像的平均值与个人的12层结构MRI进行配准。 然后将图像在空间上归一化为蒙特利尔神经病学研究所(MNI)模板(Talairach和Tournoux,1988)通过应用12参数仿射变换,然后使用基函数进行非线性变形(Ashburner和Friston,1999)。 随后用8 mm各向同性高斯核对图像进行平滑,并在时域中进行带通滤波。 使用SPM99进行随机效应,事件相关的统计分析(Friston等,1995a, 1999)。 该实验被分析为2×2因子设计。 首先,为每个受试者指定单独的一般线性模型(GLM),其中四个条件代表四种可能的事件类型:可预测的优选流体,可预测的非优选流体,不可预测的优选流体和不可预测的非优选流体。 为四个条件中的每一个创建四个delta函数向量,其中每个事件对应于每个事件。 这些与通用血液动力学响应函数卷积并进入四柱设计矩阵。 以体素方式移除每次扫描运行的平均值。 我们计算了三个双侧对比图像,这些图像对应于偏好的主要效果[对比度矢量(1-11-1)],可预测性[对比度矢量(11-1-1)]和相互作用项[对比度矢量(1) -1-11)]。 交互描述了可预测性如何调节偏好的影响。 使用单独的单样本将这些单独的对比图像输入到二级分析中 t 对GLM中每个术语的每一侧进行测试(df = 24)(总共六个对比)。 我们对这些汇总统计图进行了阈值处理 p <0.001(未经多次比较校正)。 这些地图以MNI方向覆盖在高分辨率结构图像上。

理论模型。 作为设计和解释fMRI实验的工具,我们使用现有的多巴胺释放神经网络模型来模拟大脑对奖励刺激的不同时间模式的反应(图2)。2)。 该模型基于时间差异(TD)的方法,该方法假定一种突触增强物质,例如多巴胺,是响应于奖励预测中的错误而释放的(Schultz等人,1997)。 该模型已用于各种应用,包括复杂的学习任务,如步步高(Sutton,1988; Tesauro和Sejnowski,1989),以及成功预测多种调节范例中多巴胺神经元的活性(Houk等人,1995; Montague等人,1995)和电机排序任务(Berns和Sejnowski,1998).

图。 2。  

实验的神经网络模型和与信息处理相关的大脑区域。 A,图表显示了我们对刺激序列如何影响多巴胺能输出的假设。 在这个假设中,我们已经表明多巴胺能输出的变化可以以fMRI BOLD测量中可检测的方式影响靶神经结构。 果汁和水显示出两种感官(从有限时间投射)窗口框)和奖励( 路径)表达对多巴胺能活性的影响。 为了从这个假设产生预期的血流动力学反应,我们做了一个有限的时间窗口(小盒子 用于果汁和水),这决定了即时奖励的价值r(t)(果汁发生时为1,水发生时为0.5,未发生刺激时为0)。 这种操作任意地将果汁设定为水的两倍。 这对于模型产生的主要期望并不重要。B,预测多巴胺效应可预测和不可预测的果汁和水输送序列。 横轴 是扫描号码。 垂直轴 是由时间差异模型预测的预期血液动力学反应。 上的规模 垂直轴 是任意的。 需要注意的重要一点是,可预测的运行进展到0,而不可预测的运行始终保持高振幅。 通过将血流动力学响应核与时间差模型的输出进行卷积来生成迹线。 这表明当刺激无法预测时,平均BOLD反应会更大。

简而言之,TD学习取决于两个主要假设。 首先,在给定神经回路中进行短期适应的目的是预测所有未来奖励的折扣总和。 奖励的定义取决于收到的背景。 如果假定的奖励增加了特定行为的发生,那么它被认为是积极的强化者。 取决于动物的内部状态,相同的奖励可能不会强化行为,例如,当动物满足时。 在通常不自然的fMRI实验的背景下,熟悉的食欲性物质如水或果汁在主观上经历为令人愉快的并且因此是有益的。 其次,奖励预测仅取决于刺激集的当前表示。 刺激表示在模型中有些随意,并且它包括一些向后的时间表示,即刺激轨迹。 对于诸如水或果汁之类的物质,存在感官维度(例如,舌头上的温度和触感)和实际奖励,其主观地体验为愉悦。 因此,将流体输送的触觉尺寸视为中性且与奖励尺寸不同是合理的。 类似地,假设这些不同的维度由不同的脑回路处理,其可以用fMRI成像。 为了将模型输出映射到类似于用fMRI获得的测量的维度,我们将中性和有益途径的输出相加,我们假设它们在腹侧纹状体和伏隔核中会聚。 我们承认没有这方面的直接证据,并且根据特定受体,多巴胺可能对神经元活动产生不同的影响。 将精确的实验设计输入到模型中,该模型用Matlab 5.3(MathWorks,Natick,MA)模拟。 对可预测和不可预测的运行计算对应于推定的多巴胺神经元及其投影位点的输出(图2)。 2).

我们应该小心地向读者指出,我们使用时间差异模型来解释我们的设计和后续解释(下文)是基于其先前成功描述了经历相关行为任务的灵长类动物中多巴胺能神经元的尖峰输出的变化。 还有其他合理的计算描述也足够了。

成果

在扫描之后,询问受试者他们对这两种刺激的偏好。 十八名25受试者(72%)优选果汁,其余为优选水。 尽管我们没有要求他们对此进行量化,但大多数受试者对这一方面有明显的偏好。 尽管在扫描期间存在显着的头部运动,但是每个刺激周围的所有平移和旋转通常都很小并且在任何条件之间没有显着差异。 例如,与每个刺激相关的平均值±SD平移在可预测条件下为0.041±0.069 mm,在不可预测的条件下为0.044±0.069 mm(配对) t 测试;p 0.853)。

相对于非优选流体,大脑对优选流体的响应显示出惊人的差异活性(表1)。 我们没有观察到经典的奖励区域,如伏隔核,海马体或前额叶内侧皮层有任何明显的活动差异。 首选>非首选的主要活动变化发生在口腔和舌头区域附近区域的体感皮质中(t = 4.19,MNI坐标,-60,-12,16)。

表1。  

脑区域显示测量活动的显着变化(p <0.001未校正; 簇大小> 10体素,除非另有说明)

可预测性的主要影响远远大于偏好的主要影响(图2)。 3)。 对于相对于可预测运行的不可预测的运行,在包括伏隔核在内的大范围内侧眶额皮质中观察到双侧激活(表 1)。 额外的激活区域包括双侧和旁侧的大面积顶叶皮质以及丘脑和右小脑的左侧背侧核中的小的局灶性激活。 由于这些区域中没有一个区域与偏好的主要影响重叠,因此无论偏好如何,它们都被不可预测的刺激最大程度地激活。 对于相对于不可预测的运行的可预测的运行,右上颞回的区域被激活,以及左前中回和右侧眶额皮质的局灶激活。

图。 3。  

可预测性的主要影响表明,奖励相关区域对不可预测的刺激具有更大的BOLD响应。 A,以(0,4,-4)为中心的飞机显示双侧伏核/腹侧纹状体(NAC并且双侧上顶叶皮层在可预测的条件下更活跃。 B,右上颞回的一个小区域被可预测的刺激相对更激活。 意义被定为阈值p <0.001,范围> 10的连续体素。

偏好和可预测性之间的相互作用确定了一种效应调节另一种效应而与两种主效应无关的区域。 右侧岛叶,左后扣带和右侧小脑显示出对比度(优选 - 非优选)×(可预测 - 不可预测)的显着相互作用。 相反的对比,(首选 - 非优先)×(不可预测 - 可预测),没有发现任何重大的激活 p <0.001级; 然而,左颞上回的一个小区域(MNI坐标,-48,-4,-16)在 p <0.01级(t 3.15)。

计算机模拟表明,不可预测的奖励应该比可预测的奖励引起更多的多巴胺释放(图。2 B)。 当奖励是可预测的时,每个刺激完全预测后续的刺激,并且假定由多巴胺介导的误差信号逐渐减少。 当奖励无法预测时,系统没有机会学习,并且对每个刺激的响应更大。

讨论

我们的结果证明了大脑对可预测性的反应和偏好的主观报告的有趣分离。 大脑对偏好的反应完全是皮质的,但对可预测性的反应表明,奖励系统的特定激活也被认为是中脑多巴胺能神经元的目标。 如果我们假设这些奖励区域的激活对人类是愉快的,那么这一发现表明偏好的主观报告可能与已知为条件行为的强有力决定因素的神经回路分离。

水和果汁均引起整个大脑的显着激活,尽管这些反应中的一些可归因于任务的运动方面,但这些区域的特定子集被分解为偏好和可预测性的维度。 偏好的影响局限于与感觉处理相关的皮质区域,并且优选的刺激导致这些区域中更大的激活。 这些区域位于感觉运动皮层附近,已知在舌头运动期间被激活(Corfield等,1999)和吞咽(Hamdy等人,1999)。 在之前关于大脑对舌头运动反应的研究中,小脑有大量活化,这一发现在偏好的主要影响中显然不存在。 不同的大脑反应,即首选 - 非优选,消除了共同的激活区域; 因此,没有小脑激活表明,不同的舌头运动不太可能是主观偏好的皮质激活模式的原因。 躯体感觉区域与所述偏好相关的事实暗示了对于两种刺激发生了一些差异神经处理。 令人惊讶的是,这表现在初级感觉处理区域而不是经典奖励区域。 尽管受试者被迫将一种物质指定为另一种物质作为他们的偏好,但是两种流体都是故意选择的,以使其变得愉悦,而不是一种厌恶的物质。 由于两种流体通常都是愉悦的,因此偏好的影响可能不足以导致奖励区域的显着活动差异。 这与中脑多巴胺神经元优先被食欲而不是厌恶刺激激活的发现一致(Mirenowicz和Schultz,1996)。 尽管如此,我们的研究结果表明主观偏好的系统区别于简单的奖励,这支持了先前的假设“想要”与“喜欢”不同(Robinson和Berridge,1993).

与偏好的影响不同,不可预测性与伏隔核,丘脑和内侧眶额皮质的活动有显着的主要影响, 而可预测性主要与右侧颞上回的活动相关。 前者区域与已知的多巴胺投射位点密切对应(Koob,1992; Cooper等,1996)。 有些令人惊讶的是,不可预测性而非偏好与这些奖励领域的活动相关。 如果这些地区的活动增加与快乐有关,那么可以得出结论,不可预测的奖励比可预测的奖励更令人愉快。 然而,大多数受试者没有发现可预测和不可预测的条件之间的任何差异。 如果不可预测的奖励比可预测的奖励更令人愉快,反之亦然,那么这必须在潜意识层面发生。 另一种解释假设多巴胺的释放量增加到意想不到的奖励(Montague等人,1996; Schultz等人,1997;舒尔茨,1998)。 多巴胺可降低神经元兴奋性(Cooper等,1996并且还可以直接收缩微脉管系统(Krimer等,1998),但增加伏隔核活动也与可卡因的主观愉悦有关(Breiter等,1997)。 这些研究结果表明,我们观察到的激活与不可预测性的增加可能与多巴胺释放增加有关,或者是因为伏隔核投射到VTA,或者因为它接受了来自VTA的预测,其中任何一个都与模型结果一致。 这种解释应该受到两个重要事实的调节:(1)将多巴胺能传递与BOLD信号变化联系起来的机制尚不清楚,而(2)我们没有多巴胺能传递的独立测量,只有BOLD反应的变化。 我们观察间接多巴胺能活性变化的可能性令人兴奋,但在fMRI实验中无法明确决定。 然而,与先前使用正电子发射断层扫描的发现一致,多巴胺在金钱激励条件下被释放到腹侧纹状体中(Koepp等人,1998)。 再加上不可预测性的放大效应,它也与多巴胺对神经元“增益”的假设影响一致(科恩和Servan-Schreiber,1992),最终结果是某些地区会增加而其他地区会减少。

由不可预测性相对激活的特定区域对应于与食欲功能相关的大脑区域。 除伏隔核外,内侧眶额皮质对不可预测性也有显着影响。 该区域已在灵长类动物中展示,以整合味觉感受的有益和中性方面,并且被认为主要反映这些刺激的动机价值(Rolls,2000)。 该区域还包含区分相对奖励偏好的神经元(Tremblay和Schultz,1999)。 眶额皮质通常难以用fMRI成像,因为鼻窦的易感性伪影(Ojemann等,1997)。 但是,我们确定的区域通常比通常的工件位置更优越和尾部。 此区域以前被发现对愉快的口味有所反应(Francis等人,1999)。 在上顶叶的第二个区域可能与任务的有益方面无关,而是与注意力变化的结果有关。 此区域以前曾受到视觉空间关注,特别是在期望违规期间(Nobre等,1999)。 左侧颞叶皮层中的另一个区域通过不可预测性显示出边界显着调节。 在最近的fMRI实验中,左颞叶与处理连续刺激的可预测性有关(Bischoff-Grethe等人,2000)。 在这里,我们将这些先前的发现从中性刺激延伸到愉悦的刺激,表明该区域可以独立于刺激效价执行可预测性的一般监测。

我们认为以直接或调节方式对不可预测性做出反应的大脑区域涉及许多关于经济回报的实验。 金钱可以奖励人类,但它只是因为它通过复杂的条件获得了这些属性而得到加强。 类似于可卡因作用于不同神经元而不是天然强化物的发现(Carelli等人,2000),有条件的强化物,如金钱,可能作用于不同的神经系统,而不是食物和水等天然强化物。 腹侧纹状体和中脑的活动与经济回报的绝对水平相关(Thut等,1997;Delgado等,2000; Elliott等人,2000; Knutson等,2000),我们的结果中明显缺乏这一发现。 如前所述,果汁和水都是轻度愉悦的,因此绝对奖励可能没有实质性差异,尽管我们假设理论模型略有不同。 此外,我们没有使用任何厌恶刺激或任何可以被解释为负面奖励的东西,这也可能解释了这种差异。 有趣的是,我们认为直接受到不可预测性影响或放大的区域与之前发现的对财务报酬的背景依赖性敏感的区域相对应(罗杰斯等人,1999; Elliott等人,2000)。 特别是,在我们的研究中,亚系带扣带和丘脑内侧与不可预测性相关,并且被发现与背景有关。 艾略特等人。 (2000).

由于可预测性调节了偏好的影响,因此区分潜在的预测来源非常重要。 在经典的条件反射实验中,中性刺激优先于奖励。 训练后,先前的中性刺激成为预测因子或条件刺激。 因为在fMRI中使用口服刺激的数据相对较少,我们选择通过使用两种不同的口服刺激物,水和果汁来简化实验和控制任务的运动方面。 因此,我们实验中的预测来源必然来自刺激本身的序列。 在某些方面,这比引入另一种刺激方式更简单,例如视觉提示,但由于两种刺激都是有益的,我们无法对调节过程做出任何结论。 两种理论模型(Schultz等人,1997)和神经生理学数据(Schultz等人,1992, 1993)建议在奖励传递之前的间隔期间计算奖励预测。 因为我们不知道计算这些预测的时间尺度,所以我们选择将实验分析为两个条件,可预测和不可预测。 通过维持刺激之间的心理上合理的间隔10秒,没有足够的时间来解决刺激间处理的差异。 据推测,这种处理确实发生了,这可以通过不同设计的实验来解决。

总之,人类奖励区域中的活动可以通过诸如水和果汁之类的主要奖励的时间可预测性来调节。 这些结果为计算模型提供了重要支持,假设奖励预测中的错误可以推动​​突触修改并将这些结论从非人类灵长类动物扩展到人类。 这种调制的区域特异性还表明,由刺激流的相对可预测性所体现的信息可能是可以用fMRI检测的神经币的一种形式。

脚注

    • 收到 月11,2000。
    • 收到修订 1月17,2001。
    • 已接受 1月26,2001。
  • 这项工作得到了国家药物滥用药物研究所K08 DA00367(致GSB)和RO1 DA11723(致PRM),全国精神分裂症和抑郁症研究联盟(GSB)以及凯恩家族基金会(PRM)的支持。 我们感谢H. Mao,R。King和M. Martin对数据收集的帮助。

    通讯可致电Gregory S. Berns,埃默里大学医学院精神病学和行为科学系,1639 Pierce Drive,Suite 4000,Atlanta,GA 30322,E-mail:[电子邮件保护],或P.阅读Montague,Baylor医学院神经科学系,1 Baylor Plaza,Houston,TX 77030,E-mail:[电子邮件保护].

文章引用了这篇文章