伏隔核对预期奖励的违规行为的敏感性(2007)

影像学。 2007 Jan 1; 34(1):455-61。 Epub 2006 Oct 17。

斯派塞J, Galvan A., 野兔TA, 沃斯H., 格洛弗G., 凯西B..

来源

Sackler发育心理生物学研究所,康奈尔大学威尔康奈尔医学院,1300 York Avenue,Box 140,纽约,纽约10021,美国。

抽象

本研究检查腹侧前纹状体区域是否差异编码预期和意外的奖励结果。 我们参数化地操纵了奖励的概率,并检查了对于腹侧纹状体和眶额皮质(OFC)中的每个概率条件的奖励和非奖励的神经反应。 通过实验的后期试验,相对于具有最高奖励概率的病症,受试者对具有最低奖励概率的病症表现出较慢的行为反应。 在神经水平上,伏隔核(NAcc)和OFC相对于无奖励试验显示出更大的激活激活,但伏隔核似乎对预期奖励结果中的违规最敏感。 这些数据表明前缘纹理电路在奖励预测和应对预期违规方面的不同作用。

 

介绍

形成准确的预测并检测对即将到来的奖励事件的期望中的违规行为是目标导向行为的重要组成部分。 非人类灵长类动物和人类影像学研究表明,富含多巴胺的额骨前区参与形成有关未来奖励结果的预测并相应地优化行为。 与报酬相关的预测误差的神经机制–表示实际报酬与预期报酬之间的差异(Schultz等,1997)–已在非人类灵长类动物中根据预期和意外的奖励和/或奖励的遗漏进行了研究(Hollerman等,1998, Leon和Shadlen,1999; Tremblay和Schultz,1999)。 目前的研究使用了一个简单的空间延迟匹配到样本任务,类似于以前用于非人类灵长类动物的任务(Fiorillo等,2003),操纵奖励结果的概率,检查对预期和意外奖励的神经反应。

汇总证据表明多巴胺系统对预测和奖励处理至关重要(Olds和Milner,1954; Montague等,2004, 舒尔茨,2002 供审查)。 非人灵长类研究表明,多巴胺神经元对意外的主要奖励做出反应,并最终对预测这些奖励的刺激做出反应(Mirencowicz和Schultz,1994年, Tobler等,2005)。 猴子的腹侧被盖区域(VTA)中的多巴胺神经元将响应于不可预测(或以低概率预测)的主要奖励而不是完全预测的奖励(Fiorillo等,2003;Tobler等,2005)。 相反,当相对于预期的奖励遗漏没有提供预期奖励时,相同神经元的活动被抑制(Fiorillo等,2003; Tobler等,2005)。 因此,多巴胺神经元通过表示实际和预测结果之间的差异来编码预测误差(Schultz等,1997; Tobler等,2005),使得奖励的意外表现导致活动增加和意外遗漏奖励导致活动减少。

响应于奖励结果变化的多巴胺激发的变化与行为的改变是平行的。 非人灵长类动物研究发现,猴子会增加其预期舔食作为条件刺激与随后的无条件刺激(果汁递送)相关联的概率的函数。 因此,代表后续果汁传递的高概率的刺激引起更多的预期舔(Fiorillo等,2003).

在与目标导向行为相关的区域(例如前额叶皮质)和与更自动的食欲行为(例如腹侧纹状体)相关的区域之间存在相互解剖连接,其中可以计算预测(Shultz等人,1997; Haber等,2003)。 这些区域通过来自中脑多巴胺神经元的投射受到多巴胺的严重支配,并且这些连接可形成功能性神经解剖学回路,其支持行为的优化以支持导致最大收益的动作。

最近,人体功能磁共振成像(fMRI)研究表明该电路的两个区域,即伏隔核和眶额皮质,表示预测误差。 例如,已显示不可预测的果汁和水输送序列相对于可预测的递送引起NAcc活性增加(Berns等,2001)。 基于时间的预测误差(McClure等,2003)和刺激(O'Doherty等,2003 O'Doherty等,2004)违规行为也会激活腹侧纹状体。

OFC在奖励预测中的作用不太清楚。 虽然一些研究报告了OFC在预测误差条件下的敏感性(Berns等,2001; O'Doherty等人,2003; Ramnini等,2004; Dreher等人,2005)其他人没有(McClure等,2003; O'Doherty等人,2004; Delgado等,2005)。 不太重视预测误差的研究显示,相对于不利结果,OFC激活更有利(O'Doherty等,2001; Elliott等,2003; Galvan等,2005)在奖励价值的研究中(Gottfried等,2003)和价(Cox等,2005; O'Doherty,2000 O'Doherty,2003 O'Doherty,2004)。 最近, Kringelbach和Rolls(2004) 整合神经影像学和神经心理学文献,以解释眶额皮质的各种功能。 他们建议内侧 - 外侧区别和前 - 后区分。 内侧和外侧眶额皮质分别监测奖励价值和惩罚者的评价(例如 O'Doherty等,2001 ; Rolls等,2003)。 前眶额叶皮层被认为更多地涉及抽象强化物的表现(O'Doherty等,2001)与味道相关的更简单的(例如 De Araujo等人,2003)和痛苦(例如 Craig等,2000).

最近这些腹侧前纹状区域(Knutson等,2005)期间与期望值(预期概率和结果大小的乘积)的表示相关联 期待奖励结果。 鉴于优雅但复杂的设计包括代表幅度,概率和/或效价的多种组合的18线索,缺乏统计功效使作者无法检查与激励相关的大脑激活 结果。 在本研究中,我们使用了三种不同的线索,每种线索与正确试验的33%,66%或100%奖励相关。 这项研究的重点是 奖励结果 而不是奖励预期,以检查神经水平对奖励期望中的违规行为的敏感性,而不是在结果之前预测奖励。 这种分析对于理解奖励的可预测性至关重要,因为当违反预期预期时,奖励结果会发生多巴胺激发的变化(Fiorillo等,2003)。 先验 伏安和OFC对预期和意外金钱奖励的反应的预测是基于先前的成像工作,涉及奖励处理中的这些区域(Knutson等,2001; 2005; O'Doherty等,2001; Galvan等,2005)。 我们使用简单的空间延迟匹配来采样类似于使用的范例 Fiorillo等(2003) 在非人灵长类动物的多巴胺神经元的电生理学研究中。 我们假设,当出现意外奖励时,腹侧纹状体,特别是NAcc的活动会增加,而当未达到预期奖励时,活动会减少。 行为被期望与这些变化相平行,平均反应时间更快,以提示最常见的预测奖励,但对提示预测奖励的反应时间较慢,最不经常。 此外,我们假设OFC对奖励结果敏感(奖励或不奖励),但伏隔核对奖励预测的变化最敏感。 这些假设基于之前成像研究的报告(Galvan等人2005,在印刷中)和非人类灵长类动物工作显示更大的纹状体参与奖励概率参数,相对于OFC的奖励锁定活动(Schultz等,2000并且在概率条件上的固定而不是变化的奖励数量。

方法

参与者成员

12名右撇子健康成年人(7女性),年龄19-27(平均年龄24年),包括在fMRI实验中。 受试者没有神经或精神疾病史,并且所有受试者在参与之前都同意了机构审查委员会批准的研究。

实验任务

参与者使用前面描述的延迟响应双选任务的修改版本进行测试(Galvan等,2005)在事件相关的fMRI研究中(图1)。 在该任务中,三个线索各自与获得固定量奖励的不同概率(33%,66%和100%)相关联。 指示受试者按下他们的食指或中指以指示提示时出现提示的一侧,并尽可能快地做出反应而不犯错误。 三个海盗卡通图像中的一个以随机顺序呈现在1000毫秒的中心固定的左侧或右侧(参见 图1)。 在2000毫秒延迟后,受试者在固定两侧(2000毫秒)出现两个宝箱的响应提示,如果海盗位于固定的左侧,则指示用右手食指按下按钮或如果海盗是在固定的右侧,他们的右手中指。 在另一个2000毫秒延迟之后,基于该试验类型的奖励概率,在屏幕中心(1000毫秒)呈现奖励反馈(卡通硬币)或空宝箱。 在下一次试验开始之前有一个12秒间隔时间间隔(ITI)。

图1  

任务设计

有三种奖励概率条件:33%,66%和100%奖励概率。 在33%条件下,受试者在33%的试验中获得奖励,并且在该条件下的其他66%试验中没有发生奖励(空宝箱)。 在66%条件下,受试者在66%的试验中获得奖励,而其他33%试验没有获得奖励。 在100%条件下,受试者获得所有正确试验的奖励。

受试者被保证参加研究的$ 50被告知他们可以获得高达$ 25的额外收入,具体取决于任务的表现(以反应时间和准确度为指标)。 使用集成功能成像系统(IFIS)(PST,匹兹堡)使用MR扫描仪的孔中的LCD视频显示器和光纤响应收集装置呈现刺激。

该实验包括五次18试验(6各33%,66%和100%奖励试验类型概率),每次试验持续6 min和8。 每次运行都有以随机顺序呈现的每个奖励概率的6试验。 在每次运行结束时,受试者都会了解他们在运行期间赚了多少钱。 在开始实验之前,受试者接受详细的说明,包括熟悉所采用的刺激并进行练习以确保任务理解。 他们被告知在线索和货币结果之间存在关系,但这种关系的确切性质并未显露出来。

图像采集

使用具有正交磁头线圈的3T General Electric MRI扫描仪进行成像。 使用螺旋进出序列进行功能扫描(Glover&Thomason,2004)。 参数包括TR = 2000,TE = 30、64 X 64矩阵,29个5毫米冠状切片,3.125 X 3.125毫米平面内分辨率,翻转90°),可进行184次重复,包括在开始时进行的四次丢弃采集每次运行。 除1-D数据集外,在与功能图像相同的位置收集解剖T500加权的平面内扫描(TR = 256,TE = min,256 X 200,FOV = 5 mm,3 mm切片厚度)高分辨率SPGR图像(TR = 25,TE = 5、1.5毫米切片厚度,124切片)。

图像分析

Brainvoyager QX(Brain Innovations,Maastricht,荷兰)软件包用于执行成像数据的随机效应分析。 在分析之前,对原始图像执行以下预处理程序:3D运动校正,通过刚体变换,切片扫描时间校正(使用sinc插值),通过将所有体积空间对齐到第一体积来检测和校正小头部运动,线性趋势消除,高通时间滤波以消除3的非线性漂移或每个时间过程更少的周期,以及使用具有4mm FWHM的高斯核进行空间数据平滑。 对于此分析中包含的主题,估计的旋转和平移运动从未超过2mm。

通过对应点的对齐和手动调整将功能数据共同配准到解剖体积,以通过视觉检查获得最佳拟合,然后转化为Talairach空间。 在Talairach变换期间,将功能体素内插到1 mm的分辨率3 出于对齐目的,但统计阈值基于原始采集体素大小。 伏隔核和眼眶额叶皮质由全脑体素GLM定义,奖励作为主要预测因子(见下文),然后通过Talairach坐标结合参考Duvernoy脑图谱进行定位(塔莱拉赫和图尔诺(1988); Duvernoy,1991)。

使用由60(5运行X 12受试者)z-标准化功能运行组成的一般线性模型(GLM)对整个脑进行成像数据的统计分析。 主要预测因素是奖励结果中所有奖励概率的奖励(奖励与非奖励试验)。 通过卷积理想的boxcar响应(假设任务呈现量的值1和剩余时间点的0的体积)与血液动力学响应的线性模型获得预测器(Boynton等,1996并且用于在实验中构建每个时间过程的设计矩阵。 仅包括正确的试验,并为错误试验创建了单独的预测因子。 然后基于对预测变量的β权重的t检验进行关于感兴趣区域的事后对比分析。 使用AFNI内的AlphaSim程序运行蒙特卡罗模拟(考克斯,1996),分别根据眶额叶皮质和伏隔核的大约0.05 mm25,400和3 mm450的搜索量,确定适当的阈值以实现校正的α水平p <3。 使用从对比分析获得的显着活跃体素的事件相关平均,计算伏隔核和眶额皮质中MR信号相对于基线的变化百分比(紧接20秒试验前的间隔)。

全脑GLM基于每个受试者的50奖励试验(n = 12),对于整个实验中的总600无向试验,总共30试验和每个受试者的12非回报试验(n = 360)。 随后对奖励概率条件的对比包括不同数量的奖励和没有奖励试验。 对于100%奖励概率条件,对于总共6奖励试验而没有非进行试验,每个受试者(5)每次运行12奖励试验(360)。 对于66%奖励概率条件,对于总共4奖励试验和5无向试验,每个受试者(12)每次运行240奖励试验(120)。 对于33%奖励概率条件,对于总共2奖励试验和5非回报试验,每个受试者(12)每次运行(120)有240奖励试验(XNUMX)。

成果

行为数据

奖励概率和时间对任务的影响用3(33%,66%,100%)×5(运行1-5)重复测量方差分析(ANOVA)测试平均反应时间的因变量(RT) )和平均准确性。

奖励(F [2,22] =。12,p <.85)时间对任务(F [4,44] = 2.02,p <.14)或奖励概率X时间没有主要影响或交互作用平均准确率(F [8,88] = 1.02,p <.41)。 可以预期的是,在所有实验概率下,参与者的准确度都接近最高水平(33%条件= 97.2%; 66%条件= 97.5%; 100%条件= 97.7%)。

在平均RT上,奖励的概率与完成任务的时间(F [8,88] = 3.5,p <.01)之间存在显着的交互作用,但时间对任务的主要影响不存在(F [4,44] = .611 ,p <0.59)或奖励的可能性(F [2,22] = 2.84,p <0.08)。 重大交互作用的事后t测试显示,在实验的后期测试(第33次实验)中,100%和5%的奖励概率条件之间存在显着差异(t(11)= 3.712,p <.003),相对于100%条件(平均值= 498.30,sd = 206.23),对于33%奖励概率条件(平均值= 583.74,sd = 270.23)具有更快的平均RT。

100%和33%条件之间平均反应时间的差异从早期到晚期试验增加了两倍(见 图2a)。 为了进一步展示学习,我们引入了逆转,在实验结束时切换了33%和100%条件的奖励概率。 晚期试验的2(概率)X 2(逆转和非逆转)ANOVA显示出显着的相互作用(F(1,11)= 18.97,p = 0.001),RT降低至33%概率的条件。逆转中的非逆转(平均= 583.74,sd = 270.24)和100%(均值= 519.89,sd = 180.46)(图2b).

图2  

行为结果(RT)

成像结果

使用奖励概率作为主要预测因子的正确试验的GLM在受试者接受或不接受反馈(即结果)的点处建模。 该分析确定了NAcc的区域(x = 9,y = 6,z = -1和x = -9,y = 9,z = -1)和OFC(x = 28,y = 39,z = - 6)(见 图3a,b)。 奖励试验和非奖励试验的β权重之间的事后t检验显示,这两个区域的奖励激活率都更高(NAcc:t(11)= 3.48,p <0.01; OFC x = 28,y = 39,z = −6,t(11)= 3.30,p <0.02)1.

图3  

a)伏隔核(x = 9,y = 6,z = -1; x = -9,y = 9,z = -1)和b)眼眶额叶皮质的激励与非奖励结果的激活更强(x = 28,y = 39,z = -6)。

两个间歇性奖励计划有两种可能的结果(奖励或无奖励)(概率分别为33%和66%),而连续性奖励计划只有一种结果(奖励率为100%)用作比较条件。 尽管在上述的OFC中存在奖励的主要作用(奖励与无奖励试验),但在本研究中,OFC的活动并未随奖励概率的变化而变化[F(2,10)= 0.84,p = 0.46) 。 相反,NAcc表现出活动对结果的明显变化,这是奖励概率操纵的函数[F(2,10)= 9.32,p <0.005]。 具体来说,相对于预期(33%基准条件),奖励是意外的(100%奖励概率条件)时,NAcc活性增加以奖励结果[t(11)= 2.54,p <.03参见 图4a]。 其次,相对于未预期或未获得的奖励(66%的奖励概率条件; t(33)= 59,p),当预期没有得到奖励(2.08%的奖励概率条件)时,NAcc活动减少到没有奖励<.04;请参见 图4b)。 注意,在33%和66%奖励概率条件[t(11)=。510,p = .62]之间或66%和100%奖励概率条件之间的激活没有显着差异[t(11)=奖励结果中的1.20,p = .26]。 MR信号作为奖励结果和概率的函数显示在 图4.

图4  

MR信号的百分比随着奖励结果和核心概率的变化而变化,a)奖励和b)无奖励的结果。

讨论

本研究检查了预期奖励结果中的违规行为对伏隔和眶额叶皮质(OFC)行为和神经活动的影响,此前显示参与预期奖励结果(McClure等人2004; Knutson等,2005)。 我们发现伏隔核和OFC都是在奖励试验期间相对于非奖励试验招募的,但在本研究中,只有伏隔核对预测奖励结果的违规行为表现出敏感性。 在以前的工作中已经证明了相对于OFC,伏隔核对奖励值(例如,幅度)的敏感性更高(Galvan等人2005),这些研究结果表明,该区域可能参与计算奖励的幅度和概率。 OFC对这些操纵缺乏敏感性可能反映了结果中奖励或模糊性的更绝对表示(Hsu等人,2005)。 或者,由于MR信号在该区域中变化较大,因此在当前研究中这些影响可能已经减弱。

在动物的电生理学研究中,中脑中的多巴胺神经元(其投射到伏隔核)已被证明对预测的奖励结果几乎没有反应(概率= 1.0),但是当奖励以小于100递送时显示相位激发即使经过大量培训后,概率百分比(Fiorillo等,2003)。 在目前的研究中,当奖励意外(33%条件)相对于预期时间(100%条件)与这些发现一致时,我们表现出更大的伏地活动。 此外,动物多巴胺神经元的电生理学研究(例如, Fiorillo等,2003)已经表明,对于预测但未发生奖励的试验,神经元活动减少。 目前的研究显示伏隔核中存在类似的模式,相对于66%条件,33%奖励概率条件的非奖励试验中该区域的活动减少。2

多巴胺神经元以两种方式与学习有关。 首先,他们通过预测错误信号来编码刺激(或响应)与结果之间的意外事件,以预测违规行为(Schultz等,1997; Mirencowicz和Schultz,1998; Fiorillo等,2003)。 因此,预测误差似乎提供了对应于最初描述的学习原理的教学信号 Rescorla和Wagner(1972)。 其次,它们可以改变行为反应(Schultz等,1997; McClure等,2004)这样的行为偏向于最具预测性的线索。 在目前的研究中,我们表明,通过实验的后期试验,最佳表现是对于具有最高奖励概率(100%奖励概率)的条件和对于最低概率条件(33%奖励概率)最不理想的条件。 这种行为发现与之前的概率工作一致,表明奖励结果概率最低的最佳绩效,表明随着时间的推移学习奖励突发事件(Delgado等,2005)。 为了进一步展示学习,我们引入了逆转,在实验结束时切换了33%和100%条件的奖励概率。 这种操作导致这些条件之间差异的减弱进一步证实了学习效果。

奖励相关研究的一个主要目标是确定奖励如何影响和偏见行为(例如 Robbins和Everitt,1996; 舒尔茨,2004)除了表征潜在的神经处理。 许多因素有助于快速和有力地奖励影响行为,包括强化时间表(Skinner,1958),奖励价值(Galvan等,2005)和奖励可预测性(Fiorillo等,2003; Delgado等,2005)。 预期价值,即奖励的幅度和概率(Pascal,ca 1600s)的乘积,会影响行为选择(von Frisch,1967; Montague等,1995; Montague和Berns,2002)。 使用一个非常类似的任务,其中只有结果(幅度而不是概率)与当前研究不同,我们发现伏隔核对离散的奖励值敏感(Galvan等,2005)。 与此处和其他地方提供的证据一起使用(Tobler等,2005),我们认为腹侧纹状体可能有助于计算预期的奖励值,因为它对奖励概率和幅度都很敏感。

眼眶额叶皮层在奖励预测中的作用与该区域的功能细分一致 Kringelbach和Rolls(2004)。 他们认为OFC的更多前部和内侧部分对抽象奖励操作很敏感。 在该一般位置观察到该研究中的OFC活化。 电生理学研究暗示OFC编码奖励刺激的主观价值(供审查, O'Doherty,2004)。 例如,当动物饥饿时,OFC神经元会发出特定的味道,但一旦动物满足并且食物的奖励价值减少,它们的发放率就会降低(Critchley和Rolls,1996)。 因此,其他人建议OFC对相对奖励最敏感(Tremblay和Schultz,1999)和奖励偏好(Schultz等,2000)。 神经影像学研究显示人类具有多种刺激,包括味觉的类似模式(O'Doherty等,2001; Kringelbach等,2003),嗅觉(Anderson等,2003; Rolls等,2003)和钱(Elliott等,2003; Galvan等,2005),每次激活在从前到后和从内侧到外侧OFC的活动位置变化。 OFC与预期奖励有牵连(O'Doherty等人2002),但只有在响应的预测值与特定值相关联的情况下 折扣值 相关奖励,而不是奖励发生的概率(O'Doherty,2004 )。 在目前的研究中,我们没有看到对OFC中奖励预测的违规行为的敏感性。 Knutson及其同事(2005) 已经报告了预测中间前额叶皮层奖励的概率估计和大脑激活之间的相关性(Knutson等人2005),但不是特别在眼眶额叶皮层。 相反, Ramnani等人(2004 )使用被动观察任务报告OFC对内侧眶额叶皮层正向预测误差的敏感性 Dreher等人。 (2005) 在一项操纵预测线索的概率和幅度的任务中报告OFC误差预测,但这些突发事件是在扫描之前学习的。 因此OFC仍然可以计算预测的奖励,但是这些计算可能比较粗糙(即在一系列概率上求和)或相对于看似在NAcc中出现的精确计算而言较慢。 或者,该区域在检测不确定和/或模糊值的刺激时可能更敏感,如提出的那样 Hsu等人(2005),而不是检测奖励预测中的违规行为。 Hsu等人(2005) 表明选择中的模糊程度(由于缺少信息而做出的不确定选择)与OFC中的激活正相关。 最后,该区域中MR信号的较大可变性可能也降低了我们检测这些效应的能力。

当前研究的基本问题是伏隔和OFC如何差异编码预测相对于不可预测结果的奖励结果(即预期违规)。 我们参数化地操纵了奖励的概率,并检查了对每个概率奖励条件的奖励和非奖励试验的神经反应。 我们的数据与之前的人体成像和非人体电生理研究一致(Fiorillo等,2003; 舒尔茨,2002并且建议伏隔核和OFC对奖励结果敏感(奖励与否)。 然而,这些地区的活动,特别是伏隔核,似乎受到关于随着时间的推移学习形成的奖励结果的可能性的预测的调节。 这种动态激活模式可能代表对这些区域内的多巴胺活动的修改或投射到这些区域,因为有关预测奖励的信息被学习和更新。

脚注

1NAcc [t(11)= 3.2,p <0.04]和OFC [t(11)= 3.5,p <0.02]显示了在预期间歇性奖励而不是连续奖励条件下活动增加

2在33%条件下省略奖励结果导致NAcc活动略有增加而不是减少的一个,类似于观察到的 Knutson等,2001。 对这一结果的一种可能解释是,如果受试者预测该试验不会得到任何奖励,那么受试者就会受到内在动机或奖励。 或者,由于这些试验的奖励结果在整个实验中数量最少,因此该活动可能反映了对这种情况的持续学习。

发布者的免责声明: 这是未经编辑的手稿的PDF文件,已被接受发布。 作为对我们客户的服务,我们正在提供该手稿的早期版本。 在以最终的可引用形式发布之前,稿件将进行复制,排版和审查。 请注意,在制作过程中可能会发现可能影响内容的错误,以及适用于该期刊的所有法律免责声明。

参考资料

  • Anderson A,Christoff K,Stappen I,Panitz D,Ghahremani D,Glover G,Gabrieli JD,Sobel N.人类嗅觉中强度和效价的分离神经表示。 自然神经科学。 2003;6:196-202。
  • Berns GS,McClure SM,Pagnoni G,Montague PR。 可预测性调节人类大脑对奖励的反应。 神经科学杂志。 2001;21:2793-2798。 [考研]
  • Boynton GM,Engel SA,Glover GH,Heeger DJ。 人类V1功能磁共振成像的线性系统分析。 神经科学杂志。 1996;16:4207-4221。 [考研]
  • 考克斯RW。 AFNI:用于功能性磁共振神经图像分析和可视化的软件。 生物医学研究中的计算。 1996;29:162-173。
  • Cox SM,Andrade A,Johnsrude IS。 学会喜欢:人类眶额皮质在条件奖励中的作用。 神经科学杂志。 2005;25:2733-2740。 [考研]
  • Craig AD,Chen K,Bandy D,Reiman EM。 岛状皮质的热感觉激活。 自然神经科学。 2000;3:184-190。
  • Critchley HD,Rolls ET。 饥饿和饱腹感改变了灵长类动物眶额皮质中嗅觉和视觉神经元的反应。 神经生理学杂志。 1996;75:1673-1686。 [考研]
  • De Araujo IET,Kringelbach ML,Rolls ET,McGlone F.人体皮质对口腔水的反应,以及口渴的影响。 神经生理学杂志。 2003;90:1865-1876。 [考研]
  • Delgado MR,Miller M,Inati S,Phelps EA。 关于奖励相关概率学习的fMRI研究。 影像学。 2005;24:862-873。 [考研]
  • Dreher JC,Kohn P,Berman KF。 人类奖励信息的不同统计特性的神经编码。 大脑皮质。 2005 Epub提前打印。
  • Elliott R,Newman JL,Longe OA,Deakin JFW。 纹状体和眶额皮质中的差异反应模式对人类的经济回报:参数功能磁共振成像研究。 神经科学杂志。 2003;23:303-307。 [考研]
  • Fiorillo CD,Tobler PN,Schultz W.多巴胺神经元对奖励概率和不确定性的离散编码。 科学。 2003;299:1898-1902。 [考研]
  • Galvan A,Hare TA,Davidson M,Spicer J,Glover G,Casey BJ。 腹侧前纹状体电路在人类基于奖励的学习中的作用。 神经科学杂志。 2005;25:8650-8656。 [考研]
  • Galvan A,Hare TA,Parra C,Penn J,Voss H,Glover G,Casey BJ。 伏隔核相对于眶额皮质的早期发展可能是青少年冒险行为的基础。 神经科学杂志。 2006;26:6885-6892。 [考研]
  • Gottfried JA,O'Doherty J,Dolan RJ。 编码人类杏仁核和眶额皮质的预测奖励值。 科学。 2003;301:1104-1107。 [考研]
  • 哈伯SN。 灵长类动物基底神经节:平行和整合网络。 化学神经解剖学杂志。 2003;26:317-330。 [考研]
  • Hollerman J,Schultz W. Dopamine神经元报告学习期间奖励的时间预测中的错误。 自然神经科学。 1998;1:304-309。
  • Hsu M,Bhatt M,Adolphs R,Tranel D,Camerer CF. 神经系统响应人类决策的不确定性程度。 科学。 2005;310:1680-1683。 [考研]
  • Knutson B,Adams CM,Fong GW,Hommer D.预期增加金钱奖励有选择地招募伏隔核。 神经科学杂志。 2001;21:1-5。
  • Knutson B,Taylor J,Kaufman M,Peterson R,Glover G.分布式预期值的神经表示。 神经科学杂志。 2005;25:4806-4812。 [考研]
  • Kringelbach ML,O'Doherty J,Rolls ET,AndrewsC。人眼额叶皮层对液态食物刺激的激活与其主观愉悦性相关。 大脑皮质。 2003;13:1064-1071。 [考研]
  • Kringelbach ML,Rolls ET。 人类眶额皮层的功能性神经解剖学:神经影像学和神经心理学的证据。 神经生物学的进展。 2004;72:341-372。 [考研]
  • Leon MI,Shadlen MN。 预期奖励幅度对猕猴背外侧前额叶皮层神经元反应的影响。 神经元。 1999;24:415-425。 [考研]
  • McClure SM,Berns GS,Montague PR。 被动学习任务中的时间预测误差激活人类纹状体。 神经元。 2003;38:339-346。 [考研]
  • McClure SM,Laibson DI,Loewenstein G,Cohen JD。 独立的神经系统重视即时和延迟的货币奖励。 科学。 2004;306:503-507。 [考研]
  • Mirenowicz J,Schultz W.灵长类多巴胺神经元中奖励反应的不可预测性的重要性。 神经生理学杂志。 1994;72:1024-1027。 [考研]
  • Montague PR,Berns GS。 神经经济学和估值的生物学基础。 神经元。 2002;36:265-284。 [考研]
  • Montague PR,Hyman SE,Cohen JD。 多巴胺在行为控制中的计算作用。 的性质。 2004;431:379-387。
  • O'Doherty JP。 人脑中的奖励表示和与奖励相关的学习:来自神经影像学的见解。 神经生物学的当前观点。 2004;14:769-776。 [考研]
  • O'Doherty JP,Dayan P,Friston K,Critchley H,Dolan RJ。 人脑中的时间差异模型和与奖励相关的学习。 神经元。 2003;38:329-337。 [考研]
  • O'Doherty JP,Deichmann R,Critchley HD,Dolan RJ。 预期主要味觉奖励期间的神经反应。 神经元。 2002;33:815-826。 [考研]
  • O'Doherty J,Kringelbach M,Rolls ET,Hornak J,AndrewsC。人类眶额皮质中的抽象奖赏和惩罚表示。 自然神经科学。 2001;4:95-102。
  • O'Doherty J,Rolls ET,Francis S,Bowtell R,McGlone F,Kobal G,Renner B,Ahne G.人类眶额皮层的感官特异性饱腹感相关嗅觉激活。 “神经。 2000;11:893-897。 [考研]
  • Olds J,Milner P.通过电刺激隔膜区域和大鼠脑的其他区域产生的正强化。 比较生理学与心理学杂志。 1954;47:419-427。
  • Ramnani N,Elliott R,Athwal B,Passingham R.预测人类前额叶皮层免费金钱奖励的错误。 神经成像。 2004;23:777-786。 [考研]
  • Rescorla R,Wagner A. In: 经典调节2:当前的研究和理论。 Black A,Prokasy W,编辑。 Appleton Century-Crofts; 纽约:1972。 pp.64-69。
  • Robbins TW,Everitt BJ。 神经行为的奖励和动机机制。 当前对神经生物学的看法。 1996;6:228-235。
  • Rolls E,Kringelbach M,DeAraujo I.人类大脑中令人愉快和令人不快的气味的不同表现形式。 欧洲神经科学杂志。 2003;18:695-703。 [考研]
  • Schultz W,Dayan P,Montague PR。 预测和奖励的神经基质。 科学。 1997;275:1593-1599。 [考研]
  • Schultz W,Tremblay L,Hollerman JR。 灵长类动物眶额皮质和基底神经节的奖励处理。 cereb皮质。 2000;10:272-284。 [考研]
  • Schultz W.正式获得多巴胺和奖励。 神经元。 2002;36:241-263。 [考研]
  • Schultz W.动物学习理论,博弈论,微观经济学和行为生态学的基本奖励术语的神经编码。 神经生物学的当前观点。 2004;14:139-147。 [考研]
  • Skinner BF。 图表加固计划。 行为实验分析。 1958;1:103-107。
  • Sutton RS,Barto AG。 强化学习:简介。 MIT出版社; 马萨诸塞州剑桥:1998。
  • Schultz W,Tremblay L,Hollerman J.奖励处理灵长类眶额皮质和基底神经节。 大脑皮质。 2000;10:272-284。 [考研]
  • Talairach J,Tournoux P. 人脑的共面立体定位图谱。 THIEME; 纽约:1988。
  • Tobler PN,Fiorillo CD,Schultz W.多巴胺神经元的自适应编码奖励值。 科学。 2005;307:1642-1645。 [考研]
  • Tremblay L,Schultz W.灵长类动物眶额皮质的相对奖励偏好。 的性质。 1999;398:704-708。 [考研]
  • 冯弗里施K. 舞蹈语言与蜜蜂的定位。 哈佛大学出版社; 马萨诸塞州剑桥:1967。