多巴胺不确定性和TD学习(2005)

评论:不确定性意味着新颖性。 这项复杂的研究证实,新颖性会增加多巴胺。 这也说明,奖励越不确定,学习就越强。 网络色情与过去的色情有所不同,因为它具有无限的新颖性-这意味着多巴胺会不断喷出。 成瘾的核心是学习和记忆。 由于不确定您将要体验的内容,切换到新颖的色情类型会激活多巴胺和学习。 当色情用户上网搜索色情内容时,也会出现不确定性。 您不知道自己将要看到什么,而这会增加多巴胺。
新奇,不确定,并寻求所有激活多巴胺

全面研究:多巴胺不确定性和TD学习

行为和脑功能2005, 1:6doi:10.1186/1744-9081-1-6

Yael Niv1,2,Michael O Duff2和Peter Dayan2
1神经计算跨学科中心,希伯来大学,耶路撒冷,以色列
英国伦敦大学学院2 Gatsby计算神经科学部
本文的电子版是完整的,可在线访问:http://www.behavioralandbrainfunctions.com/content/1/1/6
©2005 Niv等; 被许可人BioMed Central Ltd.

抽象

大量证据表明灵长类动物中脑中多巴胺能神经元的阶段性活动代表了未来奖励预测的时间差异(TD)误差,分别在正负预测误差的基础上增加高于和低于基线。 然而,多巴胺细胞具有非常低的基线活性,这意味着这两种错误的表示是不对称的。 我们探讨了这种看似无害的不对称性对于概率奖励实验中多巴胺能射击模式解释的影响,这些实验带来了持续的预测错误。 特别地,我们表明,当在试验中平均非平稳预测误差时,多巴胺神经元活动的斜率应该是明显的,其大小取决于学习速率。 在最近的实验中观察到了这种确切的现象,尽管在对映术语中将其解释为不确定性的试验内编码。

介绍

关于猴子,大鼠和人类中脑中多巴胺能(DA)细胞的阶段性活动,在涉及对未来奖励的预测[1-5]的经典和仪器调节任务中,存在令人印象深刻的大量生理,成像和精神药理学数据。 已经采用这些数据来建议[6,7] DA神经元的活动表示未来奖励[8,9]的预测中的时间差异(TD)误差。 这种多巴胺TD理论为理解大量行为和神经数据提供了精确的计算基础。 此外,它表明DA提供的信号在理论上适合于控制预测和奖励优化行动的学习。

一些支持TD理论的最有说服力的证据来自于调查多巴胺细胞的阶段激活以响应任意刺激(例如监视器上的分形图案)的研究,这些刺激预测奖励的近似可用性(例如果汁滴) 。 在许多变体中,这些已经表明,通过训练,相位DA信号从最初不可预测的奖励时间转移到最早提示预测奖励的时间。 这正是基于时间差的预测误差的预期结果(例如[1,2,10-13])。 基本发现[7]是当奖励意外(在早期试验中不可避免)时,多巴胺细胞对其反应强烈。 但是,当预测到奖励时,细胞会对预测变量作出响应,而不会响应现在预期的奖励。

如果意外地省略了预测的奖励,则在奖励的正常时间对细胞进行相位抑制, 这种抑制作用揭示了奖励预测的准确时机[10],其时间指标目前处于法医关注的焦点[14]。 活动从奖励时间到预测变量时间的转变类似于动物的食欲行为反应从奖励时间(无条件刺激)到有条件刺激的行为向经典条件实验的转变[7,10] 。

在最近一项最有趣的研究中,Fiorillo等人。 [15]研究了部分强化的情况,其中每次试验都存在持久的,不可避免的预测误差。 对TD预测误差假设的直接解释表明,在这种情况下(a)预测刺激时的多巴胺活性将随着奖励的概率而缩放,并且(b)在试验中的平均值,刺激后的多巴胺能反应并且一直到奖励的时间,应该是零。 虽然第一个假设在实验中得到证实,但第二个假设没有。 审前平均回应显示刺激开始与奖励之间的延迟期间活动明显增加,这似乎与道明交易账户不一致。 Fiorillo等。 假设此活动代表奖励交付的不确定性,而不是预测错误。

在本文中,我们访问了持久预测错误的问题。 我们表明,正负预测误差编码中的一个关键不对称性导致人们预期试验中平均多巴胺信号的波动, 并且还很好地说明了DA信号的两个进一步的特征 - (潜在的)奖励时的明显持续活动,以及斜坡信号的消失(或至少减弱),但不是奖励时的信号, 面对微量而不是延迟调理。 在Morris等人的相关仪器调节实验中也观察到这两种现象。 [16]。 最后,我们将斜坡信号解释为目前可获得的最佳证据,用于学习机制的性质,通过该机制,多巴胺活性向预测刺激发生的时间发生变化。

奖励发生的不确定性:DA升级

Fiorillo等。 [15]将对猕猴的五种不同视觉刺激的表现与果汁奖励的延迟,概率性(pr = 0、0.25、0.5、0.75、1)传递相关联。 他们使用了延迟条件范式,其中刺激持续2s的固定时间间隔,当刺激消失时会提供奖励。 训练后,猴子的预期舔行为表明他们知道与每种刺激有关的不同回报概率。

图1a显示了每种细胞外细胞外记录的DA细胞活性的群体直方图。 TD理论预测,在视觉刺激时DA细胞的阶段性激活应该与平均预期奖励相对应,因此应该随着pr增加。 图1a正好显示了这一点 - 事实上,在整个人口中,增长是非常线性的。 莫里斯等人。 [16]在仪器(跟踪)调节任务中报告了类似的结果,也包括概率强化。

图1。 概率奖励任务中的平均预测误差
(a)具有不同奖励概率的试验中的DA响应。 群体周围刺激时间直方图(PSTH)显示了在许多试验中,几个DA神经元的加标加总活动,对于每个pr,在中等概率下汇总了有奖励和无酬的试验。 (b)具有非对称缩放的TD预测误差。 在模拟任务中,在每个试验中,随机选择五种刺激中的一种,并在时间t = 5时显示。在t = 25时关闭刺激,这时将给予奖励,刺激的概率为pr。 我们使用了刺激的抽头延迟线表示形式(见文本),每个刺激都由一组不同的单位(“神经元”)表示。 TD误差为δ(t)= r(t)+ w(t – 1)•x(t)– w(t – 1)•x(t – 1),其中r(t)在时间t得到奖励,以及x(t)和w(t)的状态和权重向量。 使用具有固定学习率α的标准在线TD学习规则,即w(t)= w(t – 1)+αδ(t)x(t – 1),因此每个权重代表一个预期的未来奖励值。 与Fiorillo等类似,我们描述了任务学习后在许多试验中平均得到的预测误差δ(t)。 尽管学习是根据未缩放的误差进行的,但在对模拟PSTH进行求和之前,由于δ(t)的负值已按d = 1/6进行缩放,因此出现了表示不对称。 最后,考虑到在(a)中看到的pr = 0刺激时和在pr = 1的(预测)奖励时出现小的积极响应,我们假设a的可能性很小(8%)预测性刺激措施被错误识别。 (c)pr = 0.5试验中的DA反应,分为奖励试验(左)和未奖励试验(右)。 (d)(c)的TD模型。 (a,c)经[15]©2003 AAAS许可转载。 所有其他用途均需获得AAAS的许可。

相比之下,在潜在的奖励交付时,TD理论预测平均而言应该没有活动,因为平均而言,当时没有预测错误。 当然,在概率强化设计中(至少对于pr≠0,1),实际上在每次试验中在递送或未递送奖励时存在预测误差。 在提供奖励的试验中,预测误差应为正(因为获得的奖励大于预期的平均奖励)。 相反,在没有奖励的试验中,它应该是负面的(见图1c)。 至关重要的是,在TD下,这些差异的平均值,由它们发生的概率加权,应该为零。 如果它不为零,则该预测误差应当作为可塑性信号,改变预测直到没有预测误差。 与此预期不一致,图1a中的数据在奖励和未奖励试验中取平均值,表明此时实际上存在正平均活动。 这在Morris等人的数据中也很明显。 [16](见图3c)。 即使经过大量培训(在几个月内),积极的DA反应也没有显示出消失的迹象。

对于TD模型来说更糟糕的是,而且确实是Fiorillo等人的焦点。 [15],是DA活动明显增加到预期的奖励时间。 由于pr = 0.5的斜坡幅度最大,Fiorillo等人。 建议它报告奖励传递的不确定性,而不是预测误差,并推测这个信号可以解释不确定性的明显食欲性质(如赌博中所见)。

升级活动和预期奖励时间的活动都对TD理论构成了严峻挑战。 TD学习通过在试验中一次安排DA活动来进行操作,以通过该试验中较早提供的提示进行预测。 因此,目前尚不清楚任何看似可预测的活动,无论是在奖励时还是在之前的坡道中,都可以持续存在而不会被视觉刺激的开始预测消失。 毕竟,响应刺激的pr依赖性活动证实了其作为有效预测因子的状态。 此外,TD [17]的一个关键方面是,它通过使用状态值作为该状态可用的未来奖励的指示,并将其作为行动目标的吸引力,将预测与行动选择结合起来。 从这个角度来看,由于早期提示明确没有预测斜坡活动,因此它不能影响早期行动,例如赌博决定。 例如,考虑两种行为之间的竞争:一种最终导致具有确定性奖励的状态,因此没有斜坡,另一种导致一种状态,然后是具有相同均值的概率奖励,以及斜坡。 由于斜坡不会影响条件刺激时的活动,因此尽管存在额外的不确定性,但它不能用于评估或支持第一动作(赌博)。

我们建议另一种假设,即这两种异常发射模式都直接来自DA神经元的低基线活动率(2-4 Hz)对符号预测误差编码所暗示的约束。 如Fiorillo等人所述。 [15],正预测误差由基线以上的~270%的放电率表示,而负误差由低于基线的~55%的降低表示(也参见[14,18])。 这种不对称性是通过具有低基线的射击编码有符号数量的直接结果,但显然,只能是正数。 高于基线的射击速率可以通过使用大的动态范围来编码正预测误差,然而,低于基线射击速率只能降至零,对负预测误差的编码施加限制。

因此,必须谨慎地解释不同试验中活动的刺激时间-直方图(PSTH)的总和(或平均值),如图1a所示。 即使收到或未收到奖励时,非对称编码的正和负误差信号的确不应该总计为零,即使它们表示正确的TD预测误差也是如此。 总计后,代表未奖励试验中的负错误的低触发不会“抵消”奖励试验中编码为正错误的快速触发,并且总体而言,平均值将显示积极响应。 当然,在大脑中,响应不是在(有奖和无奖)试验中求平均,而是在试验中的神经元上求平均值,因此这不会造成问题。

这解释了在交付或未交付奖励时持续的积极活动(平均)。 但是在此之前的坡道呢? 至少在刺激和奖励之间的时间的某些神经表示中,当试验被平均时,这种相同的不对称性导致TD恰好在奖励时间的活动斜坡中产生。 TD学习机制具有在逐个试验的基础上传播在试验中(例如在奖励时)对潜在预测因子(例如CS)产生的预测误差的影响。在每次试验中的较早时间。 在我们刚刚讨论的正负预测误差的不对称表示下,在多次试验中平均这些传播误差(如图1a)将导致在奖励之前的试验中的时期的积极手段。 所产生的活动斜坡的精确形状取决于刺激随时间表示的方式以及学习速度,如下面将讨论的。

图2说明了这种斜坡活动起源的视图。 在这里,使用了自刺激以来的时间的延时线表示。 为此,每个单位(“神经元”)在提出刺激后的某个滞后都处于活动状态(即,假设值为1),因此刺激发生后的每个时间步长都由一个单位的发射来表示。 学习基于(多巴胺报告的)TD误差,形式为δ(t)= r(t)+ V(t)– V(t – 1),其中V(t)来自活动单位的加权输入为时间t和r(t)在时间t获得的奖励。 根据具有固定学习率的标准TD更新规则更新单位的权重,可以使V(t)平均代表预期的未来奖励(请参见图1标题)。 由于每个后续时间步都是独立表示的,因此在试验期间的任何时间都可能出现TD预测错误。 图2a在pr = 0.5的六个连续模拟试验中显示了这些误差。 在每个试验中,在收到奖励时或接收到未收到奖励时,都会出现新的正错误或负错误,并且逐步将先前试验中的错误传播到刺激时,直至权重的不断更新(例如,错误以红色突出显示)。 当对试验进行平均(或用PSTHs求和)时,这些误差平均会相互抵消,从而在刺激发作后的间隔中产生总体平坦的直方图,并导致奖励时间的出现(图中的黑线) 2b,将10个试验结果汇总为蓝色)。 但是,当负误差的不对称缩放比例为d = 1/6(模拟DA神经元对正负预测误差的不对称编码)求和后,会出现活动的正斜率,如黑线所示在图2c中。 请注意,由于对低基线点火率编码负值的约束,这种重新缩放只是一个代表性问题,并且不应影响权重的学习,以免学习错误的值(请参见讨论)。 但是,由于PSTH直接是神经元尖峰的总和,因此该代表性问题会影响到所得的直方图。

图2。 预测误差的反向传播解释了斜坡活动。
(a)来自图1b中的模拟的六次连续试验(从上到下)中的每一次的TD预测误差,其中pr = 0.5。 以红色突出显示的是第一次试验中奖励时的误差,以及随后试验中刺激时间的逐渐反向传播。 大写字母表示每个特定试验的结果(R =奖励; N =未奖励)。 这些试验之前的奖励顺序在右上方给出。 (b)这六项试验的TD错误,以及其后四项试验的错误叠加。 红线和绿线表示这些试验中错误的包络。 对这些试验进行求和导致平均没有高于基线的活动(黑线),因为正和负误差在随机50%的时间发生,因此相互抵消。 (c)然而,当预测误差在基线点火率之上和之下不对称地表示时(此处负误差由d = 1 / 6非对称地缩放以模拟DA神经元的预测误差的不对称编码),平均增加活动在对试验进行平均时出现,如黑线所示。 所有模拟参数与图1b,d中的相同。

图1b,d显示了由非对称编码和试验间平均的组合产生的斜坡,用于与实验数据进行比较。 图1b显示了通过对每种刺激类型的~50试验中的非对称表示的δ(t)信号求平均而从我们的模拟数据计算的PSTH。 图1d显示了pr = 0.5案例的结果,分为奖励和未奖励试验,以便与图1c进行比较。 模拟结果与实验数据密切相似,因为它们复制了对不确定奖励的净正响应,以及在pr = 0.5情况下最高的斜坡效应。

根据具有简化抽头延迟线时间表示的TD学习规则得出试验T中的奖励(t = N)时的平均响应(即,平均TD误差δT(N))是简单的。固定学习率α。 作为试验编号(初始值为零)的函数,试验中倒数第二个时间步的值是

其中r(t)是试验t结束时的奖励。 在试验T的最后一个时间步上的错误信号只是获得的奖励r(T)与预测奖励VT – 1(N – 1)的值之间的差。 该误差的概率为pr为正,而概率为(1 – pr)则为负。 将负误差按因子d∈(0,1]进行缩放,我们得到

对于正和负误差的对称编码(d = 1),平均响应是0。 对于非对称编码(0 跟踪调节:一个测试用例

Fiorillo等人[15]任务的变体,以及Morris等人的类似工具性任务,都为我们的解释提供了一个重要的测试案例。 [16],都涉及痕量条件。 与延迟调节(图3a)(奖励与预测刺激的偏移量一致)相反,此处预测刺激的偏移与奖励的传递(图3b)之间存在较大的差距。 显然,在这种情况下,由于在刺激和奖励之间的时间间隔上存在噪音,奖励的不确定性只会变得更大[19],因此在不确定性的考虑下,应该有可比甚至更大的斜率。 但是,实验结果表明,斜坡活动较小,甚至可以忽略不计(图3c; d)。 但是,请注意,在预期的奖励时间,试验平均活动的数量保持不变,这表明坡道的高度与预期的奖励时间的积极活动量之间存在分离关系。

图3。 使用概率奖励进行跟踪调节。
(a)Fiorillo等人的延迟调节任务的一项试验的说明。 [15]。 一项试验包含2秒的视觉刺激,如果根据与视觉提示相关的概率对这种奖励进行了编程,则其偏移量与果汁奖励的传递相吻合。 在无奖励的试验中,刺激无偿终止。 在这两种情况下,平均9秒的审判间隔将试验分开。 (b)Morris等人的痕量调节任务的一项试验的说明。 [16]。 关键的区别在于,在刺激的抵消与奖励的出现(“痕迹”期间)之间现在存在较大的时间延迟,并且没有外部刺激指示奖励的预期时间。 由于必须在内部解决预期奖励的准确时间,因此特别是在无奖励的试验中,这会带来更多不确定性。 在这项任务中,如[15]所示,在每个试验中都提供了几种视觉刺激(未显示)之一,并且每种刺激都与奖励的可能性相关联。 同样,在这里,猴子被要求进行器械反应(按下对应于刺激的那一侧的键),其失败会终止试验而没有奖励。 通过可变的审判间隔将审判分开。 (c,d)在奖励试验(c)和无酬试验(d)中,在预期的奖励时间附近,相对于基线的DA放电率(平滑)。 (c,d)经Elsevier许可,从[16]©2004转载。 迹线暗示了在预期的奖励时间总体上积极的反应,但是在此之前很小或没有斜坡。 在[15]中简要描述的经典条件处理任务中获得了相似的结果,该任务采用了跟踪条件处理程序,证实了跟踪周期而不是(b)中描述的任务的工具性质是与(a)的关键区别。 。

DA的TD模型很容易解释这些令人费解的数据。 如图4所示,坡道的形状虽然不是其高峰,但受学习速度的影响。 反向传播预测误差的大小部分地由学习速率确定,因为这些误差作为新预测的在线学习的一部分而出现。 实际上,预测的持续更新使得在奖励试验之后,对奖励的期望更高(因此下一个奖励产生更小的预测错误),相反,在无奖励试验之后[18](见图) 2a)。 预测的这种更新与学习速率直接相关 - 学习速率越高,根据当前预测误差的预测更新越大,并且传播回的预测误差的分数越大。 通过这种方式,学习率越高,奖励与无奖励试验后的预期差异将越大,因此下一次奖励可用或不可用时的预测误差将更大 - 因此更大且更渐进的斜坡。

图4。 斜坡对学习率的依赖性。
坡道的形状,但不是其高峰的高度,取决于学习率。 该图显示了对于不同学习率,在预期奖励时间附近的pr = 0.5的情况下的模拟活动,对于奖励和未奖励试验的平均值。 根据具有持续不对称编码预测误差的TD学习,对奖励和未奖励试验中的活动进行平均导致累积到奖励时间。 斜坡峰值的高度由奖励和未奖励试验的比率决定,然而,斜坡的宽度由这些误差信号从(预期)奖励时间的反向传播速率决定。预测刺激的时间。 较高的学习速率导致较大部分的误差传播回来,因此斜率较高。 虽然学习率较低,但匝道变得可以忽略不计,尽管奖励时的积极活动(平均)仍然保持不变。 请注意,尽管图1b中描述的模拟中使用的学习率d是0.8,但考虑到我们对刺激的示意图,这不应被视为神经基质的字面突触学习率。 在更真实的表示中,每个时间步长的神经元群体都是活跃的,更低的学习率将产生类似的结果。

实际上,与延迟调节相比,微量调节是非常慢的,这表明学习速率很低,因此应该有一个较低的斜率,与实验结果一致。 直接检查Morris等人的数据中的学习率。 [16],其任务需要过度训练,因为它不仅是一个微调条件,而且还涉及一个工具行动,证实它确实非常低(Genela Morris - 个人通信,2004)。

讨论

在所有相位DA信号的研究中,DA神经元的正值和负值的差异编码是明显的,并且可以被认为是这些神经元的低基线活性的不可避免的结果。 事实上,后者直接激发了一个建议,即对手神经递质,假定血清素,参与表示并因此学习负面预测误差[20],这样他们也有完整的四分之一。 然而,在这里,我们仅限于考虑不对称对多巴胺活性的试验平均分析的影响,并且已经表明DA活动的增加以及奖励时的平均阳性反应直接来自预测误差的不对称编码。

除了更清楚地看到误差信号之外,新解释的最重要结果是斜坡可以被视为迄今为止极其难以捉摸的TD现象的标志。 这是由DA活动表示的误差信号的渐进反向传播,从奖励时间到预测器时间(图2a)。 大多数先前对多巴胺能活性的研究使用了pr = 1,因此这种反向传播充其量只是在训练开始时(通常情况下,记录尚未开始)时出现的短暂现象,并且很可能难以辨别 - 发射DA神经元。 此外,如上所述,反向传播取决于表示预测刺激和奖励之间的时间的方式 - 它与[6]中的抽头延迟线表示一样,但不适用于跨越整个时间的表示延迟,例如在[21]中。 注意,斜坡的形状还取决于合格迹线的使用和所谓的TD(λ)学习规则(模拟未示出),其提供用于在学习期间的事件之间桥接时间的附加机制。 不幸的是,由于数据中斜坡的形式相当可变(图1)并且噪声很大,因此它们不能对大脑使用的精确TD机制提供强大的约束。
最近涉及持续预测误差的研究也显示出反向传播的活动,特别是[4]的图13。 在这项研究中,预测误差是由任务的周期性变化引起的,并且DA记录是从训练开始时进行的,因此反向传播样活动是直接明显的,尽管这种活动没有量化。

我们预计只有在学习进度不会降低到零时,学习才能在整个训练过程中持续存在。 Pearce&Hall [22]的关于通过不确定性控制学习的理论恰恰表明了学习的这种持久性–并且有部分强化时间表的证据表明,当与奖励相关的不确定性更大时,学习率可能更高。 确实,从“理性”的统计观点来看,当预测因素与结果之间的关系存在很大的不确定性时,学习就应该持续下去,这可能是由于预测关系不断变化的可能性所致。 这种形式的持续性不确定性以及由于对任务的最初无知而导致的不确定性已被用于形式化Pearce&Hall关于不确定性推动学习方式的理论[23]。 因此,我们认为不确定性可能不会直接由斜坡表示的主张,当然不应认为不确定性的表示和操纵并不重要。 相反,我们建议不确定性会影响皮层推理和通过其他神经调节系统的学习[24],并且它还可能决定动作选择的各个方面[25]。

应注意不对称的各种其他特征。 最关键的是不依赖性对DA依赖性学习[26]的影响,如果低于基线的DA活动本身对减少过高的预测负责。 为了确保所学习的预测保持正确,我们将不得不假设不对称表示不影响学习,即,诸如用于增强和抑制突触强度的不同缩放的机制补偿不对称误差信号。 当然,如果对手神经递质参与从负面预测误差中学习,这将变得没有实际意义。 拜耳[14]的建议使得这一问题变得复杂,DA的发射率对于低于某个负阈值的所有预测误差实际上是相似的,可能是由于低点火率的地板效应。 这种有损编码不影响试验间平均对斜坡出现的影响的定性图像,但确实增强了对必要对称学习的对手信号的需要。

最后,对我们的解释最直接的检验将是比较DA信号的试验内和试验间平均。 重要的是以时间复杂的方式进行此操作,以避免平均非平稳信号的问题。 为了克服神经激发中的噪音,并确定试验中是否确实存在渐变,或者,正如我们所预测的那样,间歇性正负预测误差,有必要对在同一时间同时记录的许多神经元进行平均一项试验,以及与类似学习率相关的神经元。 或者,可以将单个神经元迹线针对其先前试验和TD学习预测的反向传播反应进行回归。 用这种模型解释的可变性数量与通过对活动的单调斜率进行回归得到的可变性相比,可以得出最合适的模型。 一个不太直接但更可检验的预测是,坡道的形状应取决于学习率。 可以根据对概率奖励的响应来评估学习率,而与坡道的形状无关(Nakahara等人[18]以这种方式表明,在他们的局部钢筋跟踪条件任务中,学习率是0.3),并且可以通过改变培训量或更改或重新学习任务的频率来进行操纵。 实际上,对Nakahara等人记录的DA活动中斜坡的存在和形状进行量化,可以很好地阐明当前的提议。

相互竞争的利益
作者声明他们没有竞争利益。

作者的贡献
YN,MD和PD共同构思并执行了这项研究,并帮助起草了手稿。 所有作者阅读并认可的终稿。

致谢
我们非常感谢H. Bergman,C。Fiorillo,N。Daw,D。Joel,P。Tobler,P。Shizgal和W. Schultz的讨论和评论,在某些情况下尽管对数据有不同的解释。 我们特别感谢Genela Morris分析她自己发布和未发布的与斜坡有关的数据。 这项工作由EC主题网络(YN),Gatsby慈善基金会和欧盟BIBA项目资助。

参考资料

1. Ljungberg T、Apicella P、Schultz W:行为反应学习过程中猴子多巴胺神经元的反应。
Journal Neurophysiol 1992,67:145-163。
回到文本
2. Schultz W:多巴胺神经元的预测奖励信号。 [http://jn.physiology.org/cgi/content/full/80/1/1] 网站引用
神经生理学杂志1998,80:1-27。 PubMed摘要
回到文本
3. O'Doherty J、Dayan P、Friston K、Critchley H、Dolan R:人脑中的时间差异模型和奖励相关学习。
Neuron 2003,38:329-337。 PubMed摘要| 出版商全文
回到文本
4. Seymour B、O'Doherty J、Dayan P、Koltzenburg M、Jones A、Dolan R、Friston K、Frackowiak R:时间差异模型描述了人类的高阶学习。
Nature 2004,429:664-667。 PubMed摘要| 出版商全文
回到文本
5. Montague PR、Hyman SE、Cohan JD:多巴胺在行为控制中的计算作用。
Nature 2004,431:760-767。 PubMed摘要| 出版商全文
回到文本
6. Montague PR、Dayan P、Sejnowski TJ:基于预测性 Hebb 学习的中脑多巴胺系统框架。
神经科学杂志1996,16:1936-1947。 PubMed摘要| 出版商全文
回到文本
7. Schultz W、Dayan P、Montague PR:预测和奖励的神经基础。
Science 1997,275:1593-1599。 PubMed摘要| 出版商全文
回到文本
8. Sutton RS:通过时间差分法学习预测。
机器学习1988,3:9-44。
回到文本
9. Sutton RS,Barto AG:[http://www.cs.ualberta.ca/~sutton/book/ebook/the-book.html] webcite
强化学习:介绍。 MIT出版社; 1998。
回到文本
10. Hollerman J, Schultz W:多巴胺神经元报告学习期间奖赏的时间预测错误。
Nature Neuroscience 1998,1:304-309。 PubMed摘要| 出版商全文
回到文本
11. Schultz W、Apicella P、Ljungberg T:猴子多巴胺神经元在学习延迟反应任务的连续步骤中对奖赏和条件刺激的反应。
神经科学杂志1993,13:900-913。 PubMed摘要| 出版商全文
回到文本
12. Tobler P、Dickinson A、Schultz W:在条件抑制范例中多巴胺神经元预测奖励遗漏的编码。
Journal of Neuroscience 2003,23(32):10402-10410。 PubMed摘要| 出版商全文
回到文本
13. Takikawa Y、Kawagoe R、Hikosaka O:中脑多巴胺神经元在眼跳对位置奖励映射的短期和长期适应中的可能作用。
神经生理学杂志2004,92:2520-2529。 PubMed摘要| 出版商全文
回到文本
14. Bayer H:黑质在学习和运动控制中的作用。
博士论文,纽约大学2004。
回到文本
15. Fiorillo C、Tobler P、Schultz W:多巴胺神经元对奖励概率和不确定性的离散编码。
Science 2003,299(5614):1898-1902。 PubMed摘要| 出版商全文
回到文本
16. Morris G、Arkadir D、Nevet A、Vaadia E、Bergman H:中脑多巴胺和纹状体紧张活跃神经元的一致但不同的信息。
Neuron 2004,43:133-143。 PubMed摘要| 出版商全文
回到文本
17. Barto A、Sutton R、Watkins C:学习和顺序决策。 在学习和计算神经科学中:自适应网络的基础。 由 Gabriel M, Moore J. 编辑,马萨诸塞州剑桥市:麻省理工学院出版社; 1990:539-602。
回到文本
18. Nakahara H、Itoh H、Kawagoe R、Takikawa Y、Hikosaka O:多巴胺神经元可以代表上下文相关的预测误差。
Neuron 2004,41:269-280。 PubMed摘要| 出版商全文
回到文本
19. Gallistel CR, Gibbon J:时间、速率和调节。
心理学评论2000,107:289-344。 PubMed摘要| 出版商全文
回到文本
20. Daw ND、Kakade S、Dayan P:血清素和多巴胺之间的对抗相互作用。
神经网络2002,15(4-6):603-616。 PubMed摘要| 出版商全文
回到文本
21. Suri RE, Schultz W:一种具有多巴胺样强化信号的神经网络模型,可学习空间延迟响应任务。
Neuroscience 1999,91:871-890。 PubMed摘要| 出版商全文
回到文本
22. Pearce JM,G 厅:巴甫洛夫学习模型:条件刺激而非非条件刺激有效性的变化。
心理学评论1980,87:532-552。 PubMed摘要| 出版商全文
回到文本
23. Dayan P、Kakade S、Montague PR:学习和选择性注意。
Nature Neuroscience 2000,3:1218-1223。 PubMed摘要| 出版商全文
回到文本
24. Dayan P, Yu A:预期和意外的不确定性:新皮质中的 Ach 和 NE。 [http://books.nips.ce/papers/files/nips15/NS08.pdf] 网站引用
在神经信息处理系统进展中,由Dietterich T编辑,Becker S,Ghahramani Z. Cambridge,MA:麻省理工学院出版社; 2002,14:189-196。
回到文本
25. Daw N、Niv Y、Dayan P:行动、政策、价值观和基底神经节。 在基底神经节研究的最新突破中。 编辑:Bezard E. 纽约,美国:Nova Science Publishers, Inc; 在新闻。
回到文本
26. Wickens J, Kötter R:强化细胞模型。 在基底神经节信息处理模型中。 由 Houk JC、Davis JL、Beiser DG 编辑。 麻省理工学院出版社; 1995:187-214。
回到文本