奖励指导的学习超出伏隔核中的多巴胺：皮质 - 基底神经节网络的整合功能（2008）

Eur J Neurosci。 2008 Oct;28(8):1437-48. doi: 10.1111/j.1460-9568.2008.06422.x.

抽象

在这里，我们挑战了这样一种观点，即奖励引导的学习完全由腹侧被盖区域内多巴胺能神经元产生并向伏隔核投射的mesoaccumbens通路控制。这种被广泛接受的观点假设奖励是一个单一的概念，但最近的工作却提出了另外的建议。现在看来，在奖励引导的学习中，腹侧和背侧纹状体以及与它们相关的皮质 - 基底神经节电路的功能可以分离。 虽然伏隔核对于获得和表达某些食欲的巴甫洛夫反应是必要的，并且有助于对器乐表现的动机控制，但背侧纹状体对于获得和表达器乐行为是必要的。 这些研究结果表明存在多个独立但相互作用的功能系统，这些功能系统在迭代和分层组织的皮质 - 基底神经节网络中实施，这些神经网络参与从Pavlovian方法响应到由动作 - 结果意外事件控制的目标导向的工具行为。

关键词： 纹状体，多巴胺，基底神经节，学习，伏隔核，奖励

在最近的文献中已经发现，将“奖励”的整体概念统一应用于食欲行为，无论是表示对生物体有益的任何东西（通常是从实验者的角度来看），还是与旧的术语交替使用，如'强化'或'激励'。这种状况受到鼓励，如果不是其本身的后果，则关注单个神经基质的“奖励”涉及释放伏隔核中的多巴胺（DA）（伯克和海曼，2000; Grace等人，2007).

几十年前公认的mesoaccumbens途径和奖励之间的联系已经被最近的证据所重新激活，即相位DA信号编码奖励预测误差，这可能是联想学习中的教学信号。G （Schultz等人，1997）。根据最流行的解释，正如有一个单一的奖励信号，因此奖励引导学习有一个信号，在这种情况下意味着刺激和奖励之间的关联（Montague等人，2004）。然而，这种学习如何控制适应性行为的问题却被忽视了; 简单地假设多巴胺信号对于预测学习和由此产生的条件响应以及由它们与奖励的关联引导的目标导向动作是足够的。因此，大多数研究在奖励和成瘾领域的重点是DA信号传导和mesoaccumbens途径中的相关可塑性（Berridge和Robinson，1998; Hyman等，2006; Grace等人，2007).

这种对奖励过程的看法越来越被认可（Cardinal等，2002; Balleine，2005; Everitt和Robbins，2005; Hyman等，2006），既不充分也有误导性。 这是不充分的，因为无论是获取还是目标导向行为的表现都不能用调解刺激 - 奖励学习的联想过程来解释。此外，这是误导性的，因为专注于mesoaccumbens途径中的活动，这对于目标导向的行动来说既不必要也不充分，已经转移了对更确切地说明目标导向行为是什么以及如何实施的更基本问题的注意力。由大脑。实际上，根据来自各种实验方法的汇总证据，以前似乎是单一奖励机制的事实上可能包含具有不同行为效应和神经基质的多个过程（Corbit等人，2001; O'Doherty等人，2004; Yin等人，2004; Delgado等，2005; Yin等人，2005b; Haruno和Kawato，2006a; Tobler等，2006; Jedynak等人，2007; Robinson等，2007; Tobler等，2007).

在这里，我们尝试揭示与当前mesoaccumbens模型相关的一些问题，并提出一种不同的奖励引导学习模型。我们将论证纹状体是一种高度异质的结构，可以分为至少四个功能区域，每个功能区域作为与其他皮层，丘脑，苍白球和中脑组分的独特功能网络中的枢纽。。这些网络的综合功能，从奖励引发的无条件反应的产生到目标导向行为的控制，可以使用当代行为测定进行分离和研究。

转到：

预测和控制

通常认为mesoaccumbens途径对于获得预测奖励的奖励和环境刺激之间的关联是必要的。例如，在一些检查由奖励引起的DA细胞的阶段性活动的实验中，训练猴子将刺激与果汁的递送相关联（Waelti等，2001并随后用条件反应（CR） - 预防性舔响应刺激。猴子舔可能是目标导向的，因为它认为有必要获得果汁。或者，可以通过与果汁相关的先前刺激引发舔。猴子舔的哪些决定因素控制着这种行为 在任何特定情况下 不知道先验，并不能通过肤浅的观察来确定; 它只能通过专门为此目的设计的测试来确定。这些经过几十年发展的测试，构成了学习和行为研究的主要现代进步的核心（表1）。从下面讨论的这些测试的使用中，我们现在知道相同的行为反应 - 无论是走动方法，定向还是按压杠杆 - 都可能来自实验上可分离的多种影响。

表1

奖励指导学习

因此，对行为的实际决定因素中的中心模糊性的不敏感是当前对奖励引导学习的神经科学分析的主要问题。 Ťo理解这个问题的重要性，有必要理解预测（或巴甫洛夫）学习和目标导向（或工具）学习如何控制食欲行为之间的差异。实际上，根据这两个过程在奖励文献中混淆的频率来判断，对这种区别的简要回顾似乎是我们讨论的有用起点。

在食欲的巴甫洛夫条件下，奖励（即无条件刺激或美国）与刺激（条件刺激或CS）配对，无论动物的行为如何，而在器乐学习中，奖励取决于动物的行为。然而，两种情况下的关键问题是刺激 - 奖励关联或行动 - 奖励关联是否控制行为。

看起来很简单，这个问题几十年来一直困扰着调查人员，主要是因为这些情况下的行为反应看似相同。

因此，由巴甫洛夫刺激 - 奖励关联控制的条件反应（CR）通常可以具有关于它们的目标导向性的外观。甚至流涎，巴甫洛夫的原始CR，可能是由他的狗产生的，故意尝试促进摄入。正是由于这种模糊性，最明显的解释 - 即在巴甫洛夫条件下，刺激 - 结果关联被学习，而在工具条件反射中，行动 - 结果关联被学习 - 几十年来未能获得多少支持（Skinner，1938; Ashby，1960; Bolles，1972; 麦金托什，1974）。然而，虽然许多巴甫洛夫CR是自主的或完成的，但其他CR，例如对奖励的接近行为，并不是那么方便的特征（Rescorla和Solomon，1967）; 事实上，他们很容易被误认为是工具性行为（布朗和詹金斯，1968; 威廉姆斯和威廉姆斯，1969; Schwartz和Gamzu，1977）。我们现在知道，尽管表面上有相似之处，巴甫洛夫CR和目标导向的工具行为在控制反应表现的表征结构上有所不同（Schwartz和Gamzu，1977).

确定响应的表现是否由刺激 - 奖励或行动 - 奖励关联调解的最直接方法是检查特定的应急控制性能。流涎的例子在这里是有益的。谢菲尔德（1965）测试巴甫洛夫条件下的流涎是否受其与奖励的关系或刺激 - 奖励关联的控制。在他的实验中，狗在音调和食物奖励之间得到了配对（谢菲尔德，1965）。然而，如果狗在口气期间垂涎三落，那么该试验中的食物没有送达。这种安排在口气和食物之间保持了巴甫洛夫式的关系，但废除了流涎与食物传递之间的任何直接联系。如果唾液分泌是由它与食物的关系控制的行为，那么狗应该停止垂涎 - 实际上它们根本不应该对口气产生唾液分泌。谢菲尔德发现很明显巴甫洛夫的口气 - 食物关系控制了流涎CR。在超过800音调 - 食物配对的过程中，狗获得并保持口气的流涎，即使这导致他们失去了他们本可以通过不垂涎而获得的大部分食物。其他人在与人类（Pithers，1985）和其他动物的研究中得出了类似的结论（布朗和詹金斯，1968; 威廉姆斯和威廉姆斯，1969年; Holland，1979）; 在所有情况下，看起来，尽管巴甫洛夫的反应多种多样，但它们与奖励的关系 - 即行动结果意外事件 - 并不受其控制。

偶然性一词是指事件'A'和另一个事件'B'之间的条件关系，因此B的出现取决于A.这种关系可以通过在没有A的情况下呈现B而容易地降低。被称为意外退化的实验操作通常通过独立于预测刺激或动作呈现奖励来执行。虽然这种方法最初是为研究巴甫洛夫条件而开发的（Rescorla，1968），仪器应急退化也成为一种常见的工具（哈蒙德，1980）。当这些突发事件被直接操纵时，学习的内容就会被揭示出来：例如，在自动整形中，巴甫洛夫CR'伪装'作为一种工具行为被巴甫洛夫人的操纵而不是器乐应变所扰乱（Schwartz和Gamzu，1977).

目标导向的工具行为的特点是两个标准：1）对结果价值变化的敏感性，以及2对行动和结果之间意外变化的敏感性 (迪金森，1985; Dickinson和Balleine，1993）。应该强调的是，仅仅对结果贬值的敏感性并不足以将反应定性为目标导向，因为一些巴甫洛夫的反应也可能对这种操纵敏感（Holland和Rescorla，1975）。然而，目标导向的工具行为的表现对行动 - 结果意外事件的操纵也很敏感，而巴甫洛夫的反应对刺激 - 结果意外事件的操纵很敏感（Rescorla，1968; 戴维斯和比特曼，1971; Dickinson和Charnock，1985）。然而，一个重要的例外是在习惯的情况下（见下文），它们与巴甫洛夫的反应相似，它们对工具意外事件的变化相对不敏感，但也不受结果贬值的影响，因为结果不是代表性结构控制性能（参见迪金森，1985 以下进一步讨论）。

总而言之，最重要的是，在控制意外事件方面，而不是通过响应形式或用于建立它的行为任务，明确定义特定响应。在没有检查特定情况下的控制意外情况的情况下，行为和发现调解行为的神经过程都可能被错误描述。最终，正如我们将要论证的那样，它是通过学习获得并通过不同神经系统实施的控制行为的实际控制突发事件，尽管它们可能共享相同的“最终共同途径”。因此，核心挑战是超越外观以揭示潜在的应急控制行为（总结见表1）。为了声称特定的神经结构介导特定的心理能力，例如目标导向性，必须通过适当的行为测定来评估行为的状态。否则就是在群体争论适当的神经决定因素同时未能认识到他们的行为任务可能正在测量不同的现象时引起混淆。最重要的是，动物实际学习的是什么，而不是实验者认为动物学习的东西，以及动物实际学习的东西只能通过直接探测学习内容的分析来揭示。

如果动物设法学习相同的东西（比如刺激和奖励之间的关联），无论实验安排是什么，巴甫洛夫乐器的区别都是微不足道的。使用当今神经科学可用的最常用的学习方法，根本没有办法说出来。因此，研究人员经常声称研究目标导向的行为，而不检查所讨论的行为是否实际上是针对目标的。虽然不同类型的学习通常被认为是由于使用不同的“任务”或“范式”所致，但研究人员往往未能为其假设提供充分的理由。

这个问题的一个典型例子是使用迷宫来学习学习。迷宫实验和相关测定的一个问题，如条件性位置偏好，是实验上分离巴甫洛夫（刺激 - 奖励）和工具（动作 - 奖励）突发事件对行为的影响的难度（迪金森，1994; Yin和Knowlton，2002）。因此，通过T型迷宫来获取食物可以反映出一种应对策略（左转）或仅仅是针对由提示 - 食物协会控制的一些超迷宫地标的条件式方法（Restle，1957）。测试后者是否在性能中发挥作用的一种方法是颠倒迷宫; 现在响应学习者应该继续向左转，而那些使用迷宫提示的人应该向右转。但那些继续左转的人真的是采用了应对策略，还是他们只是接近一些内 - 与食物相关的迷宫提示？要找出答案并不是一件简单的事情，因为对于巴甫洛夫行为控制的通常控制不能轻易应用于迷宫研究中。其中之一，双向控制，确定动物可以通过要求反转该反应的方向来获得奖励来控制特定的反应（Hershberger，1986; Heyes和Dawson，1990）。不幸的是，在迷宫中，响应逆转可能仍然不足以建立一个目标导向的行动，因为逆转可以通过熄灭现有的刺激 - 奖励关系并用另一个替代它来实现。例如，接近特定迷宫内提示的大鼠可以在逆转期间学习它不再与奖励配对，但是一些其他刺激是导致获得朝向新刺激的接近CR。因此，他们显然可以在没有编写响应奖励意外情况的情况下改变他们的反应。由于这种可能性无法在实践中进行测试，因此使用迷宫，放置偏好程序或简单的运动任务来研究目标导向的学习过程尤其危险，并且可能导致错误描述控制行为的过程以及任何神经的特定角色发现涉及的过程（Smith-Roe和Kelley，2000; Hernandez等，2002; Atallah等，2007).

转到：

对于器乐学习来说，伏隔核不是必需的

目前行为分析的不足在伏隔核研究中变得尤为明显。许多研究表明，这种结构对于获得目标导向的行动至关重要 (Hernandez等，2002; Goto和Grace，2005; Hernandez等，2005; Pothuizen等，2005; Taha和Fields，2006; Atallah等，2007; Cheer等，2007; Lerchner等，2007）。但是，这一结论主要基于单独绩效变化的衡量标准，使用应急控制行为模糊不清的任务。虽然观察到操纵损害某些行为反应的获得可能表明存在学习不足，但它们也可能反映出对反应启动或动机的影响。例如，杠杆按压获取的损害往往反映出对性能的影响而不是学习（Smith-Roe和Kelley，2000）。仅作为任何学习过程的不完整表示的收购曲线必须谨慎解释（Gallistel等，2004）。不幸的是，学习和表现之间的区别，也许是学习研究中最古老的课程，今天往往被忽视。

更详细的分析表明，伏隔学对于器乐学习既不必要也不充分。 伏隔核壳的损伤不会改变表现对结果贬值的敏感性（de Borchgrave等，2002; Corbit等，2001）或仪器应急降级（Corbit等，2001虽然伏隔核的病变已经被发现会降低对贬值的敏感性而不会损害大鼠对仪器突发事件选择性降解的敏感性（Corbit等人，2001）。评估伏隔核操作对条件强化研究中获得新反应的影响的其他研究一直发现对奖赏相关表现的影响，特别是安非他明的表现增强，但对获得反应本身没有影响（帕金森）等人，1999）。同样，Cardinal和Cheung的系统研究也发现伏隔核心病变对连续加固计划下杠杆压力响应的获得没有影响; 仅在延迟加固时观察到受损的采集（红衣主教和张，2005).

尽管被告没有对工具性的偶然性进行编码（Balleine＆Killcross，1994; Corbit，Muir和Balleine，2001年），大量证据表明它确实在工具中发挥了重要作用性能，我们现在可以根据最近的工作更好地定义一个角色。根据几项研究得出的结论，伏隔核对于某些类型的食欲性巴甫洛夫条件反射至关重要，并且介导奖励相关线索可能对器械性能产生的非特异性兴奋作用，以及产生的响应选择的结果特异性偏差。通过这样的线索。核心或前扣带的病变，核心皮质输入的主要来源，或这两种结构之间的断开，削弱了巴甫洛夫进近行为的获得（Parkinson等，2000）。训练后立即局部输注D1样多巴胺受体拮抗剂或NMDA谷氨酸受体拮抗剂也会影响这种形式的学习而不影响表现（Dalley等，2005）。这些数据与措施一致体内神经活动。例如，Carelli及其同事发现，在学习巴甫洛夫自动整形任务期间，伏隔核中的神经元可以系统地改变其活动（Day等人，2006; Day和Carelli，2007).

即使在任何学习经历之前，贝壳区域中的神经元似乎也会被调整为奖励和厌恶刺激; 他们还能够对预测这些结果的CS做出反应（Roitman等，2005）。此外，Berridge及其同事的工作，已经提出了伏隔核和下游腹侧苍白球内的某些区域可能被称为“特征性热点”的可能性。这些区域直接调节对奖励的无条件享乐反应，例如味道反应性。例如，这些区域中的阿片受体激动剂可以显着增强对蔗糖的摄食味道反应性。然而，这种高度本地化的区域嵌入在更广泛的网络中，这些网络在完善的食欲行为中不起作用（Taha和Fields，2005; Pecina等，2006; Taha和Fields，2006).

核心和贝壳的相对作用之间的区别似乎分别是预备性和完成性食欲行为之间的区别，可以通过不同类型的巴甫洛夫条件反射来轻松修改。 诸如方法之类的准备反应与结果的一般情绪特征相关联，而完成性行为则与更具体的感官品质相关联; 它们对不同类型的CS也有不同的敏感性，例如，预备反应更容易受到持续时间长的刺激的影响（Konorski，1967; Dickinson和Dearing，1979; Balleine，2001; Dickinson和Balleine，2002).

无论如何，在巴甫洛夫条件反射的某些方面涉及伏隔的证据是压倒性的。然而，它并不是唯一涉及的结构，其他网络，如涉及各种杏仁核的那些网络，似乎也在巴甫洛夫条件的准备和完成组成部分中发挥核心作用。 (Balleine和Killcross，2006).

可以明显归因于伏地的一个功能是将巴甫洛夫的影响与工具行为结合起来。巴甫洛夫CR，包括反映激发中心动机状态的那些，如渴望和唤醒，可以对器乐行为的表现产生强烈影响（Trapold和Overmier，1972; Lovibond，1983; 荷兰，2004）。例如，独立预测食物供应的CS可以增加对同一食物的仪器响应。通常使用巴甫洛夫 - 工具转移范例（PIT）来研究这种效应。在PIT中，动物接受单独的巴甫洛夫和器乐训练阶段，在这些阶段，他们独立地学习将提示与食物联系起来，并按下杠杆来获得相同的食物。然后在探针试验中，提示提示具有可用的杠杆，并且测量存在CS时的响应速率的提升。已经确定了两种形式的PIT; 一个与奖励相关线索的一般唤醒效果有关，另一个与一个特定奖励相对于其他奖励的线索的预测状态所产生的对选择表现的选择性影响更大。对于后一种结果特定形式的PIT，伏隔核壳是必要的，但对于前者，更一般的形式和对结果贬值的敏感性，既不是必需的; 相比之下，伏隔核的病变降低了对结果贬值和PIT一般形式的敏感性，但保留了完整的结果特异性PIT（Corbit等人，2001（Balleine和Corbit，2005).

最近的一项研究进一步深入了解了伏隔核在结果特异性PIT中的作用（Wiltgen等人，2007）。受控表达的活性钙/钙调蛋白依赖性蛋白激酶II（CaMKII）在纹状体中不影响器乐或巴甫洛夫学习，但取消了特定的PIT。 PIT的这种缺乏不是永久性的，可以通过用强力霉素关闭转基因表达来逆转，证明缺乏仅与表现相关。因此，人为地提高纹状体中CaMKII的水平会阻碍从巴甫洛夫到器乐系统的激励动机的结果特异性转移。有趣的是，还发现开启CaMKII转基因会降低伏隔核中神经元的兴奋性，而不会影响基底传递或突触强度。

转到：

背侧纹状体

背侧纹状体，也称为neostriatum或caudate-putamen， 从所谓的新皮层接收大量预测。它可以进一步分为关联区域，其在啮齿动物中更内侧并且与腹侧纹状体连续，并且感觉运动区域更侧向 (Groenewegen等，1990; Joel和Weiner，1994). 整体而言，背侧纹状体受来自黑质致密部（SNc）的DA细胞的支配，并且仅接受来自VTA DA神经元的微小投射。 (Joel和Weiner，2000）。以前关于背侧纹状体的研究主要集中在其在刺激 - 反应（SR）习惯学习中的作用（米勒，1981; 白色，1989）。这种观点基于效果定律，根据该效应定律，奖励用于加强或加强环境刺激与所执行的响应之间的SR关联，因此在存在这些响应的情况下执行该响应的趋势增加。刺激（桑迪克，1911; 赫尔，1943; 米勒，1981）。因此，认为皮质纹状体通路介导SR学习，DA作为强化信号（米勒，1981; Reynolds和Wickens，2002).

SR模型具有包含用于将学习转化为性能的简约规则的优点。相比之下，基于行动相关预期的模型更加复杂，因为“行动A导致结果O”的信念不一定必须转化为行动（Guthrie，1935; 麦金托什，1974）; 这种信息既可用于执行'A'，也可用于避免执行'A'。出于这个原因，传统理论避免了最明显的解释 - 即动物可以获得指导选择行为的行动结果意外事件。然而，过去几十年来，效果定律得到了实质性修改（亚当斯，1982; Colwill和Rescorla，1986; 迪金森，1994; Dickinson等人，1996）。 Ť许多研究结果表明，工具行为可以真正实现目标导向，即对奖励价值的变化以及行动的因果效应敏感 （见Dickinson＆Balleine，1994; 2002; Balleine，2001 评论）。然而，在不断条件下进行广泛训练的过程中，即使是新获得的行动也可能变得相对自动化和刺激驱动 - 一个称为习惯形成的过程（亚当斯和迪金森，1981; 亚当斯，1982; Yin等人，2004）。如此定义的习惯，由先前的刺激自动引出，不受结果的期望或表现的控制; 因此，它们不受结果值变化的影响。因此，从这个角度来看，效果定律是一种特殊情况，仅适用于习惯行为。

当前的工具行为分类将其分为两类。 Ť他的第一堂课包括由乐器意外事件控制的目标导向行动; 第二，习惯性行为不受结果价值变化的影响 (表1）。使用行为测定如结果贬值和器械应急降解，Yin等建立了背侧纹状体感觉运动（背外侧纹状体，DLS）和关联区域（背内侧纹状体，DMS）之间的功能性解离（Yin和Knowlton，2004; Yin等人，2004, 2005a; Yin等人，2005b; Yin等人，2006a）。 DLS的病变损害了习惯的发展，导致更加目标导向的行为控制模式。 DMS的病变具有相反的效果，并导致从目标导向转换为习惯控制。因此，Yin等人得出结论，DLS和DMS在其支持的缔合结构类型方面可以在功能上解离：DLS对于习惯形成至关重要，而DMS对于目标导向动作的获取和表达至关重要。该分析预测，在某些条件下（例如扩展训练），对行为的控制可以从DMS依赖系统转移到DLS依赖系统，这一结论与关于灵长类动物的大量文献（包括人类神经影像学）广泛一致（Hikosaka等，1989; Jueptner等，1997a; Miyachi等，1997; Miyachi等，2002; Delgado等，2004; Haruno等，2004; Tricomi等，2004; Delgado等，2005; Samejima等人，2005; Haruno和Kawato，2006a, b; Lohrenz等人，2007; Tobler等，2007）。当然，应该记住它单独的帽子物理位置（例如背侧或腹侧）不能成为比较啮齿动物纹状体和灵长类动物纹状体的可靠指导; 在仔细考虑解剖学连通性后，应谨慎进行这种比较。

背侧纹状体病变的影响可以与伏隔核病变的影响进行比较 (Smith-Roe和Kelley，2000; Atallah等，2007）。如前所述，将行为确定为“目标导向”的标准测试是结果贬值和行动结果意外事件的退化（Dickinson和Balleine，1993）。 DMS的损伤渲染行为对两种操作都不敏感（Yin等人，2005b），伏隔核或壳的病变没有（Corbit等人，2001）。此外，这些行为测定的探针测试通常在灭绝时进行，没有任何奖励，以评估动物在没有新学习污染的情况下学到的东西。因此，他们直接探索表征结构控制行为。作为额外的实验控制，进行单独的贬值测试通常是有用的，其中实际上提供奖励 - 所谓的“奖励测试”。 DMS的病变并未消除对奖励测试的结果贬值的敏感性，因为应该预期，因为根据行动递送贬值的结果可以独立于行动 - 结果编码来抑制行动。另一方面，伏隔贝壳病变并未损害消退测试或奖励测试对结果贬值的敏感性，而伏隔核心病变消除了两种测试中对贬值的敏感性（Corbit等人，2001）。然而，对于偶然性降低的敏感性不受任何损伤的影响，证明在伏隔病变后，大鼠能够编码并检索动作 - 结果表示。

转到：

多巴胺的作用：中脑边缘与黑质纹状体

自从猴子DA神经元的阶段性活动开创性研究以来，该领域的一个常见假设是所有DA细胞的行为基本相同（舒尔茨，1998a; Montague等人，2004）。然而，可用的数据以及解剖学连接性表明不然。 事实上，上述对纹状体功能异质性的分析也可以扩展到中脑的DA细胞。

DA细胞可分为两大类：VTA和黑质致密细胞（SNc）。虽然投射来自 伏安相关的VTA一直是奖励相关学习领域的关注焦点，更大规模的黑质纹状体通路相对被忽视注意力集中在其在帕金森病中的作用。当前关于角色的思考 学习中的DA受到DA细胞的阶段性活动反映奖励预测错误的提议的严重影响r（Ljungberg等，1992; 舒尔茨，1998b）。一世在Schultz及其同事使用的最常见的Pavlovian调节任务中，这些神经元响应于奖励（美国）而开火，但是，通过学习，美国诱发的活动转移到CS。当在学习之后省略美国时，DA细胞在其预期的递送时间显示活性的短暂下降 (Waelti等，2001; Fiorillo等，2003; Tobler等，2003）。这些数据构成了各种计算模型的基础（Schultz等人，1997; 舒尔茨，1998b; Brown等人，1999; Montague等人，2004).

鉴于合成和释放机制中的多个控制水平，DA神经元的峰值不能等同于DA释放，尽管可以预期这两个测量值高度相关。 事实上，正如Carelli及其同事最近使用快速扫描循环伏安法所做的研究所示， 伏隔核中的实际DA释放似乎与食欲的巴甫洛夫条件下的预测误差相关 (Day等人，2007）。在巴甫洛夫自动整形中收到蔗糖奖励后，他们立即在伏隔核中发现了一个相位DA信号。 然而，在扩展巴甫洛夫条件后，这个信号在奖励本身后不再被发现，而是转移到了CS。这一发现支持原始的“预测误差”假设。这与早期的研究结果一致，显示在伏隔核心中DA受体拮抗作用或DA耗竭后巴甫洛夫CR的表现受损（Di Ciano等，2001; Parkinson等，2002）。然而，该研究的一个观察结果是新的并且具有相当大的兴趣：在使用预测奖励的CS +进行扩展调节和不预测奖励的CS-之后，在CS-之后也观察到类似但更小的DA信号，尽管在初始峰值之后，它也立即显示出轻微下降（在线索开始后500~800毫秒）Day等，2007，图4）。在学习的这个阶段，动物几乎从不接近CS-，但始终接近CS +。 因此，紧接在预测器之后的阶段性DA信号可能不会在产生接近响应中起到因果作用，因为即使在没有响应的情况下它也存在。 这种信号对于学习刺激 - 奖励意外事件是否仍然是必要的仍然不清楚，但是对于CS-的观察到的阶段性反应当然不是任何当前模型预测的。

有趣的是，局部DA耗尽确实会削弱此任务的性能（Parkinson等，2002）。尽管在CS-之后观察到相位DA信号，其根本不产生CR，但是通过局部耗尽来消除相位和强直DA确实损害了CR的性能。这种模式表明，伏地林中的相位DA信号不需要用于执行巴甫洛夫CR，但可能在学习中发挥作用，而较慢，更强烈的DA信号（可能在耗尽研究中被废除）对性能更重要接近反应（Cagniard等，2006; Yin等人，2006b; Niv等人，2007）。这种可能性还有待检验。

尽管没有直接证据证明相位DA信号在学习中具有因果作用，但“预测误差”假设仍然引起了很多关注，因为它恰恰是在突出的学习模型中使用的教学信号的类型，如Rescorla-Wagner模型及其实时扩展时间差异强化学习算法（舒尔茨，1998b）。根据这种解释，食欲学习是由接收和预期奖励之间的差异（或两个时间上连续的奖励预测之间）决定的。这种教学信号受到所有奖励预测者的负面反馈的调节（舒尔茨，1998b). 如果没有奖励跟随预测器，则负反馈机制被揭示为DA神经元活动的下降。因此，学习涉及预测误差的逐渐减少。

这些模型中教学信号的优雅可能会分散一些解剖学现实。在研究中 Day等（2007）伏隔核中的DA信号主要来自VTA中的细胞，但是具有完全不同的解剖连接性的其他DA细胞似乎不太可能显示相同的响应谱并提供相同的信号。由于DA细胞投射到具有完全不同功能的不同纹状体区域，并且接收来自不同纹状体区域的不同负反馈信号，因此DA细胞发信号的梯度更可能是更可能的（Joel和Weiner，2000; Wickens等人，2007）。摄取和降解的机制，以及调节多巴胺释放的突触前受体，在纹状体上也显示出相当大的变异（Cragg等人，2002; Rice和Cragg，2004; Wickens等人，2007; Rice和Cragg，2008).

因此，我们提出，mesoaccumbens通路在获得状态和刺激的价值方面在巴甫洛夫学习中发挥更为有限的作用，而黑质纹状体通路在获取行动价值方面对于器乐学习更为重要。 T也就是说，相位DA信号可以编码不同的预测误差，而不是如当前假设的单个预测误差。三条证据支持这一论点。首先，黑质纹状体通路中DA的遗传耗竭削弱了器官作用的获得和表现，而中脑边缘通路中DA的消耗不会（Sotak等，2005; Robinson等，2007）。其次，SNc中的DA细胞可以编码动作的值，类似于其目标纹状体区域中的细胞（Morris等，2006）。第三，黑质纹状体投射到DLS的选择性损伤会损害习惯的形成（Faure等，2005).

Palmiter及其同事最近的研究表明，基因工程DA缺陷小鼠在器械学习和表现方面受到严重损害，但它们的表现可以通过L-DOPA注射或通过病毒基因转移到黑质纹状体途径来恢复（Sotak等，2005; Robinson等，2007). 相比之下，腹侧纹状体的DA恢复不是恢复器械行为所必需的。 虽然DA信号如何实现器乐学习仍然是一个悬而未决的问题，但一个明显的可能性是它可以编码自发动作的价值，即在给定特定行动过程中预测多少奖励。

背侧纹状体作为一个整体，含有大脑中DA受体的最高表达，并且接受最大量的多巴胺能投射。由于这两个区域在DA释放，摄取和降解的时间分布上存在显着差异，因此对DMS的DA投影可能在学习中起到与DLS投射不同的作用（Wickens等人，2007). 我们假设从内侧SNc到DMS的DA投影对于动作 - 结果学习是至关重要的，而从侧向SNc到DLS的DA投影对于习惯形成是关键的。 如果这是真的，那么应该期望SNc中的DA单元基于自生成的动作 - 工具预测误差 - 而不是基于CS的误差来编码奖励预测中的误差。支持这一主张的初步证据来自Morris等人最近的一项研究，他在一项仪器学习任务中记录了SNc神经元（Morris等，2006）。训练猴子根据辨别刺激来移动他们的手臂（S^D）表示适当的运动和奖励的概率。 S^D 基于特定动作的预期奖励概率，在对应于动作值的DA神经元中引发相位活动。最有趣的是，虽然DA对S的反应^D随着动作值的增加，对于奖励本身的DA响应的反转是正确的，与这些神经元编码与该值相关联的预测误差的想法一致。毫不奇怪，这些细胞的原始纹状体靶标，即尾状核，已知含有编码作用值的神经元（Samejima等人，2005）。然而，应该指出的是，这项研究没有使用明确评估行动价值的行为任务。对我们模型的明确预测是，即使在没有明确的S的情况下，阶段性DA活动也将伴随着行为的表现^D。例如，我们预测在自我启动的行动中获得奖励时黑质DA神经元的爆发射击。

在我们看来，虽然mesoaccumbens DA信号反映了CS的价值，但黑质纹状体信号（可能来自投射到DMS的那些神经元）反映了动作本身的价值， 或任何S^D 预测这个价值。此外，器乐和巴甫洛夫学习似乎都涉及某种形式的负面反馈来控制有效的教学信号。事实上，从纹状体到中脑DA神经元的直接投射（图2）长期以来被提出作为这种负反馈的神经实现（Houk等人，1995并且，抑制性输入的强度和性质可能因地区而异。

图2

皮质 - 基底神经节网络

根据当前模型，预测误差是确定学习发生量的教学信号。只要它存在，学习就会继续。尽管出现了这种说法，但行动价值的预测误差尽管在语法上与巴甫洛夫预测误差相似，却具有未被广泛研究的独特特征。在像Rescorla-Wagner模型这样专门针对巴甫洛夫条件（虽然成效有限）的传统模型中，关键特征是调节预测误差的负反馈。此输出表示获取的预测，更具体地说是总和所有当前预测因子，通常用于阻断实验的复合刺激（Rescorla，1988）。正是这种可用预测因子的总和来建立一个全局误差项，这是这类模型的主要创新。然而，对于工具性操作，单个错误术语似乎更有可能，因为当一次只能执行一个动作时，很难看出负反馈如何同时呈现多个动作的值。当然，确实存在许多可能的解决方案。例如，给定一个特定的状态（通过不同的S实验性地实现^D），可能的行动过程确实可以同时表示为获得的预测。但是仪器预测误差的主要困难与动作本身的性质有关。巴甫洛夫预测自动跟随刺激的呈现，刺激独立于生物体。工具预测误差必须解决控制因素，因为预测本身就是行动偶然的，并且基于动物追求行为的后果而不是由先前刺激引起的，自发地发出有意识的动作。最后，正是对神经科学和心理学中目标导向行为的自发性的普遍忽视，已经模糊了巴甫洛夫和工具学习过程之间的区别，以及所涉及的预测误差的本质。因此，还有待建立什么类型的负反馈信号（如果有的话）来规范行动价值的获取（Dayan和Balleine，2002).

最后，最近的研究还表明，从侧向SNc到DLS的黑质纹状体投射特别是在习性形成中。 Faure等人使用6-OHDA选择性地损伤了投射到DLS的DA细胞，并发现这种操作对杠杆按压的速度几乎没有影响，尽管它会影响习惯的形成，如使用结果贬值所测量的（Faure等，2005）。也就是说，受损动物以目标导向的方式作出反应，即使在对照组中，训练产生的习惯行为对结果贬值不敏感。因此，局部DA耗竭类似于DLS的兴奋毒性损伤，因为这两种操作都会阻碍习惯的形成并有利于获得目标导向的行为（Yin等人，2004）。对于习惯形成至关重要的相位DA信号已经通过赫尔和斯宾塞的工作启发的当代时差增强学习算法中的有效强化信号得到了很好的描述（赫尔，1943; Spence，1947, 1960; Sutton和Barto，1998).

转到：

Cortico-basal神经节网络

到目前为止，我们已经讨论了纹状体内的功能异质性，但是建议任何纹状体区域可以将行动结果意外事件转化为行动本身的表现将是误导性的。相反，大脑半球被组织为由皮质 - 基底神经节网络组成的迭代功能单元（Swanson，2000; Zahm，2005）。 Ť纹状体作为整个基底神经节的入站，是皮质 - 基底神经节网络图案的独特中枢，能够整合皮质，丘脑和中脑输入。如上所述，尽管它是连续结构，但是不同的纹状体区域似乎参与不同的功能网络，例如，伏隔核充当边缘网络中的枢纽和感觉运动网络中的DLS。然而，由于这种网络的可重入性，在任何绝对意义上，该结构的任何一个组件都不是上游或下游; 例如，丘脑皮层系统既是纹状体的主要输入源，又是纹状体 - 苍白球和纹状体 - 黑质通路的目标。

虽然长期以来已经认识到平行折返的基底神经节环（Alexander等人，1986），我们强调这些电路基于操作定义的表示结构和产生综合行为的电路之间的相互作用的不同功能角色。在此基础上，可以辨别至少四个这样的网络：分别涉及伏隔核的壳和核心的边缘网络，涉及关联纹状体（DMS）的关联网络，以及涉及感觉运动纹状体（DLS）的感觉运动网络。它们的功能范围从调节食欲的巴甫洛夫UR和CR的控制到器乐行为（图1).

图1

纹状体的主要功能域。从显示半脑的冠状切面的纹状体的插图（Paxinos和Franklin，2003）。注意，这四个功能域在解剖学上是连续的，并且大致对应于什么 ...

如已经提到的，腹侧纹状体主要由伏隔核组成，伏隔核可以进一步分为壳和核，每个都参与不同的功能网络。壳的皮质（谷氨酸能）投射来自下边缘，中央和外侧眶皮质，而核心的投射来自前额皮质的更多背侧中线区域，如腹侧和背侧前肢和前扣带皮层（Groenewegen等，1990; Zahm，2000, 2005）。在这些功能网络中，上面提到的证据表明，外壳参与了URs以奖励和获得完整的CR; 探索行为的核心，特别是巴甫洛夫方法反应的获得和表达。然后，至少两个主要网络可以在更大的腹侧或边缘皮质 - 基底神经节网络中辨别，一个用于完成，另一个用于准备行为和它们通过巴甫洛夫条件化修改（图1).

背侧纹状体同样可以分为至少两个主要区域，关联和感觉运动，具有与每个区域相关的独特功能网络。 关联纹状体（尾状核和灵长类动物前部壳核的部分）包含神经元，它们在预期响应 - 偶然奖励时发射，并根据预期奖励的大小改变它们的发射（Hikosaka等，1989; Hollerman等，1998; Kawagoe等，1998）。在关联网络中，前额叶和顶叶关联皮质及其在DMS中的目标涉及瞬时记忆，前瞻性，结果预期形式和回顾性，作为最近的efference拷贝的记录（Konorski，1967）。另一方面，感觉运动水平包括感觉运动皮质及其在基底神经节中的目标。该电路的输出针对运动皮质和脑干运动网络。感觉运动纹状体中的神经活动通常不受奖励期望的调节，在联合纹状体中显示出比神经元更多的运动相关活动（Kanazawa等，1993; Kimura等，1993; Costa等人，2004）。最后，除了内侧 - 外侧梯度外，沿背侧纹状体的前后轴存在显着的功能异质性，尽管目前没有足够的数据可用于任何详细分类（Yin等人，2005b).

到目前为止，研究仅关注这些网络的皮质和纹状体成分。一般而言，皮质区的病变与其纹状体靶的病变具有相似的作用（Balleine和Dickinson，1998; Corbit和Balleine，2003; Yin等人，2005b）。但是网络中的其他组件可以提供类似的功能。例如，丘脑中央核的病变（联合网络的一个组成部分）被发现消除对结果贬值和意外退化的敏感性，其方式与对DMS和前肢皮质的损伤大致相同（Corbit等人，2003）。因此，尽管我们的一般模型预测在损害网络的每个组成部分后类似的行为缺陷，但它也表明，对于任何给定的结构，如苍白球或丘脑，多个功能域。

转到：

网络之间的互动

在大多数情况下，巴甫洛夫和器乐学习似乎是平行进行的。 然而，像PIT这样的现象证明了这些不同的过程可以在多大程度上相互作用。描绘了独立的功能系统，下一步是了解如何协调这些系统以产生行为。根据最近的解剖学工作，一个有吸引力的提议是，上面概述的网络是分层组织的，每个网络在层次结构中充当不稳定的功能中介，允许信息从一个级别传播到下一个级别。特别是，最近发现的纹状体和中脑之间的螺旋连接提示了一个可能潜在地实现网络之间相互作用的解剖学组织（图2）。正如Haber及其同事观察到的那样，纹状体神经元向DA神经元发送直接抑制性投射，从中接收相互的DA投影，并投射到DA神经元，然后投射到不同的纹状体区域（Haber等，2000）。这些预测允许信息在仅从一个方向前馈传播，从边缘网络到关联和感觉运动网络。例如，巴甫洛夫预测（CS的获得值）可以减少边缘水平的有效教学信号，同时在下一级别同时增强DA信号。有效教导信号的消除通常通过抑制投射通过负反馈信号实现，例如，从纹状体到DA神经元的GABAergic中型多刺投射神经元。同时，正如解剖组织所建议的那样（Haber等，2000; 哈伯，2003），相邻皮质 - 基底神经节网络（层次结构中的下一级）的DA信号的增强可以通过去抑制预测（即GABAergic纹状体投射神经元到黑质GABA能中间神经元到DA神经元）来实现。因此，边缘网络的学习值可以转移到关联网络，允许每次迭代细化和放大行为自适应（Ashby，1960）。因此，该模型预测不同神经网络在不同学习阶段的渐进介入，这一建议得到各种数据的支持（Jueptner等，1997b; Miyachi等，1997; Miyachi等，2002; 尹，2004; Everitt和Robbins，2005; Yin和Knowlton，2005; Belin和Everitt，2008).

需要不同功能过程（如PIT）相互作用的现象为此类模型提供了肥沃的试验场。实际上，分层模型与最近关于PIT的实验结果一致。根据该模型，巴甫洛夫 - 仪器相互作用是由纹状体和DA神经元之间的相互联系介导的。 DA似乎对于一般转移是至关重要的，DA拮抗剂和VTA的局部失活会消除DA（Dickinson等人，2000; Murschall和Hauber，2006）; 而局部输注安非他明（可能会增加DA水平）进入伏隔核可以显着增强它（Wyvell和Berridge，2000）。另一方面，腹侧纹状体多巴胺在特定转移中的作用不太清楚。一些证据表明，在灭活VTA后可能会幸免（Corbit等人，2007但是，作为 Corbit和Janak（2007）最近报道，通过DLS的失活来消除特定转移，这表明刺激控制在行动选择方面的这一方面可能涉及黑质纹状体投射（Corbit和Janak，2007）。同意层级观点， Corbit和Janak（2007）还发现，尽管DLS失活消除了Palovian线索的选择性兴奋作用（就像伏隔核病变后观察到的那样） Corbit等，2001），DMS的失活仅消除了转移的结果选择性，同时似乎保留了这些线索的一般兴奋作用，这也是在丘脑背侧丘脑损伤后观察到的趋势，丘脑是关联性皮质 - 基底神经节网络的一部分（Ostlund和Balleine，2008）。基于这些初步结果，DMS似乎仅介导特定的转移，而DLS可能是巴甫洛夫线索对器乐行为的特定和一般兴奋作用所必需的。

有趣的是，边缘纹状体广泛投射到投射到背侧纹状体的DA细胞（Nauta等，1978; Nauta，1989）; 对纹状体的多巴胺能投射和回到中脑的纹状体投射是高度不对称的（哈伯，2003）。边缘纹状体接收来自DA神经元的有限输入，但是将更多输出发送到更大的DA神经元组，而感觉运动纹状体则相反。因此，边缘网络处于控制关联和感觉运动网络的完美位置。在这里，神经解剖学与行为数据一致，即巴甫洛夫对工具行为的促进比反向强得多; 事实上，相当多的证据表明，器乐行为倾向于抑制而不是激发巴甫洛夫CRs，这一发现仍在等待神经生物学的解释（Ellison和Konorski，1964; 威廉姆斯，1965).

转到：

结论

应该注意的是，这里讨论的层次模型与仅依赖于皮层和皮层区域之间的远程连接的其他模型非常不同（Fuster，1995）。它结合了已知的组件和大脑的连通性，而不是将其视为皮质模块的大杂烩，以某种未指明的方式实现广泛的认知功能。它还避免了从19继承的假设^th 世纪神经病学，一般的大脑皮层，特别是前额叶皮层，以某种方式形成一个控制整个大脑的“更高”的单位单位 (米勒和科恩，2001).

此外，可以从当前模型导出若干具体预测：（i）对于自生成动作和具有反映其不同神经基底和功能角色的属性的状态/刺激应该存在明显的预测误差。（ii）每个离散的皮质 - 基底神经节网络的苍白球和丘脑组分也被认为是为每个网络假设的行为控制类型所必需的，而不仅仅是皮质和纹状体组分。（iii）在不同的学习阶段，应该有不同神经网络的渐进参与。（iv）伏隔核活动可直接控制DA神经元，进而控制背侧纹状体活动。基于报告荷兰（2004）表明PIT随着器械训练而增加，对关联和感觉运动网络的这种“边缘”控制有望通过扩展训练得到加强。

如果没有详细的数据，现在提供分层模型的正式帐户还为时尚早。然而，上述讨论应该清楚地表明，当前版本的mesoaccumbens奖励假设依赖于有关奖励过程的性质和使用不充分的行为测量的问题假设。统一原则，始终是科学企业的目标，只能建立在实验数据的现实基础之上，但这些原则可能是笨拙的。因为大脑的功能最终是行为的产生和控制，详细的行为分析将是理解神经过程的关键，就像对先天和获得性免疫的彻底描述允许阐明免疫系统一样。虽然看似不言而喻，但我们可以理解大脑机制到他们的功能被精确描述和测量的程度，这简直太过分了。当神经功能的研究基于实验确定的心理能力时，例如行动 - 结果和刺激 - 结果意外事件的表示，已知的解剖组织以及生理机制在新的视野中被看到，导致新的制剂假设和新实验的设计。作为朝着这个方向迈出的第一步，我们希望这里讨论的框架将成为未来调查的有用起点。

转到：

致谢

我们要感谢David Lovinger提供的有用建议。 HHY得到美国国立卫生研究院内部临床和基础研究部NIAAA的支持。美国国立卫生研究院授予MH 17140和BWB的支持，SBO由MHH授权MH 56446和HD 59257。

转到：

参考资料

亚当斯CD。工具性反应的敏感性的变化加强了贬值。季刊实验心理学杂志。 1982; 33b：109-122。
亚当斯CD，迪金森A.工具回应强调贬值。季刊实验心理学杂志。 1981; 33：109-122。
Alexander GE，DeLong MR，Strick PL。连接基底神经节和皮质的功能隔离电路的并行组织。 Annu Rev Neurosci。 1986; 9：357-381。 [考研]
阿什比WR。为大脑设计。第二版。查普曼厅1960年。
Atallah HE，Lopez-Paniagua D，Rudy JW，O'Reilly RC。独立的神经底物，用于腹侧和背侧纹状体的技能学习和表现。 Nat Neurosci。 2007; 10：126–131。 [考研]
Balleine BW。仪器调节中的激励过程。在：Mowrer RR，Klein SB，编辑。当代学习理论手册。 Mahwah，NJ，US：Lawrence Erlbaum Associates，Inc.，Publishers; 2001。 pp.307-366。
Balleine BW。寻求食物的神经基础：皮质纹状体边缘电路的影响，唤醒和奖励。生理行为。 2005; 86：717-730。 [考研]
Balleine BW，Dickinson A.目标导向的器乐行动：应急和激励学习及其皮质底物。神经药理学。 1998; 37：407-419。 [考研]
Balleine BW，Corbit LH。伏隔核和壳的损伤对Palovian-instrumental转移的一般和结果特定形式产生可分离的影响; 神经科学学会年会; 2005。
Balleine BW，Killcross S.平行激励处理：杏仁核功能的综合视图。趋势神经科学。 2006; 29：272-279。 [考研]
Belin D，Everitt BJ。可卡因寻求习惯取决于多巴胺依赖的连接连接将腹侧与背侧纹状体连接起来。神经元。 2008; 57：432-441。 [考研]
Berke JD，Hyman SE。成瘾，多巴胺和记忆的分子机制。神经元。 2000; 25：515-532。 [考研]
Berridge KC，Robinson TE。多巴胺在奖励中的作用是什么：享乐效应，奖励学习或激励突显？ Brain Res Brain Res Rev. 1998; 28：309-369。 [考研]
Bolles R.强化，期望和学习。心理学评论。 1972; 79：394-409。
Brown J，Bullock D，Grossberg S.基底神经节如何使用平行的兴奋和抑制学习途径来选择性地应对意外的奖励线索。 J Neurosci。 1999; 19：10502-10511。 [考研]
布朗PL，詹金斯HM。自动塑造鸽子的关键啄。行为的实验分析杂志。 1968; 11：1-8。 [PMC免费文章[考研]
Cagniard B，Beeler JA，Britt JP，McGehee DS，Marinelli M，Zhuang X.多巴胺在没有新学习的情况下表现出色。神经元。 2006; 51：541-547。 [考研]
红衣主教RN，Cheung TH。伏隔核核心病变延缓了器械学习和大鼠延迟强化的表现。 BMC Neurosci。 2005; 6：9。 [PMC免费文章[考研]
红衣主教RN，Parkinson JA，J大厅，Everitt BJ。情绪和动机：杏仁核，腹侧纹状体和前额叶皮层的作用。 Neurosci Biobehav Rev. 2002; 26：321-352。 [考研]
Cheer JF，Aragona BJ，Heien ML，Seipel AT，Carelli RM，Wightman RM。协调的累积多巴胺释放和神经活动驱动目标导向的行为。神经元。 2007; 54：237-244。 [考研]
Colwill RM，Rescorla RA。器乐学习中的联想结构。在：Bower G，编辑。学习和动机的心理学。纽约：学术出版社; 1986。 pp.55-104。
Corbit LH，Balleine BW。前肢皮层在器械调理中的作用。 Behav Brain Res。 2003; 146：145-157。 [考研]
Corbit LH，Janak PH。外侧纹状体外侧而非内侧纹状体的失活消除了巴甫洛夫刺激对器械反应的兴奋性影响。 J Neurosci。 2007; 27：13977-13981。 [考研]
Corbit LH，Muir JL，Balleine BW。伏隔核在器械调节中的作用：伏隔核和壳之间功能性解离的证据。神经科学杂志。 2001; 21：3251-3260。 [考研]
Corbit LH，Muir JL，Balleine BW。背侧丘脑和前丘脑核的损伤对大鼠的器械条件反射产生可解离的影响。 Eur J Neurosci。 2003; 18：1286-1294。 [考研]
Corbit LH，Janak PH，Balleine BW。巴甫洛夫 - 工具转移的一般和结果特定形式：动机状态的变化和腹侧被盖区的失活的影响。 Eur J Neurosci。 2007; 26：3141-3149。 [考研]
Costa RM，Cohen D，Nicolelis MA。在小鼠快速和慢速运动技能学习期间的差异皮质纹状体可塑性。 Curr Biol。 2004; 14：1124-1134。 [考研]
Cragg SJ，Hille CJ，Greenfield SA。非人灵长类动物的背侧纹状体中的功能结构域由多巴胺的动态行为定义。 J Neurosci。 2002; 22：5705-5712。 [考研]
Dalley JW，Laane K，Theobald DE，Armstrong HC，Corlett PR，Chudasama Y，Robbins TW。通过伏隔核中的D1和NMDA受体对食欲性巴甫洛夫记忆进行限时调节。 Proc Natl Acad Sci US A. 2005; 102：6189-6194。 [PMC免费文章[考研]
戴维斯J，Bitterman ME。其他行为的差异强化（DRO）：轭控制比较。行为实验分析。 1971; 15：237-241。 [PMC免费文章[考研]
Day JJ，Carelli RM。伏隔核和巴甫洛夫奖励学习。神经学家。 2007; 13：148-159。 [PMC免费文章[考研]
Day JJ，Wheeler RA，Roitman MF，Carelli RM。伏隔核神经元编码巴甫洛夫方法行为：来自自动整形范式的证据。 Eur J Neurosci。 2006; 23：1341-1351。 [考研]
Day JJ，Roitman MF，Wightman RM，Carelli RM。联想学习介导伏隔核中多巴胺信号传导的动态变化。 Nat Neurosci。 2007; 10：1020-1028。 [考研]
Dayan P，Balleine BW。奖励，激励和强化学习。神经元。 2002; 36：285-298。 [考研]
Delgado MR，Stenger VA，Fiez JA。人尾状核中的动机依赖性反应。 Cereb Cortex。 2004; 14：1022-1030。 [考研]
Delgado MR，Miller MM，Inati S，Phelps EA。关于奖励相关概率学习的fMRI研究。神经成像。 2005; 24：862-873。 [考研]
Di Ciano P，Cardinal RN，Cowell RA，Little SJ，Everitt BJ。 NMDA，AMPA /红藻氨酸盐和多巴胺受体在伏核中的差异性参与是pavlovian进近行为的获得和表现。 J Neurosci。 2001; 21：9471-9477。 [考研]
狄金森A.行动和习惯：行为自治的发展。皇家学会的哲学交易。 1985; B308：67-78。
Dickinson A.乐器调节。在：Mackintosh NJ，编辑。动物学习与认知。奥兰多：学术; 1994。 pp.45-79。
Dickinson A，Dearing MF。食欲 - 厌恶的相互作用和抑制过程。在：Dickinson A，Boakes RA，编辑。学习机制和动机。 Hillsadale，NJ：Lawrence Erlbaum Associates; 1979。
Dickinson A，Charnock DJ。具有持续的工具增强的意外影响。实验心理学季刊。比较与生理心理学。 1985; 37：397-416。
Dickinson A，Balleine B.行动和回应：行为的双重心理学。在：Eilan N，McCarthy RA，等编辑。空间表征：哲学和心理学中的问题。 Malden，MA，US：Blackwell Publishers Inc。; 1993。 pp.277-293。
Dickinson A，BalleineB。学习在动机系统运作中的作用。在：Pashler H，Gallistel R，编辑中。史蒂文的实验心理学手册（第3版），第3卷。 2002：学习，动机和情感。美国纽约州：John Wiley＆Sons，Inc .； 497年，第533-XNUMX页。
Dickinson A，Smith J，Mirenowicz J.巴甫洛夫解散和多巴胺拮抗剂下的器乐激励学习。 Behav Neurosci。 2000; 114：468-483。 [考研]
Dickinson A，Campos J，Varga ZI和BalleineB。双向仪器调节。《实验心理学季刊》：比较与生理心理学。 1996; 49：289-306。 [考研]
Ellison GD，Konorski J.分离仪器调节中的唾液和运动反应。科学。 1964; 146：1071-1072。 [考研]
Everitt BJ，Robbins TW。药物成瘾的强化神经系统：从行为到习惯再到强迫。 Nat Neurosci。 2005; 8：1481-1489。 [考研]
Faure A，Haberland U，Conde F，El Massioui N.对黑质纹状体多巴胺系统的损伤破坏了刺激 - 反应习惯的形成。 J Neurosci。 2005; 25：2771-2780。 [考研]
Fiorillo CD，Tobler PN，Schultz W.多巴胺神经元对奖励概率和不确定性的离散编码。科学。 2003; 299：1898-1902。 [考研]
福斯特JM。记忆在大脑皮层。剑桥：麻省理工学院出版社 1995。
Gallistel CR，Fairhurst S，Balsam P.学习曲线：定量分析的含义。 Proc Natl Acad Sci US A. 2004; 101：13124-13131。 [PMC免费文章[考研]
Goto Y，Grace AA。多巴胺能调节伏隔核的边缘和皮质驱动在目标导向行为。 Nat Neurosci。 2005; 8：805-812。 [考研]
Grace AA，Floresco SB，Goto Y，Lodge DJ。调节多巴胺能神经元的放电和控制目标导向行为。趋势神经科学。 2007; 30：220-227。 [考研]
Groenewegen HJ，Berendse HW，Wolters JG，Lohman AH。前额皮质与纹状体系统，丘脑和杏仁核的解剖关系：平行组织的证据。 Prog Brain Res。 1990; 85：95-116。讨论116-118。 [考研]
Guthrie ER。学习心理学。纽约：哈珀斯; 1935。
哈伯SN。灵长类动物基底神经节：平行和整合网络。 J Chem Neuroanat。 2003; 26：317-330。 [考研]
Haber SN，Fudge JL，McFarland NR。灵长类动物的纹状体纹状体通路形成从壳到背外侧纹状体的上升螺旋。 J Neurosci。 2000; 20：2369-2382。 [考研]
哈蒙德LJ。意外事件对自由行动行为的食欲条件的影响。行为实验分析。 1980; 34：297-304。 [PMC免费文章[考研]
Haruno M，Kawato M.用于整合多个皮质 - 纹状体环的分层强化学习模型：刺激 - 动作 - 奖励关联学习中的fMRI检查。神经网络。 2006a; 19：1242-1254。 [考研]
Haruno M，Kawato M.在刺激 - 动作 - 奖励关联学习期间，壳核和尾状核中的奖励期望和奖励期望误差的不同神经关联。 J神经生理学。 2006b; 95：948-959。 [考研]
Haruno M，Kuroda T，Doya K，Toyama K，Kimura M，Samejima K，Imamizu H，Kawato M.尾状核中基于奖励的行为学习的神经关联：随机决策任务的功能性磁共振成像研究。 J Neurosci。 2004; 24：1660-1665。 [考研]
Hernandez PJ，Sadeghian K，Kelley AE。器械学习的早期巩固需要伏隔核中的蛋白质合成。 Nat Neurosci。 2002; 5：1327-1331。 [考研]
Hernandez PJ，Andrzejewski ME，Sadeghian K，Panksepp JB，Kelley AE。 AMPA / kainate，NMDA和多巴胺D1受体功能在伏隔核中：在器官记忆的编码和巩固中的上下文限制作用。学习记忆。 2005; 12：285-295。 [PMC免费文章[考研]
华盛顿州赫什伯格。通过窥镜的方法。动物学习与行为。 1986; 14：443-451。
Heyes CM，Dawson GR。使用双向控制在大鼠中观察学习的示范。实验心理学季刊。 1990; 42（1）：59-71。 [考研]
Hikosaka O，Sakamoto M，Usui S.猴尾状神经元的功能特性。 III。与期望目标和奖励相关的活动。 J神经生理学。 1989; 61：814-832。 [考研]
荷兰PC。巴甫洛夫 - 工具转移与加强贬值之间的关系。 J Exp Psychol Anim Behav Process。 2004; 30：104-117。 [考研]
荷兰PC，Rescorla RA。在一阶和二阶食欲调节后两种方法使无条件刺激物贬值的效果。 J Exp Psychol Anim Behav Process。 1975; 1：355-363。 [考研]
Hollerman JR，Tremblay L，Schultz W.奖赏期望对灵长类动物纹状体中行为相关神经元活动的影响。 J神经生理学。 1998; 80：947-963。 [考研]
Houk JC，Adams JL，Barto AG。基底神经节如何产生和使用预测强化的神经信号的模型。在：Houk JC，JD，DB，编辑。基底神经节信息处理模型。剑桥，麻省：麻省理工学院出版社; 1995。 pp.249-270。
赫尔C.行为原则。纽约：Appleton-Century-Crofts; 1943。
Hyman SE，Malenka RC，Nestler EJ。成瘾的神经机制：奖励相关学习和记忆的作用。 Annu Rev Neurosci。 2006; 29：565-598。 [考研]
Jedynak JP，Uslaner JM，Esteban JA，Robinson TE。甲基苯丙胺诱导背侧纹状体的结构可塑性。 Eur J Neurosci。 2007; 25：847-853。 [考研]
Joel D，Weiner I.基底神经节 - 丘脑皮层回路的组织：开放互联而非闭合隔离。神经科学。 1994; 63：363-379。 [考研]
Joel D，Weiner I.大鼠和灵长类动物中多巴胺能系统与纹状体的关系：关于纹状体的功能和区室组织的分析。神经科学。 2000; 96：451-474。 [考研]
Jueptner M，Frith CD，Brooks DJ，Frackowiak RS，Passingham RE。运动学习的解剖学。 II。皮质下结构和通过反复试验学习。 J神经生理学。 1997a; 77：1325-1337。 [考研]
Jueptner M，Stephan KM，Frith CD，Brooks DJ，Frackowiak RS，Passingham RE。运动学习的解剖学。 I.额叶皮层和注意动作。 J神经生理学。 1997b; 77：1313-1324。 [考研]
Kanazawa I，Murata M，Kimura M.多巴胺及其受体在生成舞蹈动作中的作用。 Adv Neurol。 1993; 60：107-112。 [考研]
Kawagoe R，Takikawa Y，Hikosaka O.奖励的期望调节基底神经节中的认知信号。 Nat Neurosci。 1998; 1：411-416。 [考研]
Kimura M，Aosaki T，Ishida A.壳核和尾状核在自主运动中的不同作用的神经生理学方面。 Adv Neurol。 1993; 60：62-70。 [考研]
Konorski J.大脑的综合活动。芝加哥：芝加哥大学出版社; 1967。
Lerchner A，La Camera G，Richmond B.知道不做。 Nat Neurosci。 2007; 10：15-17。 [考研]
Ljungberg T，Apicella P，Schultz W.在学习行为反应期间对猴多巴胺神经元的反应。 J神经生理学。 1992; 67：145-163。 [考研]
Lohrenz T，McCabe K，Camerer CF，Montague PR。连续投资任务中虚拟学习信号的神经特征。 Proc Natl Acad Sci US A. 2007; 104：9493-9498。 [PMC免费文章[考研]
Lovibond PF。通过巴甫洛夫食欲条件刺激促进器乐行为。 J Exp Psychol Anim Behav Process。 1983; 9：225-247。 [考研]
麦金托什新泽西州。动物学习的心理学。伦敦：学术出版社; 1974。
Miller EK，Cohen JD。前额皮质功能的综合理论。 Annu Rev Neurosci。 2001; 24：167-202。 [考研]
米勒R.完整大脑中的意义和目的。纽约：牛津大学出版社; 1981。
Miyachi S，Hikosaka O，Lu X.在程序学习的早期和晚期，猴纹状体神经元的差异激活。 Exp Brain Res。 2002; 146：122-126。 [考研]
Miyachi S，Hikosaka O，Miyashita K，Karadi Z，Rand MK。猴纹状体在顺序手部运动学习中的不同作用。 Exp Brain Res。 1997; 115：1-5。 [考研]
Montague PR，Hyman SE，Cohen JD。多巴胺在行为控制中的计算作用。性质。 2004; 431：760-767。 [考研]
Morris G，Nevet A，Arkadir D，Vaadia E，Bergman H. Midbrain多巴胺神经元编码未来行动的决定。 Nat Neurosci。 2006; 9：1057-1063。 [考研]
Murschall A，Hauber W.腹侧被盖区的失活消除了巴甫洛夫线索对器乐表现的一般兴奋性影响。学习记忆。 2006; 13：123-126。 [考研]
Nauta WJ，Smith GP，Faull RL，Domesick VB。在大鼠中，伏核的传出连接和黑质传入。神经科学。 1978; 3：385-401。 [考研]
Nauta WJH。纹状体与大脑皮层和边缘系统的相互联系：运动和思考的共同基础？在：穆勒，编辑。神经病学和精神病学：一种思想的交流。巴塞尔：Karger; 1989。 pp.43-63。
Niv Y，Daw ND，Joel D，Dayan P. Tonic多巴胺：机会成本和对反应活力的控制。 Psychopharmacology（Berl）2007; 191：507-520。 [考研]
O'Doherty J，Dayan P，Schultz J，Deichmann R，Friston K，Dolan RJ。腹侧和背侧纹状体在器械调节中的可分离作用。科学。 2004; 304：452-454。 [考研]
Ostlund SB，Balleine BW。基底外侧杏仁核和中丘脑的差异性参与仪器动作选择。 J Neurosci。 2008; 28：4398-4405。 [PMC免费文章[考研]
Parkinson JA，Willoughby PJ，Robbins TW，Everitt BJ。前扣带皮层和伏核核心的断开损害了巴甫洛夫的接近行为：边缘皮质 - 腹侧纹状体系统的进一步证据。 Behav Neurosci。 2000; 114：42-63。 [考研]
Parkinson JA，Dalley JW，Cardinal RN，Bamford A，Fehnert B，Lachenal G，Rudarakanchana N，Halkerston KM，Robbins TW，Everitt BJ。伏隔核多巴胺耗竭损害了食欲的巴甫洛夫进近行为的获得和表现：对mesoaccumbens多巴胺功能的影响。 Behav Brain Res。 2002; 137：149-163。 [考研]
Paxinos G，Franklin K.立体定位坐标中的小鼠大脑。纽约：学术出版社; 2003。
Pecina S，Smith KS，Berridge KC。大脑中的快感热点。神经学家。 2006; 12：500-511。 [考研]
Pothuizen HH，Jongen-Relo AL，Feldon J，Yee BK。选择性伏核核壳病变对大鼠冲动选择行为和显着性学习影响的双重解离。 Eur J Neurosci。 2005; 22：2605-2616。 [考研]
Rescorla RA。在恐惧条件下存在和不存在CS时休克的可能性。 J Comp Physiol Psychol。 1968; 66：1-5。 [考研]
Rescorla RA。巴甫洛夫条件反射的行为研究。 Annu Rev Neurosci。 1988; 11：329-352。 [考研]
Rescorla RA，Solomon RL。双过程学习理论：巴甫洛夫条件学与器乐学习之间的关系。 Psychol Rev. 1967; 74：151-182。 [考研]
Restle F.辨别迷宫中的线索：“位置与响应”问题的解决方案。心理审查。 1957; 64：217。 [考研]
Reynolds JN，Wickens JR。皮质纹状体突触的多巴胺依赖性可塑性。神经网络。 2002; 15：507-521。 [考研]
Rice ME，Cragg SJ。尼古丁在纹状体中放大与奖赏相关的多巴胺信号。 Nat Neurosci。 2004; 7：583-584。 [考研]
Rice ME，Cragg SJ。量子释放后的多巴胺溢出：重新思考黑质纹状体通路中的多巴胺传递。 Brain Res Rev. 2008 [PMC免费文章[考研]
Robinson S，Rainwater AJ，Hnasko TS，Palmiter RD。多巴胺信号传导到背侧纹状体的病毒恢复恢复对多巴胺缺陷小鼠的仪器调节。 Psychopharmacology（Berl）2007; 191：567-578。 [考研]
Roitman MF，Wheeler RA，Carelli RM。伏隔核神经元天生就被调整用于奖励和厌恶的味觉刺激，编码它们的预测因子，并且与电机输出相关联。神经元。 2005; 45：587-597。 [考研]
Samejima K，Ueda Y，Doya K，Kimura M.在纹状体中表示特定行动的奖励值。科学。 2005; 310：1337-1340。 [考研]
Schultz W.灵长类多巴胺神经元的阶段性奖励信号。 Adv Pharmacol。 1998a; 42：686-690。 [考研]
Schultz W.多巴胺神经元的预测性奖励信号。 J神经生理学。 1998b; 80：1-27。 [考研]
Schultz W，Dayan P，Montague PR。预测和奖励的神经基质。科学。 1997; 275：1593-1599。 [考研]
Schwartz B，Gamzu E. Pavlovian控制操作行为。在：Honig W，Staddon JER，编辑。操作行为手册。新泽西州：Prentice Hall; 1977。 pp.53-97。
谢菲尔德FD。古典与器乐条件之间的关系。在：Prokasy WF，编辑。经典调理。纽约：Appleton-Century-Crofts; 1965。 pp.302-322。
Skinner B.生物的行为。纽约：Appleton-Century-Crofts; 1938。
Smith-Roe SL，Kelley AE。对于胃食管学习，需要在伏核核心内同时激活NMDA和多巴胺D1受体。 J Neurosci。 2000; 20：7737-7742。 [考研]
Sotak BN，Hnasko TS，Robinson S，Kremer EJ，Palmiter RD。背侧纹状体中多巴胺信号传导的失调抑制了摄食。 Brain Res。 2005; 1061：88-96。 [考研]
Spence K.二级强化在延迟奖励学习中的作用。心理学评论。 1947; 54：1-8。
Spence K.行为理论与学习。恩格尔伍德克利夫斯，新泽西州：Prentice-Hall; 1960。
Sutton RS，Barto AG。强化学习。剑桥：麻省理工学院出版社 1998。
斯旺森LW。脑半球调节动机的行为。 Brain Res。 2000; 886：113-164。 [考研]
Taha SA，Fields HL。伏隔核中不同神经元群体对适口性和食欲行为的编码。 J Neurosci。 2005; 25：1193-1202。 [考研]
Taha SA，Fields HL。伏隔核神经元的抑制编码门控信号以用于奖励引导的行为。 J Neurosci。 2006; 26：217-222。 [考研]
桑迪克EL。动物智力：实验研究。纽约：麦克米伦; 1911。
Tobler PN，Dickinson A，Schultz W.编码预测的多巴胺神经元在条件抑制范例中的奖励遗漏。 J Neurosci。 2003; 23：10402-10410。 [考研]
Tobler PN，O'Doherty JP，Dolan RJ，SchultzW。人类神经学习取决于阻塞范式中的奖励预测错误。 J神经生理学。 2006; 95：301-310。 [PMC免费文章[考研]
Tobler PN，O'Doherty JP，Dolan RJ，Schultz W.奖励价值编码不同于人类奖励系统中与风险态度相关的不确定性编码。 J神经生理学。 2007; 97：1621-1632。 [PMC免费文章[考研]
Trapold MA，Overmier JB。经典调节II：当前的研究和理论。阿普尔顿世纪 - 克罗夫茨; 1972。器乐学习的第二个学习过程; pp.427-452。
Tricomi EM，Delgado MR，Fiez JA。通过行动意外调节尾状核活动。神经元。 2004; 41：281-292。 [考研]
Waelti P，Dickinson A，Schultz W. Dopamine的反应符合正式学习理论的基本假设。性质。 2001; 412：43-48。 [考研]
白色NM。关于纹状体基质和斑块的功能假设：SR记忆和奖赏的调解。生命科学。 1989; 45：1943-1957。 [考研]
Wickens JR，Budd CS，Hyland BI，Arbuthnott GW。纹状体对奖励和决策的贡献：理解重复处理矩阵中的区域变化。 Ann NY Acad Sci。 2007; 1104：192-212。 [考研]
威廉姆斯DR。经典的调节和激励动机。在：Prokasy WF，编辑。经典调理。纽约：Appleton-Century-Crofts; 1965。 pp.340-357。
威廉姆斯DR，威廉姆斯H.鸽子的自动维护：尽管有非强化的持续啄食。行为实验分析。 1969; 12：511-520。 [PMC免费文章[考研]
Wiltgen BJ，Law M，Ostlund S，Mayford M，Balleine BW。巴甫洛夫线索对器械性能的影响是由纹状体中的CaMKII活性介导的。 Eur J Neurosci。 2007; 25：2491-2497。 [考研]
Wyvell CL，Berridge KC。伏隔内安非他明增加蔗糖奖励的条件激励显着性：增加奖励“想要”而不增强“喜欢”或反应强化。 J Neurosci。 2000; 20：8122-8130。 [考研]
尹HH。心理学系。洛杉矶：加州大学洛杉矶分校; 2004。背侧纹状体在目标导向行动中的作用。
Yin HH，Knowlton BJ。增强剂贬值取消了条件性线索偏好：刺激 - 刺激关联的证据。 Behav Neurosci。 2002; 116：174-177。 [考研]
Yin HH，Knowlton BJ。纹状体次区域对放置和反应学习的贡献。学习记忆。 2004; 11：459-463。 [PMC免费文章[考研]
Yin HH，Knowlton BJ。成瘾和学习。在：Stacy A，编辑。内隐认知和成瘾手册。千橡树：贤者; 2005。
Yin HH，Knowlton BJ，Balleine BW。背外侧纹状体的病变保留了预期结果，但扰乱了器乐学习中的习惯形成。 Eur J Neurosci。 2004; 19：181-189。 [考研]
Yin HH，Knowlton BJ，Balleine BW。在背内侧纹状体中阻断NMDA受体阻止了器械调节中的作用 - 结果学习。 Eur J Neurosci。 2005a; 22：505-512。 [考研]
Yin HH，Knowlton BJ，Balleine BW。背外侧纹状体的失活增强了对器械调节中作用 - 结果意外事件变化的敏感性。 Behav Brain Res。 2006a; 166：189-196。 [考研]
Yin HH，庄X，Balleine BW。超多巴胺能小鼠的器乐学习。 Neurobiol学习记忆。 2006b; 85：283-288。 [考研]
Yin HH，Ostlund SB，Knowlton BJ，Balleine BW。背内侧纹状体在器械调理中的作用。 Eur J Neurosci。 2005b; 22：513-523。 [考研]
Zahm DS。综合神经解剖学观点对一些皮质下基底的适应性反应强调伏隔核。 Neurosci Biobehav Rev. 2000; 24：85-105。 [考研]
Zahm DS。基底前脑功能解剖学“宏观系统”的发展理论。 Neurosci Biobehav Rev. 2005 [考研]

伏隔核中多巴胺的奖励引导学习：皮质 - 基底神经节网络的整合功能（2008）

抽象