药物劫持的多巴胺螺旋电路(2013)出现成瘾者的不平衡决策层次

 

  • Mehdi Keramati 邮件,
     
  • 鲍里斯古特金

 

抽象

尽管明知要戒烟,但长期吸毒者却发现自己无力抵抗毒品,尽管知道吸毒可能是有害的行为。 明确的消极后果知识与强迫行为模式之间的这种不一致表示认知/行为冲突,这是成瘾的主要特征。 从神经生物学的角度来看,在不同的纹状体次区域中,不同的线索诱导的活性以及从腹侧纹状体区域到背侧区域的多巴胺连接性呈螺旋状,在强迫性药物寻找中起着关键作用。 但是,将这些神经药理学观察结果与上述认知/行为冲突相结合的功能机制尚不清楚。 在这里,我们为吸毒者的“自我描述的错误”中显而易见的由药物引起的认知不一致提供了正式的计算解释。 我们表明,尽管这种行为的抽象认知评价较低,但成瘾性药物会逐渐在低水平的习惯性决策过程中产生对寻求药物的动机偏见。 当长期暴露于药物在药理上产生病理学上持续的多巴胺信号时,这种病理学就会出现在分层强化学习框架内。 因此,药物劫持了多巴胺能螺旋,使增强信号沿腹背-皮质-纹状体层次向下级联。 在神经生物学上,我们的理论解释了腹侧纹状体中药物提示引起的多巴胺外排的快速发展和背侧纹状体的延迟反应。 我们的理论还表明,这种响应模式如何严重取决于多巴胺螺旋电路。 从行为上讲,我们的框架解释了吸毒对与毒品相关的惩罚逐渐不敏感,对毒品结局的阻碍现象以及对吸毒者的持续偏好,而不是对成瘾者的自然奖励。 该模型提出了可检验的预测,除此之外,还为将成瘾视为分层决策过程的病理学奠定了基础。 这种观点是对成瘾的传统解释的补充,即对成瘾习惯和目标导向决策系统之间相互作用的理解。

介绍

“我们承认我们对自己的成瘾无能为力 - 我们的生活变得无法控制”说明了麻醉品匿名12步骤计划的第一个原则 [1]。 尽管知道吸毒是一种错误的行动方案,但这突显了无能为力的吸毒成瘾者在抵抗毒品时如何发现自己 [2][4]。 事实上,成瘾的标志是强迫性地寻找药物,即使以明显的不良后果为代价 [5]。 这种病理行为的特征在受控实验中变得明显,其中成瘾者表现出特征性的“自我描述的错误”:对药物相关选择的有效行为反应与吸毒者报告该药物的相对较低的主观价值之间的不一致 [4], [6], [7]。 当与长期暴露于药物后对行为的抑制性认知控制的丧失相结合时,认知计划与整合习惯之间的这种差异可能导致从偶然性到强迫性的寻求药物行为的转变 [8].

到目前为止,失去认知控制和自我描述的错误已经通过正式的成瘾模型得不到原则解释 [9][13]。 以前的药物成瘾计算理论,主要是在强化学习框架内提出,将成瘾视为习惯学习(刺激 - 反应)系统的病理状态 [9][13]。 所有这些模型背后的中心假设是,药物对多巴胺信号传导的药理作用(据称带有刺激反应的教学信号)会导致这种关联的逐渐增强。 这种作用反过来导致强迫性的吸毒习惯。 尽管对成瘾现象的这种减少已经捕获了这种现象的某些方面,但成瘾文献中越来越多的共识表明,病理学涉及多种学习系统。 只有如此复杂的画面,包括大脑的认知以及低水平的习惯性过程,才能解释各种成瘾行为 [8], [14].

在本文中,我们采用分层强化学习方法 [15] 决策以不同的抽象层次表示,在认知 - 运动层次结构中。 我们假设一系列依赖多巴胺的学​​习信号将层次结构的水平联系在一起 [16]。 我们进一步假设滥用药物在药理学上劫持了抽象层次之间的沟通机制。 基于这些假设,我们表明,当慢性药物暴露扰乱决策层级中的价值学习时,报告的成瘾者认知失调出现在等级强化学习框架内。 这种破坏导致对低水平习惯过程中药物选择的病态过度估价,从而推动习惯性的寻求毒品的行为。 然后,我们证明“不喜欢”但强迫性的寻求毒品可以解释为毒品劫持的低级习惯过程支配行为,而顶级代表性水平的健康认知系统失去对行为的控制。 此外,我们证明所提出的模型可以解释近期关于药物线索引发的腹侧与背侧纹状体中多巴胺外排的快速与延迟发展的证据,以及该模式对多巴胺螺旋电路的依赖性。

材料和方法

预赛

与丰富的认知心理学文献一致,我们的等级强化学习 [15], [18] 框架假设像“酿造茶”这样的抽象认知计划可以分解为一系列较低级别的行为:开水,将茶放入锅中等。这种分解进行到最低水平的具体运动水平响应。等级(图1A)。 在神经生物学上,从认知到运动水平的不同级别的决策层次沿着皮质 - 基底神经节(BG)电路的rostro-caudal轴表示。 [19][21]。 该回路由额叶皮层和基底神经节之间的几个平行闭合环组成 [22], [23] (图1B)。 前环是动作的更抽象表现的基础,而由感觉运动皮层和背外侧纹状体组成的尾部环编码低级习惯 [19][21].

缩略图

图1。 行为的分层组织和cortico-BG电路。

A,两个替代选择的决策层次的一个例子:药物与食物。 每个行动过程都表现在不同的抽象层次,据说在不同的cortico-BG循环中编码。 寻求两种类型的奖励中的每一种可能会受到16的惩罚。 B来自不同前额区域的谷氨酸能量连接投射到纹状体亚区域,然后通过苍白球和丘脑投射回PFC,形成几个平行环。 通过纹状体 - 黑质 - 纹状体多巴胺网络,纹状体的腹侧区域影响更多的背部区域。 vmPFC,腹侧内侧前额叶皮层; OFC,眼眶额叶皮层; dACC,背前扣带皮层; SMC,感觉运动皮层; VTA,腹侧被盖区; SNc,黑质致密。 图1B 从ref 21修改。

DOI:10.1371 / journal.pone.0061489.g001

在该电路中,投射到纹状体的中脑多巴胺(DA)神经元的阶段活动表示预测和接收的奖励之间的误差,从而携带刺激响应增强信息。 [24]。 这些DAergic预测形成级联连续连接,通过所谓的“螺旋”连接将纹状体的更多腹侧区域连接到逐渐更多的背部区域 [25][27] (图1B)。 在功能上,这种连接嘴侧到尾侧皮质-BG环的前馈组织允许从粗略表示到精细表示的定向耦合。 因此,假设DA螺旋提供神经生物学基质,用于通过较高层次的层级(编码关于行为选项的值的抽象知识)逐步调整奖励预测误差。 然后,此错误用于更详细级别的更新操作值 [16]。 换句话说,DA螺旋允许抽象的估值认知水平来指导更详细的行动估价过程中的学习。

理论素描

在强化学习的计算理论方面 [28] (RL),代理人(在我们的情况下是一个人或一个动物)学会通过更新其先前的估计值来做出明智的行动选择, ,对于每个国家行动对, ,当一个奖励 代理人及时收到 作为执行行动的结果 在上下文状态(刺激) 。 价值 通过计算奖励预测误差信号来更新。 此信号不仅取决于即时收到的奖励(),但也取决于代理在执行该操作后最终进入的新状态的值。 由...表示 ,这种时间上先进的价值函数代表了动物期望从最终状态获得的未来奖励的总和, ,继续。 预测误差可通过以下等式计算:


(1)

直观地,预测误差信号计算动作的预期和实现的奖励值之间的差异。 然而,在分层决策结构中,而不是学习 - 在不同级别独立评估,更抽象的级别可以调整在较低级别计算的教学信号。 由于层次结构的较高层次代表了环境突发事件的更抽象的表示,因此在这些层次中学习的速度更快。 这是由于行为抽象表示的相对低维度:行为计划可以表示为层次结构顶层的单个步骤(一个维度),以及较低级别的多个详细操作(多个维度)层次结构。 与奖励错误需要反向传播所有详细操作步骤的详细级别相比,可以快速学习此行动计划的最高级别值。 因此,通过来自较高级别的值信息调整较低级别值可以加速这些值的收敛。 一种统计有效的方法是假设用于计算预测误差信号 - 抽象级别, ,时间上先进的价值功能, ,来自一个更高层次的抽象, [16]:


(2)

为了保持最优性,只有在执行抽象选项的最后一个组成原语动作时,才能使用公式2来计算预测误差(参见图S1 in 文件S1)。 在其他情况下,不同层次的价值学习是独立发生的,如公式1。 在这两种情况下,教学信号然后用于更新相应级别的先前值:


(3)
哪里 是学习率。 这种形式的层间信息共享在生物学上是合理的,因为它反映了DA电路的螺旋结构,在背向方向上沿着层次结构传递信息。 同时,以更抽象的水平为指导显着加速学习,在细节层面上缓解价值学习的高维度 [16].

在本文中,我们展示了模型的修改版本之间的相互作用 [16] 滥用药物对多巴胺能系统的特定药理作用可以在完全不同的分析尺度上捕获成瘾相关数据:行为和电路水平的神经生物学。 首先,新模型为与药物成瘾相关的几个有趣的行为方面带来了可能的有力解释(例如自我描述的错误 [4], [6], [7])。 其次,我们可以解释有关药物诱发的多巴胺释放动力学的广泛证据 [17].

我们修改了所提出的模型 [16] 如下。 我们通过替换使工作内存容量更高效 在公式2中,由于这两个值收敛到相同的稳定水平(见图S2) 文件S1,计算和神经生物学基础):


(4)

在这里, 是一个相对抽象的选择和 是完全填充此选项的行为序列中的最后一个原始动作。 同样的, 是有价值的 ,其中包括 (奖励的价值 ).

至关重要的是,人类滥用的各种药物具有药理学上增加纹状体内多巴胺浓度的基本特性 [29]。 因此,我们通过添加正偏差来结合药物的这种药理作用, , (也可以看看 [9][12])由多巴胺神经元携带的预测误差信号(见图S3) 文件S1,计算和神经生物学基础):


(5)

这里 捕获药物对DA系统的直接药理作用,并且 由于欣快效应,它是强化价值(见 文件S1 补充资料)。

虽然方程3和5一起定义了更新模型中值的计算机制,但我们还假设基于不确定性的竞争机制决定了控制行为的抽象级别。 这是受到提出的机制的启发 [29] 用于习惯和目标导向系统之间的仲裁。 在这方面,在每个决策点,只有在估计选择值时具有最高确定性的抽象级别才能控制行为。 一旦这个级别决定采取行动,层次结构的所有较低级别将被这个主导级别部署,以将所选动作实现为一系列原始运动响应(参见 文件S1 补充资料; 图中的S4 文件S1; 图中的S5 文件S1)。 在从环境接收到奖励反馈后,更新所有级别的值。 这种基于不确定性的仲裁机制预测,随着抽象过程更加灵活,它们在学习的早期阶段具有更高的价值逼近能力,从而控制这些阶段的行为。 然而,由于抽象级别使用环境的粗略表示(例如,由于包含相对少量的基函数),因此它们的最终值近似能力不如详细级别那样精确。 换句话说,在广泛训练之后,与较高级别相比,与级别的较低级别相关联的估计值的确定性较低。 因此,随着渐进式学习,层次结构的较低层次接管对动作选择的控制,因为它们的不确定性逐渐降低。 这与几个证据一致,表明背部对腹侧纹状体在控制寻求药物(以及寻求自然奖励)方面的进步优势 [8], [30], [31].

成果

层次结构评估不一致在药物下出现,但不是自然奖励

与先前基于强化学习的成瘾计算模型相反 [9][13] 这些都是基于单决策系统方法的,因此我们的帐户是建立在多交互系统框架上的。 结果,尽管在我们的模型中建模药物对预测误差信号的影响形式与之前的相似。 [9][12],它会导致根本不同的后果。 药物诱导的瞬时多巴胺增加会增加层次结构中每个级别的即时预测误差,从而带来偏差, ,关于将知识从一个抽象层次转移到下一个层次,沿着层次结构的粗到精的方向。 这种偏见导致在给定水平上寻求药物的渐近值 单位高于一个抽象层的单位(图2B)。 沿着rostro-caudal轴的这些差异的累积逐渐引起层次结构的顶部和底部极端之间的寻药行为的价值的显着差异。 因此,即使在强烈的惩罚之后,药物相关行为的价值在低水平运动环路中仍然是正面的,而在认知水平上则变为负面。 换句话说,该模型预测药物效应相对于DA螺旋的积累会使运动级习惯中的寻药价值增加到如此高的幅度,即使强烈的自然惩罚也不能充分降低它。 我们建议这解释了成瘾者中药物相关行为的认知和低水平评估之间的不一致。 换句话说,我们提出强迫药物寻求和相关成本的弹性显着降低源于药物劫持多巴胺依赖机制的药理作用,该机制在决策层级之间传递信息。

缩略图

图2。 不同抽象水平下食物与药物的动机(模拟结果)。

在第一次150试验中,奖励后没有惩罚,在所有级别寻求自然奖励的价值汇总到10(A)。 然而,对于药物的情况,药物的直接药理作用(, 调成)导致每个级别的渐近值 单位高于一个更高的抽象水平(B)。 因此,当遵循惩罚时,认知循环正确地为寻求药物的选择赋予负值,运动级循环找到寻求药物的期望(正值)。 该图中的曲线显示了“一个”模拟动物中值的演变,因此没有统计分析适用。

DOI:10.1371 / journal.pone.0061489.g002

虽然我们的模型中的药物导致各级别的估值不平衡,但由于缺乏对DA信号传导机制的直接药理作用,自然奖励的价值会在所有水平上收敛到相同的值()。 因此,对于自然奖励的情况,不会在详细程度上观察到不一致或高估(图2A)。 在较低级别的层级中高估寻求药物的反应应导致药物对自然奖励的异常偏好,以及过度参与与药物有关的活动。

差异多巴胺在腹侧与背侧纹状体中对药物相关线索有反应

在神经生物学上,纹状体亚区域在获取和表达药物寻求行为中的不同作用已成为成瘾研究的中心阶段。 来自不同研究领域的汇总证据表明,从娱乐性到强制性药物使用的行为转变反映了从腹侧到背外侧纹状体的估值的神经生物学转变。 [8], [33], [34],对应于我们模型中从认知到详细水平的转变。 与我们的模型一致,DA螺旋网络将腹侧连接到纹状体的逐渐更多的背侧区域显示出在这种转变中起关键作用 [25].

在最近的一项重要研究中,Willuhn等人。 [17] 评估了在经历可卡因三周期间大鼠腹侧和背外侧纹状体中对药物相关线索的多巴胺释放模式。 使用快速扫描循环伏安法,关键的观察结果是,即使在非常有限的训练后,线索诱导的腹侧纹状体DA外流也会出现。 相反,背外侧纹状体仅在广泛训练后才显示出线索触发的DA流出,并且当在同侧半球中损伤腹侧纹状体时,这种释放模式的发展消失。

由于快速扫描伏安法的时间分辨率捕获浓度的亚秒级波动,因此根据多巴胺的RL理论,观察到的DA流出模式应归因于“相位”DA信号传导,因此归因于预测误差信号。 [24]。 根据RL理论,观察到意外刺激时的预测误差信号等于刺激预测的奖励值。 因此,提示诱导的DA释放等同于该提示预测的值。

在这方面,我们的分层框架提供了对腹侧与背侧纹状体DA流出的差异模式的正式解释。 [17]。 在培训的早期阶段,药物相关线索在层次结构的抽象认知水平上预测的值迅速增加(图2B),由于高抽象层次的学习问题的低维度。 因此,我们的模型显示即使在有限的训练后,也应在腹侧纹状体中观察到线索诱导的DA外排(图3)。 然而,在更详细的代表性层面,学习过程缓慢(图2B),由于问题空间的高维度,以及通过DA螺旋在更抽象的层面上学习的依赖性。 因此,背外侧纹状体中的线索诱导的DA流出应该逐渐发展并且仅在经过广泛训练后才能观察到(图3).

缩略图

图3。 多巴胺在不同纹状体亚区域外排以响应药物相关线索(模拟结果)。

符合实验数据 [17],该模型显示(左栏),响应药物相关线索,在有限和广泛的训练后,腹侧纹状体中将有多巴胺外流。 然而,在更多的背外侧分区域,在学习过程中,提示引起的DA流出将逐渐发展。 该模型预测(右起第二列)这种在背侧纹状体中引起的诱发DA外排的延迟发展取决于连接腹侧与背侧纹状体的DA依赖性连续连接。 也就是说,由于断开DA螺旋,而在腹侧纹状体中提示引起的DA反应保持完整,它在背外侧纹状体中显着减少。 此外,该模型预测(右侧第三列)类似的结果,对于损伤的腹侧纹状体,背外侧纹状体中的线索诱导的DA流出。 最后,如果在完整的动物中进行广泛的药物提示配对后,药物会受到惩罚,该模型预测(右栏)即使在有限的训练后,药物相关的提示也会导致DA螺旋腹侧腿的抑制。 然而,在更多的背部区域,DA流出在学习期间缓慢下降,但即使在广泛的药物惩罚配对后仍将保持正面。 该图中显示的数据来自“一个”模拟动物,因此没有统计分析适用。

DOI:10.1371 / journal.pone.0061489.g003

此外,我们的模型解释了证据 [17] 在背外侧纹状体中这种诱发DA外排的延迟发展取决于腹侧纹状体(图3)。 在我们的模型中,腹侧纹状体的模拟单侧病变(模型中的抽象评估水平)显着降低了同侧半球中详细水平的药物线索预测值,因此显着降低了线索诱导的DA流出水平。 为了模拟腹侧纹状体的病变,我们简单地将层次结构的最高级别的所有刺激的值固定为零。

同样,我们的模型预测背外侧纹状体中相位DA信号的发展取决于DA螺旋电路的完整性(图3)。 事实上,我们模型中DA螺旋电路的断开切断了跨越抽象层次的通信,这反过来又阻止了药物引起的偏差在增强信号上的累积,沿着决策层次的层次。 为了模拟腹侧到背侧纹状体的DA依赖性串联电路中的断开,我们钳制每个抽象级别以局部地计算预测误差信号(如在方程式3中),而不从更高的位置接收时间上提前的状态的值。抽象程度。

此外,该模型预测,如果经过对可卡因和可卡因相关线索的广泛训练后,提示引起的DA流出的模式将发生变化,如上述实验中,人们开始将可卡因分娩与强烈的惩罚配对。 我们预测,响应可卡因相关线索的DA流出应迅速降低至腹侧纹状体的基线以下。 然而,在背外侧纹状体中,提示诱导的DA释放应保持在基线以上(图3)可能会延迟部分减少。 这表明尽管在认知水平上具有负(低于基线)值,但在详细水平上为药物刺激分配正主观价值。 值得注意的是,这种预测取决于大脑将惩罚视为负面奖励的假设。 这个假设有点争议:实验研究显然支持它 [35],还有其他人讨论过 [14], [36]。 除了这种预测之外,模型的其他方面不依赖于惩罚是由多巴胺还是由其他信号系统编码。

Willuhn等人使用的训练方案。 [34] 没有充分扩展到产生强迫性的寻求药物的行为,其特点是对药物相关的惩罚不敏感 [37], [38]。 因此,需要回答的一个关键问题是,DLS中线索诱导的DA反应的延迟发展与强迫反应的后期发展之间的关系是什么。 根据我们的模型,强迫行为不仅需要在层次结构的低层次上对药物选择的过度估价,而且还需要将行为控制从抽象认知转移到低层次习惯过程。 这两个过程的时间尺度仅部分地相互依赖:过度估值过程取决于预测误差信号,而行为控制的转移也取决于价值估计的相对不确定性。 因此,在层次结构的低层次上对药物相关线索的高估可以先于对层次结构的从顶部到底部的行为控制的转移。 两个过程的确切时间尺度分别取决于学习率和不同层次固有的噪声(见 文件S1 补充资料)。 换句话说,在强迫性药物寻求行为表现之前,DLS中的线索诱导的多巴胺外流可能显着发展。

药物与自然奖励的估值不一致的行为影响

在我们的模型中,行为上,如果在自愿吸毒的早期阶段惩罚与药物配对,寻求药物反应的抽象价值就会迅速消极。 假设在这些早期阶段,吸毒是由抽象水平控制的,对药物选择的负面抽象评估使得受试者不再愿意经历这种行为。 随着时间的推移,这将阻止对药物强烈的低水平偏好的巩固。 因此,该模型解释了在药物消费的早期阶段药物选择对成本的弹性,但在长期使用后则没有。 成瘾的动物模型一致表明,药物寻求对药物相关的有害后果的反应不敏感只有在长期药物自我给药后才会发生,但药物使用不受限制 [37], [38]。 与我们的理论相反,早期的成瘾计算模型 [9], [10] 与这一系列证据直接矛盾,因为他们预测,即使在经历药物治疗的最初阶段,立即使用药物后的不良行为结果也没有动机效应(见 文件S1 补充资料)。

我们的模型进一步说明了药物结果阻塞效应的发生 [39]。 阻滞是一种调节现象,其中刺激A与结果的先前配对阻止不同刺激B与随后训练阶段中的结果之间的关联的形成,其中A和B均在结果递送之前呈现 [40]。 在巴甫洛夫实验设计中模拟我们的模型的结果(见 文件S1 关于该模型的巴甫洛夫版本的补充信息)表明,对于自然奖励和药物的两种情况,当等级的某个层次的估计值达到其稳定状态(而不是无限制地增长)时,不再进行进一步的学习。由于预测误差信号已降至零(图4)。 因此,将阻止将新刺激与已经预测的奖励相关联。 行为证据显示与药物和天然增强剂相关的阻滞作用 [39] 已被用作批评先前提出的基于多巴胺的成瘾计算模型的主要论据 [9]。 在这里我们表明,专注于表示的层次性和背腹侧螺旋多巴胺循环组织实际上可以解释阻塞数据,从而规避这种批评(见 文件S1 补充资料)。

缩略图

图4。 阻止自然与药物奖励的效果。

该模型预测自然奖励会发生阻塞(A)和药物(B),只有当初始训练期是“广泛的”时,第一次刺激才能完全预测结果的价值。 在“适度”训练之后,更灵活的认知水平可以完全预测价值,从而阻碍进一步的学习。 然而,当第二训练阶段(两种刺激的同时呈现)开始时,学习在低级过程中仍然是活跃的。 因此,我们的模型预测,在具有自然奖励的阻断实验中适度的初始训练也将导致认知/行为不一致。 该图中显示的数据来自“一个”模拟动物,因此没有统计分析适用。

DOI:10.1371 / journal.pone.0061489.g004

如前所述,几个证据表明,在控制学习过程中的行为方面,背侧对腹侧纹状体的进行性优势 [8], [31], [32]。 在这些证据的背景下进行解释,整个等级体系中寻求药物的不平衡估值也解释了当长期对药物的使用经验从控制性认知转变为低度吸毒后,吸毒者在减少药物使用方面未取得成功的努力。水平的习惯过程。 这种以药物为主导的过程的至高无上性自然导致了与药物相关的费用(强制性寻求毒品)的行为缺乏弹性,并可能伴有自我描述的错误。 但是,对于自然奖励的情况,我们的模型预测,即使行为无弹性在学习过程中增加,由于在整个等级层次上都没有出现评估不一致的情况,与奖励相关的惩罚最终将抑制寻求奖励。

我们的模型侧重于评估“可能给定的”决策层次结构中的操作,并忽略了在开发过程中最初如何发现抽象选项及其相应的低级子例程。 发现决策层次结构被认为是一个自下而上的过程,通过将低级动作序列组合在一起并构建更抽象的选项来实现 [41]。 据推测,这个过程从背侧向腹侧纹状体转变,与此处提出的竞争机制相反,用于控制行为。

讨论

关于不同纹状体亚区域成瘾的不同作用的越来越多的证据通常在习惯性与目标导向的二分法框架中得到解释。 [8], [14], [34]。 我们在这里使用的分层决策方法是对这种双系统帐户的补充。 而双重过程方法处理不同的算法(无模型与模型库) [30]为了解决单个问题,分层RL框架关注于不同时间抽象级别的相同问题的不同表示。 理论上,习惯性或目标导向算法可以解决问题的这些不同表示中的每一种。 在我们的模型中,药物诱导的偏差超过DA螺旋的积累发生在价值估计算法是无模型的(习惯学习)环境中。 但是,这并不排除在层次结构的顶层工作的基于模型的系统的存在。 通过假设最高抽象级别的动作由目标导向系统评估,可以简单地将PFC依赖的目标导向评估和决策系统纳入模型。 虽然这种并发症并未改变本手稿中所呈现结果的性质,但其在解释成瘾的其他方面方面的后续灵活性仍留待未来的研究。 事实上,在我们的模型中,无论目标直接系统是否存在,层次结构的两个极端之间的寻药渐近值的差异随着“习惯”过程所决定的决策水平的数量而增长。 。

根据我们的理论,经过一段时间的认知水平支配后,复发可被视为休眠运动水平适应不良习惯的复兴。 事实上,人们可以想象,由于认知疗法(在人类成瘾者中)或强迫灭绝(在禁欲的动物模型中),在等级的详细层面上寻求高价值的药物并没有消失,而是变成休眠状态。将控制权转移回认知水平。 由于药物相关行为对抽象水平的不良后果敏感,因此只要高水平的认知过程主导行为控制,就可以避免寻求药物。 人们甚至可以推测,流行的12步骤计划(例如,匿名嗜酒者,匿名禁毒等)的工作部分是明确要求参与者承认其药物相关生活方式的不一致,从而使抽象认知水平能够明确控制他们的行为。 压力条件或再次暴露于药物(引发)可被视为削弱抽象水平优于行为的风险因素,这可能导致寻求药物反应的重新出现(由于潜在的高非认知价值) )。

总而言之,我们对毒品成瘾的几种明显不同的现象提出了一个连贯的解释。 我们的模型为腹侧与背侧纹状体回路在寻求药物的习性和习惯表现中的不同作用提供了数据的规范说明,以及前馈DA连接对于药物与天然增强剂作用的选择性作用。 最重要的是,我们证明了从腹侧到背侧DA的药物诱发的病理信号如何将动机信息滴入认知表征层次结构,从而导致吸毒者对寻求毒品的抽象态度与他们的实际行为之间存在分歧。 显然,我们的模型并未也无意提供关于吸毒成瘾的完整说明。 要解释成瘾的其他无法解释的方面,需要结合许多其他证明受滥用药物影响的大脑系统 [42]。 如何将这些系统纳入正式计算网络仍然是进一步研究的主题。

支持信息

File_S1.pdf
 

图S1,具有五个抽象级别的示例决策层次结构。 图S2, 用于三个讨论的值学习算法的相应神经电路是分层决策结构。 A, 使用简单的TD学习算法(等式S7),每个抽象级别中的预测误差信号独立于其他级别计算。 B, 在Haruno和Kawato(4)(方程式S8)提出的模型中,时间先进状态的值来自一个更高的抽象层次。 C, 在我们的模型(等式S9)中,在更高的抽象层次上,执行动作的奖励和Q值的组合代替了时间上提前状态的值。 图S3, 我们的模型预测了奖励学习循环中药物的不同作用位点:1到3。 相反,影响4至6位点的药物不会产生通过模拟药物模型产生的行为和神经生物学模式,但会产生类似于自然奖励的结果。 图S4, 用于模拟基于不确定性的竞争机制的任务,用于控制行为。 图S5, 模拟结果,显示控制从层次结构的较高层到较低层的行为逐渐转移。 Q(S,A)美国) 分别显示状态 - 动作对的估计值和不确定性。

文件S1.

图S1,具有五个抽象级别的示例决策层次结构。 图S2, 用于三个讨论的值学习算法的相应神经电路是分层决策结构。 A, 使用简单的TD学习算法(等式S7),每个抽象级别中的预测误差信号独立于其他级别计算。 B, 在Haruno和Kawato(4)(方程式S8)提出的模型中,时间先进状态的值来自一个更高的抽象层次。 C, 在我们的模型(等式S9)中,在更高的抽象层次上,执行动作的奖励和Q值的组合代替了时间上提前状态的值。 图S3, 我们的模型预测了奖励学习循环中药物的不同作用位点:1到3。 相反,影响4至6位点的药物不会产生通过模拟药物模型产生的行为和神经生物学模式,但会产生类似于自然奖励的结果。 图S4, 用于模拟基于不确定性的竞争机制的任务,用于控制行为。 图S5, 模拟结果,显示控制从层次结构的较高层到较低层的行为逐渐转移。 Q(S,A)美国) 分别显示状态 - 动作对的估计值和不确定性。

DOI:10.1371 / journal.pone.0061489.s001

(PDF)

致谢

我们感谢S. Ahmed和P. Dayan的批评性讨论,感谢M. Reinoud,D。Redish,N。Daw,E。Koechlin和A. Dezfouli对手稿的评论。

作者贡献

构思并设计了实验:MK。 进行实验:MK。 分析数据:MK BG。 贡献的试剂/材料/分析工具:MK。 写了这篇论文:MK BG。

参考资料

  1. 1. 麻醉品匿名(2008)。 6th ed。 世界服务办公室。
  2. 2. Goldstein A(2001)成瘾:从生物学到药物政策。 牛津大学出版社,美国。
  3. 3. Volkow ND,Fowler JS,Wang GJ,Swanson JM(2004)药物滥用和成瘾中的多巴胺:成像研究和治疗影响的结果。 分子精神病学9:557-569。 DOI: 10.1038 / sj.mp.4001507. 在线查找此文章
  4. 4. Stacy AW,Wiers RW(2010)内隐认知和成瘾:一种解释矛盾行为的工具。 临床心理学年度回顾6:551-575。 DOI: 10.1146 / annurev.clinpsy.121208.131444. 在线查找此文章
  5. 5. 精神障碍的诊断和统计手册(DSM-IV)(2000)。 4th ed。 华盛顿特区:美国精神病学协会。
  6. 6. Lamb RJ,Preston KL,Schindler CW,Meisch RA,Davis F,et al。 (1991)吗啡在成瘾后的强化和主观影响:剂量反应研究。 药理学和实验治疗学杂志259:1165-1173。 在线查找此文章
  7. 7. Goldstein RZ,Woicik PA,Moeller SJ,Telang F,Jayne M,et al。 (2010)在活跃的可卡因使用者中喜欢和想要药物和非药物奖励:STRAP-R问卷。 精神药理学杂志24:257-266。 DOI: 10.1177/0269881108096982. 在线查找此文章
  8. 8. Everitt BJ,Robbins TW(2005)用于药物成瘾的神经系统:从行为到习惯再到强迫。 Nature Neuroscience 8:1481-1489。 DOI: 10.1038 / nn1579. 在线查找此文章
  9. 9. Redish AD(2004)成瘾作为一个计算过程出错了。 科学306:1944-1947。 DOI: 10.1126 / science.1102384. 在线查找此文章
  10. 10. Dezfouli A,Piray P,Keramati MM,Ekhtiari H,Lucas C,et al。 (2009)可卡因成瘾的神经计算模型。 神经计算21:2869-2893。 DOI: 10.1162 / neco.2009.10-08,882. 在线查找此文章
  11. 11. Piray P,Keramati MM,Dezfouli A,Lucas C,Mokri A(2010)伏隔核多巴胺受体的个体差异预测成瘾行为的发展:计算方法。 神经计算22:2334-2368。 DOI: 10.1162 / NECO_a_00009. 在线查找此文章
  12. 12. Dayan P(2009)多巴胺,强化学习和成瘾。 Pharmacopsychiatry 42:56-65。 DOI: 10.1055 / S-0028-1124107. 在线查找此文章
  13. 13. Takahashi Y,Schoenbaum G,Niv Y(2008)沉默批评者:在演员/评论家模型的背景下理解可卡因致敏对背外侧和腹侧纹状体的影响。 神经科学的前沿2:86-99。 DOI: 10.3389 / neuro.01.014.2008. 在线查找此文章
  14. 14. Redish AD,Jensen S,Johnson A(2008)一个统一的成瘾框架:决策过程中的漏洞。 行为与脑科学31:415-487。 DOI: 10.1017 / S0140525X0800472X. 在线查找此文章
  15. 15. Botvinick MM(2008)行为和前额功能的分层模型。 认知科学的趋势12:201-208。 DOI: 10.1016 / j.tics.2008.02.009. 在线查找此文章
  16. 16. Haruno M,Kawato M(2006)用于整合多个皮质 - 纹状体环的分层强化学习模型:刺激 - 动作 - 奖励关联学习中的fMRI检查。 神经网络19:1242-1254。 DOI: 10.1016 / j.neunet.2006.06.007. 在线查找此文章
  17. 17. Willuhn I,Burgeno LM,Everitt BJ,Phillips PEM(2012)在可卡因使用过程中分层募集纹状体中的多相多巴胺信号。 美国国家科学院院刊109:20703-20708。 DOI: 10.1073 / pnas.1213460109. 在线查找此文章
  18. 18. Botvinick MM,Niv Y,Barto AC(2009)等级组织的行为及其神经基础:强化学习视角。 认知113:262-280。 DOI: 10.1016 / j.cognition.2008.08.011. 在线查找此文章
  19. 19. Badre D,D'Esposito M(2009)额叶的rostro-caudal轴是否分层? 自然评论神经科学10:659–669。 土井: 10.1038 / nrn2667. 在线查找此文章
  20. 20. Koechlin E,Ody C,Kouneiher F(2003)人类前额叶皮质中认知控制的结构。 科学302:1181-1185。 DOI: 10.1126 / science.1088545. 在线查找此文章
  21. 21. Badre D,Hoffman J,Cooney JW,D'Esposito M(2009)损害人类额叶后的分层认知控制缺陷。 自然神经科学12:515-522。 土井: 10.1038 / nn.2277. 在线查找此文章
  22. 22. Alexander GE,DeLong MR,Strick PL(1986)连接基底神经节和皮质的功能隔离电路的并行组织。 神经科学年度回顾9:357-381。 DOI: 10.1146 / annurev.neuro.9.1.357. 在线查找此文章
  23. 23. Alexander GE,Crutcher MD,DeLong MR(1990)Basal ganglia-thalamocortical circuit:用于运动,动眼,前额叶和边缘功能的平行基底。 脑研究进展85:119-146。 在线查找此文章
  24. 24. Schultz W,Dayan P,Montague PR(1997)预测和奖励的神经基质。 科学275:1593-1599。 DOI: 10.1126 / science.275.5306.1593. 在线查找此文章
  25. 25. Belin D,Everitt BJ(2008)寻找可卡因的习惯取决于连接腹侧和背侧纹状体的多巴胺依赖性连续连接。 Neuron 57:432-441。 DOI: 10.1016 / j.neuron.2007.12.019. 在线查找此文章
  26. 26. Haber SN,Fudge JL,McFarland NR(2000)灵长类动物纹状体纹状体通路形成从壳到背外侧纹状体的上升螺旋。 神经科学杂志20:2369-2382。 在线查找此文章
  27. 27. Haber SN(2003)灵长类动物基底神经节:平行和整合网络。 化学神经解剖学杂志26:317-330。 DOI: 10.1016 / j.jchemneu.2003.10.003. 在线查找此文章
  28. 28. Sutton RS,Barto AG(1998)强化学习:简介。 剑桥:麻省理工学院出版社
  29. 29. Di Chiara G,Imperato A(1988)被人类滥用的药物优先增加自由活动大鼠的中脑边缘系统中的突触多巴胺浓度。 美利坚合众国国家科学院会议记录85:5274-5278。 DOI: 10.1073 / pnas.85.14.5274. 在线查找此文章
  30. 30. Daw ND,Niv Y,Dayan P(2005)用于行为控制的前额叶和背外侧纹状体系统之间的不确定性竞争。 Nature Neuroscience 8:1704-1711。 DOI: 10.1038 / nn1560. 在线查找此文章
  31. 31. Vanderschuren LJMJ,Ciano PD,Everitt BJ(2005)背部纹状体参与线索控制的可卡因寻求。 神经科学杂志25:8665-8670。 DOI: 10.1523 / 0925-JNEUROSCI.05.2005. 在线查找此文章
  32. 32. Volkow ND,Wang GJ,Telang F,Fowler JS,Logan J,et al。 (2006)背部纹状体中的可卡因提示和多巴胺:可卡因成瘾的渴望机制。 神经科学杂志26:6583-6588。 DOI: 10.1523 / 1544-JNEUROSCI.06.2006. 在线查找此文章
  33. 33. Kalivas PW,Volkow ND(2005)成瘾的神经基础:动机和选择的病理学。 美国精神病学杂志162:1403-1413。 DOI: 10.1176 / appi.ajp.162.8.1403. 在线查找此文章
  34. 34. Belin D,Jonkman S,Dickinson A,Robbins TW,Everitt BJ(2009)基底神经节内的平行和互动学习过程:与成瘾理解的相关性。 行为脑研究199:89-102。 DOI: 10.1016 / j.bbr.2008.09.027. 在线查找此文章
  35. 35. Matsumoto M,Hikosaka O(2009)两种类型的多巴胺神经元明显地传达正面和负面的动机信号。 Nature 459:837-841。 DOI: 10.1038 / nature08028. 在线查找此文章
  36. 36. Frank MJ,Surmeier DJ(2009)黑质多巴胺能神经元是否区分奖励和惩罚? 分子细胞生物学杂志1:15-16。 DOI: 10.1093 / jmcb / mjp010. 在线查找此文章
  37. 37. Vanderschuren LJMJ,Everitt BJ(2004)长期使用可卡因后,药物寻求变得强迫。 科学305:1017-1019。 DOI: 10.1126 / science.1098975. 在线查找此文章
  38. 38. Deroche-Gamonet V,Belin D,Piazza PV(2004)大鼠中类似成瘾行为的证据。 科学305:1014-1017。 DOI: 10.1126 / science.1099020. 在线查找此文章
  39. 39. Panlilio LV,Thorndike EB,Schindler CW(2007)阻断对可卡因配对刺激的调理:检验可卡因永久性产生高于预期奖励的信号的假设。 药理学,生物化学和行为86:774-777。 DOI: 10.1016 / j.pbb.2007.03.005. 在线查找此文章
  40. 40. Kamin L(1969)可预测性,惊喜,注意力和条件。 在:Campbell BA,Church RM,编辑。 惩罚和厌恶行为。 纽约:Appleton-Century-Crofts。 pp.279-296。
  41. 41. Dezfouli A,Balleine BW(2012)习惯,动作序列和强化学习。 欧洲神经科学杂志35:1036-1051。 DOI: 10.1111 / j.XN​​UMX 1460.x. 在线查找此文章
  42. 42. Koob GF,Le Moal M(2005)成瘾神经生物学。 圣地亚哥:学术出版社