强化学习原则中的显着性和新颖性反应的出现(2008)

评论:另一项研究表明新颖性是它自己的奖赏。 网络色情的令人上瘾的方面之一是无穷无尽的新颖性和多样性,快速从一个场景单击到另一个场景的能力以及仅寻找正确的图像/视频的能力。 所有这些增加多巴胺。 这就是使互联网色情不同于杂志或租借DVD的原因。

全面研究:强化学习原则中的显着性和新颖性反应的出现

神经网络。 2008十二月; 21(10):1493-1499。

在线发布2008九月25。 doi:10.1016 / j.neunet.2008.09.004

匹兹堡大学Patryk A. Laurent;

致电所有信件:Patryk Laurent,匹兹堡大学,623 LRDC,3939 O'Hara St.,Pittsburgh,PA 15260 USA,E-mail: [电子邮件保护],办公室:(412)624-3191,传真:(412)624-9149

抽象

最近将基于奖励的学习模型(如强化学习[17])映射到大脑的尝试基于以下观察:多巴胺释放神经元的尖峰中的相位增加和减少表明预测和接收的奖励之间的差异[16,5]。 然而,这种奖励预测误差只是该阶段活动传达的几种信号之一; 另一个涉及多巴胺能尖峰的增加,反映出显着但不可预测的非奖励刺激[4,6,13]的出现,特别是当有机体随后朝向刺激[16]时。 为了解释这些发现,Kakade和Dayan [7]和其他人认为新颖的,意想不到的刺激本身就是有益的。 本文中报告的模拟表明,这种假设不是必要的,因为它旨在捕获的效果来自强化学习的奖励预测学习机制。 因此,强化学习原则不仅可以用于理解基底神经节的多巴胺能神经元的奖赏相关活动,还可以用于理解一些明显的非奖赏相关活动。

强化学习(RL)在大脑中基于奖励的学习的计算模型的开发中变得越来越重要。 RL是一类计算算法,其指定人工“代理”(例如,真实或模拟机器人)如何学习选择动作以最大化总预期奖励[17]。 在这些算法中,代理将其动作基于其学习与各种状态相关联的值(例如,与刺激相关联的感知线索)。 这些值可以通过时间差异学习逐渐学习,时间差异学习基于代理人现有的状态奖励预测与随后从环境获得的实际奖励之间的差异来调整状态值。 这种计算的差异,称为奖励预测误差,已被证明与非人类灵长类动物黑质中投射的多巴胺释放神经元的阶段性活动相关[16]。 此外,在人类中,作为多巴胺的重要目标的纹状体表现出fMRI BOLD信号,其似乎反映了奖励学习任务期间的奖励预测误差[10,12,18]。 该fMRI发现补充了生理学数据,因为假定纹状体BOLD至少部分地反映了传入的突触活动[9]并且多巴胺神经元大量投射到纹状体。

虽然上述生理反应似乎与RL的奖励预测计算有关, 多巴胺能阶段活性也随着唤醒和/或新的刺激而增加,这似乎与奖赏[4,6,14,3]无关。 最近在使用fMRI [2]的人类中观察到类似的现象。 有几个原因可以解释为什么这种“新颖性”或“显着性”反应与奖励预测错误无关:( 1)在评估刺激的身份之前很早就出现,因此准确的奖励预测不能生成; (2)它对应于厌恶和食欲刺激的神经活动的增加(即,它是正的); 和(3)它习惯于[13]。 实际上,当刺激不可预测时,多巴胺释放神经元的这些显着/新颖反应是最可靠的,并且无论最终结果如何都会导致定向和/或接近行为[16],突出显示它们与学习奖励在质量上不同的事实预测。 因此,挑战在于在RL的理论框架内解释这种明显的悖论(即,新颖性如何影响奖励预测错误)。

Kakade和Dayan [7]试图做到这一点; 在他们的文章中,他们假设两种方式,其中新奇反应可以纳入多巴胺能功能的RL模型 - 两者都涉及包含新的理论假设。 第一个假设,称为新奇奖金,涉及在新的刺激存在时引入额外奖励,超出代理人收到的通常奖励。 该额外奖励进入计算,以便学习基于代理的现有奖励预测与来自环境的通常奖励和新颖奖励的总和之间的差异。 因此,新颖性成为代理人试图最大化的奖励的一部分。 第二个假设,称为塑造奖金,可以通过人为地增加与新刺激相关的状态值来实现。 因为RL中使用的时间差异学习规则基于连续状态之间的奖励预测的差异,所以向涉及新颖刺激的状态添加恒定的整形奖励对于代理的最终行为没有影响。 然而,当代理进入已经“塑造”的状态空间的一部分时(即,与新颖性相关联),仍然会出现新颖的反应。

虽然这些假设中的每一个的增加足以解释许多观察到的新颖性的影响,但这些假设也会干扰学习的进展。 正如Kakade和Dayan [7]指出的那样,新奇奖金会扭曲价值功能(即代理人与每个州相关的价值观)并影响最终学到的东西,因为它们是作为与小说本质上相关的额外奖励而实施的。状态。 问题是代理人学会预测奖励的主要和新颖组成部分。 虽然Kakade和Dayan指出塑造奖金不会导致这类问题,因为它们被纳入前面各州的奖励预测,但它们的加入仍然存在问题,因为塑造奖金会引起代理人探索其状态空间的偏见。 因此,虽然这些额外的假设可以解释新颖性如何影响RL中的奖励预测误差,但它们是有问题的。 此外,解释的代价是减少了试图使用RL来理解真实生物有机体行为的建模工作的简约性。

下面报告的模拟是为了检验一个假设,即一个简单的RL试剂,没有任何额外的假设,会产生一个类似于生物有机体中观察到的非奖励相关多巴胺反应的奖励预测误差反应。 。 RL代理的任务是与两种类型的对象进行交互 - 一种是正面的,另一种是负面的 - 它们出现在环境中的随机位置。 为了最大化其奖励,代理人必须学会接近并“消费”积极的对象,并避免(即,不“消耗”)消极对象。 模拟有三个主要预测。

第一个预测就是,为了最大化其奖励,代理人实际上会学会接近并“消费”积极的,有益的对象,同时学习避免负面的惩罚对象。 第二个预测稍微不那么明显:代理会表现出定向响应(即,学会将其方向转移)朝向负面和正面对象。 之所以做出这样的预测,是因为虽然代理人可以“感知”对象的外观及其位置,但是对象的正面或负面身份(即,代理最终将学习与对象的奖励值相关联的提示)在代理人实际面向对象之前,代理人无法确定。 最后,第三个(也是最重要的)预测与模型中模拟的多巴胺能阶段性反应有关; 这个预测是,当物体出现时,药剂会表现出一种奖励预测误差,其在计算上类似于在生物体中观察到的阶段性多巴胺反应,对正面和负面物体都是正面的。 还预测该响应随着药剂与刺激之间的距离而变化,其在模拟的背景下是刺激“强度”或显着性的代理测量。 如下所示,这些预测通过模拟结果得到证实,表明明显不与奖赏相关的多巴胺反应原则上可以从RL的基本原理中得出。 这些结果用于理解生物有机体中非奖励相关活动的理论意义将在本文的最后一节中讨论。

付款方式

如前所述,RL算法指定代理如何使用即时数字奖励来了解应采取哪些操作以最大化其接收的奖励总额。 在大多数表述中,通过使用奖励预测错误(即,代理的当前奖励预测与获得的实际奖励之间的差异)来更新代理的奖励预测来实现该学习。 当学习奖励预测时,代理也可以使用预测来选择其下一个动作。 通常的政策(在公式2中定义)是代理人选择预测会产生最大奖励的行动。 在任何给定时间提供给代理的实际奖励是直接奖励加上代理在动作完成时输入的状态值的一部分的总和。 因此,如果代理人在处于特定状态之后最终经历积极的奖励,则代理人将选择将来可能导致那些奖励状态的行动; 相反,如果代理人经历负面奖励(即惩罚),它将避免将来导致那些“受惩罚”状态的行为。

确定为各种状态学习的奖励预测的特定算法(即,值函数V)被称为值迭代[脚注1],并且可以被正式描述为:

对于所有可能的状态s,

(公式1)

其中s对应于当前状态,V(s)是代理已经学习的状态s的当前奖励预测,maxaction∈M{}是所有动作集合上括号内数量的最大值的运算符。 M可用于代理,V(s')是代理对下一个状态s'的当前奖励预测,α是一些学习率(在0和1之间),γ是反映未来奖励如何加权的折扣因子相对于即时奖励。 设置初始值函数,使得所有状态s的V(s)为0。

值函数V(s)被实现为查找表,其形式上等同于完美存储器的假设。 虽然诸如神经网络之类的函数逼近器已经成功地用于表示值函数[1],但是使用查找表来确保结果不依赖于由各种函数逼近器提供的泛化机制的类型。 代理人在其状态空间上接受了1,500学习迭代的培训。 由于对象身份的不可预测性,在学习期间使用小于1的值函数更新参数(α= 0.01)以允许对不同结果进行平均。 最后,贴现因子被设置为γ= 0.99,以鼓励代理人更快地寻求奖励而不是延迟其接近行为直到试验结束(尽管从1的默认值更改它对此处报告的结果没有影响。 )为了独立地确定1,500学习迭代是否足以学习完成,监测学习的平均变化量并且发现在该迭代次数之前已经收敛。

训练之后,管理代理行为的特定算法(即,从每个给定状态采取的动作策略)是:

(公式2)

其中π(s)是代理人将从状态s中选择的动作,并且等式的右侧返回动作(例如,方向,移动或不动作的改变),其最大化奖励和折扣值的总和。结果状态s'。

在下面报告的模拟中,代理访问的所有状态都被编码为7维向量,其表示关于代理的外部“物理”状态及其内部“知识”状态的信息。 物理信息包括代理人在空间中的当前位置及其方向。 知识信息包括对象的位置(如果存在)和该对象的身份(如果它已由代理确定)。 表1中显示了由代理表示的特定信息类型。

表1

RL模拟中使用的尺寸以及这些尺寸的可能值。

模拟中共有21,120状态[脚注2]。 然而,从代理的角度来看,存在未识别的正面和未识别的否定对象的状态是相同的,因此因此仅存在16,280不同的状态。 因此,在每次学习迭代期间,有必要两次访问这些“相同”状态中的一些,以允许他们可能被发现一个正面对象的一半时间,以及它们可能的一半时间。随后发现一个负面对象[脚注3]。

在每个模拟测试试验开始时,代理被放置在模拟线性11×1单元轨道的中心,其中五个空间到代理的“东”(即右侧),五个空间到“西” “(即左侧)代理人。 如表1所示,代理的状态向量包括指示其在轨道上的当前位置的元素(即,从0到10的整数),以及元素(即,字符“n”,“s”,“ e“或”w“)表示其当前方向(即分别为北,南,东或西)。 代理的初始方向始终设置为“北”,并且环境中不存在其他对象(即,代理的状态向量中的“OBJECT”的值设置为等于“0”)。

在模拟的每个时间步骤期间,代理可以执行以下操作之一:(1)不执行任何操作,并保持在当前位置和方向; (2)朝​​北,南,东或西; 或(3)在环境中移动一个空间(东或西)。 每个动作的结果都发生在随后的模拟时间步骤中。 通过代理选择的动作,发生了代理在空间中的位置和/或方向的所有变化。 但是,在模拟的每个时间步骤期间,即使选择“不执行任何操作”,时间也会增加1直到试验结束(即时间步骤20)。

设置了代理的环境,使得一半时间后,一个对象在十个时间步后出现在随机位置(但与代理不在同一位置); 50%的对象是正数(用“+”表示;见表1),对象的50%是负数(用“ - ”表示)。 引入物体出现之前的延迟以允许观察物体在物体出现之前可能已经表现出的任何行为。 如果代理在出现时没有面向对象,则代理状态向量中表示“OBJECT”标识的元素从“0”更改为“?”,以反映现在对象的标识目前还不得而知。 但是,如果代理面向对象,则在随后的时间步骤中,“OBJECT”元素被设置为等于对象的标识,因此“0”变为“+”或“ - ”为正和负面物体。

如果代理移动到对象的位置,则在下一个时间步骤中对象消失。 如果对象是肯定的,那么代理的“CONSUMED”标志被设置为等于true并且代理被奖励(奖励= + 10); 但是,如果对象是否定的,则“SHOCKED”标志设置为true并且代理受到惩罚(奖励= -10)。 (请注意,无论代理程序是否已识别对象,都会以这种方式设置标志;例如,代理程序可能会消耗对象而不会向其定向。)在随后的时间步骤中,“SHOCKED”或“消费”旗帜被清除。 对于每个动作或定向动作,代理人还被给予小额惩罚(强化= -1),并且如果不执行任何动作则不接受奖励或惩罚(强化= 0)。

对于代理人,量化了明显的行为(即,定向和移动)和奖励预测误差的度量。 公开行为(即,由代理选择的动作列表)用作是否已经学习任务的指示。 使用奖励预测误差的度量来检验关于非奖励多巴胺能相位信号的出现的假设。 奖励预测误差δ是在物体出现的时间t通过从前一时间步骤减去奖励预测,即时间步骤t-1的V(s),从奖励预测时的时间来测量的。物体出现,即在时间t的V(s),产生量δ= V(st)-V(st-1)。

成果
模拟行为

首先量化了药剂的明显行为。 该分析的结果表明,在训练之后,代理人接近并从所有正面物体获得正强化,并且从未接近任何负面物体。 这些结果一起提供行为确认,代理学习如何正确执行任务。 这一结论得到了额外的观察结果的支持,即在试验期间没有任何物体出现时,药剂一动不动。 正如预测的那样,代理人面向正面和负面的对象。

模拟奖励预测误差

本文的中心假设是,不可预测的刺激的出现将始终产生积极的奖励预测错误,即使该对象碰巧是一个总是惩罚的“负面”对象。 为了支持这一假设,无论何时出现(未识别的)物体,代理人都表现出积极的奖励预测误差,但是当没有出现任何事物时。 与中心假设一致的是,药剂的阶段响应的幅度(δ,如方法部分所述测量)对刺激的模拟“强度”敏感, 使用代理与对象之间的距离定义(参见图1)。 回归分析表明,δ的大小与到物体的距离成反比,因此更近的物体会产生更强的响应(r = -0.999,p <0.001;β= 0.82)。 这种负相关性是由代理人为了移动到积极对象,消耗它并获得奖励所需要进行的每个动作所施加的微小惩罚(强化= -1)引起的。

图1

此图显示了当对象出现时,作为对象相对于代理位置的函数的奖励预测误差(即δ)。 正负对象的响应是相同的。 没有对象时(更多……)

鉴于在此模拟中出现了具有相同概率的正面和负面对象(p = .25),问题出现了:为什么在对象出现时代理的奖励预测错误信号为正? 按照Kakade和Dayan [7]的推理,可以预测信号应该反映出来自这种情况的所有学到的奖励的平均值,因此等于零。 理解这一结果的关键是要注意,RL不仅使代理商不太可能选择导致负强化的行为,而且还使代理商不太可能进入最终导致负强化的状态。 这导致一种“高阶”学习形式,如图2所示,并在下面描述。

图2

该图显示了RL代理如何在其环境中接受奖励和惩罚刺激的训练并且能够选择是否接近和消耗它们时如何发展正奖励预测错误。 (A)学习之前的情况:(更多……)

在学习开始时(参见图2A),代理定向“+”和“ - ”对象,接近它们,并且通过使用每种类型的对象来奖励和惩罚。 如果代理的学习状态值无法影响代理的操作(请参见图2B),则代理将继续接近并使用对象。 然后,提示的出现将预测0的平均奖励,并且奖励预测误差将突然增加。 但是,此模拟中的代理确实使用学习状态值来影响其操作(请参见图2C),尽管代理仍需要定向到未知对象以确定其身份,但如果接近,则不再使用负面对象它(如果使用随机探索算法训练,如轨迹采样[Footnote 1])。 此外,因为时间差异学习允许负面奖励预测“传播”回到先前状态,并且因为在空间中移动的成本很小,所以代理学会避免完全接近负面对象。 因此,在学习了这些信息之后,当物体首次出现时的状态值(在每个序列的第一个圆圈中表示为“V”)不是基于正和负结果状态值的平均值,而是相反,一旦代理人学会避免负面的对象,就会得到积极的和平均的“中性”结果。 这就是为什么训练有素的代理人实际获得的所有奖励的平均值大于零的原因,并解释了为什么代理人的奖励预测(以及当对象突然出现时的奖励预测错误)为净正面的原因。 这在图3中说明。 事实上,只要代理人可以学会改变其行为并避免消极对象,负面对象的价值最终与代理人的最终行为和新颖性/显着性反应的程度无关。

图3

(A)证明如果RL不导致高阶学习(即,如果代理商无法采取措施避免负面结果),则奖励预测会发生变化,因此代理商被迫消耗所有对象(更多……)

模拟结果严重依赖于三个假设。 首先,刺激必须是“显着的”,因为初始线索预测的增强的幅度相对于定向和接近的成本(例如,-10)足够大(例如,+ 1)。 如果幅度相对较小,则代理人不会学会定向,也不会产生积极的奖励预测错误响应。 其次,在识别刺激之前的延迟也是必要的。 (延迟是“新颖性”的代理,其原因在于可以快速识别熟悉的刺激。)没有延迟,代理人将简单地生成适合于实际感知对象的适当的正或负奖励预测误差。 最后,代理人的行为必须由他们学到的价值决定。 如果代理人无法控制自己的行为(即,是否接近刺激),那么当对象出现时的奖励预测将等于0,即等概率的正面和负面结果的平均值。

一般讨论;一般交流

本文中报告的模拟表明,当出现不可预测的刺激(奖励或惩罚)但无法立即识别时,会出现积极的奖励预测错误。 此外,模拟表明奖励预测误差的大小随着刺激与代理的接近而增加,其在模拟的上下文中是刺激强度的代理度量并且因此与显着性相关。 在RL的理论框架中,奖励预测通常被理解为反映公认的刺激的学习价值,或者反映代理人的身体和/或认知状态[15]的学习价值。 但是,此处报告的奖励预测错误具有定性不同的解释,因为它是在代理识别对象之前生成的。 总之,这些结果支持这样的假设:RL原则足以产生看似与奖励无关的响应,而是与新颖性和显着性的属性相关。 这个结论对于我们对RL的一般理解以及我们对RL的解释有几个重要的影响,这是对真实生物体中奖励学习的一种解释。

首先,当出现未识别的刺激时由RL代理产生的奖励预测不一定是Kakade和Dayan [7]所建议的可获得奖励的严格平均值,但实际上可以在幅度上大于该特定平均值。 Kakade和Dayan预测平均奖励预测应该等于零,因为试验得到同等的奖励和惩罚。 出现了这一惊人的结果,因为代理人以“政策上”的方式学习; 也就是说,代理人不仅学习了负面结果,还学习了避免这些结果的能力。 在将我们对RL的理解转化为真实生物时,应该仔细考虑奖励系统使代理人避免负面结果的能力。 鉴于多巴胺能相位响应的容量中的明显不对称性比负奖励预测误差[11]更好地表示正奖励预测误差,这一事实可能更为重要。 表示特定事件序列导致负面结果可能就足够了,但为了行动选择的目的,该结果的大小并不重要。

当前模拟的第二个分支是新颖性响应可能来自感知处理系统和奖励预测系统之间的相互作用。 具体而言,新颖性反应可能是由于新物体与尚未经历完整感知处理的物体之间的相似形式[脚注4]。 在这个模拟中,通过在对象的身份之前引入延迟(并因此,其奖励或惩罚性质)对于代理变得明显来实现新颖性。 这是在新物体需要更长时间识别的假设下完成的,但是这种假设也导致正面和负面物体在它们第一次出现时被类似地感知(即,它们都被编码为“?”)。 相反,Kakade和Dayan [7]表明新奇反应和“泛化”反应本质上是不同的,尽管在神经生理学数据中表现相似。

当前模拟结果的第三个结果是它们表明Kakade和Dayan [7]提出的新颖性和塑造奖金的额外假设是不必要的。 相反,新颖性的反应可以从现实的感知处理限制和能够避免负面结果的知识中产生。 这是幸运的,因为正如Kakade和Dayan所指出的那样,新奇的奖金扭曲了代理人学到的价值功能,塑造奖金会影响代理人探索其状态空间的方式。 因此,包含这些假设中的任何一个都会减少基于RL理论的模型的简约性。 有趣的是,这里提供的结果也有助于解释为什么生物新奇反应可能不会破坏真实生物体中基于奖励的学习:事实上,新奇反应已经被RL预测。 也就是说,新颖性反应反映了行为和奖励预测,这些行为和奖励预测是已经了解其环境的代理人所固有的。

对当前模拟结果的另一种(但不是相互排斥的)解释是,代理人确实通过定向和识别对象来获得抽象(可能是认知)奖励。 在多巴胺能活性的研究中,对已知预测奖赏的未预料到的线索可能发生阳性阶段性反应。 然而,这种模拟表明,这种反应如何也可以响应最终可以预测奖励或惩罚的线索。 由提示预测的唯一一致的好处是当代理确定对象的身份时获得的信息的获得。 因此,如果在未识别的对象出现时存在有效的,学习的“奖励预测”,则在代理获得关于是否接近或避免刺激的知识之后满足。 这些信息的价值不是基于可获得结果的平均值,而是基于有效结果的知识 - 代理人可以消费积极奖励或避免负面奖励(见图2)。

最后,重要的是要注意,采取特定行动(例如,定向)的机会本身可以通过本模拟中未包括的一些概括或学习机制来奖励属性。 例如,当新的刺激出现时,定向和确定“那里有什么”的行为可以基于该行为与上述证明的紧急,总是积极的奖励预测错误之间的关联而对有机体有益。 Redgrave和Gurney [13]最近提出了类似的想法,他假设阶段性多巴胺反应的一个重要目的是加强在不可预测的突发事件之前发生的行为。 这里的结果与该假设并不矛盾,但是应该注意的是Redgrave和Gurney的假设并没有直接在这个模拟中进行测试,因为为了突显事件(外观),代理人不需要采取行动(即探索)。对象)发生。 然而,模拟的相位信号与定向响应的时间一致,表明两者可能是强相关的。

最后,本文已经证明RL原理可用于解释多巴胺能神经元的一种看似无奖励的相关活动。 这一结果源于这样一个事实:时间差异学习规则(例如Kakade和Dayan [7]使用的规则)嵌入到模拟中,其中代理可以选择对最终结果有影响的动作。 在模拟中,代理人了解到,突然出现的对象的定向结果总是可以是有益的或中性的,因为可以避免负面结果。 因此,当代理人有机会定向时,其奖励预测误差总是积极的,在计算上类似于在生物有机体中观察到的新颖性和显着性反应。

致谢

本文描述的工作得到NIH R01 HD053639和NSF Training Grant DGE-9987588的支持。 我要感谢Erik Reichle,Tessa Warren和一位匿名审稿人对本文早期版本的有用评论。

1Another强化学习算法,称为轨迹采样[17],经常用于代替值迭代,当状态空间变得如此之大,以至于无法彻底迭代或轻松存储在计算机的内存中。 轨迹采样不是迭代状态空间中的每个状态并应用值函数更新方程,而是基于看似导致最大回报的动作,轨迹采样通过跟踪状态空间的路径来工作。 与价值迭代类似,通常从每个州选择导致最多奖励的行动,但偶尔选择具有一些小概率的随机探索行动。 因此,该算法是:从一些起始状态s,以概率ε选择导致最多奖励的动作[例如,奖励+γV(s')],或者选择具有概率1-ε的随机探索动作。 在状态s的非探索性行动中应用V(s)→V(s)+α[奖励+γV(s') - V(s)]。

除了克服计算时间和记忆的技术限制外,轨迹采样可能具有吸引力,因为它可以更好地反映真实生物有机体学习的方式:通过探索状态空间中的路径。 在本文描述的任务中,轨迹采样产生的结果与使用Value Iteration获得的结果在质量上相同。 但是,为了简明起见,这里没有详细报告这些结果。 本文选择了值迭代用于模拟,主要有两个原因。 首先,因为轨迹采样涉及轨迹选择的随机性,由于此任务中许多可能的动作序列而导致的大量分支可能导致代理人缺乏某些状态的经验,除非探索开发参数(即, ε-贪婪[17])是经过精心挑选的。 当使用查找表存储器结构时,由于缺乏对类似(但可能是未访问的)状态的值的泛化,这种对特定状态的缺乏经验可能破坏代理的性能。 因此,最好利用对价值迭代保证的状态空间的详尽探索。 其次,使用Value Iteration避免了需要指定额外的勘探开发参数,从而简化了模拟。 请注意,当轨迹数接近无穷大时,轨迹采样最终可以近似值迭代[17]。

2 21,120状态的数量可以按如下方式计算:11可能的代理位置×4可能的代理方向×(对象可能出现之前的10时间步长+没有对象出现的10时间步长+代理已经出现的10时间步长)积极强化+ 10时间步长,其中对象被消极加强+ 11可能的对象位置*(10时间步长带有正确的识别对象+ 10时间步长带有否定识别对象+ 10时间步长带有未识别的正对象+ 10时间步长与未识别的负面对象))]。

3在训练期间必须考虑这些“隐藏”状态的存在,因为值迭代只能从状态空间中的每个状态看起来“领先一步”。 具有负面和正面未识别对象的状态实际上相同的事实将阻止在两个不同的后续状态中学习和平均值,其中正或负对象被识别。 另一方面,轨迹采样方法在整个试验过程中保持隐藏的状态信息(即,未识别的刺激的身份),因此对于RL的变体,隐藏状态不是问题。

4对当前工作的潜在反对意见是,定向响应似乎在哺乳动物大脑中是硬连线的,例如,来自上丘[3,14]的投射。 在本模拟中,代理人没有硬连线以定向到对象,而是学习了定向行为,其允许最终选择最大化奖励的动作(例如,接近或避免)。 与硬连线响应类似,这些定向行为在识别物体之前非常迅速地发生,并且指向所有物体。 这项工作的目的不是宣称所有这些反应都是学习的,而是它们可以在RL框​​架内共存。 然而,研究奖励相关机制是否可能涉及在脑干区域建立连接以产生这种相位多巴胺反应将是有趣的。

这是未经编辑的手稿的PDF文件,已被接受发布。 作为对我们客户的服务,我们正在提供该手稿的早期版本。 在以最终的可引用形式发布之前,稿件将进行复制,排版和审查。 请注意,在制作过程中可能会发现可能影响内容的错误,以及适用于该期刊的所有法律免责声明。

参考资料

1。 贝尔德LC。 残差算法:函数逼近的强化学习。 在:Priedetis A,Russell S,编辑。 机器学习:第十二届国际会议论文集; 9-12 July.1995。

2。 Bunzeck N,DüzelE。人类黑质/ VTA刺激新奇的绝对编码。 神经元。 2006; 51(3):369-379。 [搜索PubMed]

3。 Dommett E,Coizet V,Blaha CD,Martindale J,Lefebvre V,Walton N,Mayhew JEW,Overton PG,Redgrave P.视觉刺激如何在短潜伏期激活多巴胺能神经元。 科学。 2005; 307(5714):1476-1479。 [搜索PubMed]

4。 Doya K. Metalearning和神经调节。 神经网络。 2002 Jun-Jul; 15(4-6):495-506。 [搜索PubMed]

5。 Gillies A,Arbuthnott G.基底神经节的计算模型。 运动障碍。 2000; 15(5):762-770。 [搜索PubMed]

6。 Horvitz JC。 Mesolimbocortical和nigrostriatal多巴胺对显着的非奖励事件的反应。 神经科学。 2000; 96(4):651-656。 [搜索PubMed]

7。 Kakade S,Dayan P. Dopamine:概括和奖金。 神经网络。 2002; 15(4-6):549-559。 [搜索PubMed]

8。 Knutson B,Cooper JC。 未知的诱惑。 神经元。 2006; 51(3):280-282。 [搜索PubMed]

9。 Logothetis NK,Pauls J,Augath M,Trinath T,Oeltermann A.神经生理学研究fMRI信号的基础。 性质。 2001; 412(6843):150-157。 [搜索PubMed]

10。 McClure SM,Berns GS,Montague PR。 被动学习任务中的时间预测误差激活人类纹状体。 神经元。 2003; 38(2):339-346。 [搜索PubMed]

11。 Niv Y,Duff MO,Dayan P. Dopamine,不确定性和TD学习。 行为和脑功能。 2005可能是4; 1:6。 [PMC免费文章] [PubMed]

12。 O'Doherty JP,Dayan P,Friston K,Critchley H,Dolan RJ。 时间差异模型和人类大脑中的奖励相关学习。 神经元。 2003; 38(2):329-337。 [搜索PubMed]

13。 Redgrave P,Gurney K.短潜伏期多巴胺信号:发现新行为的作用? 自然评论神经科学。 2006 Dec; 7(12):967-975。

14。 Redgrave P,Prescott TJ,Gurney K.短潜伏期多巴胺反应是否太短而不能发出信号奖励错误? 神经科学的趋势。 1999 Apr; 22(4):146-151。 [搜索PubMed]

15。 Reichle ED,Laurent PA。 使用强化学习来理解阅读过程中“智能”眼动行为的出现。 心理学评论。 2006; 113(2):390-408。 [搜索PubMed]

16。 Schultz W.多巴胺神经元的预测性奖励信号。 神经生理学杂志。 1998; 80(1):1-27。 [搜索PubMed]

17。 Sutton RS,Barto AG。 强化学习:简介。 MIT出版社; 剑桥:1998。

18。 Tanaka SC,Doya K,Okada G,Ueda K,Okamoto Y,Yamawaki S.对即时和未来奖励的预测差异性地招募皮质 - 基底神经节环。 自然神经科学。 2004; 7(8):887-893。