L'émergence des réponses à la saillance et à la nouveauté des principes d'apprentissage du renforcement (2008)

COMMENTAIRES: Une autre étude démontrant que la nouveauté est sa propre récompense. L'un des aspects addictifs de la pornographie sur Internet est la nouveauté et la variété infinies, la possibilité de cliquer rapidement d'une scène à une autre et la recherche de la bonne image / vidéo. Tout cela augmente la dopamine. C'est ce qui différencie la pornographie sur Internet des magazines ou des DVD loués.

Étude complète: L'émergence de réponses de saillance et de nouveauté issues des principes d'apprentissage du renforcement

Neural Netw. 2008 December; 21 (10): 1493 – 1499.

Publié en ligne 2008 September 25. doi: 10.1016 / j.neunet.2008.09.004

Patryk A. Laurent, Université de Pittsburgh;

Adressez toute correspondance à: Patryk Laurent, Université de Pittsburgh, 623 LRDC, 3939 O'Hara St., Pittsburgh, PA 15260 USA, adresse électronique: [email protected], Bureau: (412) 624-3191, Télécopie: (412) 624-9149

Abstract

Les tentatives récentes visant à cartographier les modèles d'apprentissage basés sur les récompenses, tels que l'apprentissage par renforcement (17), reposent sur l'observation selon laquelle les augmentations et les diminutions phasiques de la stimulation des neurones libérant de la dopamine diffèrent des différences entre les récompenses prédites et reçues [16,5]. Cependant, cette erreur de prédiction de récompense n'est qu'un des nombreux signaux communiqués par cette activité phasique; une autre implique une augmentation du pic dopaminergique, reflétant l'apparition de stimuli non récompenses [4,6,13] saillants mais non prédits, en particulier lorsqu'un organisme s'oriente ensuite vers le stimulus [16]. Pour expliquer ces résultats, Kakade et Dayan [7] et d’autres ont postulé que de nouveaux stimuli inattendus sont intrinsèquement enrichissants. La simulation présentée dans cet article montre que cette hypothèse n’est pas nécessaire, car l’effet qu’elle est destinée à capturer émerge des mécanismes d’apprentissage par prédiction de récompense de l’apprentissage par renforcement. Ainsi, les principes de l'apprentissage par renforcement peuvent être utilisés pour comprendre non seulement l'activité des neurones dopaminergiques des ganglions de la base, liée à la récompense, mais également une partie de leur activité apparemment non liée à la récompense.

L'apprentissage par renforcement (RL) prend de plus en plus d'importance dans l'élaboration de modèles informatiques d'apprentissage par le cerveau basés sur des récompenses. RL est une classe d'algorithmes de calcul qui spécifie comment un «agent» artificiel (par exemple, un robot réel ou simulé) peut apprendre à sélectionner des actions afin de maximiser la récompense totale attendue [17]. Dans ces algorithmes, un agent fonde ses actions sur des valeurs qu'il est apte à associer à différents états (par exemple, les signaux de perception associés à un stimulus). Ces valeurs peuvent être apprises progressivement par l'apprentissage par différence temporelle, qui ajuste les valeurs d'état en fonction de la différence entre la prédiction de récompense existante de l'agent pour l'état et la récompense réelle obtenue ultérieurement de l'environnement. Il a été démontré que cette différence calculée, appelée erreur de prédiction de récompense, était très bien corrélée à l'activité phasique de neurones libérant de la dopamine projetant de la substance noire chez des primates non humains [16]. De plus, chez l'homme, le striatum, qui est une cible importante de la dopamine, présente un signal IRM en IRMf qui semble refléter une erreur de prédiction de récompense lors de tâches d'apprentissage de récompense [10,12,18]. Cette observation par IRMf complète les données physiologiques car on suppose que BOLD striatal reflète au moins en partie une activité synaptique afférente [9] et que les neurones dopaminergiques se projettent fortement sur le striatum.

Bien que les réponses physiologiques susmentionnées semblent être liées aux calculs de prévision de récompense de RL, il y a aussi une augmentation de l'activité phasique dopaminergique en réponse à des stimuli excitants et / ou nouveaux qui ne semblent pas être liés à la récompense [4,6,14,3]. Un phénomène similaire a récemment été observé chez l'homme en utilisant l'IRMf [2]. Il y a plusieurs raisons pour lesquelles cette réponse «nouveauté» ou «saillance» est réputée non liée à une erreur de prédiction de récompense: (1), elle apparaît très tôt, avant que l'identité du stimulus ait été évaluée, de sorte qu'une prédiction de récompense précise ne peut pas être généré; (2) correspond à une augmentation de l'activité neuronale (c.-à-d. Qu'elle est positive) pour les stimuli aversifs et appétitifs; et (3) il habitue [13]. En effet, ces réponses saillance / nouveauté des neurones libérant de la dopamine sont plus fiables lorsque les stimuli sont imprévisibles et entraînent un comportement d'orientation et / ou d'approche [16] quel que soit le résultat final, soulignant le fait qu'elles sont qualitativement différentes de la récompense acquise prédiction. Le défi a donc consisté à expliquer ce paradoxe apparent (c’est-à-dire comment la nouveauté affecte l’erreur de prédiction des récompenses) dans le cadre théorique de la LR.

Kakade et Dayan [7] ont tenté de faire exactement cela. dans leur article, ils postulent deux manières d'intégrer les réponses de nouveauté dans les modèles RL de la fonction dopaminergique - toutes deux impliquant l'inclusion de nouvelles hypothèses théoriques. La première hypothèse, appelée bonus de nouveauté, consiste à introduire une récompense supplémentaire lorsque de nouveaux stimuli sont présents, au-delà de la récompense habituelle reçue par l'agent. Cette récompense supplémentaire entre dans le calcul pour que l'apprentissage soit basé sur la différence entre la prédiction de récompense existante de l'agent et la somme de la récompense habituelle de l'environnement et du bonus de nouveauté. Ainsi, la nouveauté devient une partie de la récompense que l'agent tente de maximiser. La deuxième hypothèse, appelée bonus de mise en forme, peut être mise en œuvre en augmentant artificiellement les valeurs des états associés à de nouveaux stimuli. Étant donné que la règle d'apprentissage par différence temporelle utilisée dans RL est basée sur la différence de prédiction de récompense entre états successifs, l'ajout d'un bonus de mise en forme constant aux états concernés par les nouveaux stimuli n'a aucun effet sur le comportement final de l'agent. Cependant, une réponse à la nouveauté apparaît encore lorsque l'agent entre dans la partie de l'espace d'états qui a été «façonnée» (c'est-à-dire associée à la nouveauté).

Bien que l'ajout de chacune de ces hypothèses soit suffisant pour expliquer de nombreux effets de nouveauté observés, ces hypothèses interfèrent également avec la progression de l'apprentissage. Comme le signalent Kakade et Dayan [7], les bonus de nouveauté peuvent altérer la fonction de valeur (c'est-à-dire les valeurs associées à chaque état par l'agent) et affecter ce qui est appris en fin de compte, car ils sont mis en œuvre comme une récompense supplémentaire intrinsèquement associée au nouveau États. Le problème est que l'agent apprend à prédire à la fois les composantes principale et la nouveauté de la récompense. Bien que Kakade et Dayan soulignent que les bonus de mise en forme ne posent pas ce type de problème car ils sont intégrés aux prédictions de récompense des états précédents, leur ajout reste problématique, car les bonus de mise en forme introduisent des biais dans la façon dont un agent explore son espace d'états. Ainsi, bien que ces hypothèses supplémentaires puissent expliquer l’influence de la nouveauté sur l’erreur de prédiction de récompense dans RL, elles sont problématiques. De plus, les explications coûtent moins à la parcimonie des travaux de modélisation qui tentent d’utiliser RL pour comprendre le comportement d’organismes biologiques réels.

La simulation décrite ci-dessous a été réalisée afin de vérifier l'hypothèse selon laquelle un agent RL simple, sans aucune hypothèse supplémentaire, développerait une réponse d'erreur de prédiction de récompense similaire aux réponses de dopamine non liées à la récompense observées dans des organismes biologiques. . Un agent RL avait pour tâche d'interagir avec deux types d'objets, l'un positif et l'autre négatif, apparaissant à des emplacements aléatoires de son environnement. Afin de maximiser sa récompense, l'agent devait apprendre à approcher et à "consommer" l'objet positif et à éviter (c'est-à-dire de ne pas "consommer") l'objet négatif. Il y avait trois prédictions principales pour la simulation.

La première prévision était simplement que, afin de maximiser sa récompense, l'agent apprendrait en fait à approcher et à «consommer» les objets positifs et enrichissants tout en apprenant simultanément à éviter les objets négatifs et pénalisants. La deuxième prédiction était un peu moins évidente: l'agent montrerait une réponse d'orientation (c'est-à-dire qu'il apprendra à changer d'orientation) à la fois pour les objets négatifs et pour les objets positifs. Cette prédiction a été faite car, bien que l'agent puisse «détecter» l'apparence d'un objet et son emplacement, l'identité positive ou négative de l'objet (c'est-à-dire le signal que l'agent finirait par apprendre à associer à la valeur de récompense de l'objet). l’agent n’a pu être déterminé qu’après que l’agent s’est réellement orienté vers l’objet. Enfin, la troisième (et la plus importante) prédiction était liée à la réponse phasique dopaminergique simulée dans le modèle; cette prédiction était que, lorsque l'objet apparaissait, l'agent présentait une erreur de prédiction de récompense qui était analogue, sur le plan du calcul, à la réponse phasique à la dopamine observée dans des organismes biologiques, positive pour les objets positifs et négatifs. Il était également prévu que cette réponse varierait en fonction de la distance entre l'agent et le stimulus, ce qui, dans le contexte de la simulation, était une mesure approximative de «l'intensité» ou de la saillance du stimulus. Comme nous le montrerons plus loin, ces prévisions ont été confirmées par les résultats de la simulation, démontrant que les réponses dopaminergiques apparemment non liées à la récompense peuvent en principe émerger des principes de base de la LR. Les implications théoriques de ces résultats pour l'utilisation de RL pour comprendre l'activité non liée à la récompense dans des organismes biologiques seront discutées dans la dernière section de cet article.

Method

Comme déjà mentionné, les algorithmes RL spécifient comment un agent peut utiliser des récompenses numériques instantanées pour savoir quelles actions il doit entreprendre afin de maximiser le montant total des récompenses qu'il reçoit. Dans la plupart des formulations, cet apprentissage est obtenu en utilisant des erreurs de prévision de récompense (c'est-à-dire la différence entre la prévision de récompense actuelle d'un agent et la récompense réelle obtenue) pour mettre à jour les prévisions de récompense de l'agent. À mesure que les prévisions de récompense sont apprises, elles peuvent également être utilisées par un agent pour sélectionner l'action suivante. La stratégie habituelle (définie dans l'équation 2) consiste pour l'agent à sélectionner l'action qui entraînera la plus grande récompense. La récompense réelle qui est fournie à l'agent à un moment donné est la somme de la récompense immédiate plus une partie de la valeur de l'état dans lequel l'agent entre lorsque l'action est terminée. Ainsi, si l'agent ressent finalement des avantages positifs après avoir été dans un état particulier, l'agent sélectionnera à l'avenir des actions susceptibles d'entraîner ces états récompensés; inversement, si l'agent subit des récompenses négatives (c.-à-d. une punition), il évitera à l'avenir les actions qui conduisent à ces États «punis».

L'algorithme spécifique qui détermine les prédictions de récompense apprises pour les différents états (c'est-à-dire la fonction de valeur V) s'appelle Value Iteration [Note de bas de page 1] et peut être formellement décrit comme suit:

Pour tous les états possibles s,

(Équation 1)

où s correspond à l'état actuel, V (s) est la prédiction de récompense actuelle pour l'état s qui a été apprise par l'agent, maxaction∈M {} est un opérateur pour la valeur maximale de la quantité encadrée sur l'ensemble des actions. M disponible pour l'agent, V (s ′) est la prédiction de récompense actuelle de l'agent pour le prochain état s ′, α est une vitesse d'apprentissage (entre 0 et 1) et γ est un facteur de réduction reflétant la pondération des récompenses futures. par rapport aux récompenses immédiates. La fonction de valeur initiale a été définie de sorte que V (s) soit 0 pour tous les états s.

La fonction de valeur V (s) a été implémentée sous forme de table de correspondance, ce qui est formellement équivalent à l'hypothèse de mémoire parfaite. Bien que des approximateurs de fonction tels que des réseaux de neurones aient été utilisés avec succès pour représenter des fonctions de valeur [1], une table de correspondance a été utilisée pour garantir que les résultats ne dépendent pas des types de mécanisme de généralisation fournis par divers approximateurs de fonction. L'agent a été formé aux itérations d'apprentissage 1,500 sur son espace d'état. En raison de l'imprévisibilité de l'identité des objets, un paramètre de mise à jour de la fonction de valeur inférieur à un (α = 0.01) a été utilisé pendant l'apprentissage pour permettre la moyenne de différents résultats. Enfin, le facteur de réduction a été défini sur γ = 0.99 afin d'encourager l'agent à rechercher une récompense plus rapidement que de retarder son comportement d'approche jusqu'à la fin de l'essai (bien que le fait de le remplacer par une valeur par défaut de 1 n'a aucun effet sur les résultats indiqués ici. ) Afin de déterminer de manière indépendante si les itérations d’apprentissage 1,500 étaient suffisantes pour terminer l’apprentissage, la quantité moyenne de changement dans les acquis a été surveillée et il a été constaté qu’elle avait convergé avant ce nombre d’itérations.

Après la formation, l'algorithme spécifique qui régit le comportement de l'agent (c'est-à-dire la politique d'actions qu'il effectue à partir de chaque état donné) est le suivant:

(Équation 2)

où π (s) est l'action que l'agent sélectionnera dans l'état s et où le côté droit de l'équation renvoie l'action (changement d'orientation, de mouvement ou d'absence d'action, par exemple) qui maximise la somme de la récompense et de la valeur actualisée. de l'état résultant s '.

Dans la simulation décrite ci-dessous, tous les états visités par l'agent ont été codés en tant que vecteurs dimensionnels 7 représentant des informations sur l'état «physique» externe de l'agent et sur son état «de connaissance» interne. Les informations physiques incluaient à la fois la position actuelle de l'agent dans l'espace et son orientation. Les informations de connaissance incluaient la position de l'objet (s'il en existait un) et l'identité de cet objet (s'il avait été déterminé par l'agent). Les types spécifiques d'informations représentés par l'agent sont présentés dans le tableau 1.

Tableau 1

Les dimensions utilisées dans les simulations RL et les valeurs possibles de ces dimensions.

Il y avait un total d'états 21,120 dans la simulation [Note 2]. Cependant, les états dans lesquels il y avait un objet positif non identifié et négatif sont identiques du point de vue de l'agent, il n'y a donc que des états 16,280 distincts. Ainsi, à chaque itération d'apprentissage, il était nécessaire de visiter deux fois ces états «identiques» pour tenir compte du fait que la moitié du temps, ils pouvaient être suivis de la découverte d'un objet positif, et la moitié du temps être suivie de la découverte d’un objet négatif [Note de bas de page 3].

Au début de chaque essai d’essai simulé, l’agent a été placé au centre d’une piste d’unité simulée linéaire 11 × 1 avec cinq espaces à «l’est» (c’est-à-dire à droite) de l’agent et cinq espaces à «l’ouest». ”(C.-à-d. À gauche) de l'agent. Comme le montre la table 1, le vecteur d'état de l'agent comprenait un élément indiquant son emplacement actuel sur la piste (un entier compris entre 0 et 10), ainsi qu'un élément (un caractère "n", "s", " e ”ou“ w ”) représentant son orientation actuelle (c.-à-d. nord, sud, est ou ouest, respectivement). L'orientation initiale de l'agent était toujours définie sur «nord» et aucun autre objet n'était présent dans l'environnement (c'est-à-dire que la valeur de «OBJECT» dans le vecteur d'état de l'agent était égale à «0»).

Au cours de chaque pas de temps de la simulation, l'agent peut effectuer l'une des opérations suivantes: (1) ne rien faire et rester à l'emplacement et à l'orientation actuels. (2) orienter vers le nord, le sud, l'est ou l'ouest; ou (3) déplace un espace dans l'environnement (est ou ouest). Le résultat de chaque action a eu lieu sur le pas de temps simulé suivant. Toutes les modifications de l'emplacement et / ou de l'orientation de l'agent dans l'espace ont eu lieu par le biais de la sélection d'actions par l'agent. Cependant, à chaque pas de temps de la simulation, même lorsqu'une action «ne rien faire» était sélectionnée, le temps était incrémenté de 1 jusqu'à la fin de l'essai (c'est-à-dire, le pas de temps 20).

L'environnement de l'agent était configuré de manière à ce qu'un objet apparaisse dans un emplacement aléatoire (mais pas au même emplacement que l'agent) après dix intervalles de temps; 50% des objets étaient positifs (représentés par un «+»; voir le tableau 1) et 50% des objets étaient négatifs (représentés par un «-»). Le délai avant que l’objet apparaisse a été introduit pour permettre l’observation de tout comportement de l’agent avant l’apparition de l’objet. Si l'agent n'était pas orienté vers l'objet lorsqu'il est apparu, l'élément représentant l'identité «OBJECT» dans le vecteur d'état de l'agent est passé de «0» à «?» Afin de refléter le fait que l'identité de l'objet qui était maintenant présent était actuellement inconnu. Toutefois, si l'agent était orienté vers l'objet, l'élément «OBJECT» était alors défini comme égal à l'identité de l'objet, de sorte que «0» devenait «+» ou «-» pour obtenir un résultat positif. et des objets négatifs, respectivement.

Si l'agent s'est déplacé vers l'emplacement d'un objet, l'objet a disparu lors de la prochaine étape. Si l'objet avait été positif, l'indicateur «CONSUMED» de l'agent était défini sur true et l'agent était récompensé (récompense = + 10); Toutefois, si l'objet avait été négatif, l'indicateur «SHOCKED» était défini sur true et l'agent était puni (récompense = −10). (Notez que les drapeaux ont été configurés de cette manière, que l'agent ait ou non identifié l'objet. Par exemple, l'agent peut consommer un objet sans jamais s'orienter vers lui.) Au pas de temps suivant, le symbole "SHOCKED" ou Le drapeau «CONSUMED» a été effacé. L’agent a également reçu une petite pénalité (renforcement = −1) pour chaque mouvement ou action d’orientation et ne reçoit aucune récompense ni sanction (renforcement = 0) s’il n’exécute aucune action.

Les comportements manifestes (orientation et mouvement) et une mesure de l'erreur de prédiction de récompense ont été quantifiés pour l'agent. Le comportement manifeste (c'est-à-dire la liste des actions sélectionnées par l'agent) a été utilisé pour indiquer si la tâche avait été apprise. La mesure de l'erreur de prédiction de récompense a été utilisée pour tester l'hypothèse de l'émergence du signal phaaminique dopaminergique non-récompense. L'erreur de prédiction de récompense, δ, a été mesurée au moment t de l'apparition d'un objet en soustrayant la prévision de récompense au pas de temps précédent, c'est-à-dire V (s) au pas de temps t − 1, de la prédiction de récompense lorsque l'objet est apparu, c'est-à-dire V (s) à l'instant t, donnant la quantité δ = V (st) - V (st-1).

Résultats

Comportement simulé

Le comportement manifeste des agents a d'abord été quantifié. Les résultats de cette analyse ont montré qu'après la formation, l'agent avait approché et obtenu un renforcement positif de tous les objets positifs et n'avait jamais approché aucun des objets négatifs. Ensemble, ces résultats fournissent une confirmation comportementale que les agents ont appris à exécuter la tâche correctement. Cette conclusion est corroborée par l'observation supplémentaire selon laquelle, pendant les essais où aucun objet n'est apparu, l'agent est resté immobile. Comme prévu, l'agent était orienté à la fois sur les objets positifs et négatifs.

Erreur de prédiction de récompense simulée

L’hypothèse centrale de cet article est que l’apparition d’un stimulus imprévisible générera systématiquement une erreur de prédiction de récompense positive, même si cet objet s'avère être un objet «négatif» toujours punitif. À l'appui de cette hypothèse, l'agent a présenté une erreur de prédiction de récompense positive chaque fois qu'un objet (non identifié) est apparu, mais pas lorsque rien n'est apparu. L’hypothèse centrale est également cohérente avec le fait que l’ampleur de la réponse phasique de l’agent (δ, mesurée comme décrit dans la section Méthode) était sensible à «l’intensité» simulée du stimulus, défini en utilisant la distance entre l'agent et l'objet (voir Figure 1). Une analyse de régression a indiqué que la magnitude de δ était inversement proportionnelle à la distance de l'objet, de sorte que des objets plus proches provoquaient une réponse plus forte (r = −0.999, p <0.001; β = 0.82). Cette corrélation négative était causée par la petite pénalité (renforcement = -1) qui était imposée pour chaque mouvement que l'agent devait faire pour se déplacer vers l'objet positif, le consommer et ainsi obtenir une récompense.

Figure 1

Cette figure montre l'erreur de prédiction de récompense (c'est-à-dire δ) lorsque l'objet est apparu en fonction de l'emplacement de l'objet par rapport à l'emplacement de l'agent. Les réponses sont identiques pour les objets positifs et négatifs. Quand aucun objet (plus…)

Étant donné que des objets positifs et négatifs sont apparus dans cette simulation avec une probabilité égale (p = .25), la question se pose: pourquoi le signal d'erreur de prédiction de récompense de l'agent était-il positif au moment de l'apparition de l'objet? En raisonnant sur les lignes de Kakade et Dayan [7], on pourrait prédire que le signal devrait refléter la moyenne de toutes les récompenses apprises dans de telles situations, et donc être égal à zéro. La clé de la compréhension de ce résultat est de noter que non seulement RL rend un agent moins susceptible de choisir des actions qui entraînent un renforcement négatif, il rend également un agent moins susceptible d'entrer dans des états qui conduisent finalement à un renforcement négatif. Il en résulte une sorte d’apprentissage «d’ordre supérieur» décrit à la figure 2 et décrit par la suite.

Figure 2

Illustration montrant comment un agent RL développe une erreur de prédiction de récompense positive lorsqu'il est entraîné avec des stimuli à la fois gratifiants et punitifs dans son environnement et est capable de choisir de les approcher et de les consommer. (A) La situation avant l'apprentissage: (plus…)

Au début de l'apprentissage (voir la figure 2A), l'agent s'oriente vers les objets «+» et «-», les approche et est à la fois récompensé et puni en consommant chaque type d'objet. Si les valeurs d'état apprises de l'agent ne pouvaient pas influencer les actions de l'agent (voir la figure 2B), l'agent continuerait à approcher et à consommer les objets. L’apparition du signal prédit alors une récompense moyenne de 0 et il y aurait une augmentation soudaine de l’erreur de prédiction de récompense. Cependant, dans cette simulation, l'agent utilise des valeurs d'état apprises pour influencer ses actions (voir la figure 2C). Bien qu'il doive encore s'orienter sur l'objet inconnu pour déterminer son identité, il ne consommera plus d'objet négatif s'il s'approchait. cela (comme cela pourrait être le cas si on s’entraînait avec un algorithme d’exploration aléatoire tel que l’échantillonnage de trajectoire [Note 1]). De plus, étant donné que l'apprentissage par différence temporelle permet à la prédiction de récompense négative de «se propager» aux états précédents, et que le déplacement dans l'espace coûte peu cher, l'agent apprend à ne pas s'approcher entièrement de l'objet négatif. Ainsi, après que cette information a été apprise, la valeur de l'état lors de la première apparition de l'objet (indiqué par «V» dans le premier cercle de chaque séquence) n'est pas basée sur la moyenne des valeurs d'état de résultat positif et négatif, mais est basé plutôt sur la moyenne des résultats positifs et «neutres» qui est atteinte une fois que l'agent a appris à éviter les objets négatifs. C'est pourquoi la moyenne de toutes les récompenses réellement obtenues par l'agent formé était supérieure à zéro et explique pourquoi la prédiction de récompense de l'agent (et donc l'erreur de prédiction de récompense lorsque l'objet apparaît soudainement) était un résultat net positif. Ceci est illustré à la figure 3. En fait, tant que l'agent peut apprendre à changer de comportement et à éviter l'objet négatif, la valeur de l'objet négatif est finalement sans rapport avec le comportement final de l'agent et l'ampleur de la réponse nouveauté / saillance.

Figure 3

(A) Démontre les changements dans la prédiction de récompense qui se seraient produits si RL n'entraînait pas un apprentissage d'ordre supérieur (c.-à-d. Si l'agent ne pouvait pas prendre des mesures pour éviter le résultat négatif), de sorte que l'agent était obligé de consommer tout le objets (plus…)

Les résultats de la simulation dépendent de trois hypothèses. Premièrement, les stimuli devaient être «saillants» en ce sens que la magnitude du renforcement prédite par le signal initial était suffisamment grande (par exemple, + 10) par rapport aux coûts d'orientation et d'approche (par exemple, -1). Si la magnitude avait été relativement faible, l'agent n'aurait pas appris à s'orienter et n'aurait pas non plus généré la réponse d'erreur positive de prédiction de récompense. Deuxièmement, un délai avant la reconnaissance des stimuli était également nécessaire. (Le retard est un substitut de la «nouveauté» selon le raisonnement selon lequel un stimulus familier serait rapidement reconnu.) Sans un retard, l'agent aurait simplement généré l'erreur de prédiction de récompense positive ou négative appropriée appropriée pour l'objet perçu réel. Enfin, le comportement de l'agent devait être déterminé par les valeurs qu'il avait apprises. Si l'agent ne pouvait pas contrôler son propre comportement (c'est-à-dire s'il fallait ou non s'approcher des stimuli), sa prévision de récompense lorsqu'un objet apparait aurait été égale à 0, la moyenne des résultats équiprobables positifs et négatifs.

Discussion générale

La simulation rapportée dans cet article a démontré qu'une erreur de prédiction de récompense positive se produit lorsqu'un stimulus imprévisible, qu'il soit rémunérateur ou punitif, apparaît, mais ne peut pas être immédiatement identifié. En outre, la simulation a indiqué que l’erreur de prédiction de récompense augmentait avec la proximité du stimulus par rapport à l’agent, ce qui, dans le contexte de la simulation, est une mesure approximative de l’intensité du stimulus et est donc lié à la saillance. Dans le cadre théorique de RL, les prédictions de récompense sont normalement comprises comme reflétant la valeur apprise de stimuli reconnus, ou des états physiques et / ou cognitifs d'un agent [15]. Cependant, l'erreur de prédiction de récompense rapportée ici a une interprétation qualitativement différente car elle est générée avant que l'agent ait reconnu l'objet. Ensemble, ces résultats confortent l'hypothèse selon laquelle les principes de la LR sont suffisants pour produire une réponse apparemment sans rapport avec la récompense, mais plutôt liée aux propriétés de la nouveauté et de la saillance. Cette conclusion a plusieurs ramifications importantes pour notre compréhension générale de RL et pour notre interprétation de RL en tant que compte de l'apprentissage par récompense dans de vrais organismes biologiques.

Premièrement, la prédiction de récompense générée par un agent RL lorsqu'un stimulus non identifié apparaît n'est pas nécessairement une moyenne stricte des récompenses pouvant être obtenues, comme suggéré par Kakade et Dayan [7], mais peut en fait être plus importante que cette moyenne. Kakade et Dayan prédiraient que la prévision de récompense moyenne devrait être égale à zéro car les épreuves ont été récompensées et punies de la même manière. Ce résultat surprenant est apparu parce que l'agent a appris de manière «en politique»; c'est-à-dire que l'agent a appris non seulement les résultats négatifs, mais aussi sa capacité à les éviter. Cette capacité du système de récompense à faire en sorte qu'un agent évite les conséquences négatives doit être soigneusement prise en compte dans la traduction de notre compréhension de la LR en de vrais organismes. Ce fait est potentiellement d'autant plus important compte tenu de l'asymétrie apparente de la capacité de la réponse dopaminergique phasique à représenter une erreur de prédiction de la récompense positive mieux qu'une erreur de prédiction de la récompense négative [11]. Il peut suffire d'indiquer qu'une séquence d'événements donnée aboutit à un résultat négatif, mais qu'aux fins de la sélection des actions, l'ampleur de ce résultat n'a pas d'importance.

Une deuxième ramification de la simulation actuelle est que la réponse à la nouveauté peut émerger d'une interaction entre les systèmes de traitement perceptuels et les systèmes de prédiction de récompense. Plus précisément, la réponse à la nouveauté peut être due à une forme de similitude entre des objets nouveaux et des objets n’ayant pas encore subi de traitement perceptuel complet [Note de bas de page 4]. Dans cette simulation, la nouveauté a été mise en œuvre en introduisant un délai avant que l'identité de l'objet (et par conséquent, sa nature gratifiante ou punitive) ne soit apparente à l'agent. Cela a été fait en supposant que les nouveaux objets mettent plus de temps à s'identifier, mais cette hypothèse a également permis aux objets positifs et négatifs d'être perçus de la même manière lors de leur première apparition (c'est-à-dire qu'ils étaient tous deux codés «? En revanche, Kakade et Dayan [7] suggèrent que les réponses de nouveauté et les réponses de «généralisation» sont essentiellement différentes bien qu’elles se manifestent de manière similaire dans les données de neurophysiologie.

Une troisième ramification des résultats de la simulation actuelle est qu'ils montrent que les hypothèses supplémentaires de nouveauté et de bonus de mise en forme proposées par Kakade et Dayan [7] ne sont pas nécessaires. Au lieu de cela, des réponses de type nouveauté peuvent émerger de limitations réalistes du traitement de la perception et de la capacité d'éviter des résultats négatifs. C'est une chance car, comme l'ont souligné Kakade et Dayan, les bonus de nouveauté faussent la fonction de valeur apprise par un agent, et les bonus de mise en forme affectent la manière dont les agents explorent leurs espaces d'état. L'inclusion de l'une ou l'autre de ces hypothèses réduit donc la parcimonie des modèles basés sur la théorie de RL. Il est intéressant de noter que les résultats présentés ici aident également à expliquer pourquoi la réponse à la nouveauté biologique pourrait ne pas perturber l’apprentissage fondé sur la récompense dans des organismes réels: la réponse à la nouveauté est en fait déjà prédite par RL. Autrement dit, la réponse à la nouveauté reflète les comportements et les prédictions de récompense inhérentes à un agent qui a déjà appris quelque chose sur son environnement.

Une interprétation alternative (mais non mutuellement exclusive) des résultats de la simulation actuelle est qu’il existe effectivement une récompense abstraite (peut-être cognitive) que les agents obtiennent en s’orientant vers les objets et en les identifiant. Dans les études sur l'activité dopaminergique, des réponses phasiques positives peuvent survenir à des signaux imprévus dont on sait qu'ils prédisent une récompense. Cette simulation, cependant, montre comment ce type de réponse peut également se produire en réponse à un signal qui pourrait à terme prédire une récompense ou une punition. Le seul avantage récurrent prédit par le signal est le gain d'informations obtenu lorsque l'agent détermine l'identité de l'objet. Ainsi, s’il existe une «prévision de récompense» valide et apprise lorsque l’objet non identifié apparaît, c’est celle qui est satisfaite une fois que l’agent a obtenu la connaissance de savoir s’il faut approcher ou éviter le stimulus. La valeur de cette information ne repose pas sur la moyenne des résultats pouvant être obtenus, mais sur la connaissance des résultats effectifs, à savoir que l'agent peut consommer la récompense positive ou éviter la récompense négative (voir la figure 2).

Enfin, il est important de noter que les possibilités de prendre des mesures particulières (par exemple d’orienter) peuvent elles-mêmes revêtir des propriétés enrichissantes par le biais de mécanismes de généralisation ou d’apprentissage non inclus dans cette simulation. Par exemple, l'acte même d'orienter et de déterminer «ce qui est dehors» pourrait devenir une récompense pour un organisme en se basant sur l'association entre cette action et l'erreur de prédiction de récompense émergente, toujours positive démontrée plus haut, lorsque de nouveaux stimuli apparaissent. Redgrave et Gurney [13] ont récemment avancé une idée similaire en faisant l'hypothèse qu'un objectif important de la réponse phasique à la dopamine est de renforcer les actions qui se produisent avant des événements marquants imprévus. Les résultats présentés ici ne sont pas incompatibles avec cette hypothèse, mais il convient de noter que l'hypothèse de Redgrave et Gurney n'est pas directement testée dans cette simulation car aucune action (c'est-à-dire une exploration) n'a été requise de l'agent pour l'événement saillant (l'apparition de l'objet) à se produire. Cependant, le signal phasique simulé a coïncidé avec le temps de la réponse d'orientation, ce qui suggère que les deux peuvent être fortement liés.

En conclusion, cet article a démontré que les principes de RL peuvent être utilisés pour expliquer un type d'activité apparemment non liée à la récompense des neurones dopaminergiques. Ce résultat découle du fait que la règle d'apprentissage de la différence temporelle (telle que celle utilisée par Kakade et Dayan [7]) était intégrée dans une simulation dans laquelle l'agent pouvait sélectionner des actions ayant un effet sur le résultat final. Dans la simulation, l'agent a appris que le résultat de l'orientation sur un objet apparu soudainement pouvait toujours être soit gratifiant, soit neutre, car le résultat négatif pouvait être évité. Par conséquent, lorsque l'agent avait la possibilité de s'orienter, son erreur de prédiction de récompense était toujours positive, analogue du point de vue du calcul aux réactions de nouveauté et de saillance observées dans les organismes biologiques.

Remerciements

Le travail décrit dans cet article a été financé par NIH R01 HD053639 et par NSF Training Grant DGE-9987588. J'aimerais remercier Erik Reichle, Tessa Warren et un critique anonyme pour leurs commentaires utiles sur une version antérieure de cet article.

L'algorithme d'apprentissage 1Another, appelé Trajectory Sampling [17], est fréquemment utilisé à la place de l'itération de la valeur lorsque l'espace d'état devient si grand qu'il ne peut pas être itéré de manière exhaustive ni être facilement stocké dans la mémoire d'un ordinateur. Plutôt que de parcourir chaque état de l'espace d'états et d'appliquer l'équation de mise à jour de la fonction de valeur en fonction des actions qui semblent générer le plus de bénéfices, l'échantillonnage de trajectoire consiste à suivre des chemins dans l'espace d'états. De la même manière que l'itération de valeur, les actions qui génèrent le plus de récompense sont généralement sélectionnées dans chaque état, mais une action exploratoire aléatoire est parfois choisie avec une faible probabilité. Ainsi, l'algorithme est le suivant: À partir de l'état de départ s, sélectionnez une action donnant le plus de récompense [par exemple, récompense + γV (s ′]] avec la probabilité ε, ou sélectionnez une action exploratoire aléatoire avec la probabilité 1 - ε. Appliquez V (s) → V (s) + α [récompense + γV (s ′) - V (s)] lors d’actions non exploratoires à partir de l’état s.

Outre le fait de surmonter les limites techniques du temps de calcul et de la mémoire, l’échantillonnage de trajectoire peut être attrayant, car il peut mieux refléter la manière dont les vrais organismes biologiques apprennent: en explorant des chemins dans un espace d’états. Sur la tâche décrite dans le présent document, l’échantillonnage de trajectoire donne des résultats qualitativement identiques à ceux obtenus avec Value Iteration. Cependant, par souci de concision, ces résultats ne sont pas détaillés ici. L'itération de valeur a été sélectionnée pour la simulation dans cet article pour deux raisons principales. Premièrement, étant donné que l’échantillonnage de trajectoire implique la stochasticité dans la sélection des trajectoires, la grande quantité de ramifications due aux nombreuses séquences d’actions possibles dans cette tâche peut entraîner des agents dépourvus ε-gourmandise [17]) est soigneusement sélectionné. Ce manque d'expérience avec des états particuliers peut perturber les performances d'un agent lorsqu'une structure de mémoire de table de consultation est utilisée en raison de l'absence de généralisation de la valeur à des états similaires (mais éventuellement non visités). Ainsi, il a été préférable de tirer parti de l'exploration exhaustive de l'espace d'états garantie par Value Iteration. Deuxièmement, l'utilisation de l'itération de valeur évitait la nécessité de spécifier ce paramètre d'exploration-exploitation supplémentaire, simplifiant ainsi la simulation. Notez que l'échantillonnage de trajectoire peut finalement se rapprocher de l'itération de valeur lorsque le nombre de trajectoires se rapproche de l'infini [17].

2Le nombre d'états 21,120 peut être calculé comme suit: 11 emplacements possibles pour l'agent × orientations possibles pour l'agent 4 × (pas de temps 10 avant l'apparition d'un objet + pas de temps 10 où aucun objet n'est apparu + pas de temps 10 où l'agent avait été incréments de temps renforcés positivement + 10 où l'objet avait été renforcé négativement + emplacements d'objet 11 possibles * (incréments de temps 10 avec un objet identifié positif + incréments de temps 10 avec un objet identifié négatif + incréments de temps 10 avec un objet positif non identifié + Pas de temps 10 avec un objet négatif non identifié))].

3L'existence de ces états "cachés" doit être prise en compte lors de la formation, car l'itération de valeur ne donne "qu'une longueur d'avance" pour chaque état de l'espace d'états. Le fait que les états avec des objets non identifiés positifs et positifs soient effectivement identiques empêcherait de connaître et de faire la moyenne des valeurs dans les deux états suivants différents dans lesquels l'objet positif ou négatif est identifié. L’approche d’échantillonnage de trajectoire, quant à elle, conserve les informations d’état cachées (c’est-à-dire l’identité du stimulus non identifié) tout au long de l’essai. Ainsi, avec cette variante du RL, les états cachés ne sont pas préoccupants.

4One objection potentielle au présent travail est que la réponse d'orientation semble être câblée dans le cerveau des mammifères, par exemple dans les projections du colliculus supérieur [3,14]. Dans la simulation actuelle, les agents n'étaient pas câblés pour s'orienter vers des objets, mais apprenaient plutôt un comportement d'orientation qui permettait la sélection éventuelle d'une action (par exemple, une approche ou une évitement) qui maximisait la récompense. De manière similaire aux réponses câblées, ces comportements d'orientation se sont produits très rapidement, avant que les objets ne soient identifiés, et étaient dirigés vers tous les objets. L’objectif de ce travail n’était pas de prétendre que toutes ces réponses sont apprises, mais plutôt qu’elles peuvent coexister dans le cadre de la LR. Néanmoins, il serait intéressant d'examiner si des mécanismes liés aux récompenses pourraient être impliqués dans la mise en place d'une connectivité dans les zones du tronc cérébral afin de générer cette réponse dopaminergique phasique.

Ceci est un fichier PDF d’un manuscrit non édité qui a été accepté pour publication. En tant que service à nos clients, nous fournissons cette première version du manuscrit. Le manuscrit subira une révision, une composition et une révision de la preuve résultante avant sa publication dans sa forme définitive. Veuillez noter que des erreurs pouvant affecter le contenu peuvent être découvertes au cours du processus de production, de même que tous les dénis de responsabilité qui s'appliquent à la revue.

Bibliographie

1. Baird LC. Algorithmes résiduels: Apprentissage par renforcement avec approximation des fonctions. Dans: Priedetis A, Russell S, éditeurs. Machine Learning: Actes de la douzième conférence internationale; 9 – 12 July.1995.

2. Bunzeck N, Düzel E. Codage absolu de la nouveauté du stimulus dans la substance humaine noire / VTA. Neurone. 2006; 51 (3): 369 – 379. [PubMed]

3. Dommett E, Coizet V, CD Blaha, J Martindale, V Lefebvre, N Walton, JEWYHEW JO, Overton PG, Redgrave P. Comment les stimuli visuels activent les neurones dopaminergiques à courte latence. Science. 2005; 307 (5714): 1476 – 1479. [PubMed]

4. Doya K. Metalearning et neuromodulation. Les réseaux de neurones. 2002 juin – juillet; 15 (4 – 6): 495 – 506. [PubMed]

5. Gillies A, Arbuthnott G. Modèles informatiques des noyaux gris centraux. Troubles du mouvement. 2000; 15 (5): 762 – 770. [PubMed]

6. Horvitz JC. Réponses dopaminergiques mésolimbocorticales et nigrostriatales à des événements saillants non liés à une récompense. Neuroscience. 2000; 96 (4): 651 – 656. [PubMed]

7. Kakade S, Dayan P. Dopamine: généralisation et bonus. Les réseaux de neurones. 2002; 15 (4 – 6): 549 – 559. [PubMed]

8. Knutson B, Cooper JC. L'attrait de l'inconnu. Neurone. 2006; 51 (3): 280 – 282. [PubMed]

9. Logothetis NK, Pauls J, Augath M, T Trinath T, Oeltermann A. Examen neurophysiologique de la base du signal IRMf. La nature. 2001; 412 (6843): 150 – 157. [PubMed]

10. McClure SM, GS Berns, PR de Montague. Les erreurs de prédiction temporelle dans une tâche d'apprentissage passive activent le striatum humain. Neurone. 2003; 38 (2): 339 – 346. [PubMed]

11. Niv Y, MO Duff, Dayan P. Dopamine, incertitude et apprentissage en TD. Fonctions comportementales et cérébrales. 2005 peut 4; 1: 6. [Article gratuit de PMC] [PubMed]

12. O'Doherty JP, Dayan P, K Friston, H Critchley, RJ Dolan. Modèles de différences temporelles et apprentissage lié aux récompenses dans le cerveau humain. Neurone. 2003; 38 (2): 329 – 337. [PubMed]

13. Redgrave P, Gurney K. Le signal dopamine à latence courte: un rôle dans la découverte de nouvelles actions? Examens de la nature Neuroscience. 2006 Dec; 7 (12): 967 – 975.

14. Redgrave P, Prescott TJ, Gurney K. La réponse dopamine à latence courte est-elle trop courte pour signaler une erreur de récompense? Tendances en neurosciences. 1999 avril; 22 (4): 146 – 151. [PubMed]

15. Reichle ED, Laurent PA. Utiliser le renforcement pour apprendre à comprendre l’émergence d’un comportement «intelligent» des mouvements oculaires lors de la lecture. Examen psychologique. 2006; 113 (2): 390 – 408. [PubMed]

16. Schultz W. Signal de récompense prédictif des neurones dopaminergiques. Journal of Neurophysiology. 1998; 80 (1): 1 – 27. [PubMed]

17. Sutton RS, Barto AG. Apprentissage par renforcement: une introduction. MIT Press; Cambridge: 1998.

18. Tanaka SC, K Doya, G Okada, K Ueda, Y Okamoto et Yamawaki S. La prévision des récompenses immédiates et futures recrute différemment les boucles des ganglions cortico-basaux. Nature Neuroscience. 2004; 7 (8): 887 – 893.