Incertitude liée à la dopamine et TD Learning (2005)

COMMENTAIRES: L'incertitude signifie la nouveauté. Cette étude complexe confirme que la nouveauté augmente la dopamine. Cela explique également que plus la récompense est incertaine, plus l'apprentissage est fort. La pornographie sur Internet est différente de la pornographie du passé en raison de la nouveauté sans fin - ce qui signifie des giclées sans fin de dopamine. La dépendance est au cœur de l'apprentissage et de la mémoire. Le passage à un nouveau genre de pornographie active la dopamine et l'apprentissage - en raison de l'incertitude de ce que vous êtes sur le point de vivre. L'incertitude se produit également lorsque les utilisateurs de porno surfent pour du porno. Vous ne savez pas ce que vous êtes sur le point de voir et cela fait monter la dopamine.
La nouveauté, l’incertitude et la recherche de toutes activent la dopamine

Étude complète: Incertitude liée à la dopamine et TD Learning

Fonctions comportementales et cérébrales 2005, 1:6doi:10.1186/1744-9081-1-6

Yael Niv1,2, Michael O Duff2 et Peter Dayan2
Centre interdisciplinaire 1 pour le calcul neuronal, Université hébraïque, Jérusalem, Israël
2 Gatsby Compute Neuroscience Unit, University College London, Londres, Royaume-Uni
La version électronique de cet article est complète et peut être consultée en ligne à l’adresse suivante: http://www.behavioralandbrainfunctions.com/content/1/1/6
© 2005 Niv et al; Titulaire de licence BioMed Central Ltd.

Abstract

Des preuves substantielles suggèrent que les activités phasiques des neurones dopaminergiques dans le mésencéphale des primates représentent une erreur de différence temporelle dans la prédiction de la récompense future, avec des augmentations au-dessus et en dessous du niveau de base consécutives à des erreurs de prédiction positives et négatives, respectivement. Cependant, les cellules de dopamine ont une activité de base très faible, ce qui implique que la représentation de ces deux types d’erreur est asymétrique. Nous explorons les implications de cette asymétrie apparemment inoffensive pour l’interprétation des schémas de tir dopaminergique dans des expériences avec récompenses probabilistes qui entraînent des erreurs de prédiction persistantes. En particulier, nous montrons que lorsque l'on fait la moyenne des erreurs de prédiction non stationnaires au cours des essais, l'activité des neurones dopaminergiques devrait s'accélérer, son ampleur dépendant du taux d'apprentissage. Ce phénomène exact a été observé dans une expérience récente, bien qu'il y ait été interprété en termes antipodaux comme un codage intra-essai de l'incertitude.

Introduction

Il existe une quantité impressionnante de données physiologiques, d'imagerie et psychopharmacologiques concernant l'activité phasique de cellules dopaminergiques (DA) dans le tronc central de singes, de rats et d'êtres humains dans des tâches de conditionnement classiques et instrumentales impliquant des prédictions de récompenses futures [1-5]. Ces données ont été prises pour suggérer [6,7] que l'activité des neurones DA représente des erreurs de différence temporelle (TD) dans les prédictions de la récompense future [8,9]. Cette théorie TD de la dopamine fournit une base de calcul précise pour la compréhension d'une foule de données comportementales et neurales. En outre, cela suggère que DA fournit un signal théoriquement approprié pour contrôler l'apprentissage des prédictions et des actions d'optimisation des récompenses.

Certaines des preuves les plus convaincantes en faveur de la théorie TD proviennent d'études ayant pour objet l'activation phasique des cellules de dopamine en réponse à des stimuli arbitraires (tels que les structures fractales sur un moniteur) qui prédisent la disponibilité immédiate de récompenses (telles que des gouttes de jus). . Dans de nombreuses variantes, ceux-ci ont montré qu’avec l’entraînement, les signaux d’AD phasique passaient du moment de la récompense initialement imprévisible au moment de la première indication pré-prononçant une récompense. C'est exactement le résultat attendu d'une erreur de prédiction basée sur une différence temporelle (par exemple, [1,2,10-13]). La découverte de base [7] est que, lorsqu'une récompense est inattendue (ce qui est inévitable dans les premiers essais), les cellules dopaminergiques y répondent fortement. Cependant, lorsqu'une récompense est prévue, les cellules répondent au prédicteur et non à la récompense maintenant attendue.

Si une récompense prévue est omise de manière inattendue, les cellules sont inhibées de manière phasique au moment normal de la récompense, une inhibition qui révèle le moment précis de la prédiction de récompense [10], et dont les métriques temporelles sont actuellement sous les projecteurs médico-légaux [14]. Le déplacement de l'activité entre le moment de la récompense et celui du prédicteur ressemble au déplacement de la réaction comportementale appétitive de l'animal du moment de la récompense (le stimulus inconditionné) vers celui du stimulus conditionné dans les expériences de conditionnement classiques [7,10] .

Dans une étude récente des plus intéressantes, Fiorillo et al. [15] a examiné le cas du renforcement partiel, dans lequel il existe une erreur de prédiction persistante, inéluctable, dans chaque essai. Une interprétation simple de l'hypothèse d'erreur de prédiction de TD suggérerait dans ce cas (a) que l'activité de la dopamine au moment des stimuli prédictifs augmenterait avec la probabilité de récompense, et (b) en moyenne au cours des essais, la réponse dopaminergique après le stimulus et jusqu'au moment de la récompense, devrait être zéro. Bien que la première hypothèse ait été confirmée dans les expériences, la seconde ne l’a pas été. Les réponses moyennées entre les essais ont montré une nette augmentation de l'activité pendant le délai entre le début du stimulus et la récompense, ce qui semblait incompatible avec le compte TD. Fiorillo et al. hypothèse que cette activité représente l'incertitude dans la remise des récompenses, plutôt qu'une erreur de prédiction.

Dans cet article, nous abordons le problème de l'erreur de prédiction persistante. Nous montrons qu’une asymétrie cruciale dans le codage des erreurs de prédiction positives et négatives conduit à s’attendre à une accélération du signal de dopamine moyen entre les essais, et rend également bien compte de deux autres caractéristiques du signal DA: une activité persistante apparente au moment de la récompense (potentielle) et une disparition (ou au moins un affaiblissement) du signal en rampe, mais pas le signal au moment de la récompense, face à la trace plutôt que de retarder le conditionnement. Ces deux phénomènes ont également été observés dans les expériences de conditionnement instrumental de Morris et al. [16]. Enfin, nous interprétons le signal de rampe comme la meilleure preuve disponible actuellement pour la nature du mécanisme d’apprentissage par lequel se produit le décalage de l’activité de la dopamine au moment des stimuli prédictifs.

Incertitude dans l'occurrence de récompense: DA en montée

Fiorillo et coll. [15] ont associé la présentation de cinq stimuli visuels différents aux macaques à la livraison retardée et probabiliste (pr = 0, 0.25, 0.5, 0.75, 1) de récompenses de jus. Ils ont utilisé un paradigme de conditionnement de retard, dans lequel le stimulus persiste pendant un intervalle fixe de 2 s, la récompense étant délivrée lorsque le stimulus disparaît. Après l'entraînement, le comportement de léchage anticipé des singes indiquait qu'ils étaient conscients des différentes probabilités de récompense associées à chaque stimulus.

La figure 1a montre des histogrammes de population d'activité de cellules DA enregistrées de manière extracellulaire, pour chaque pr. La théorie de TD prédit que l'activation phasique des cellules DA au moment des stimuli visuels devrait correspondre à la récompense moyenne attendue, et devrait donc augmenter avec pr. La figure 1a montre exactement cela - en effet, dans l’ensemble de la population, l’augmentation est assez linéaire. Morris et al. [16] rapporte un résultat similaire dans une tâche de conditionnement instrumentale (trace) impliquant également un renforcement probabiliste.

Figure 1. Erreurs de prédiction moyenne dans une tâche de récompense probabiliste
(a) Réponse DA dans les essais avec différentes probabilités de récompense. Les histogrammes de population en temps péri-stimulus (PSTH) montrent l'activité de pointe additionnée de plusieurs neurones DA sur de nombreux essais, pour chaque pr, regroupés sur des essais récompensés et non récompensés à des probabilités intermédiaires. (b) Erreur de prédiction TD avec mise à l'échelle asymétrique. Dans la tâche simulée, dans chaque essai, un des cinq stimuli a été choisi au hasard et affiché au temps t = 5. Le stimulus a été désactivé à t = 25, moment auquel une récompense a été donnée avec une probabilité de pr spécifiée par le stimulus. Nous avons utilisé une représentation en ligne à retard des stimuli (voir texte), chaque stimulus étant représenté par un ensemble différent d'unités («neurones»). L'erreur TD était δ (t) = r (t) + w (t - 1) • x (t) - w (t - 1) • x (t - 1), avec r (t) la récompense au temps t , et x (t) et w (t) les vecteurs d'état et de poids pour l'unité. Une règle d'apprentissage TD en ligne standard a été utilisée avec un taux d'apprentissage fixe α, w (t) = w (t - 1) + αδ (t) x (t - 1), de sorte que chaque poids représentait une valeur de récompense future attendue. Semblable à Fiorillo et al., Nous décrivons l'erreur de prédiction δ (t) moyennée sur de nombreux essais, une fois la tâche apprise. L'asymétrie de représentation survient lorsque les valeurs négatives de δ (t) ont été mises à l'échelle de d = 1/6 avant la sommation du PSTH simulé, bien que l'apprentissage se déroule selon des erreurs non mises à l'échelle. Enfin, pour tenir compte des petites réponses positives au moment du stimulus pour pr = 0 et au moment de la récompense (prédite) pour pr = 1 vue en (a), nous avons supposé une petite chance (8%) qu'un le stimulus prédictif est mal identifié. (c) Réponse DA dans les essais pr = 0.5, séparés en essais récompensés (à gauche) et non récompensés (à droite). (d) Modèle TD de (c). (a, c) Réimprimé avec la permission de [15] © 2003 AAAS. L'autorisation de l'AAAS est requise pour toutes les autres utilisations.

En revanche, au moment de la remise potentielle des récompenses, la théorie de TD prédit qu’en moyenne, il ne devrait y avoir aucune activité, car en moyenne, il n’ya pas d’erreur de prédiction à ce moment-là. Bien sûr, dans la conception du renforcement probabiliste (du moins pour les modèles 0, 1), il existe en fait une erreur de prédiction au moment de la livraison ou une non-livraison de la récompense à chaque essai. Lors d'essais dans lesquels une récompense est fournie, l'erreur de prédiction doit être positive (la récompense obtenue étant supérieure à la récompense moyenne attendue). À l'inverse, lors d'essais sans récompense, il devrait être négatif (voir la figure 1c). De manière cruciale, sous TD, la moyenne de ces différences, pondérée par leurs probabilités d’apparition, devrait être égale à zéro. Si ce n'est pas zéro, alors cette erreur de prédiction devrait agir comme un signal de plasticité, en changeant les prédictions jusqu'à ce qu'il n'y ait plus d'erreur de prédiction. Contrairement à cette attente, les données de la figure 1a, dont la moyenne est calculée à la fois pour les essais récompensés et non récompensés, montrent qu’il existe en fait une activité moyenne positive à ce stade. Ceci est également évident dans les données de Morris et al. [16] (voir la figure 3c). Les réponses positives de la DA ne montrent aucun signe de disparition, même avec une formation substantielle (sur plusieurs mois).

Pire que cela pour le modèle TD, et en fait le sujet de Fiorillo et al. [15], est la progression apparente de l'activité des DA vers le temps prévu de la récompense. Comme la magnitude de la rampe est la plus grande pour pr = 0.5, Fiorillo et al. a suggéré de signaler l'incertitude dans la distribution des récompenses, plutôt qu'une erreur de prédiction, et a émis l'hypothèse que ce signal pourrait expliquer les propriétés apparemment incertaines de l'incertitude (comme dans le jeu).

L'activité de montée en puissance et l'activité au moment de la récompense prévu posent des défis critiques à la théorie de TD. L'apprentissage TD fonctionne en organisant l'activité d'un DA à un moment donné dans un essai en fonction des indices disponibles plus tôt dans cet essai. Ainsi, il est difficile de savoir comment une activité apparemment prévisible, qu'elle soit au moment de la récompense ou sur la rampe précédente, peut persister sans être anticipée par l'apparition du stimulus visuel. Après tout, l'activité dépendante du patient en réponse au stimulus confirme son statut de prédicteur valide. En outre, un aspect essentiel de TD [17] est qu’il associe la prédiction au choix d’action en utilisant la valeur d’un État comme indication des avantages futurs qu’il peut tirer de cet État, et donc de son attrait comme cible d’action. De ce point de vue, étant donné que l'activité initiale n'est pas explicitement prédite par le signal précédent, elle ne peut pas influencer les actions précoces, telles que la décision de jouer. Par exemple, considérons une compétition entre deux actions: l’une aboutissant à un état avec une récompense déterministe et donc sans rampe, l’autre aboutissant à un état suivi d’une récompense probabiliste avec la même moyenne et d’une rampe. Étant donné que la rampe n'influence pas l'activité au moment du stimulus conditionné, elle ne peut pas être utilisée pour évaluer ou favoriser la deuxième action (jeu) par rapport à la première, malgré l'incertitude supplémentaire.

Nous suggérons l'hypothèse alternative selon laquelle ces deux schémas de déclenchement anormaux résultent directement des contraintes impliquées par le faible taux d'activité de base des neurones DA (2 – 4 Hz) sur le codage de l'erreur de prédiction signée. Comme noté par Fiorillo et al. [15], les erreurs de prédiction positives sont représentées par des cadences d'allumage ~ 270% supérieures à la ligne de base, tandis que les erreurs négatives sont représentées par une diminution de ~ 55% uniquement sous la ligne de base (voir aussi [14,18]). Cette asymétrie est une conséquence directe du codage d'une quantité signée par tir, qui a une ligne de base basse, bien que, de toute évidence, il ne puisse être que positif. Des cadences de déclenchement supérieures à la valeur de référence peuvent coder des erreurs de prédiction positives en utilisant une plage dynamique étendue. Toutefois, des cadences de déclenchement inférieures à la valeur de référence ne peuvent descendre qu'à zéro, ce qui impose une restriction sur le codage des erreurs de prédiction négatives.

Par conséquent, il faut être prudent en interprétant les sommes (ou moyennes) des histogrammes péri-stimulus-temps-histogrammes (PSTH) d'activité sur différents essais, comme cela a été fait dans la figure 1a. Les signaux d'erreur positifs et négatifs codés asymétriquement au moment de la réception ou de la non-réception de la récompense ne doivent en effet pas être égaux à zéro, même s'ils représentent des erreurs de prédiction TD correctes. Lorsqu'elle est additionnée, le tir bas représentant les erreurs négatives dans les essais non récompensés n'annulera pas les erreurs positives d'encodage de tir rapide dans les essais récompensés et, dans l'ensemble, la moyenne montrera une réponse positive. Dans le cerveau, bien sûr, comme les réponses ne sont pas moyennées sur des essais (récompensés et non récompensés), mais sur des neurones dans un essai, cela ne pose pas nécessairement de problème.

Ceci explique l'activité positive persistante (en moyenne) au moment de la remise ou non de la récompense. Mais qu'en est-il de la rampe avant cette heure? Au moins dans certaines représentations neuronales du temps écoulé entre le stimulus et la récompense, lorsque la moyenne des essais est calculée, cette même asymétrie conduit le DT à aboutir exactement à une accélération de l'activité vers le moment de la récompense. Le mécanisme d'apprentissage TD a pour effet de propager, essai par essai, les erreurs de prédiction se produisant à un moment donné d'un essai (comme au moment de la récompense) vers des prédicteurs potentiels (tels que le SC) plus tôt dans chaque essai. Sous la représentation asymétrique des erreurs de prédiction positives et négatives dont nous venons de parler, la moyenne de ces erreurs de propagation sur plusieurs essais (comme dans la figure 1a) donnera lieu à des moyennes positives pour des époques dans un essai avant une récompense. La forme précise de la rampe d'activité qui en résulte dépend de la façon dont les stimuli sont représentés dans le temps, ainsi que de la vitesse d'apprentissage, comme nous le verrons plus loin.

La figure 2 illustre cette vue de la provenance de l'activité de montée en puissance. Ici, une représentation de ligne à retard sur écoute du temps depuis que le stimulus est utilisé. Pour cela, chaque unité (`` neurone '') devient active (c'est-à-dire prend la valeur 1) à un certain délai après la présentation du stimulus, de sorte que chaque pas de temps après le début du stimulus est systématiquement représenté par le déclenchement d'une unité. L'apprentissage est basé sur l'erreur TD (rapportée dopaminergiquement), formalisée par δ (t) = r (t) + V (t) - V (t - 1), avec V (t) l'entrée pondérée de l'unité active à au temps t, et r (t) la récompense obtenue au temps t. La mise à jour des poids des unités selon la règle de mise à jour TD standard avec un taux d'apprentissage fixe permet à V (t) de représenter, en moyenne, les récompenses futures attendues (voir la légende de la figure 1). Comme chaque pas de temps suivant est représenté séparément, des erreurs de prédiction TD peuvent survenir à tout moment au cours de l'essai. La figure 2a montre ces erreurs dans six essais simulés consécutifs dans lesquels pr = 0.5. Dans chaque essai, une nouvelle erreur positive ou négative survient au moment de la récompense, consécutive à la réception ou à la non-réception de la récompense, et pas à pas les erreurs des essais précédents se propagent au moment du stimulus, à travers la mise à jour constante des poids (par exemple l'erreur surlignée en rouge). Lors du calcul de la moyenne (ou, comme dans les PSTH, de la sommation) sur les essais, ces erreurs s'annulent en moyenne, ce qui donne un histogramme global plat dans l'intervalle après le début du stimulus et menant au moment de la récompense (ligne noire sur la figure 2b, additionné sur les 10 essais représentés en bleu fin). Cependant, une fois additionnée après une mise à l'échelle asymétrique des erreurs négatives d'un facteur d = 1/6 (qui simule le codage asymétrique des erreurs de prédiction positives et négatives par les neurones DA), une rampe d'activité positive s'ensuit, comme illustré par la ligne noire sur la figure 2c. Notez que ce rééchelonnement n'est qu'un problème de représentation, résultant des contraintes d'encodage d'une valeur négative sur un taux de tir de base bas, et ne devrait pas affecter l'apprentissage des poids, afin de ne pas apprendre de fausses valeurs (voir discussion). Cependant, comme les PSTH sont directement des sommes de pics neuronaux, ce problème de représentation porte sur l'histogramme résultant.

Figure 2. La rétro-propagation des erreurs de prédiction explique l'activité de rampe.
(a) L'erreur de prédiction TD sur chacun des six essais consécutifs (de haut en bas) de la simulation de la figure 1b, avec pr = 0.5. En rouge, l'erreur au moment de la récompense lors du premier essai et son retour progressif vers le moment du stimulus lors des essais ultérieurs sont soulignés. Les lettres en majuscules indiquent le résultat de chaque essai spécifique (R = récompensé; N = non récompensé). La séquence de récompenses précédant ces épreuves est indiquée en haut à droite. (b) L'erreur TD de ces six essais et des quatre autres qui les ont suivis s'est superposée. Les lignes rouge et verte illustrent l'enveloppe des erreurs dans ces essais. En sommant ces essais, il n’ya pas d’activité supérieure à la moyenne (ligne noire), car les erreurs positives et négatives se produisent au hasard 50% du temps et s’annulent donc mutuellement. (c) Cependant, lorsque les erreurs de prédiction sont représentées asymétriquement au-dessus et en dessous du taux d'allumage de base (ici, les erreurs négatives ont été mises à l'échelle de manière asymétrique par d = 1 / 6 pour simuler le codage asymétrique des erreurs de prédiction par les neurones DA), une rampe d'activité moyenne apparaît lors de la moyenne des essais, comme le montre la ligne noire. Tous les paramètres de simulation sont identiques à ceux de la figure 1b, d.

Les figures 1b, d montrent la rampe résultant de cette combinaison de codage asymétrique et de calcul de la moyenne inter-essais, aux fins de comparaison avec les données expérimentales. La figure 1b montre le PSTH calculé à partir de nos données simulées en faisant la moyenne sur le signal δ (t) représenté de manière asymétrique dans des essais ~ 50 pour chaque type de stimulus. La figure 1d montre les résultats du cas pr = 0.5, répartis en essais récompensés et non récompensés pour comparaison avec la figure 1c. Les résultats simulés ressemblent beaucoup aux données expérimentales en ce qu'ils répliquent la réponse positive nette aux récompenses incertaines, ainsi que l'effet de rampe, qui est le plus élevé dans le cas pr = 0.5.

Il est simple de dériver la réponse moyenne au moment de la récompense (t = N) dans l’essai T, c’est-à-dire l’erreur moyenne TD δT (N), de la règle d’apprentissage TD avec la représentation simplifiée du temps de ligne à retard et un taux d'apprentissage fixe α. La valeur à l’avant-dernier pas de l’essai, en fonction du numéro d’essai (les valeurs initiales étant nulles), est

où r (t) est la récompense à la fin de l'essai t. Le signal d'erreur au dernier pas temporel de l'essai T est simplement la différence entre la récompense obtenue r (T) et la valeur prédisant cette récompense VT-1 (N-1). Cette erreur est positive avec la probabilité pr et négative avec la probabilité (1 - pr). En mettant à l'échelle les erreurs négatives d'un facteur d ∈ (0, 1], on obtient ainsi

Pour le codage symétrique des erreurs positives et négatives (d = 1), la réponse moyenne est 0. Pour le codage asymétrique (0 Conditionnement des traces: un cas de test

Un cas de test important pour notre interprétation se pose dans une variante de la tâche de Fiorillo et al. [15], ainsi que dans la tâche instrumentale analogue de Morris et al. [16], tous deux impliquant le conditionnement des traces. Contrairement au conditionnement de retard (figure 3a) dans lequel la récompense coïncide avec le décalage du stimulus prédictif, il existe ici un écart substantiel entre le décalage du stimulus prédictif et la délivrance de la récompense (figure 3b). De toute évidence, dans ce cas, l'incertitude sur la récompense ne pourrait que s'aggraver, en raison du bruit dans la synchronisation de l'intervalle entre le stimulus et la récompense [19], donc sous le compte d'incertitude, il devrait y avoir des rampes comparables voire plus grandes. Cependant, les résultats expérimentaux montrent que l'activité de rampe est plus petite, voire négligeable (Figure 3c; d). Notez, cependant, que l'ampleur de l'activité moyenne de l'essai au moment prévu de la récompense est maintenue, ce qui indique une dissociation entre la hauteur de la rampe et la quantité d'activité positive au moment prévu de la récompense.

Figure 3. Conditionnement des traces avec récompenses probabilistes.
(a) Une illustration d'un essai de la tâche de conditionnement de retard de Fiorillo et al. [15]. Un essai consiste en un stimulus visuel de 2 secondes, dont le décalage coïncide avec la délivrance de la récompense de jus, si une telle récompense est programmée en fonction de la probabilité associée au signal visuel. Dans les essais non récompensés, le stimulus s'est terminé sans récompense. Dans les deux cas, un intervalle entre les essais de 9 secondes en moyenne sépare les essais. (b) Une illustration d'un essai de la tâche de conditionnement de trace de Morris et al. [16]. La différence cruciale est qu'il y a maintenant un délai temporel substantiel entre le décalage du stimulus et le début de la récompense (la période de «trace»), et aucun stimulus externe n'indique le moment attendu de la récompense. Cela confère une incertitude supplémentaire car le moment précis de la récompense prévue doit être résolu en interne, en particulier dans les essais non récompensés. Dans cette tâche, comme dans [15], l'un des nombreux stimuli visuels (non représentés) a été présenté dans chaque essai, et chaque stimulus était associé à une probabilité de récompense. Ici aussi, le singe a été invité à effectuer une réponse instrumentale (en appuyant sur la touche correspondant au côté dans lequel le stimulus était présenté), dont l'échec a mis fin à l'essai sans récompense. Les essais ont été séparés par des intervalles inter-essais variables. (c, d) cadence de tir DA (lissée) par rapport à la ligne de base, autour de l'heure prévue de la récompense, dans les essais récompensés (c) et dans les essais non récompensés (d). (c, d) Réimprimé de [16] © 2004 avec la permission d'Elsevier. Les traces impliquent une réponse positive globale au moment prévu de la récompense, mais avec une très petite ou aucune rampe précédant celle-ci. Des résultats similaires ont été obtenus dans une tâche de conditionnement classique brièvement décrite dans [15], qui employait une procédure de conditionnement de trace, confirmant que la période de trace, et non la nature instrumentale de la tâche décrite en (b) était la différence cruciale avec (a) .

Le modèle TD de DA explique aisément ces données surprenantes. Comme le montre la figure 4, la vitesse d’apprentissage a une incidence sur la forme de la rampe, mais pas sur la hauteur de son sommet. La taille des erreurs de prédiction à propagation arrière est déterminée, en partie, par le taux d'apprentissage, car ces erreurs surviennent dans le cadre de l'apprentissage en ligne de nouvelles prédictions. En effet, il y a une mise à jour continue des prédictions telle qu'après un essai récompensé, l'attente de récompense soit plus grande (et donc la récompense suivante entraîne une erreur de prédiction plus petite), et inversement après un essai non récompensé [18] (voir Figure 2a). Cette mise à jour des prévisions est directement liée au taux d'apprentissage: plus le taux d'apprentissage est élevé, plus grande est la mise à jour des prévisions en fonction de l'erreur de prévision actuelle et plus grande est la fraction de l'erreur de prévision renvoyée. De cette façon, avec des taux d'apprentissage plus élevés, la différence d'attentes entre un essai récompensé et un essai non récompensé sera plus grande. Ainsi, les erreurs de prédiction lorsque la récompense suivante sera disponible ou non seront plus grandes - d'où la rampe plus grande et plus progressive.

Figure 4. Dépendance de la rampe sur le taux d'apprentissage.
La forme de la rampe, mais pas la hauteur de son sommet, dépend du taux d'apprentissage. Le graphique montre l'activité simulée pour le cas de pr = 0.5 près du temps de la récompense attendue, pour différents taux d'apprentissage, moyennée sur les essais récompensés et non récompensés. Selon TD, qui apprend avec des erreurs de prévision persistantes à code asymétrique persistantes, la moyenne de la suractivité dans les essais récompensés et non récompensés conduit à une accélération jusqu'au moment de la récompense. La hauteur du sommet de la rampe est déterminée par le rapport des essais récompensés et non récompensés. Cependant, la largeur de la rampe est déterminée par le taux de propagation en arrière de ces signaux d'erreur à partir du moment de la récompense (attendue) pour la récompense. temps du stimulus prédictif. Un taux d'apprentissage plus élevé entraîne une plus grande fraction de l'erreur qui se propage en retour, et donc une rampe plus élevée. Avec des taux d'apprentissage plus faibles, la rampe devient négligeable, bien que l'activité positive (en moyenne) au moment de la récompense soit toujours maintenue. Notez que bien que le taux d'apprentissage utilisé dans les simulations illustrées à la figure 1b, d soit 0.8, il ne doit pas être considéré comme le taux d'apprentissage synaptique littéral du substrat neural, étant donné notre représentation schématique du stimulus. Dans une représentation plus réaliste dans laquelle une population de neurones est active à chaque instant, un taux d'apprentissage beaucoup plus faible produirait des résultats similaires.

En effet, comparé au conditionnement avec délai, le conditionnement avec trace est notoirement lent, ce qui suggère que le taux d’apprentissage est faible et qu’il devrait donc y avoir une rampe plus basse, en accord avec les résultats expérimentaux. Un examen direct du taux d’apprentissage dans les données de Morris et al. [16], dont la tâche a nécessité une formation excessive, car il s’agissait non seulement d’un conditionnement conditionnant, mais également d’une action instrumentale, a confirmé son caractère extrêmement faible (Genela Morris - communication personnelle, 2004).

a lieu

Le codage différentiel des valeurs positives et négatives par les neurones DA est évident dans toutes les études du signal DA phasique et peut être considéré comme une conséquence inévitable de la faible activité de base de ces neurones. En effet, ce dernier a directement inspiré des suggestions selon lesquelles un neurotransmetteur adverse, supposé sérotonine, serait impliqué dans la représentation et donc l'apprentissage des erreurs de prédiction négatives [20], de manière à ce qu'ils aient également un trimestre complet. Ici, cependant, nous nous sommes limités à examiner les effets de l’asymétrie sur l’analyse moyenne de l’activité de la dopamine dans l’essai, et nous avons montré que l’activité de la DA en montée, ainsi qu’une réponse positive moyenne au moment de la récompense, résultaient directement de: le codage asymétrique des erreurs de prédiction.

Outre une vision plus claire du signal d'erreur, la conséquence la plus importante de la nouvelle interprétation est que les rampes d'accès peuvent être considérées comme la signature d'un phénomène de TD qui était jusqu'à présent extrêmement insaisissable. Il s'agit de la rétro-propagation progressive du signal d'erreur représenté par l'activité DA, du moment de la récompense au temps du prédicteur (figure 2a). La plupart des études précédentes sur l’activité dopaminergique ont utilisé pr = 1, ce qui fait de cette rétrodiffusion un phénomène transitoire, au mieux, n’apparaissant qu’au début de l’entraînement (lorsque, en règle générale, les enregistrements n’ont pas encore commencé), et potentiellement difficile à discerner en mode lent. tir neurones DA. En outre, comme mentionné, la rétro-propagation dépend de la façon dont le temps entre le stimulus prédictif et la récompense est représenté - il est présent pour une représentation de ligne à retard prise comme dans [6], mais pas pour des représentations couvrant la totalité du délai, comme dans [21]. Notez que la forme de la rampe dépend également de l'utilisation de traces d'éligibilité et de la règle d'apprentissage dite TD (λ) (simulation non illustrée), qui fournit un mécanisme supplémentaire permettant de mettre en parallèle le temps entre événements au cours de l'apprentissage. Malheureusement, les formes des rampes dans les données étant plutôt variables (figure 1) et bruitées, elles ne peuvent pas fournir de fortes contraintes sur le mécanisme de TD utilisé par le cerveau.
Des études plus récentes impliquant des erreurs de prédiction persistantes montrent également une activité suggérant une rétrodiffusion, notamment la figure 4 de [13]. Dans cette étude, les erreurs de prédiction résultaient de modifications périodiques de la tâche et les enregistrements DA étaient effectués dès le début de la formation. Une activité semblable à une contre-propagation apparaît donc directement, bien que cette activité n'ait pas été quantifiée.

Nous nous attendons à ce que les rampes ne persistent pendant la formation que si le taux d'apprentissage ne diminue pas à zéro à mesure que l'apprentissage progresse. La théorie de Pearce & Hall [22] du contrôle de l'apprentissage par l'incertitude suggère exactement cette persistance de l'apprentissage - et il existe des preuves à partir des programmes de renforcement partiel que le taux d'apprentissage peut être plus élevé lorsqu'il y a plus d'incertitude associée à la récompense. En effet, d'un point de vue statistique «rationnel», l'apprentissage devrait persister lorsqu'il existe une incertitude substantielle sur la relation entre les prédicteurs et les résultats, comme cela peut découler de la possibilité toujours présente d'un changement dans les relations prédictives. Cette forme d'incertitude persistante, associée à l'incertitude due à l'ignorance initiale de la tâche, a été utilisée pour formaliser la théorie de Pearce & Hall sur la manière dont l'incertitude guide l'apprentissage [23]. Ainsi, notre affirmation selon laquelle l'incertitude peut ne pas être directement représentée par les rampes ne doit certainement pas être interprétée comme signifiant que sa représentation et sa manipulation ne sont pas importantes. Au contraire, nous avons suggéré que l'incertitude influence l'inférence corticale et l'apprentissage à travers d'autres systèmes neuromodulateurs [24], et qu'elle peut également déterminer des aspects de la sélection des actions [25].

Divers autres aspects de l'asymétrie doivent être notés. L’effet de l’asymétrie sur l’apprentissage dépendant des DA [26] est le plus critique, si l’activité de DA inférieure au niveau de référence est elle-même responsable de la diminution des prédictions trop élevées. Pour que les prévisions acquises restent correctes, nous devrions supposer que la représentation asymétrique n’affecte pas l’apprentissage, c’est-à-dire qu’un mécanisme tel que l’échelonnement différent de la potentialisation et l’abaissement des forces synaptiques compense le signal d’erreur asymétrique. Bien sûr, cela deviendrait théorique si un neurotransmetteur adverse est impliqué dans l'apprentissage à partir d'erreurs de prédiction négatives. Bayer [14] suggère que le problème est compliqué du fait que la cadence de tir des DA est similaire pour toutes les erreurs de prédiction inférieures à un seuil négatif, peut-être en raison de l’effet plancher de la cadence de tir faible. Un tel codage avec perte n’affecte pas l’image qualitative des effets de la moyenne inter-essais sur l’émergence de rampes, mais renforce la nécessité d’un signal d’opposition pour un apprentissage nécessairement symétrique.

Enfin, le test le plus direct de notre interprétation serait une comparaison de la moyenne intra- et inter-essai du signal DA. Il serait important de le faire d'une manière temporellement sophistiquée, pour éviter les problèmes de moyennage des signaux non stationnaires. Afin de surmonter le bruit dans le déclenchement neuronal et de déterminer s'il y avait effectivement une rampe graduelle dans un essai, ou, comme nous le prédirions, des erreurs de prédiction positives et négatives intermittentes, il serait nécessaire de faire la moyenne de plusieurs neurones enregistrés simultanément dans un essai, et en outre des neurones associés à des taux d'apprentissage similaires. Alternativement, les traces de neurones uniques pourraient être régressées par rapport à la réponse de rétropropagation prédite par leurs essais précédents et l'apprentissage TD. Une comparaison de la quantité de variabilité expliquée par un tel modèle, comparée à celle d'une régression contre une rampe d'activité monotone, pourrait indiquer le modèle le plus approprié. Une prédiction moins simple, mais plus testable, est que la forme de la rampe doit dépendre du taux d'apprentissage. Les taux d'apprentissage peuvent être évalués à partir de la réponse aux récompenses probabilistes, indépendamment de la forme de la rampe (Nakahara et al. [18] ont montré de telle manière que dans leur tâche de conditionnement de trace de renforcement partiel, le taux d'apprentissage était de 0.3), et potentiellement manipulé en faisant varier la quantité de formation ou la fréquence avec laquelle les contingences de tâches sont modifiées et réapprises. En effet, quantifier l'existence et la forme d'une rampe dans l'activité de DA enregistrée de Nakahara et al., Pourrait bien éclairer la proposition actuelle.

Intérêts concurrents
Le (s) auteur (s) déclare (nt) n'avoir aucun intérêt concurrent.

Contributions des auteurs
YN, MD et PD ont conjointement conçu et exécuté cette étude et ont contribué à la rédaction du manuscrit. Tous les auteurs ont lu et approuvé le manuscrit final.

Remerciements
Nous sommes très reconnaissants à H. Bergman, C. Fiorillo, N. Daw, D. Joel, P. Tobler, P. Shizgal et W. Schultz pour leurs discussions et commentaires, dans certains cas, malgré des interprétations divergentes des données. Nous sommes particulièrement reconnaissants à Genela Morris d’avoir analysé ses propres données publiées et non publiées en ce qui concerne la progression. Ce travail a été financé par le réseau thématique de la CE (YN), la Gatsby Charitable Foundation et le projet EU BIBA.

Bibliographie

1. Ljungberg T, Apicella P, Schultz W : Réponses des neurones dopaminergiques du singe lors de l'apprentissage des réactions comportementales.
Journal Neurophysiol 1992, 67: 145-163.
Retour au texte
2. Schultz W : Signal de récompense prédictif des neurones dopaminergiques. [http://jn.physiology.org/cgi/content/full/80/1/1] site Web
Journal de neurophysiologie 1998, 80: 1-27. Résumé PubMed
Retour au texte
3. O'Doherty J, Dayan P, Friston K, Critchley H, Dolan R : Modèles de différence temporelle et apprentissage lié aux récompenses dans le cerveau humain.
Neuron 2003, 38: 329-337. Résumé PubMed | Texte intégral de l'éditeur
Retour au texte
4. Seymour B, O'Doherty J, Dayan P, Koltzenburg M, Jones A, Dolan R, Friston K, Frackowiak R : Les modèles de différence temporelle décrivent un apprentissage d'ordre supérieur chez l'homme.
Nature 2004, 429: 664-667. Résumé PubMed | Texte intégral de l'éditeur
Retour au texte
5. Montague PR, Hyman SE, Cohan JD : Rôles informatiques de la dopamine dans le contrôle du comportement.
Nature 2004, 431: 760-767. Résumé PubMed | Texte intégral de l'éditeur
Retour au texte
6. Montague PR, Dayan P, Sejnowski TJ : Un cadre pour les systèmes de dopamine mésencéphalique basé sur l'apprentissage prédictif Hebbian.
Le Journal of Neuroscience 1996, 16: 1936-1947. Résumé PubMed | Texte intégral de l'éditeur
Retour au texte
7. Schultz W, Dayan P, Montague PR : Un substrat neuronal de prédiction et de récompense.
Science 1997, 275: 1593-1599. Résumé PubMed | Texte intégral de l'éditeur
Retour au texte
8. Sutton RS : Apprendre à prédire par la méthode des différences temporelles.
Apprentissage Machine 1988, 3: 9-44.
Retour au texte
9. Sutton RS, Barto AG : [http://www.cs.ualberta.ca/~sutton/book/ebook/the-book.html] site Web
Apprentissage par renforcement: une introduction. MIT Press; 1998.
Retour au texte
10. Hollerman J, Schultz W : Les neurones dopaminergiques signalent une erreur dans la prédiction temporelle de la récompense lors de l'apprentissage.
Nature Neuroscience 1998, 1: 304-309. Résumé PubMed | Texte intégral de l'éditeur
Retour au texte
11. Schultz W, Apicella P, Ljungberg T : Réponses des neurones dopaminergiques de singe aux stimuli de récompense et conditionnés au cours des étapes successives de l'apprentissage d'une tâche à réponse retardée.
Le Journal of Neuroscience 1993, 13: 900-913. Résumé PubMed | Texte intégral de l'éditeur
Retour au texte
12. Tobler P, Dickinson A, Schultz W : Codage de l'omission de récompense prévue par les neurones dopaminergiques dans un paradigme d'inhibition conditionnée.
Journal of Neuroscience 2003, 23 (32): 10402-10410. Résumé PubMed | Texte intégral de l'éditeur
Retour au texte
13. Takikawa Y, Kawagoe R, Hikosaka O : Un rôle possible des neurones dopaminergiques du mésencéphale dans l'adaptation à court et à long terme des saccades à la cartographie de récompense de position.
Journal de neurophysiologie 2004, 92: 2520-2529. Résumé PubMed | Texte intégral de l'éditeur
Retour au texte
14. Bayer H : Un rôle pour la substantia nigra dans l'apprentissage et le contrôle moteur.
Thèse de doctorat, Université de New York 2004.
Retour au texte
15. Fiorillo C, Tobler P, Schultz W : Codage discret de la probabilité et de l'incertitude des récompenses par les neurones dopaminergiques.
Science 2003, 299 (5614): 1898-1902. Résumé PubMed | Texte intégral de l'éditeur
Retour au texte
16. Morris G, Arkadir D, Nevet A, Vaadia E, Bergman H : Messages coïncidents mais distincts de la dopamine du mésencéphale et des neurones striataux toniquement actifs.
Neuron 2004, 43: 133-143. Résumé PubMed | Texte intégral de l'éditeur
Retour au texte
17. Barto A, Sutton R, Watkins C : Apprentissage et prise de décision séquentielle. Dans Learning and Computational Neuroscience: Foundations of Adaptive Networks. Edité par Gabriel M, Moore J. Cambridge, MA : MIT Press ; 1990 : 539-602.
Retour au texte
18. Nakahara H, Itoh H, Kawagoe R, Takikawa Y, Hikosaka O : les neurones dopaminergiques peuvent représenter une erreur de prédiction dépendante du contexte.
Neuron 2004, 41: 269-280. Résumé PubMed | Texte intégral de l'éditeur
Retour au texte
19. Gallistel CR, Gibbon J : Temps, taux et conditionnement.
Examen psychologique 2000, 107: 289-344. Résumé PubMed | Texte intégral de l'éditeur
Retour au texte
20. Daw ND, Kakade S, Dayan P : Interactions opposantes entre la sérotonine et la dopamine.
Réseaux de neurones 2002, 15 (4 – 6): 603-616. Résumé PubMed | Texte intégral de l'éditeur
Retour au texte
21. Suri RE, Schultz W : Un modèle de réseau de neurones avec un signal de renforcement de type dopamine qui apprend une tâche de réponse retardée spatiale.
Neuroscience 1999, 91: 871-890. Résumé PubMed | Texte intégral de l'éditeur
Retour au texte
22. Pearce JM, Hall G : Un modèle d'apprentissage pavlovien : Variations dans l'efficacité des stimuli conditionnés mais pas des stimuli inconditionnés.
Examen psychologique 1980, 87: 532-552. Résumé PubMed | Texte intégral de l'éditeur
Retour au texte
23. Dayan P, Kakade S, Montague PR : Apprentissage et attention sélective.
Nature Neuroscience 2000, 3: 1218-1223. Résumé PubMed | Texte intégral de l'éditeur
Retour au texte
24. Dayan P, Yu A : Incertitude attendue et inattendue : Ach et NE dans le néocortex. [http://books.nips.ce/papers/files/nips15/NS08.pdf] site Web
Dans Advances in Neural Information Processing, systèmes édités par Dietterich T, Becker S, Ghahramani Z. Cambridge, MA: MIT Press; 2002, 14: 189-196.
Retour au texte
25. Daw N, Niv Y, Dayan P : Actions, politiques, valeurs et ganglions de la base. Dans Percées récentes dans la recherche sur les ganglions de la base. Edité par Bezard E. New York, États-Unis : Nova Science Publishers, Inc ; dans la presse.
Retour au texte
26. Wickens J, Kötter R : Modèles cellulaires de renforcement. Dans Modèles de traitement de l'information dans les ganglions de la base. Edité par Houk JC, Davis JL, Beiser DG. Presse du MIT ; 1995 :187-214.
Retour au texte