Signaux de dopamine pour la valeur de récompense et le risque Données de base et récentes (2010)

Wolfram Schultz 1

Behav Brain Funct. 2010; 6: 24.

Publié en ligne 2010 April 23. Paramètres: 10.1186 / 1744-9081-6-24.

ÉTUDE COMPLÈTE: Signaux dopaminergiques indiquant la valeur de la récompense et le risque Données de base et récentes

1Department of Physiology, Development and Neuroscience, Université de Cambridge, Downing Street, Cambridge CB2 3DY, Royaume-Uni

Auteur correspondant.

Wolfram Schultz: [email protected]

Abstract

Contexte

Des études antérieures sur les lésions, l'autostimulation électrique et la toxicomanie suggèrent que les systèmes dopaminergiques du cerveau moyen font partie du système de récompense du cerveau. Cette revue fournit un aperçu actualisé des signaux de base des neurones dopaminergiques vers les stimuli environnementaux.

Méthodologie

Les expériences décrites ont utilisé des méthodes comportementales et neurophysiologiques classiques pour enregistrer l'activité de neurones à dopamine uniques chez des singes éveillés au cours de tâches comportementales spécifiques.

Résultats

Les neurones dopaminergiques présentent des activations phasiques aux stimuli externes. Le signal reflète la récompense, la présence physique, le risque et la punition, dans l'ordre décroissant des fractions de neurones qui répondent. La valeur de récompense attendue est une variable de décision clé pour les choix économiques. Les codes de réponse de récompense récompense la valeur, la probabilité et leur produit ajouté, la valeur attendue. La valeur de récompense du code des neurones car elle diffère de la prédiction, répondant ainsi à l'exigence de base pour un signal d'enseignement d'erreur de prédiction bidirectionnelle postulé par la théorie de l'apprentissage. Cette réponse est mise à l'échelle en unités d'écart type. En revanche, relativement peu de neurones dopaminergiques présentent l'activation phasique qui suit les punisseurs et les stimuli aversifs conditionnés, ce qui suggère un manque de relation entre la réponse de la récompense à l'attention générale et à l'excitation. De grandes proportions de neurones dopaminergiques sont également activées par des stimuli physiques intenses et saillants. Cette réponse est renforcée lorsque les stimuli sont nouveaux; il semble être distinct du signal de valeur de récompense. Les neurones dopaminergiques montrent également des activations non spécifiques de stimuli non gratifiants, probablement dues à la généralisation par des stimuli similaires et au pseudoconditionnement par récompenses primaires. Ces activations sont plus courtes que les réponses de récompense et sont souvent suivies d'une dépression d'activité. Un signal de dopamine plus lent et séparé informe sur le risque, une autre variable de décision importante. La réponse d'erreur de prédiction ne se produit qu'avec une récompense; il est mis à l'échelle par le risque de récompense prévue.

Conclusions

Les études neurophysiologiques révèlent des signaux phasiques de dopamine qui transmettent des informations liées principalement mais non exclusivement à la récompense. Bien que n'étant pas entièrement homogène, le signal de la dopamine est plus limité et stéréotypé que l'activité neuronale dans la plupart des autres structures cérébrales impliquées dans le comportement orienté vers un objectif.

Contexte

Les résultats d'études sur la lésion et d'études psychopharmacologiques suggèrent un large éventail de fonctions comportementales pour les systèmes de dopamine du cerveau moyen. La question clé est de savoir laquelle de ces nombreuses fonctions est activement codée par un signal phasique de dopamine compatible avec les mécanismes neuronaux rapides? Les bons conseils proviennent de la toxicomanie et de l'auto-stimulation électrique, suggérant que l'activité de la dopamine a des effets gratifiants et générateurs d'approches [1,2].

Nous pouvons définir les récompenses comme des objets ou des événements générant une approche et un comportement consumériste, favorisant l'apprentissage de ce comportement, représentant des résultats positifs des décisions économiques et engageant des émotions positives et des sentiments hédoniques. Les récompenses sont cruciales pour la survie individuelle et génétique et soutiennent les processus élémentaires tels que boire, manger et se reproduire. Cette fonction attribue également à certaines entités non alimentaires et non sexuelles des fonctions de récompense, notamment de l'argent, des artefacts techniques, des attributs de stimulus esthétiques et des événements mentaux. Les récompenses engagent les agents dans des comportements aussi divers que la recherche de nourriture et le négoce sur les marchés boursiers.

Concepts de base

Les récompenses ont des magnitudes spécifiques et se produisent avec des probabilités spécifiques. Les agents visent à optimiser les choix entre des options dont les valeurs sont déterminées par le type d'objet de choix, sa magnitude et sa probabilité [3]. Par conséquent, les récompenses peuvent être correctement décrites par des distributions de probabilité des valeurs de récompense. Dans un monde idéal, ces distributions suivent une fonction gaussienne, les récompenses extrêmes se produisant moins fréquemment que les résultats intermédiaires. Les tests expérimentaux utilisent souvent des distributions de probabilité binaires avec des valeurs équiprobables (chaque valeur de récompense se produisant à p = 0.5). Les distributions de probabilité gaussienne et binaire sont entièrement décrites par la valeur mathématique attendue (premier moment de la distribution de probabilité) et les dispersions ou écarts des valeurs par rapport à la moyenne, à savoir la variance (attendue) (deuxième moment) ou l'écart-type (attendu) (racine carrée) de variance). La variance et l'écart type sont souvent considérés comme des mesures du risque. En économie comportementale, le terme «risque» fait référence à une forme d'incertitude dans laquelle la distribution de probabilité est connue, tandis que «ambiguïté» indique une connaissance incomplète des probabilités et est souvent appelée simplement «incertitude». Le risque fait référence à la chance de gagner ou de perdre, plutôt qu'à l'association de bon sens plus étroite avec la perte.

Les prévisions sont d'une importance fondamentale pour prendre des décisions en connaissance de cause en fournissant des informations préalables sur les options de choix disponibles, par opposition aux suppositions qui se produisent lorsque les résultats sont inconnus. Comme la récompense peut être quantifiée par des distributions de probabilité de la valeur, les prévisions de récompense spécifient la valeur attendue et la variance (attendue) ou l'écart type de la distribution.

La pression évolutive favorise le traitement de l’information économe en énergie. Une solution possible consiste à stocker les prévisions concernant les événements futurs dans les centres du cerveau supérieurs et à calculer dans les centres du cerveau inférieurs la différence entre les nouvelles informations environnementales et les prévisions stockées. La différence entre l'événement réel et sa prédiction est appelée une erreur de prédiction d'événement. Suivre l'évolution de la situation environnementale dans les centres cérébraux supérieurs impliquerait simplement de mettre à jour les prévisions avec le moins d'erreurs de prévision contenant moins d'informations et de consommer moins d'énergie, plutôt que de traiter toutes les informations périphériques chaque fois qu'une petite chose aurait changé [4]. De cette manière, les centres cérébraux supérieurs ont accès à toutes les informations sur le monde extérieur pour des perceptions, des décisions et des réactions comportementales à un coût énergétique bien inférieur. Cette propriété fondamentale des prévisions conduit au phénomène observable de l'apprentissage, défini par les changements de comportement basés sur des prévisions mises à jour.

La théorie de l'apprentissage animal et les modèles efficaces de renforcement des différences temporelles postulent que les erreurs de prédiction des résultats sont cruciales pour le conditionnement pavlovien et opérant [5,6]. Les vues actuelles conceptualisent l'apprentissage pavlovien comme toute forme d'acquisition de prédiction conduisant à des réactions végétatives modifiées ou à des contractions musculaires striées, tant que le résultat n'est pas conditionnel à la réaction comportementale. Ainsi, les prédictions de récompenses pavloviennes véhiculent des informations non seulement sur la valeur de récompense (valeur attendue) mais aussi sur le risque (variance) des récompenses futures, ce qui constitue une extension importante du concept proposé par Pavlov il y a cent ans. L'importance des erreurs de prédiction est basée sur l'effet de blocage de Kamin [7] qui démontre que l'apprentissage et l'extinction ne progressent que dans la mesure où un renforçateur est meilleur ou pire que prévu; l'apprentissage ralentit progressivement à mesure que la prédiction s'approche de manière asymptotique de la valeur du renforçateur.

Réponse à la dopamine pour récompenser la réception

La majorité des neurones dopaminergiques du mésencéphale (75-80%) montrent des activations phasiques plutôt stéréotypées avec des latences <100 ms et des durées <200 ms après des récompenses alimentaires et liquides imprévues dans le temps (Figure (Figure1A) .1A). Cette réponse en rafale dépend de l'activation et de la plasticité des récepteurs glutamatergiques NMDA et AMPA situés sur les neurones dopaminergiques [8-12]. Le sursaut est essentiel pour l'apprentissage comportemental des tâches appétitives telles que la préférence de lieu conditionné et les choix de labyrinthe en T pour la nourriture ou la cocaïne et pour les réponses de peur conditionnées [9].

Figure 1

Activations phasiques de l'activité impulsionnelle neurophysiologique des neurones dopaminergiques. R: Activations phasiques après les récompenses principales. B: Activations phasiques après des stimuli conditionnés, prédictifs de récompense. C: En haut: Manque d'activation phasique après le primaire (plus…)

Récompenser le codage d'erreur de prédiction

La réponse de la dopamine à la délivrance de récompense semble coder une erreur de prédiction; une récompense meilleure que prévue provoque une activation (erreur de prédiction positive), une récompense totalement prédite n'entraîne aucune réponse et une récompense plus mauvaise que prévue induit une dépression (erreur négative) [13-24]. Ainsi, la réponse dopamine met pleinement en œuvre le terme crucial du modèle d’apprentissage Rescorla-Wagner et ressemble de près au signal d’enseignement des modèles d’apprentissage par renforcement différentiel temporel efficaces [6,23].

La réponse d'erreur varie quantitativement avec la différence entre la valeur de récompense reçue et la valeur de récompense attendue [18-23]. La réponse d'erreur de prédiction est sensible au moment de la récompense; une récompense différée induit une dépression à son heure d'origine et une activation à sa nouvelle heure [24,25]. Le codage d'erreur quantitatif est évident pour les activations reflétant des erreurs de prédiction positives. En revanche, la dépression associée à des erreurs de prédiction négatives montre naturellement une plage dynamique plus étroite, car l'activité neuronale ne peut pas chuter en dessous de zéro, et une évaluation quantitative appropriée nécessite de prendre en compte la période complète de la dépression [26].

Ainsi, les neurones dopaminergiques ne répondent à la récompense que dans la mesure où elle diffère de la prédiction. Comme la prédiction provient d'une récompense déjà expérimentée, les neurones dopaminergiques ne sont activés que lorsque la récompense actuelle est meilleure que la récompense précédente. La même récompense ne activera pas les neurones dopaminergiques. Si l'activation des neurones dopaminergiques a un effet de renforcement positif sur le comportement, seules des récompenses croissantes permettront un renforcement continu via des mécanismes dopaminergiques. C'est peut-être l'une des raisons pour lesquelles les récompenses constantes et immuables semblent perdre leur influence stimulante et pourquoi nous avons toujours besoin de plus de récompenses.

Tests rigoureux de codage des erreurs de prédiction de récompense

La théorie de l'apprentissage chez l'animal a développé des paradigmes formels pour tester les erreurs de prédiction de récompense. Dans le test de blocage [7], un stimulus associé à une récompense entièrement prédite ne peut pas être appris et ne devient donc pas un prédicteur de récompense valide. L'absence de récompense à la suite du stimulus bloqué ne constitue pas une erreur de prédiction et n'entraîne pas de réponse des neurones dopaminergiques, même après une association étendue stimulus-récompense [27]. En revanche, la remise d'une récompense après un stimulus bloqué constitue une erreur de prédiction positive et entraîne par conséquent une activation de la dopamine.

Le paradigme d'inhibition conditionnée [28] offre un test supplémentaire pour les erreurs de prédiction. Dans la tâche utilisée dans nos expériences, un stimulus de test est présenté simultanément à une récompense établie, mais aucune récompense n'est donnée après le composé, ce qui fait du stimulus de test un prédicteur de l'absence de récompense. L'omission de récompense après un tel inhibiteur conditionné ne constitue pas une erreur de prédiction négative et ne parvient donc pas à induire une dépression des neurones dopaminergiques [29]. En revanche, la délivrance d'une récompense après l'inhibiteur produit une forte erreur de prédiction positive et par conséquent une forte activation de la dopamine.

Les résultats de ces deux tests formels confirment que les neurones dopaminergiques montrent un codage bidirectionnel des erreurs de prédiction de récompense.

Codage d'erreur de prédiction de récompense adaptative

De manière générale, un stimulus de prévision de récompense spécifie la valeur des récompenses futures en informant sur la distribution de probabilité des valeurs de récompense. Ainsi, le stimulus indique la valeur attendue (premier moment) et la variance (attendue) (deuxième moment) ou l'écart type de la distribution.

La réponse d'erreur de prédiction de la valeur de la dopamine est sensible aux premier et deuxième moments de la distribution de récompense prédite deux secondes après le stimulus. Dans une expérience, différents stimuli visuels peuvent prédire des distributions de probabilité binaires spécifiques d'amplitudes de récompense équiprobables avec différentes valeurs et variances attendues. Comme la réponse d'erreur de prévision reflète la différence entre la valeur de récompense obtenue et attendue, une amplitude identique de la récompense reçue produit une augmentation ou une diminution de l'activité de la dopamine selon que cette récompense est plus grande ou plus petite que sa prédiction, respectivement [23]. Ce résultat suggère que le codage d'erreur de prédiction de valeur fournit des informations relatives à une valeur de référence ou d'ancrage.

Le codage par la dopamine de l'erreur de prédiction de la valeur de récompense s'adapte à la variance ou à l'écart type de la distribution. Dans une distribution binaire de récompenses équiprobables, la remise de récompenses de magnitude supérieure dans chaque distribution entraîne la même activation de la dopamine avec chaque distribution, malgré les différences de pliure 10 entre les amplitudes de récompense obtenues (et les erreurs de prédiction de valeur résultantes) [23]. Les calculs numériques révèlent que la réponse de la dopamine code l'erreur de prédiction de la valeur divisée par l'écart type de la distribution prédite. Cela équivalait à une normalisation ou à une mise à l'échelle effective de la réponse d'erreur de prédiction de valeur en termes d'écart-type, indiquant dans quelle mesure la valeur de récompense obtenue diffère de la valeur attendue en unités d'écart-type. Des considérations théoriques suggèrent que les signaux d'apprentissage d'erreur générés par la variance ou l'écart type plutôt que par la moyenne peuvent être à l'origine d'un apprentissage stable résistant au risque prédit de résultats [30].

Réponse à la dopamine pour récompenser les stimuli prédictifs

Les neurones dopaminergiques montrent des activations («excitations») après récompense prédisant des stimuli visuels, auditifs et somatosensoriels (Figure (Figure1B) 1B) [31-33]. Les réponses se produisent indépendamment des modalités sensorielles et des positions spatiales des stimuli, et indépendamment du fait que les effecteurs soient des mouvements des bras, de la bouche ou des yeux.

Les activations augmentent de façon monotone avec la probabilité de récompense [18] et la magnitude de la récompense, telles que le volume de liquide [23]. Cependant, les réponses à la dopamine ne font pas la distinction entre probabilité de récompense et ampleur tant que la valeur attendue est identique [23]. Ainsi, les activations semblent coder la valeur attendue des distributions de probabilité de récompense prédites. La valeur attendue est l'explication la plus parcimonieuse, et le bruit dans les réponses neuronales empêche une caractérisation en termes d'utilité attendue (subjective). Notez que l'actualisation temporelle décrite ci-dessous révèle un codage subjectif et pourrait éclairer un peu la question.

L'ampleur de la réponse augmente avec la diminution du temps de réaction comportementale, indiquant que la réponse dopaminergique est sensible à la motivation de l'animal [19]. Dans les choix entre différentes valeurs de récompense ou délais, les réponses de la dopamine à la présentation des options de choix reflètent la récompense future choisie par l'animal [34] ou la récompense la plus élevée possible parmi deux options de choix disponibles [35].

Au cours de l'apprentissage, l'activation de la dopamine à la récompense diminue progressivement au fil des essais d'apprentissage successifs, et une activation à la stimulation de la récompense prédictive se développe simultanément [36,37]. L'acquisition de la réponse conditionnée est sensible au blocage, ce qui indique que les erreurs de prédiction jouent un rôle dans l'acquisition des réponses de la dopamine à des stimuli conditionnés [27]. Le transfert de réponse pour récompenser les stimuli prédictifs est conforme aux caractéristiques principales des signaux d'apprentissage des modèles de renforcement de différences temporelles efficaces [38]. Le décalage de réponse n'implique pas la propagation des erreurs de prédiction sur l'intervalle stimulus-récompense des modèles de différence temporelle antérieurs [27,38], mais est reproduit dans le modèle de différence temporelle d'origine et dans les implémentations de différence temporelle d'origine et plus récentes [6,37,39].

Codage subjectif de la valeur de la récompense par actualisation temporelle

La mesure objective de la valeur de récompense subjective par les préférences de choix révèle que les récompenses perdent une partie de leur valeur quand elles sont en retard. En fait, les rats, les pigeons, les singes et les humains préfèrent souvent des récompenses plus petites plus tôt que des récompenses plus grandes plus tard [40-42]. Ainsi, la valeur subjective de la récompense semble décroître avec le temps, même si la récompense physique, et donc la valeur de récompense objective, est la même.

Les mesures psychométriques des choix comportementaux intertemporels entre les récompenses précoces et ultérieures ajustent l'ampleur de la récompense précoce jusqu'à l'apparition de l'indifférence de choix, définie comme la probabilité de choisir chaque option avec p = 0.5. Ainsi, une récompense précoce inférieure à l'indifférence de choix indique une valeur subjective inférieure à la récompense ultérieure. Dans notre récente expérience sur des singes, les valeurs d'indifférence de choix pour les récompenses différées de 4, 8 et 16 s ont diminué de façon monotone d'environ 25%, 50% et 75%, respectivement, par rapport à une récompense après 2 s [43]. La diminution correspond à une fonction d’escompte hyperbolique.

Les réponses dopaminergiques à la récompense du stimulus prédictif diminuent de façon monotone lors des retards de récompense de 2 à 16 [25,43], malgré le même montant de récompense physique délivré après chaque retard. Ces données suggèrent que les retards temporels affectent les réponses de la dopamine pour récompenser les stimuli prédictifs de la même manière que pour la valeur de la récompense subjective évaluée par des choix intertemporels. Fait intéressant, la diminution de la réponse de la dopamine avec le délai de récompense est indiscernable de la diminution de la réponse avec une ampleur de récompense inférieure. Cette similitude suggère que les retards temporels affectent les réponses de la dopamine via des modifications de la valeur de la récompense. Ainsi, pour les neurones dopaminergiques, les récompenses différées apparaissent comme si elles étaient plus petites.

Ainsi, les neurones dopaminergiques semblent coder la valeur subjective plutôt que physique des récompenses différées. Étant donné que l'utilité est une mesure de la valeur subjective de la récompense plutôt que objective, la diminution de la réponse avec l'actualisation temporelle pourrait suggérer que les neurones dopaminergiques codent la récompense comme une utilité (subjective) plutôt que comme une valeur (objective). D'autres expériences pourraient aider à tester plus directement le codage utilitaire.

Réponse dopaminergique à des stimuli aversifs

Les stimuli aversifs tels que les bouffées d'air, la solution saline hypertonique et les chocs électriques induisent des réponses activatrices («excitatrices») dans une petite proportion de neurones dopaminergiques chez les animaux éveillés (14% [33]; 18-29% [44]; 23% [45]) ; 11% [46]), et la majorité des neurones dopaminergiques sont soit déprimés dans leur activité, soit ne sont pas influencés par des événements aversifs (Figure (Figure1C1C en haut). La prédiction ne module que les activations aversives [45,46].

La stimulation aversive chez les animaux anesthésiés produit des réponses d’activation plus ou moins lentes (50% [47]; 18%; 48]; 17% [49]; 14% [50]), mais souvent à des niveaux souvent faibles. Les réinvestigations neurophysiologiques avec une meilleure identification des neurones dopaminergiques ont confirmé la faible incidence globale des activations aversives de la dopamine chez les animaux anesthésiés [51] et ont localisé des neurones dopaminergiques à réponse aversive dans la zone tégmentaire ventromédiale du mésencéphale [52].

Les stimuli conditionnés et prédictifs de soufflage d'air chez les singes éveillés provoquent des activations dans la minorité des neurones dopaminergiques et des dépressions dans une fraction plus importante des neurones dopaminergiques (11% [33]; 13% [45]; 37% [46]). Les réponses dépressives annulent les quelques activations dans les réponses de population moyennes de neurones dopaminergiques à des stimuli aversifs [33] (voir la figure Figure1C1C en bas, noir). Dans une étude, le stimulus aversif conditionné activait plus de neurones que le souffle lui-même (37% vs. 11% [46]), bien qu'un stimulus conditionné soit moins aversif que l'événement principal aversif qu'il prédit, tel qu'un souffle d'air. Le nombre plus élevé d'activations du stimulus conditionné par rapport à la bouffée d'air suggère une relation inverse entre aversion et activation (plus le stimulus est aversif, moins l'activation est fréquente), ou une composante supplémentaire du stimulus non aversif, responsable de l'augmentation de la proportion d'activations activées. neurones de 11% à 37%. Bien que les activations de stimulus aient été corrélées positivement avec la probabilité de souffle d'air dans la population, elles n'ont pas été évaluées dans des neurones individuels [46]. Une corrélation de population peut provenir d'un nombre relativement petit de neurones positivement corrélés au sein de cette population, et les activations de stimulus véritablement aversives pourraient être plus proches de 11% que de 37%. Dans une autre étude, de grandes proportions de neurones dopaminergiques présentaient des activations phasiques en stimuli aversifs conditionnés lorsque ceux-ci étaient présentés en alternance aléatoire avec des stimuli prédictifs de la récompense de la même modalité sensorielle (Figure (Figure1C1C en bas, gris) (65% [33]); les activations étaient beaucoup moins fréquentes lorsque les deux types de stimuli conditionnés avaient des modalités sensorielles différentes (Figure (Figure1C1C en bas, noir) (11%). Le prochain chapitre traitera des facteurs pouvant sous-tendre ces activations inexpliquées en stimulants aversifs et autres, sans récompense.

Bien que certains neurones dopaminergiques soient activés par des événements aversifs, la plus grande activation de la dopamine est liée à la récompense. Les données obtenues avec d'autres méthodes conduisent à des conclusions similaires. La voltamétrie à balayage rapide chez les rats en comportement montre une libération de dopamine striatale induite par récompense et un changement de récompense pour les stimuli prédictifs après conditionnement [53], suggérant que les réponses impulsionnelles des neurones dopaminergiques entraînent une libération correspondante de dopamine à partir de varicosités striatales. L'augmentation de la dopamine ne dure que quelques secondes et a donc le cours le plus court de toutes les méthodes neurochimiques, le plus proche de l'activation électrophysiologique. La libération de dopamine est différentielle pour la récompense (saccharose) et ne se produit pas avec une punition (quinine) [54]. Alors que la voltampérométrie évalue les moyennes locales de la concentration en dopamine, l’absence de libération mesurable avec la quinine pourrait masquer quelques activations annulées par des dépressions dans la réponse de la population dopaminergique [33]. Des études utilisant une microdialyse in vivo très sensible détectent la libération de dopamine à la suite de stimuli aversifs [55].

Cette réponse peut refléter une modification de la dopamine induite par les quelques neurones activés par des stimuli aversifs, bien que l'évolution des mesures de la microdialyse soit d'environ 300-500 plus lente que la réponse impulsionnelle et puisse être suffisante pour permettre aux interactions présynaptiques d'influencer la libération de dopamine [56]. . La perturbation du tir en rafale de neurones dopaminergiques perturbe plusieurs tâches d'apprentissage appétissantes, mais redoute également le conditionnement [9]. Le résultat pourrait suggérer une fonction d'apprentissage des réponses dopaminergiques aversives si l'effet non spécifique, généralement invalidant, d'une concentration plus faible en dopamine est exclu, ce qui reste à démontrer. La stimulation spécifique des neurones dopaminergiques par des méthodes optogénétiques via la channelrhodopsine insérée génétiquement induit un conditionnement de préférence de lieu pavlovien chez la souris [57]. En revanche, un effet aversif net de la stimulation par la dopamine aurait vraisemblablement produit un apprentissage par évitement de lieux. Ces résultats confirment l’idée d’une fonction de renforcement positive globale des systèmes dopaminergiques dérivée de travaux antérieurs sur la lésion, l’autostimulation électrique et la toxicomanie [1,2]. Cependant, ces arguments ne postulent ni que la récompense est la seule fonction des systèmes dopaminergiques, ni que toutes les fonctions de récompense impliquent des neurones dopaminergiques.

Activations dopaminergiques phasiques ne codant pas la récompense

Les stimuli peuvent induire des réactions d'alerte et d'attention lorsqu'ils sont physiquement importants (saillance physique) ou lorsqu'ils sont liés à des renforçateurs (saillance «motivationnelle» ou «affective»). Les réactions comportementales aux stimuli saillants sont évaluées respectivement par l'intensité physique des stimuli et la valeur du renforçateur. La saillance physique ne dépend pas du tout du renforcement, et la saillance motivationnelle ne dépend pas de la valence des renforçateurs (récompense et punition).

Réponses aux stimuli physiquement saillants

Des stimuli visuels et auditifs physiquement intenses induisent des activations dans les neurones dopaminergiques (Figure (Figure1D) .1D). Ces réponses sont renforcées par la nouveauté du stimulus [58-60] mais persistent à un niveau inférieur pendant plusieurs mois à condition que les stimuli soient suffisamment intenses physiquement. Les réponses sont classées en fonction de la taille des stimuli (figure 4 dans [15]). La saillance physique pourrait également expliquer en partie les réactions aux punisseurs primaires avec une intensité physique importante [45]. Ces réponses peuvent constituer un type distinct de réponse de la dopamine liée à la saillance physique de l’attention induisant des stimuli environnementaux, ou peuvent être liées aux attributs de motivation positive et de renforcement des stimuli intenses et nouveaux.

Les activations de stimuli physiquement saillants ne semblent pas refléter une tendance générale des neurones dopaminergiques à être activés par un événement générateur d'attention. En particulier, d'autres événements générant une forte attention, tels que l'omission de récompenses, des inhibiteurs conditionnés et des stimuli aversifs, induisent principalement des dépressions et rarement de véritables activations de la dopamine [14,29]. Ainsi, l'activation de la dopamine par des stimuli physiquement saillants peut ne pas constituer une réponse d'alerte générale. La réponse à la récompense est susceptible de constituer une réponse séparée qui peut ne pas refléter l'attention générée par la saillance motivationnelle de la récompense.

Autres activations de codage sans récompense

D'autres stimuli induisent des activations dans les neurones dopaminergiques sans codage apparent de la valeur de la récompense. Ces activations sont plus petites et plus courtes que les réponses pour récompenser les stimuli prédictifs et sont souvent suivies d'une dépression lorsque les stimuli ne sont pas récompensés (Figure (Figure1E1E).

Les neurones dopaminergiques présentent des activations consécutives à des stimuli de contrôle présentés en alternance pseudo-aléatoire avec des stimuli récompensés [27,29,32]. L'incidence des activations dépend du nombre de stimuli alternatifs et récompensés dans la tâche comportementale; les activations sont fréquentes lorsque trois stimuli de tâche sur quatre sont récompensés (25% -63% [27]) et deviennent rares lorsque seul un stimuli de tâche sur quatre n’est pas récompensé (1% [29]). Cette dépendance s'oppose à une nature purement sensorielle de la réponse.

Les neurones dopaminergiques présentent une composante d'activation initiale plutôt stéréotypée dans les stimuli, qui prédit les avantages qui surviennent après différents délais [43]. L'activation initiale varie très peu avec le délai de récompense, et ne semble donc pas coder la valeur de récompense. En revanche, la composante de réponse subséquente diminue à mesure que les retards augmentent et que la valeur de récompense (subjective) est codée (voir plus haut).

Les neurones dopaminergiques présentent des activations fréquentes à la suite de stimuli aversifs conditionnés présentés en alternance aléatoire avec des stimuli prédictifs. les activations disparaissent en grande partie lorsque différentes modalités sensorielles sont utilisées (65% vs 11% des neurones [33]), suggérant le codage de composants de stimulus non aversifs. Même lorsque les stimuli aversifs et appétitifs sont séparés en différents blocs d’essai, les neurones dopaminergiques sont considérablement activés par des stimuli aversifs conditionnés. Cependant, les activations plus fréquentes des stimuli conditionnés par rapport à la bouffée d’air primaire plus aversive (37% vs. 11% [46]) suggèrent une relation inverse à l’aversivité des stimuli et éventuellement des composantes de réponse non aversives.

Les raisons de ces différentes activations de la dopamine pourraient résider dans la généralisation, le pseudoconditionnement ou la saillance du stimulus motivationnel. La généralisation découle de similitudes entre les stimuli. Cela pourrait expliquer les activations de la dopamine dans un certain nombre de situations, à savoir les activations de stimuli visuels non récompensés lorsque ceux-ci alternent avec des stimuli visuels de récompense (Figure (figure1E1E à gauche) [27,29,32] et le composant d’activation initial mal évalué pour récompenser le délai de stimulation des stimuli (Figure (Figure1E1E à droite) [43]. La généralisation peut jouer un rôle lorsque des stimuli de modalités sensorielles différentes produisent moins d'activations de la dopamine que des stimuli non récompensés que des stimuli de mêmes modalités, comme le montrent les stimuli appétitifs auditifs et auditifs (Figure (Figure1C1C en bas) [33] .

Un pseudoconditionnement peut survenir lorsqu'un renforçateur principal définit un arrière-plan contextuel et provoque des réponses comportementales non spécifiques à tout événement dans ce contexte [61]. Les neurones dopaminergiques étant très sensibles à la récompense, un contexte enrichissant pourrait induire un pseudoconditionnement à des stimuli définis dans ce contexte et donc une activation neuronale. Ce mécanisme peut sous-tendre les activations neuronales provoquées par des stimuli non gratifiants se produisant dans un contexte enrichissant, tel que le laboratoire dans lequel un animal reçoit des récompenses quotidiennes, indépendamment du fait que les stimuli soient présentés en alternance aléatoire avec des stimuli récompensés ou dans des blocs d'essai distincts [46]. Le pseudo-conditionnement peut expliquer les activations associées à des stimuli de contrôle non récompensés [27,29,32], la plupart des activations suivant des stimuli aversifs [33,45,46] et la composante d'activation initiale peu progressive permettant de récompenser le délai de prédiction des stimuli [43]. Ainsi, le pseudoconditionnement peut provenir de la récompense primaire plutôt que d'un stimulus conditionné et affecter les activations de la dopamine des stimuli conditionnés et des renforçateurs primaires qui se produisent dans un contexte enrichissant.

Bien que les stimuli avec une saillance physique importante semblent conduire les neurones dopaminergiques [15,58-60] (voir ci-dessus), les stimuli qui induisent des activations dopaminergiques codant sans récompense sont souvent faibles et physiquement très saillants. La saillance motivationnelle est par définition commune aux récompenses et aux punisseurs et elle-même pourrait expliquer les activations de récompense et de punition dans 10-20% des neurones dopaminergiques. Les stimuli non renforçants pourraient devenir motivant par leur proximité avec la récompense et la punition via un pseudo-conditionnement. Cependant, les activations de la dopamine semblent être beaucoup plus sensibles à la récompense qu'à la punition. Comme la saillance motivationnelle implique une sensibilité envers les deux renforçateurs, la saillance motivationnelle acquise via un pseudo-conditionnement pourrait ne pas expliquer correctement les activations de la dopamine ne codant pas la récompense.

Pris dans leur ensemble, bon nombre des activations dopaminergiques ne codant pas de récompense peuvent être dues à la généralisation du stimulus ou, en particulier, au pseudoconditionnement. Néanmoins, il semble rester de vraies activations de stimuli de contrôle non récompensés et de stimuli aversifs primaires et conditionnés dans une proportion limitée de neurones dopaminergiques lorsque ces facteurs sont éliminés. D'autres expériences évaluant de telles réponses devraient utiliser de meilleurs contrôles et éliminer complètement toutes les associations de récompense contextuelles avec des stimuli en laboratoire.

Étant donné que des activations de codage sans récompense sont présentes, il est raisonnable de se demander comment un animal distinguerait les stimulants gratifiants des stimuli non récompensés basés sur une réponse dopaminergique. La composante de réponse très rapide, initiale, pseudoconditionnée et peu discriminante pourrait fournir un bonus temporel pour faciliter les réactions comportementales rapides par défaut qui aident l'animal à détecter très rapidement une récompense potentielle [62]. En revanche, le composant de réponse immédiatement suivant détecte la véritable nature de l'événement par son activation graduée avec la valeur de récompense [43] et sa dépression fréquente avec des stimuli non récompensés et aversifs [27,29,32,33] (Figure (Figure1E) .1E). En outre, le système dopaminergique n'est pas la seule récompense codant pour la structure cérébrale, et d'autres systèmes neuronaux tels que le cortex orbitofrontal, le striatum et l'amygdale peuvent fournir des informations discriminantes supplémentaires.

Signal de risque de récompense de la dopamine

Si un signal de récompense reflète l'erreur de prédiction de récompense moyenne mise à l'échelle par l'écart-type des distributions de probabilité de récompense, et si nous considérons l'écart-type comme une mesure du risque, pourrait-il y avoir un signal neuronal direct pour le risque? Lorsque les probabilités de récompense varient de 0 à 1 et que l'ampleur de la récompense reste constante, la valeur de la récompense moyenne augmente de façon monotone avec la probabilité, tandis que le montant du risque suit une fonction U inversée culminant à p = 0.5 (Figure (Figure2,2, encadré). À p = 0.5, il y a exactement autant de chances d’obtenir une récompense que de rater une récompense, alors que des probabilités plus élevées et plus basses que p = 0.5 font des gains et des pertes plus certaines, respectivement, et sont donc associées à un risque plus faible.

Figure 2

Activations soutenues liées au risque. La réponse au risque se produit pendant l'intervalle stimulus-récompense (flèche) après l'activation phasique liée à la valeur du stimulus (triangle). L'encart, en haut à droite, montre que le risque (ordonnée) varie selon (plus…)

Environ un tiers des neurones dopaminergiques présentent une activation relativement lente, modérée, statistiquement significative, qui augmente progressivement pendant l’intervalle entre la stimulation prédictive de la récompense et la récompense; cette réponse varie de manière monotone avec le risque (Figure (Figure2) 2) [18]. L'activation survient lors d'essais individuels et ne semble pas constituer une réponse d'erreur de prédiction se propageant d'une récompense à l'autre. L'activation augmente de manière monotone également avec l'écart type ou la variance lorsque des distributions binaires de différentes amplitudes de récompense équiprobables et non nulles sont utilisées. Ainsi, l'écart type ou la variance semblent être des mesures viables du risque tel que codé par les neurones dopaminergiques. Les activations liées aux risques ont des latences plus longues (environ 1), des cycles temporels plus lents et des pics plus bas par rapport aux réponses de la valeur de la récompense aux stimuli et à la récompense.

En raison de sa magnitude inférieure, le signal de risque est susceptible d'induire une libération de dopamine plus faible lors de varicosités de la dopamine par rapport aux activations plus phasiques codant la valeur de récompense. La concentration relativement faible en dopamine éventuellement induite par le signal de risque pourrait activer les récepteurs D2 qui sont pour la plupart dans un état d'affinité élevé, mais pas les récepteurs D1 de faible affinité [63]. En revanche, la réponse de valeur de récompense phasique plus élevée pourrait conduire à davantage de concentrations de dopamine suffisantes pour activer brièvement les récepteurs D1 dans leur état d’affinité généralement faible. Ainsi, les deux signaux pourraient être différenciés par des neurones postsynaptiques sur la base des différents récepteurs de la dopamine activés. En outre, la valeur de dopamine et les signaux de risque combinés conduiraient à une activation presque simultanée des récepteurs D1 et D2, ce qui dans de nombreuses situations normales et cliniques est essentiel pour des fonctions adéquates dépendant de la dopamine.

Un signal de risque de dopamine peut avoir plusieurs fonctions. Premièrement, cela pourrait influencer la mise à l'échelle de la réponse d'erreur de prédiction immédiatement suivante par l'écart type immédiatement après la récompense [23]. Deuxièmement, cela pourrait augmenter la libération de dopamine induite par la réponse d'erreur de prédiction immédiatement suivante. Etant donné que le risque induit l’attention, l’amélioration d’un signal d’enseignement potentiel par un risque serait compatible avec le rôle de l’attention dans l’apprentissage selon les théories d’apprentissage de l’associabilité [64,65]. Troisièmement, cela pourrait apporter une contribution aux structures cérébrales impliquées dans l'évaluation du risque de récompense en soi. Quatrièmement, il pourrait être combiné avec un signal de valeur économique attendu pour représenter une information considérable sur l'utilité attendue chez les individus sensibles au risque selon l'approche de la variance moyenne dans la théorie de la décision financière [66]. Cependant, la latence d’environ 1 est trop longue pour que le signal puisse jouer un rôle instantané dans les choix sous incertitude.

Intérêts concurrents

L'auteur déclare qu'il n'a pas d'intérêts concurrents.

Contributions des auteurs

WS a écrit le papier.

Remerciements

Cet article a été rédigé à l’occasion du Symposium sur le trouble de l’hyperactivité avec déficit de l’attention (TDAH) tenu à Oslo (Norvège) en février 2010. Notre travail a été soutenu par le Wellcome Trust, le Fonds national suisse, le programme scientifique Human Frontiers et d'autres agences de financement.

Bibliographie

1. Sage RA, Rompre PP. Dopamine cérébrale et récompense. Ann Rev Psychol. 1989; 40: 191 – 225. doi: 10.1146 / annurev.ps.40.020189.001203.

2. Everitt BJ, Robbins TW. Systèmes neuronaux de renforcement pour la toxicomanie: des actions aux habitudes en passant par la contrainte. Nat Neurosci. 2005; 8: 1481 – 1489. doi: 10.1038 / nn1579. [PubMed] [Ref.]

3. Bernoulli D. Spécimen theoriae novae de mensura sortis. Commentaires sur les universités scientifiques (Archives imp. Acad. Sci. Saint-Pétersbourg) 1738; 5: 175 – 192. Traduit comme: Exposition d'une nouvelle théorie sur la mesure du risque. Econometrica 1954, 22: 23-36.

4. Rao RPN, Ballard DH. Codage prédictif dans le cortex visuel: interprétation fonctionnelle de certains effets de champ récepteur extra-classiques. Nat Neurosci. 1999; 2: 79 – 87. doi: 10.1038 / 4580. [PubMed] [Ref.]

5. Rescorla RA, Wagner AR. Dans: Conditionnement classique II: Recherches et théories actuelles. Black AH, Prokasy WF, éditeur. New York: Appleton Century Crofts; 1972. Une théorie du conditionnement pavlovien: variations de l'efficacité du renforcement et du non renforcement; pp. 64 – 99.

6. Sutton RS, Barto AG. Vers une théorie moderne des réseaux adaptatifs: attente et prédiction. Psychol Rev. 1981; 88: 135 – 170. doi: 10.1037 / 0033-295X.88.2.135. [PubMed] [Référence croisée]

7. Kamin LJ. Dans: Problèmes fondamentaux dans l'apprentissage instrumental. Mackintosh NJ, Honig WK, éditeur. Halifax: Presse de l'Université Dalhousie; 1969. Association sélective et conditionnement; pp. 42 – 64.

8. Blythe SN, Atherton JF, Bevan MD. L'activation synaptique des récepteurs dendritiques AMPA et NMDA génère une décharge transitoire à haute fréquence dans les neurones substantia nigra dopamine in vitro. J Neurophysiol. 2007; 97: 2837 – 2850. doi: 10.1152 / jn.01157.2006. [PubMed] [Ref.]

9. Zweifel LS, JG Parker, CJ Lobb, Eau de pluie A, mur VZ, JP Fadok, M Darvas, Kim MJ, Mizumori SJ, CA Paladini, PEM Phillips, Palmiter RD. La perturbation de la décharge en rafale dépendante de NMDAR par les neurones dopaminergiques permet une évaluation sélective du comportement phasique dopaminergique dépendant. Proc Natl Acad Sci. 2009; 106: 7281 – 7288. doi: 10.1073 / pnas.0813415106. [Article gratuit de PMC] [PubMed] [Ref Cross]

10. Harnett MT, Bernier BE, Ahn KC, Morikawa H. Plasticité dépendante du délai de survenue de la transmission par les récepteurs NMDA dans les neurones à dopamine du cerveau moyen. Neurone. 2009; 62: 826 – 838. doi: 10.1016 / j.neuron.2009.05.011. [Article gratuit de PMC] [PubMed] [Ref Cross]

11. Jones S, Bonci A. Plasticité synaptique et toxicomanie. Curr Opin Pharmacol. 2005; 5: 20 – 25. doi: 10.1016 / j.coph.2004.08.011. [PubMed] [Ref.]

12. Kauer JA, Malenka RC. Plasticité synaptique et addiction. Nat Rev Neurosci. 2007; 8: 844 – 858. doi: 10.1038 / nrn2234. [PubMed] [Ref.]

13. Ljungberg T, Apicella P, Schultz W. Réponses de neurones dopaminergiques du singe central chez le singe au cours de l'exécution en alternance retardée. Brain Res. 1991; 586: 337 – 341. Paramètres: 10.1016 / 0006-8993 (91) 90816-E.

14. Schultz W, Apicella P, Ljungberg T. Réponses de neurones dopaminergiques de singe à récompenser et à stimuler les stimuli conditionnés au cours des étapes successives d'apprentissage d'une tâche de réponse retardée. J Neurosci. 1993; 13: 900 – 913. [PubMed]

15. Schultz W. Signal de récompense prédictif des neurones dopaminergiques. J Neurophysiol. 1998; 80: 1 – 27. [PubMed]

16. Schultz W, Dayan P, Montague RR. Un substrat neural de prédiction et de récompense. Science. 1997; 275: 1593 – 1599. doi: 10.1126 / science.275.5306.1593. [PubMed] [Ref.]

17. Hollerman JR, neurones Schultz W. Dopamine signalent une erreur dans la prédiction temporelle de récompense pendant l'apprentissage. Nature Neurosci. 1998; 1: 304 – 309. doi: 10.1038 / 1124. [PubMed] [Ref.]

18. Fiorillo CD, PN Tobler, Schultz W. Codage discret de la probabilité de récompense et de l’incertitude par les neurones dopaminergiques. Science. 2003; 299: 1898 – 1902. doi: 10.1126 / science.1077349. [PubMed] [Ref.]

19. Satoh T, Nakai S, T Sato, Kimura M., codage corrélé de la motivation et du résultat de la décision par les neurones dopaminergiques. J Neurosci. 2003; 23: 9913 – 9923. [PubMed]

20. Morris G, Arkadir D, Nevet A, Vaadia E, Bergman H. Messages coïncidents mais distincts de la dopamine du cerveau moyen et de neurones toniquement actifs du striatal. Neurone. 2004; 43: 133 – 143. doi: 10.1016 / j.neuron.2004.06.012. [PubMed] [Ref.]

21. Nakahara H, H Itoh, R Kawagoe, Y Takikawa, Hikosaka O. Les neurones dopaminergiques peuvent représenter une erreur de prédiction dépendante du contexte. Neurone. 2004; 41: 269 – 280. doi: 10.1016 / S0896-6273 (03) 00869-9. [PubMed] [Référence]

22. Bayer HM, Glimcher PW. Les neurones dopaminergiques du cerveau moyen encodent un signal d'erreur de prédiction de récompense quantitative. Neurone. 2005; 47: 129 – 141. doi: 10.1016 / j.neuron.2005.05.020. [Article gratuit de PMC] [PubMed] [Ref Cross]

23. Tobler PN, CD Fiorillo, Schultz W. Codage adaptatif de la valeur de la récompense par les neurones dopaminergiques. Science. 2005; 307: 1642 – 1645. doi: 10.1126 / science.1105370. [PubMed] [Ref.]

24. Zaghloul KA, Blanco JA, Weidemann CT, McGill McGill, Jaggi JL, Baltuch, GH, Kahana MJ. Les neurones de la substance humaine noire codent des avantages financiers inattendus. Science. 2009; 323: 1496 – 1499. doi: 10.1126 / science.1167342. [Article gratuit de PMC] [PubMed] [Ref Cross]

25. Fiorillo CD, Newsome WT, Schultz W. La précision temporelle de la prédiction de la récompense dans les neurones dopaminergiques. Nat Neurosci. 2008; 11: 966 – 973. doi: 10.1038 / nn.2159.

26. Bayer HM, Lau B, Glimcher PW. Statistiques de dopamine neuron spike trains chez le primate éveillé. J Neurophysiol. 2007; 98: 1428 – 1439. doi: 10.1152 / jn.01140.2006. [PubMed] [Ref.]

27. Waelti P, Dickinson A, Schultz W. Les réponses à la dopamine sont conformes aux hypothèses de base de la théorie de l’apprentissage formel. La nature. 2001; 412: 43 – 48. doi: 10.1038 / 35083500. [PubMed] [Ref.]

28. Rescorla RA. Inhibition conditionnée pavlovienne. Psychol Bull. 1969; 72: 77 – 94. doi: 10.1037 / h0027760.

29. Tobler PN, Dickinson A, Schultz W. Codage de l'omission de récompense prévue par les neurones dopaminergiques dans un paradigme d'inhibition conditionnée. J Neurosci. 2003; 23: 10402 – 10410. [PubMed]

30. Preuschoff, Bossaerts P. Ajout du risque de prédiction à la théorie de l'apprentissage par récompense. Ann NY Acad Sci. 2007; 1104: 135 – 146. doi: 10.1196 / annals.1390.005. [PubMed] [Ref.]

31. Romo R, Schultz W. Neurones dopaminergiques du cerveau moyen du singe: Contingences des réponses au toucher actif lors de mouvements de bras auto-initiés. J Neurophysiol. 1990; 63: 592 – 606. [PubMed]

32. Schultz W, Romo R. Neurones dopaminergiques du cerveau moyen du singe: contingences de réponses à des stimuli provoquant des réactions comportementales immédiates. J Neurophysiol. 1990; 63: 607 – 624. [PubMed]

33. Mirenowicz J, Schultz W. Activation préférentielle des neurones dopaminergiques du cerveau moyen par des stimuli appétitifs plutôt qu'aversifs. La nature. 1996; 379: 449 – 451. doi: 10.1038 / 379449a0. [PubMed] [Référence croisée]

34. Morris G., Nevet A., Arkadir D., Vaadia E. et Bergman H. Les neurones dopaminergiques du cerveau moyen codent des décisions pour une action future. Nat Neurosci. 2006; 9: 1057 – 1063. doi: 10.1038 / nn1743. [PubMed] [Ref.]

35. Roesch MR, Calu DJ, Schoenbaum G. Les neurones dopaminergiques codent la meilleure option chez le rat qui décide entre des récompenses différées ou de taille différente. Nat Neurosci. 2007; 10: 1615 – 1624. doi: 10.1038 / nn2013. [Article gratuit de PMC] [PubMed] [Ref Cross]

36. Takikawa Y, R Kawagoe, Hikosaka O. Un rôle possible des neurones dopaminergiques du cerveau moyen dans l'adaptation à court et à long terme des saccades à la cartographie position-récompense. J Neurophysiol. 2004; 92: 2520 – 2529. doi: 10.1152 / jn.00238.2004. [PubMed] [Ref.]

37. Pan WX, R Schmidt, JR Wickens, BI Hyland. Les cellules dopaminergiques réagissent aux événements prévus lors du conditionnement classique: preuves de traces d'éligibilité dans le réseau d'apprentissage par récompense. J Neurosci. 2005; 25: 6235 – 6242. doi: 10.1523 / JNEUROSCI.1478-05.2005. [PubMed] [Référence]

38. Montague PR, Dayan P, TJ Sejnowski. Un cadre pour les systèmes dopaminergiques mésencéphaliques basé sur l'apprentissage prédictif de Hebbian. J Neurosci. 1996; 16: 1936 – 1947. [PubMed]

39. Suri R, Schultz W. Un réseau de neurones avec un signal de renforcement de type dopamine qui apprend une tâche de réponse différée dans l'espace. Neuroscience. 1999; 91: 871 – 890. doi: 10.1016 / S0306-4522 (98) 00697-6. [PubMed] [Référence]

40. Ainslie G. Les récompenses spécieuses: une théorie comportementale de l’impulsivité et du contrôle des pulsions. Psych Bull. 1975; 82: 463 – 496. doi: 10.1037 / h0076860.

41. Rodriguez ML, Logue AW. Ajuster le délai au renfort: comparer le choix chez les pigeons et les humains. J Exp Psychol Anim Behav Process. 1988; 14: 105 – 117. doi: 10.1037 / 0097-7403.14.1.105. [PubMed] [Référence croisée]

42. Richards JB, Mitchell SH, de Wit H, Seiden LS. Détermination des fonctions d'actualisation chez le rat avec une procédure d'ajustement du montant. J Exp Anal Behav. 1997; 67: 353 – 366. doi: 10.1901 / jeab.1997.67-353. [Article gratuit de PMC] [PubMed] [Ref Cross]

43. Kobayashi S, Schultz W. Influence des retards de récompense sur les réponses des neurones dopaminergiques. J Neurosci. 2008; 28: 7837 – 7846. doi: 10.1523 / JNEUROSCI.1600-08.2008. [PubMed] [Référence]

44. Guarraci FA, Kapp BS. Une caractérisation électrophysiologique des neurones dopaminergiques de la région tegmentale ventrale lors du conditionnement différentiel par la peur pavlovienne chez le lapin éveillé. Behav Brain Res. 1999; 99: 169 – 179. doi: 10.1016 / S0166-4328 (98) 00102-8. [PubMed] [Référence]

45. Joshua M, Adler A, Mitelman R, Vaadia E, Bergman H. Neurones dopaminergiques du cerveau moyen et interneurones cholinergiques striataux encodent la différence entre récompense et événements aversifs à différentes époques d'essais probabilistes de conditionnement classique. J Neurosci. 2008; 28: 1673 – 11684. doi: 10.1523 / JNEUROSCI.3839-08.2008.

46. Matsumoto M, Hikosaka O. Deux types de neurones dopaminergiques transmettent distinctement des signaux de motivation positifs et négatifs. La nature. 2009; 459: 837 – 841. doi: 10.1038 / nature08028. [Article gratuit de PMC] [PubMed] [Ref Cross]

47. Chiodo LA, SM Antelman, AR Caggiula, CG Lineberry. Les stimuli sensoriels modifient le taux de décharge des neurones à dopamine (DA): mise en évidence de deux types fonctionnels de cellules DA dans la substance noire. Brain Res. 1980; 189: 544 – 549. doi: 10.1016 / 0006-8993 (80) 90366-2. [PubMed] [Référence]

48. Mantz J, Thierry AM, Glowinski J. Effet du pincement de la queue sur le taux de décharge des neurones dopaminaux mésocorticaux et mésolimbiques: activation sélective du système mésocortical. Brain Res. 1989; 476: 377 – 381. doi: 10.1016 / 0006-8993 (89) 91263-8. [PubMed] [Référence]

49. Schultz W, Romo R. Réponses de neurones dopaminergiques nigrostriataux à une stimulation somatosensorielle de haute intensité chez le singe anesthésié. J Neurophysiol. 1987; 57: 201 – 217. [PubMed]

50. Coizet V, EJ Dommett, P Redgrave, PG Overton. Les réponses nociceptives des neurones dopaminergiques du cerveau moyen sont modulées par le colliculus supérieur chez le rat. Neuroscience. 2006; 139: 1479 – 1493. doi: 10.1016 / j.neuroscience.2006.01.030. [PubMed] [Ref.]

51. Brown MTC, Henny P, JP Bolam, Magill PJ. Activité des neurones dopaminergiques neurochimiquement hétérogènes dans la substance noire au cours de modifications spontanées et provoquées de l’état du cerveau. J Neurosci. 2009; 29: 2915 – 2925. doi: 10.1523 / JNEUROSCI.4423-08.2009. [PubMed] [Référence]

52. Brischoux F, S Chakraborty, Brierley DI, MA sans gloire. Excitation phasique des neurones dopaminergiques dans la VTA ventrale par des stimuli nocifs. Proc Natl Acad Sci USA. 2009; 106: 4894 – 4899. doi: 10.1073 / pnas.0811507106. [Article gratuit de PMC] [PubMed] [Ref Cross]

53. Day JJ, MF Roitman, RM Wightman, RM Carelli. L'apprentissage associatif intervient dans les modifications dynamiques de la signalisation de la dopamine dans le noyau accumbens. Nat Neurosci. 2007; 10: 1020 – 1028. doi: 10.1038 / nn1923. [PubMed] [Ref.]

54. MF Roitman, RA Wheeler, RM Wightman, RM Carelli. Les réponses chimiques en temps réel dans le noyau accumbens différencient les stimuli valorisants et aversifs. Nat Neurosci. 2008; 11: 1376 – 1377. doi: 10.1038 / nn.2219. [PubMed] [Ref.]

55. Jeune AMJ. Augmentation de la dopamine extracellulaire dans le noyau accumbens en réponse à des stimuli aversifs non conditionnés et conditionnés: études utilisant la microdialyse 1 min chez le rat. J Neurosci Meth. 2004; 138: 57 – 63. doi: 10.1016 / j.jneumeth.2004.03.003.

56. Schultz W. Plusieurs fonctions de la dopamine à différents moments. Ann Rev Neurosci. 2007; 30: 259 – 288. doi: 10.1146 / annurev.neuro.28.061604.135722. [PubMed] [Ref.]

57. Tsai HC, Zhang F, Adamantidis A, Stuber GD, Bonci A, de Lecea L, Deisseroth K. La mise à feu phasique dans des neurones dopaminergiques est suffisante pour le conditionnement comportemental. Science. 2009; 324: 1080 – 1084. doi: 10.1126 / science.1168878. [PubMed] [Ref.]

58. Strecker RE, Jacobs BL. Activité de l’unité dopaminergique de Substantia nigra chez les chats qui se comportent: Effet de l’excitation sur la décharge spontanée et l’activité évoquée sensorielle. Brain Res. 1985; 361: 339 – 350. doi: 10.1016 / 0006-8993 (85) 91304-6. [PubMed] [Référence]

59. Ljungberg T, Apicella P, Schultz W. Réponses de neurones dopaminergiques de singe lors de l'apprentissage de réactions comportementales. J Neurophysiol. 1992; 67: 145 – 163. [PubMed]

60. Horvitz JC, Stewart T, Jacobs BL. L'activité des neurones à dopamine tegmentale ventrale est stimulée par des stimuli sensoriels chez le chat éveillé. Brain Res. 1997; 759: 251 – 258. doi: 10.1016 / S0006-8993 (97) 00265-5. [PubMed] [Référence]

61. Sheafor PJ. Les mouvements pseudoconditionnés du lapin reflètent des associations conditionnées aux signaux contextuels. J Exp Psychol: Anim Behav Proc. 1975; 104: 245 – 260. doi: 10.1037 / 0097-7403.1.3.245.

62. Kakade S, Dayan P. Dopamine: généralisation et bonus. Neural Netw. 2002; 15: 549 – 559. doi: 10.1016 / S0893-6080 (02) 00048-5. [PubMed] [Référence]

63. Richfield EK, Pennney JB, Young AB. Comparaisons anatomiques et d'affinités entre les récepteurs D1 et D2 de la dopamine dans le système nerveux central du rat. Neuroscience. 1989; 30: 767 – 777. doi: 10.1016 / 0306-4522 (89) 90168-1. [PubMed] [Référence]

64. Mackintosh NJ. Une théorie de l’attention: Variations dans l’associabilité du stimulus avec le renforcement. Psychol Rev. 1975; 82: 276 – 298. doi: 10.1037 / h0076778.

65. Pearce JM, Hall G. Un modèle de conditionnement pavlovien: variations de l'efficacité de stimuli conditionnés mais non conditionnés. Psychol Rev. 1980; 87: 532 – 552. doi: 10.1037 / 0033-295X.87.6.532. [PubMed] [Référence croisée]

66. Levy H, Markowitz HM. Approximation de l'utilité attendue par une fonction de moyenne et de variance. Am Econ Rev. 1979; 69: 308 – 317.