La sensibilité du noyau accumbens aux violations dans l'attente de la récompense (2007)

Neuroimage. 2007 Jan 1; 34 (1): 455-61. Epub 2006 Oct 17.

Spicer J, Galvan A, Lièvre TA, Voss H, Glover G, Casey B.

Identifier

Institut Sackler pour la psychobiologie du développement, Weill Cornell Medical College de l'Université Cornell, 1300 York Avenue, Box 140, New York, NY 10021, États-Unis.

Abstract

Cette étude a examiné si les régions frontostriatales ventrales codent différentiellement les résultats attendus et inattendus. Nous avons paramétriquement manipulé la probabilité de récompense et examiné la réponse neuronale pour récompenser et non récompenser chaque condition de probabilité dans le striatum ventral et le cortex orbitofrontal (OFC). À la fin des essais de l'expérience, les sujets ont présenté des réponses comportementales plus lentes pour la condition présentant la probabilité de récompense la plus faible, par rapport à la condition présentant la probabilité de récompense la plus élevée. Au niveau neural, le noyau accumbens (NAcc) et l'OFC ont montré une activation plus importante que les essais non récompensés, mais les accumbens semblaient être les plus sensibles aux violations des résultats attendus de la récompense. Ces données suggèrent des rôles distincts pour le circuit frontostriatal dans la prévision des récompenses et dans la réponse aux violations des attentes.

 

Introduction

La formation de prévisions précises et la détection des violations des attentes concernant les événements gratifiants à venir est un élément essentiel du comportement axé sur les objectifs. Les études d'imagerie chez les primates non humains et les humains suggèrent que les régions frontostriatales riches en dopamine sont impliquées dans la formation de prédictions sur les résultats futurs des récompenses et l'optimisation du comportement en conséquence. Les mécanismes neuronaux de l'erreur de prédiction liée à la récompense - une représentation de l'écart entre la récompense réelle et attendue (Schultz et al, 1997) - ont été étudiés chez des primates non humains en termes de récompenses attendues et inattendues et / ou d'omissions de récompense (Hollerman et al, 1998, Leon et Shadlen, 1999; Tremblay et Schultz, 1999). La présente étude utilise une simple tâche de correspondance de délai spatial avec un échantillon, similaire à celle utilisée précédemment avec des primates non humains (Fiorillo et al, 2003), qui a manipulé la probabilité de résultat de récompense, pour examiner les réponses neuronales aux récompenses attendues et inattendues.

Les preuves convergentes impliquent que le système dopaminergique est essentiel pour la prévision et le traitement des récompenses (Olds et Milner, 1954; Montague et al, 2004, Schultz, 2002 pour évaluation). Des études sur les primates non humains ont montré que les neurones dopaminergiques réagissent aux récompenses primaires inattendues et, éventuellement, aux stimuli prédictifs de ces récompenses (Mirencowicz et Schultz, 1994, Tobler et al, 2005). Les neurones dopaminergiques situés dans la zone ventrale tegmentale (VTA) du singe se déclenchent en réponse à une récompense principale non prédite (ou prévue avec une probabilité faible) plus qu’à une récompense pleinement prédite (Fiorillo et al, 2003;Tobler et al, 2005). Inversement, l'activité des mêmes neurones est supprimée lorsqu'une récompense attendue n'est pas délivrée par rapport à une omission attendue de la récompense (Fiorillo et al, 2003; Tobler et al, 2005). Ainsi, les neurones dopaminergiques codent l’erreur de prédiction en représentant l’écart entre le résultat réel et le résultat prévu (Schultz et al, 1997; Tobler et al, 2005), de sorte que la présentation inattendue de la récompense entraîne une activité accrue et que des omissions inattendues de la récompense entraînent une diminution de l'activité.

Les changements dans l'utilisation de la dopamine en réponse aux changements dans les résultats de la récompense sont parallèles par des modifications du comportement. Des études menées sur des primates non humains ont montré qu'un singe augmentait son léchage anticipé en fonction de la probabilité qu'un stimulus conditionné soit associé à un stimulus ultérieur non conditionné (libération du jus). En tant que tels, les stimuli représentant une probabilité élevée d’apport ultérieur de jus induisent un léchage plus anticipé (Fiorillo et al., 2003).

Des connexions anatomiques réciproques existent entre les régions associées à un comportement dirigé vers un objectif (par exemple, le cortex préfrontal) et celles associées à des comportements d'appétit plus automatiques (par exemple, le striatum ventral) dans lesquelles des prédictions pourraient être calculées (Shultz et al., 1997; Haber et al., 2003). Ces régions sont fortement innervées de dopamine par le biais de projections de neurones dopaminergiques du cerveau moyen et ces connexions peuvent former un circuit neuroanatomique fonctionnel qui soutient l’optimisation du comportement en favorisant les actions générant les plus grands gains.

Récemment, des études d'imagerie par résonance magnétique fonctionnelle (IRMf) humaines ont impliqué deux régions de ce circuit, le noyau accumbens et le cortex orbitofrontal, dans la représentation de l'erreur de prédiction. Par exemple, il a été démontré que des séquences imprévisibles d’alimentation en jus et en eau induisaient une activité accrue dans le NAcc par rapport à un apport prévisible (Berns et al, 2001). Erreur de prédiction basée sur temporel (McClure et al, 2003) et stimulus (O'Doherty et al, 2003 O'Doherty et al, 2004) les violations activent également le striatum ventral.

Le rôle de l'OFC dans la prévision des récompenses est moins clair. Bien que certaines études aient signalé la sensibilité de l’OFC dans des conditions d’erreur de prédiction (Berns et al., 2001; O'Doherty et al., 2003; Ramnini et al., 2004; Dreher et al., 2005) d'autres n'ont pas (McClure et al., 2003; O'Doherty et al., 2004; Delgado et al., 2005). Les études mettant moins l’accent sur l’erreur de prédiction montrent une plus grande activation de l’OFC comme étant favorable par rapport à des résultats défavorables (O'Doherty et al, 2001; Elliott et al, 2003; Galvan et al, 2005) dans les études de valeur de récompense (Gottfried et al, 2003) et la valence (Cox et al, 2005; O'Doherty, 2000 O'Doherty, 2003 O'Doherty, 2004). Récemment, Kringelbach et Rolls (2004) a intégré la littérature en neuroimagerie et en neuropsychologie pour rendre compte des fonctions variées du cortex orbitofrontal. Ils suggèrent une distinction médio-latérale et une distinction antéro-postérieure. La valeur de la récompense et l’évaluation des punisseurs par le cortex orbitofrontal médial et latéral (par exemple: O'Doherty et al, 2001 ; Rolls et al, 2003). On pense que le cortex orbitofrontal antérieur est davantage impliqué dans la représentation des renforçateurs abstraits (O'Doherty et al, 2001) par rapport aux plus simples liées au goût (par exemple De Araujo et al, 2003) et la douleur (par exemple Craig et al, 2000).

Ces régions frontostriatales ventrales ont récemment (Knutson et al, 2005) a été associé à la représentation de la valeur attendue (le produit de la probabilité attendue et de l’ampleur du résultat) au cours de anticipation du résultat de la récompense. Compte tenu de la conception élégante, mais complexe, qui incluait des indices 18 représentant de nombreuses combinaisons d'ampleur, de probabilité et / ou de valence, un manque de puissance statistique empêchait les auteurs d'examiner l'activation du cerveau liée à l'incitation. les résultats. Dans la présente étude, nous avons utilisé trois signaux distincts, chacun étant associé à la récompense 33%, 66% ou 100% pour des essais corrects. L’accent de cette étude était sur résultat de récompense plutôt que d'anticiper les récompenses, afin d'examiner la sensibilité au niveau neuronal aux violations des attentes de récompense, plutôt que d'anticiper les récompenses avant le résultat. Cette analyse est essentielle pour comprendre la prévisibilité des récompenses en raison des changements dans le tir de la dopamine qui se produisent lors de l’obtention des récompenses lorsque les violations des attentes prédites se produisent (Fiorillo et al, 2003). L' a priori les prédictions concernant les accumbens et la réponse de l'OFC aux récompenses monétaires attendues et inattendues étaient basées sur des travaux d'imagerie antérieurs impliquant ces régions dans le traitement des récompenses (Knutson et al, 2001; 2005; O'Doherty et al, 2001; Galvan et al, 2005). Nous avons utilisé une simple correspondance spatiale retardée pour échantillonner un paradigme similaire à celui utilisé par Fiorillo et al (2003) dans les études électrophysiologiques des neurones dopaminergiques chez les primates non humains. Nous avons émis l’hypothèse que l’activité dans le striatum ventral, en particulier le NAcc, augmenterait quand une récompense inattendue serait livrée et diminuerait si aucune récompense attendue n’était livrée. On s'attendait à ce que le comportement corresponde à ces changements, avec des temps de réaction moyens plus courts pour prédire le plus souvent les récompenses, mais des temps de réaction plus lents pour prédire les récompenses moins souvent. De plus, nous avons émis l’hypothèse que le CFO serait sensible au résultat de la récompense (récompense ou non), mais que les accumbens seraient plus sensibles aux changements dans les prévisions de récompense. Ces hypothèses étaient basées sur des rapports d’études antérieures d’imagerie (Galvan et al 2005, sous presse) et chez les primates non humains montrant une plus grande implication striatale dans les paramètres de probabilité de récompense, par rapport à l’activité verrouillée de récompense de l’OFC (Schultz et al, 2000) et sur la quantité de récompense fixe plutôt que variable selon les conditions de probabilité.

Méthodologie

Participants

Douze adultes en bonne santé, droitiers (femme 7), âgés de 19 – 27 (âge moyen, 24), ont été inclus dans l'expérience IRMf. Les sujets n'avaient aucun antécédent de maladie neurologique ou psychiatrique et tous les sujets avaient été consentis à l'étude approuvée par le comité de révision de l'établissement avant leur participation.

Tâche expérimentale

Les participants ont été testés à l’aide d’une version modifiée d’une tâche à deux choix à réponse retardée décrite précédemment (Galvan et al, 2005) dans une étude IRMf événementielle (Figure 1). Dans cette tâche, trois indices étaient associés à une probabilité distincte (33%, 66% et 100%) d'obtenir un montant fixe de récompense. Les sujets ont été priés d'appuyer sur leur index ou leur majeur pour indiquer le côté sur lequel un signal est apparu à l'invite, et de répondre aussi rapidement que possible sans commettre d'erreur. Une des trois images de bande dessinée de pirate a été présentée dans un ordre aléatoire à gauche ou à droite d’une fixation centrée pour 1000 msec (voir Figure 1). Après un délai de 2000 msec, on a présenté aux sujets une invite de réponse consistant en deux coffres au trésor situés des deux côtés de la fixation (2000 msec) et en leur demandant d’appuyer sur un bouton avec leur index droit si le pirate se trouvait du côté gauche de la fixation ou leur majeur droit si le pirate était du côté droit de la fixation. Après un autre délai 2000 msec, un retour de récompense (pièces de dessins animés) ou un coffre au trésor vide était présenté au centre de l'écran (1000 msec) en fonction de la probabilité de récompense de ce type d'essai. Il y avait un intervalle entre deux phases 12 avant le début du prochain essai.

Figure 1  

Conception des tâches

Il y avait trois conditions de probabilité de récompense: une probabilité de récompense 33%, 66% et 100%. Dans la condition% 33, les sujets ont été récompensés sur 33% des essais et aucune récompense (un coffre au trésor vide) n’est apparue sur l’autre 66% des essais dans cette condition. Dans la condition% 66, les sujets ont été récompensés sur 66% des essais et aucune récompense ne s'est produite pour les autres% 33. Dans la condition% 100, les sujets ont été récompensés pour tous les essais corrects.

Les participants avaient la garantie de participer à l’étude à un montant de 50 $ US et on leur avait dit qu’ils pouvaient gagner jusqu’à concurrence de $ 25 supplémentaires, en fonction des performances (indexées par temps de réaction et précision) sur la tâche. Les stimuli ont été présentés avec le système d'imagerie fonctionnelle intégrée (IFIS) (PST, Pittsburgh) en utilisant un écran vidéo LCD dans l'alésage du scanner MR et un dispositif de collecte de réponse à fibre optique.

L'expérience consistait en cinq séries d'essais 18 (6 pour chacun des types d'essais 33%, 66% et 100% de récompense), qui ont duré 6 min et 8 chacune. Chaque essai comportait des essais 6 de chaque probabilité de récompense présentée dans un ordre aléatoire. À la fin de chaque série, les sujets étaient informés du montant qu'ils avaient gagné pendant cette période. Avant de commencer l'expérience, les sujets ont reçu des instructions détaillées comprenant une familiarisation avec les stimuli utilisés et ont effectué une séance d'entraînement pour assurer la compréhension de la tâche. On leur a dit qu'il existait une relation entre les indices et les résultats monétaires, mais que la nature exacte de cette relation n'avait pas été révélée.

Acquisition de l'image

L'imagerie a été réalisée à l'aide d'un scanner IRM 3T General Electric utilisant une bobine de tête en quadrature. Les scans fonctionnels ont été acquis en utilisant une séquence d'entrée et de sortie en spirale (Glover et Thomason, 2004). Les paramètres comprenaient un TR = 2000, TE = 30, matrice 64 X 64, 29 coupes coronales de 5 mm, résolution dans le plan 3.125 X 3.125 mm, retournement 90 °) pour 184 répétitions, dont quatre acquisitions rejetées au début de chaque course. Des balayages dans le plan anatomiques pondérés en T1 ont été collectés (TR = 500, TE = min, 256 X 256, FOV = 200 mm, épaisseur de tranche de 5 mm) aux mêmes emplacements que les images fonctionnelles en plus d'un ensemble de données 3D. d'images SPGR haute résolution (TR = 25, TE = 5, épaisseur de tranche de 1.5 mm, 124 tranches).

L'analyse d'image

Le progiciel Brainvoyager QX (Brain Innovations, Maastricht, Pays-Bas) a été utilisé pour effectuer une analyse à effets aléatoires des données d'imagerie. Avant l'analyse, les procédures de prétraitement suivantes ont été effectuées sur les images brutes: Correction du mouvement 3D pour détecter et corriger les petits mouvements de la tête par alignement spatial de tous les volumes sur le premier volume par transformation du corps rigide, correction du temps de balayage des tranches (avec interpolation sincère), suppression de tendance linéaire, filtrage temporel passe-haut pour supprimer les dérives non linéaires de 3 ou moins de cycles par période, et lissage des données spatiales à l'aide d'un noyau gaussien avec 4mm FWHM. Les mouvements de rotation et de translation estimés n'ont jamais dépassé 2mm pour les sujets inclus dans cette analyse.

Les données fonctionnelles ont été co-enregistrées dans le volume anatomique par alignement des points correspondants et des ajustements manuels pour obtenir un ajustement optimal par inspection visuelle, puis ont été transformées en espace de Talairach. Au cours de la transformation de Talairach, les voxels fonctionnels ont été interpolés à une résolution de 1 mm3 à des fins d’alignement, mais les seuils statistiques étaient basés sur la taille du voxel d’acquisition initiale. Le noyau accumbens et le cortex frontal orbital ont été définis par un GLM voxelwise pour le cerveau entier avec la récompense comme prédicteur principal (voir ci-dessous), puis localisés par les coordonnées de Talairach en conjonction avec la référence à l'atlas du cerveau de Duvernoy (Talairach et Tournoux, 1988; Duvernoy, 1991).

Des analyses statistiques des données d'imagerie ont été effectuées sur l'ensemble du cerveau à l'aide d'un modèle linéaire général (GLM) composé de séquences fonctionnelles normalisées en X 60 (séquences 5 traitées par X 12). Le prédicteur principal était la récompense (épreuves de récompense par rapport aux essais sans récompense) pour toutes les probabilités de récompense au résultat de la récompense. Le prédicteur a été obtenu par convolution d’une réponse idéale en wagon couvert (supposant une valeur 1 pour le volume de présentation de la tâche et un volume de 0 pour les points temporels restants) avec un modèle linéaire de la réponse hémodynamique (Boynton et al, 1996) et utilisé pour construire la matrice de conception de chaque cours de l'expérience. Seuls les essais corrects ont été inclus et des prédicteurs distincts ont été créés pour les essais d'erreur. Des analyses de contraste post-hoc sur les régions d'intérêt ont ensuite été effectuées sur la base de tests t sur les poids bêta des prédicteurs. Des simulations Monte Carlo ont été effectuées à l’aide du programme AlphaSim au sein de AFNI (Cox, 1996) pour déterminer les seuils appropriés pour atteindre un niveau alpha corrigé de p <0.05 sur la base de volumes de recherche d'environ 25,400 3 mm450 et 3 mm20 pour le cortex frontal orbitaire et le noyau accumbens, respectivement. Les variations en pourcentage du signal MR par rapport à la ligne de base (intervalle précédant immédiatement l'essai de XNUMX s) dans le noyau accumbens et le cortex frontal orbitaire ont été calculées en utilisant la moyenne liée à l'événement sur des voxels significativement actifs obtenus à partir des analyses de contraste.

La GLM cérébrale totale était basée sur les essais de récompense 50 par sujet (n = 12) pour un total d'essais 600 et d'essais 30 non récompensés par sujet (n = 12) pour un total d'essais 360 non récompensés pour l'ensemble de l'expérience. Les contrastes ultérieurs sur les conditions de probabilité de récompense consistaient en un nombre différent de récompense et aucun essai de récompense. Pour la condition% de probabilité de récompense 100, il y a eu des essais de récompense 6 par série (5) par sujet (12) pour un total d'essais de récompense 360 et aucun essai non rémunéré. Pour la condition% de probabilité de récompense 66, il y avait des essais de récompense 4 par cycle (5) par sujet (12) pour un total d'essais de récompense 240 et d'essais 120 non rémunérés. Pour la condition de probabilité de récompense 33%, il y a eu des essais de récompense 2 par cycle (5) par sujet (12) pour un total d'essais de récompense 120 et d'essais 240 non rémunérés.

Résultats

Données comportementales

Les effets de la probabilité de récompense et du temps passé sur la tâche ont été testés avec une analyse de la variance (ANOVA) répétée 3 (33%, 66%) x 100 (exécute 5 – 1) pour les variables dépendantes du temps de réaction moyen (RT ) et précision moyenne.

Il n'y avait pas d'effets ou d'interactions principaux de probabilité de récompense (F [2,22] =. 12, p <.85) temps sur la tâche (F [4,44] = 2.02, p <.14) ou probabilité de récompense X temps sur la tâche (F [8, 88] = 1.02, p <41) pour la précision moyenne. Il fallait s'y attendre car la précision des participants atteignait des niveaux proches du plafond pour toutes les probabilités de l'expérience (33% condition = 97.2%; 66% condition = 97.5%; 100% condition = 97.7%).

Il y avait une interaction significative entre la probabilité de récompense et le temps passé sur la tâche (F [8,88] = 3.5, p <01) sur la RT moyenne, mais aucun effet principal du temps sur la tâche (F [4,44] = 611 , p <0.59) ou probabilité de récompense (F [2,22] = 2.84, p <0.08). Les tests t post-hoc de l'interaction significative ont montré qu'il y avait une différence significative entre les conditions de probabilité de récompense de 33% et 100% lors des essais tardifs de l'expérience (série 5) (t (11) = 3.712, p <003), avec un RT moyen plus rapide pour la condition de probabilité de récompense de 100% (moyenne = 498.30, sd = 206.23) par rapport à la condition de 33% (moyenne = 583.74, sd = 270.23).

La différence de temps de réaction moyen entre les conditions 100% et 33% a été multipliée par deux entre le début et la fin des essais (voir Figure 2a). Pour montrer davantage l'apprentissage, nous avons introduit une inversion, en inversant les probabilités de récompense des conditions 33% et 100% à la fin de l'expérience. Une ANOVA 2 (probabilité) X 2 (inversion et non inversion) pour les essais tardifs a montré une interaction significative (F (1,11) = 18.97, p = 0.001), avec une diminution de la RT à la condition correspondant à la probabilité 33% l'inversion (moyenne = 583.74, sd = 270.24) et 100% dans l'inversion (moyenne = 519.89, sd = 180.46) (Figure 2b).

Figure 2  

Résultats comportementaux (RT)

Résultats d'imagerie

Un GLM pour des essais corrects utilisant la probabilité de récompense comme prédicteur principal a été modélisé au moment où le sujet a reçu un retour d'information sur la récompense ou non (résultat). Cette analyse a identifié les régions de NAcc (x = 9, y = 6, z = −1 et x = −9, y = 9, z = −1) et OFC (x = 28, y = 39, z = - 6) (voir Figure 3a, b). Les tests t post-hoc entre les poids bêta des essais récompensés et non récompensés ont montré une plus grande activation dans ces deux régions pour récompenser (NAcc: t (11) = 3.48, p <0.01; OFC x = 28, y = 39, z = −6, t (11) = 3.30, p <0.02)1.

Figure 3  

Plus grande activation pour les résultats récompensés que non récompensés dans le a) noyau accumbens (x = 9, y = 6, z = −1; x = −9, y = 9, z = −1) et b) cortex frontal orbital (x = 28, y = 39, z = −6).

Il y avait deux résultats possibles (récompense ou pas de récompense) pour les deux calendriers de récompense intermittents (probabilité de 33% et 66%) et un seul résultat pour le calendrier de récompense continu (probabilité de récompense de 100%), qui a été utilisé comme condition de comparaison. Alors qu'il y avait un effet principal de la récompense (récompense contre aucune récompense) dans l'OFC décrit ci-dessus, l'activité de l'OFC n'a pas varié en fonction de la probabilité de récompense dans l'étude actuelle [F (2,10) = 0.84, p = 0.46) . En revanche, le NAcc a montré des changements distincts de l'activité au résultat en fonction de la manipulation de la probabilité de récompense [F (2,10) = 9.32, p <0.005]. Plus précisément, l'activité NAcc a augmenté pour récompenser les résultats, lorsque la récompense était inattendue (condition de probabilité de récompense de 33%) par rapport à l'attente (condition de base à 100%) [t (11) = 2.54, p <03 voir Figure 4a]. Deuxièmement, il y avait une diminution de l'activité NAcc à aucune récompense, lorsqu'une récompense était attendue et non reçue (condition de probabilité de récompense de 66%) par rapport à une récompense qui n'était pas attendue ou reçue (condition de probabilité de récompense de 33%; t (59) = 2.08, p <.04; voir Figure 4b). Notez qu'il n'y avait pas de différences d'activation significatives entre les conditions de probabilité de récompense 33% et 66% [t (11) =. 510, p = .62] ou entre les conditions de probabilité récompensées 66% et 100% [t (11) = 1.20, p = .26] dans les résultats récompensés. Le signal IRM en fonction du résultat de la récompense et de la probabilité est présenté dans Figure 4.

Figure 4  

Le pourcentage de changement du signal IRM en fonction du résultat de la récompense et de la probabilité dans le noyau correspond aux résultats a) récompensés et b) non récompensés.

a lieu

Cette étude a examiné les effets des violations des résultats attendus de la récompense sur le comportement et l'activité neuronale dans l'accumbens et le cortex frontal orbital (OFC), qui avaient déjà été impliqués dans l'anticipation des résultats de la récompense (McClure et al 2004; Knutson et al, 2005). Nous avons montré que le noyau accumbens et l'OFC ont été recrutés lors d'essais récompensés par rapport à des essais non récompensés, mais seul le noyau accumbens a montré une sensibilité aux violations du résultat de la récompense prévue dans cette étude. Une plus grande sensibilité des accumbens à récompenser la valeur (par exemple, la magnitude) par rapport à l'OFC a été montrée dans des travaux antérieurs (Galvan et al 2005), et ensemble, ces résultats suggèrent que cette région pourrait être impliquée dans le calcul de l’ampleur et de la probabilité de récompense. Le manque de sensibilité de l’OFC à ces manipulations peut refléter une représentation plus absolue de la récompense ou une ambiguïté des résultats (Hsu et al., 2005). Alternativement, le signal MR étant plus variable dans cette région, ces effets peuvent avoir été atténués dans la présente étude.

Dans les études électrophysiologiques chez les animaux, il a été démontré que les neurones dopaminergiques du cerveau moyen (qui se projetent vers le noyau accumbens) réagissaient peu ou pas aux résultats prévus de la récompense (probabilité = 1.0), mais montraient une décharge phasique lorsque la récompense était délivrée avec une valeur inférieure à 100. % de probabilité, même après une formation poussée (Fiorillo et al, 2003). Dans la présente étude, nous avons montré une plus grande activité d'accumbens à récompenser lorsque la récompense était inattendue (% de condition 33) par rapport au moment où elle était attendue (% de condition 100) conformément à ces résultats. De plus, des études électrophysiologiques de neurones dopaminergiques chez l’animal (par exemple, Fiorillo et al, 2003) ont montré que l'activité neuronale diminuait lors d'essais pour lesquels une récompense était prévue mais ne s'est pas produite. L’étude actuelle a montré une tendance similaire dans l’accumbens, avec une diminution de l’activité dans cette région dans les essais non récompensés pour la condition de probabilité de récompense 66% par rapport à la condition de 33%.2

Les neurones dopaminergiques ont été impliqués dans l'apprentissage de deux manières. Premièrement, ils codent les contingences entre les stimuli (ou les réponses) et les résultats au moyen de signaux d’erreurs de prédiction qui détectent des violations des attentes (Schultz et al, 1997; Mirencowicz et Schultz, 1998; Fiorillo et al, 2003). Ainsi, l’erreur de prédiction semble fournir un signal d’enseignement correspondant aux principes d’apprentissage initialement décrits par Rescorla et Wagner (1972). Deuxièmement, ils servent à modifier les réponses comportementales (Schultz et al, 1997; McClure et al, 2004) de telle sorte que les actions sont biaisées vers les signaux les plus prédictifs. Dans la présente étude, nous montrons que, lors des derniers essais de l'expérience, la performance optimale est celle qui présente la probabilité de récompense la plus élevée (probabilité de récompense 100) et la moins optimale pour la condition la plus faible (probabilité de récompense 33). Ce résultat comportemental est cohérent avec les travaux précédents sur les probabilités montrant les performances les moins optimales avec les probabilités de récompenses les plus faibles, suggérant que les contingences de récompenses ont été apprises au fil du temps (Delgado et al, 2005). Pour montrer davantage l'apprentissage, nous avons introduit une inversion, en inversant les probabilités de récompense des conditions 33% et 100% à la fin de l'expérience. Cette manipulation a entraîné une atténuation des différences entre ces conditions, corroborant davantage les effets d'apprentissage.

Un objectif majeur des études relatives aux récompenses est de déterminer comment les récompenses influencent les comportements et les préjugés (par exemple: Robbins et Everitt, 1996; Schultz, 2004) en plus de caractériser le traitement neuronal sous-jacent. De nombreux facteurs contribuent à la rapidité et à la vigueur des récompenses sur le comportement, y compris les calendriers de renforcement (Skinner, 1958), valeur de récompense (Galvan et al, 2005), et récompenser la prévisibilité (Fiorillo et al, 2003; Delgado et al, 2005). La valeur attendue, qui est le produit de l’ampleur et de la probabilité d’une récompense (Pascal, ca 1600s), influence les choix comportementaux (von Frisch, 1967; Montague et al, 1995; Montague et Berns, 2002). En utilisant une tâche très similaire dans laquelle seul le résultat (magnitude au lieu de probabilité) diffère de la présente étude, nous avons montré que le noyau accumbens était sensible aux valeurs de récompense discrètes (Galvan et al, 2005). Pris avec les preuves présentées ici et ailleurs (Tobler et al, 2005), nous suggérons que le striatum ventral contribue probablement au calcul de la valeur de la récompense attendue compte tenu de sa sensibilité à la fois à la probabilité et à la magnitude de la récompense.

Le rôle du cortex frontal orbital dans la prédiction de récompense est compatible avec les subdivisions fonctionnelles de cette région par Kringelbach et Rolls (2004). Ils suggèrent que davantage de parties antérieures et médiales d'OFC sont sensibles aux manipulations abstraites de récompense. L'activation de l'OFC dans cette étude a été observée à cet endroit général. Des études électrophysiologiques impliquent l’OFC dans le codage de la valeur subjective d’un stimulus de récompense (pour examen, O'Doherty, 2004). Par exemple, les neurones de l’OFC tirent sur un goût particulier quand un animal a faim, mais diminuent leur cadence de tir une fois que l’animal est rassasié et que la valeur de récompense de la nourriture a diminué (Critchley et Rolls, 1996). En tant que tels, d’autres ont suggéré que le BCE était plus sensible aux récompenses relatives (Tremblay et Schultz, 1999) et la préférence de récompense (Schultz et al, 2000). Des études de neuroimagerie ont montré un schéma analogue chez l’homme, avec une variété de stimuli, y compris le goût (O'Doherty et al, 2001; Kringelbach et al, 2003), olfaction (Anderson et al, 2003; Rolls et al, 2003), et argent (Elliott et al, 2003; Galvan et al, 2005), chaque activation variant dans la localisation de l’activité de l’OFC antérieur à postérieur et de la médiale à la latérale. L’OFC a été impliqué dans l’anticipation des récompenses (O'Doherty et al 2002), mais seulement dans la mesure où la valeur prédictive de la réponse est liée à la Plus-value de la récompense associée, plutôt que de la probabilité que cette récompense se produise (O'Doherty, 2004 ). Dans la présente étude, nous n'avons pas constaté de sensibilité aux violations de la prévision des récompenses dans l'OFC. Knutson et ses collègues (2005) ont rapporté des corrélations entre les estimations de probabilité et l’activation du cerveau en prévision de la récompense dans le cortex préfrontal mésial (Knutson et al 2005), mais pas spécifiquement dans le cortex frontal orbital. En revanche, Ramnani et al (2004 ) a signalé une sensibilité de l'OFC à une erreur de prédiction positive dans le cortex frontal orbital médial à l'aide d'une tâche de visualisation passive et Dreher et al. (2005) la prévision d'erreur OFC rapportée dans une tâche manipulant à la fois la probabilité et la magnitude des signaux prédictifs, mais ces éventualités ont été apprises avant le balayage. Il est donc toujours défendable que l'OFC puisse calculer les récompenses prévues, mais peut-être ces calculs sont-ils plus crus (c'est-à-dire résumés sur une plage de probabilités) ou plus lents à se former par rapport aux calculs précis qui semblent se produire dans le NAcc. Alternativement, cette région peut être plus sensible à la détection de stimuli de valeur incertaine et / ou ambiguë, comme proposé par Hsu et al (2005), que pour détecter les violations dans la prévision des récompenses. Hsu et al (2005) montrer que le niveau d'ambiguïté dans les choix (choix incertain en raison d'informations manquantes) est en corrélation positive avec l'activation dans l'OFC. Enfin, la plus grande variabilité du signal IRM dans cette région a peut-être aussi réduit notre capacité à détecter ces effets.

La question fondamentale de la présente étude était de savoir comment l’accumbens et l’OFC codaient différemment les résultats de la récompense prévus par rapport aux résultats imprévus (c.-à-d. Des violations des attentes). Nous avons paramétriquement manipulé la probabilité de récompense et examiné la réponse neuronale aux essais de récompense et non récompensés pour chaque condition de récompense de probabilité. Nos données concordent avec des études antérieures par imagerie humaine et électrophysiologiques non humaines (Fiorillo et al, 2003; Schultz, 2002) et suggèrent que les accumbens et l'OFC sont sensibles au résultat de la récompense (récompense ou non). Cependant, l'activité dans ces régions, en particulier dans les zones accumbens, semble être modulée par des prédictions sur la probabilité de résultats de récompense formés avec l'apprentissage au fil du temps. Ce modèle dynamique d’activation peut représenter des modifications de l’activité de la dopamine dans ces régions ou s’y projeter au fur et à mesure que les informations sur les récompenses prédites sont apprises et mises à jour.

Notes

1Le NAcc [t (11) = 3.2, p <0.04] ​​et l'OFC [t (11) = 3.5, p <0.02] ont montré une activité accrue en prévision de la récompense pour la condition de récompense intermittente mais pas continue

2L’absence de résultat de la récompense dans l’état de 33% a entraîné une légère augmentation de l’activité de NAcc plutôt qu’une diminution, semblable à celle observée par Knutson et al., 2001. Une interprétation possible de ce résultat est que les sujets étaient intrinsèquement motivés ou récompensés s’ils prédisaient qu’aucune récompense ne reviendrait pour cet essai, et aucun ne le ferait. Alternativement, puisque les résultats de récompense pour ces essais ont été les moins nombreux au cours de l'expérience, l'activité peut refléter un apprentissage continu pour cette condition.

Avis de non-responsabilité de l'éditeur: Ceci est un fichier PDF d’un manuscrit non édité qui a été accepté pour publication. En tant que service à nos clients, nous fournissons cette première version du manuscrit. Le manuscrit subira une révision, une composition et une révision de la preuve résultante avant sa publication dans sa forme définitive. Veuillez noter que des erreurs pouvant affecter le contenu peuvent être découvertes au cours du processus de production, de même que tous les dénis de responsabilité qui s'appliquent à la revue.

Bibliographie

  • Anderson A, Christoff K, Stappen I, D Panitz, D Ghahremani, G Glover, JD Gabrieli, Sobel N. Représentations neurales dissociées d'intensité et de valence dans l'olfaction humaine. Nature Neuroscience. 2003;6: 196-202.
  • GS Berns, SM McClure, G Pagnoni, PR de Montague. La prévisibilité module la réponse du cerveau humain à la récompense. Journal of Neuroscience. 2001;21: 2793-2798. [PubMed]
  • Boynton GM, Engel SA, Glover GH, Heeger DJ. Analyse de systèmes linéaires d'imagerie par résonance magnétique fonctionnelle chez V1 humain. Journal of Neuroscience. 1996;16: 4207-4221. [PubMed]
  • Cox RW. AFNI: logiciel d'analyse et de visualisation des neuroimages par résonance magnétique fonctionnelle. Calculs en recherche biomédicale. 1996;29: 162-173.
  • Cox SM, Andrade A, Johnsrude IS. Apprendre à aimer: rôle du cortex orbitofrontal humain dans la récompense conditionnée. Journal of Neuroscience. 2005;25: 2733-2740. [PubMed]
  • Craig AD, Chen K, Bandy D, Reiman EM. Activation thermosensorielle du cortex insulaire. Nature Neuroscience. 2000;3: 184-190.
  • Critchley HD, Rolls ET. La faim et la satiété modifient les réponses des neurones olfactifs et visuels dans le cortex orbitofrontal des primates. Journal of Neurophysiology. 1996;75: 1673-1686. [PubMed]
  • De Araujo IET, ML Kringelbach, Rolls ET, McGlone F. Réponses corticales humaines à l'eau dans la bouche et aux effets de la soif. Journal of Neurophysiology. 2003;90: 1865-1876. [PubMed]
  • Delgado MR, Miller M, Inati S, EA Phelps. Une étude IRMf d'apprentissage probabiliste lié à la récompense. Neuroimage. 2005;24: 862-873. [PubMed]
  • JC Dreher, Kohn P, Berman KF. Codage neuronal de propriétés statistiques distinctes d'informations de récompense chez l'homme. Cortex cérébral. 2005 Epub en avance sur l'impression.
  • Elliott R, Newman JL, Longe OA, Deakin JFW. Modèles de réponse différentielle dans le cortex striatum et orbitofrontal à la récompense financière chez l'homme: une étude paramétrique d'imagerie par résonance magnétique fonctionnelle. Journal of Neuroscience. 2003;23: 303-307. [PubMed]
  • Fiorillo CD, PN Tobler, Schultz W. Codage discret de la probabilité de récompense et de l’incertitude par les neurones dopaminergiques. Science. 2003;299: 1898-1902. [PubMed]
  • Galvan A, Hare TA, Davidson M, Spicer J, Glover G, Casey BJ. Le rôle du circuit frontostriatal ventral dans l'apprentissage basé sur la récompense chez l'homme. Le Journal of Neuroscience. 2005;25: 8650-8656. [PubMed]
  • Galvan A, Hare TA, Parra C, Penn J, H Voss, Glover G, Casey BJ. Le développement plus précoce de l'accumbens par rapport au cortex orbitofrontal peut être à la base des comportements à risque chez les adolescents. Le Journal of Neuroscience. 2006;26: 6885-6892. [PubMed]
  • Le juge Gottfried, le juge O'Doherty et Dolan RJ. Encodage de la valeur de récompense prédictive dans l'amygdale humaine et le cortex orbitofrontal. Science. 2003;301: 1104-1107. [PubMed]
  • Haber SN. Les noyaux gris centraux des primates: réseaux parallèles et intégratifs. Journal de chimie neuroanatomique. 2003;26: 317-330. [PubMed]
  • Hollerman J, neurones Schultz W. Dopamine signalent une erreur dans la prédiction temporelle de récompense pendant l'apprentissage. Nature Neuroscience. 1998;1: 304-309.
  • Hsu M, Bhatt M, Adolphs R, Tranel D, Caméra CF. Les systèmes neuronaux réagissant à des degrés d'incertitude dans la prise de décision humaine. Science. 2005;310: 1680-1683. [PubMed]
  • Knutson B, CM Adams, Fong GW, Hommer D. L'anticipation de l'augmentation de la récompense monétaire recrute sélectivement le noyau accumbens. Journal of Neuroscience. 2001;21: 1-5.
  • Knutson B, J Taylor, Kaufman M, R Peterson et Glover G. Représentation neuronale divisée de la valeur attendue. Le Journal of Neuroscience. 2005;25: 4806-4812. [PubMed]
  • Kringelbach ML, O'Doherty J, Rolls ET, Andrews C. L'activation du cortex orbitofrontal humain à un stimulus alimentaire liquide est corrélée à son agrément subjectif. Cortex cérébral. 2003;13: 1064-1071. [PubMed]
  • Kringelbach ML, Rolls ET. Neuroanatomie fonctionnelle du cortex orbitofrontal humain: mise en évidence par la neuroimagerie et la neuropsychologie. Progrès en neurobiologie. 2004;72: 341-372. [PubMed]
  • Leon MI, Shadlen MN. Effet de l'ampleur de la récompense attendue sur la réponse des neurones dans le cortex préfrontal dorsolatéral du macaque. Neuron. 1999;24: 415-425. [PubMed]
  • McClure SM, GS Berns, PR de Montague. Les erreurs de prédiction temporelle dans une tâche d'apprentissage passive activent le striatum humain. Neuron. 2003;38: 339-346. [PubMed]
  • McClure SM, Laibson DI, Loewenstein G, Cohen JD. Les systèmes neuronaux distincts valorisent les récompenses monétaires immédiates et différées. Science. 2004;306: 503-507. [PubMed]
  • Mirenowicz J, Schultz W. Importance de l'imprévisibilité des réponses de récompense dans les neurones dopaminergiques chez les primates. Journal of Neurophysiology. 1994;72: 1024-1027. [PubMed]
  • Montague PR, Berns GS. Économie neuronale et substrats biologiques de l'évaluation. Neuron. 2002;36: 265-284. [PubMed]
  • Montague PR, Hyman SE, Cohen JD. Rôles informatiques de la dopamine dans le contrôle comportemental. Nature. 2004;431: 379-387.
  • O'Doherty JP. Représentations de récompenses et apprentissage lié aux récompenses dans le cerveau humain: aperçus de la neuroimagerie. Opinion actuelle en neurobiologie. 2004;14: 769-776. [PubMed]
  • O'Doherty JP, Dayan P, Friston K, Critchley H, Dolan RJ. Modèles de différences temporelles et apprentissage lié aux récompenses dans le cerveau humain. Neuron. 2003;38: 329-337. [PubMed]
  • O'Doherty JP, Deichmann R, Critchley HD, Dolan RJ. Réponses neuronales lors de l'anticipation d'une récompense gustative primaire. Neuron. 2002;33: 815-826. [PubMed]
  • O'Doherty J, Kringelbach M, Rolls ET, Hornak J, Andrews C. Représentations abstraites de récompense et de punition dans le cortex orbitofrontal humain. Nature Neuroscience. 2001;4: 95-102.
  • O'Doherty J, Rolls ET, Francis S, Bowtell R, McGlone F, Kobal G, Renner B, Ahne G. Activation olfactive liée à la satiété sensorielle spécifique du cortex orbitofrontal humain. Neuroreport. 2000;11: 893-897. [PubMed]
  • Olds J, Milner P. Renforcement positif produit par une stimulation électrique de la zone septale et d'autres régions du cerveau de rat. Journal de physiologie comparée et de psychologie. 1954;47: 419-427.
  • Ramnani N, Elliott R, Athwal B, Passingham R. Erreur de prédiction pour une récompense monétaire libre dans le cortex préfrontal humain. NeuroImage. 2004;23: 777-786. [PubMed]
  • Rescorla R, Wagner A. À: Conditionnement classique 2: Recherches et théories actuelles. Black A, Prokasy W, éditeurs. Appleton Century-Crofts; New York: 1972. pp. 64 – 69.
  • Robbins TW, Everitt BJ. Mécanismes neurocomportementaux de récompense et de motivation. Opinions actuelles en neurobiologie. 1996;6: 228-235.
  • Rolls E, Kringelbach M, DeAraujo I. Différentes représentations d'odeurs agréables et désagréables dans le cerveau humain. European Journal of Neuroscience. 2003;18: 695-703. [PubMed]
  • Schultz W, Dayan P, PR de Montague. Un substrat neural de prédiction et de récompense. Science. 1997;275: 1593-1599. [PubMed]
  • Schultz W., Tremblay L., Hollerman JR. Traitement de récompense dans le cortex orbitofrontal et les noyaux gris centraux chez les primates. Cereb Cortex. 2000;10: 272-284. [PubMed]
  • Schultz W. Se formaliser avec de la dopamine et récompenser. Neuron. 2002;36: 241-263. [PubMed]
  • Schultz W. Codage neuronal des termes de récompense de base de la théorie de l'apprentissage animal, de la théorie des jeux, de la microéconomie et de l'écologie comportementale. Opinion actuelle en neurobiologie. 2004;14: 139-147. [PubMed]
  • Skinner BF. Diagrammes horaires de renforcement. Journal d'analyse expérimentale du comportement. 1958;1: 103-107.
  • Sutton RS, Barto AG. Apprentissage par renforcement: une introduction. MIT Press; Cambridge, MA: 1998.
  • Schultz W, Tremblay L., Hollerman J. Traitement des récompenses dans le cortex orbitofrontal et les noyaux gris centraux chez les primates. Cortex cérébral. 2000;10: 272-284. [PubMed]
  • Talairach J, P. Tournoux Atlas stéréotaxique coplanaire du cerveau humain. Thième; New York: 1988.
  • Tobler PN, CD Fiorillo, Schultz W. Codage adaptatif de la valeur de la récompense par les neurones dopaminergiques. Science. 2005;307: 1642-1645. [PubMed]
  • Tremblay L, Schultz W. Préférence de récompense relative dans le cortex orbitofrontal de primates. Nature. 1999;398: 704-708. [PubMed]
  • von Frisch K. Le langage de la danse et l'orientation des abeilles. Harvard University Press; Cambridge, Massachusetts: 1967.