Nouveauté contextuelle des représentations de récompenses dans le Striatum (2010)

 Étude complète: Modifications contextuelles de la nouveauté Représentations de récompenses dans le Striatum


J Neurosci. Manuscrit de l'auteur; disponible dans PMC 2010 Aug 3.
Publié sous forme finale modifiée en tant que:

Marc Guitart-Masip,*,1,2 Nico Bunzeck,*,1 Klaas E Stephan,2,3 Raymond J Dolan,2 et Emrah Düzel1,4

La version finale modifiée de cet article par l'éditeur est disponible gratuitement sur J Neurosci

Voir d'autres articles dans PMC qui citer l'article publié.

Allez à:

Abstract

La représentation de la récompense dans le striatum ventral est stimulée par la nouveauté de la perception, bien que le mécanisme de cet effet reste insaisissable. Les études animales indiquent une boucle fonctionnelle (Lisman et Grace, 2005) qui incluent l’hippocampe, le striatum ventral et le mésencéphale, qui jouent un rôle important dans la régulation de l’attribution de la saillance dans le contexte de nouveaux stimuli. Selon ce modèle, les réponses à la récompense dans le striatum ventral ou le mésencéphale devraient être améliorées dans le contexte de la nouveauté, même si la récompense et la nouveauté constituent des événements indépendants et indépendants. En utilisant l'IRMf, nous montrons que les essais avec signaux prédictifs de récompense et les résultats ultérieurs entraînent des réponses plus élevées dans le striatum s'ils sont précédés d'une nouvelle image sans rapport indiquant que la représentation de la récompense est améliorée dans le contexte de la nouveauté. Notamment, cet effet a été observé uniquement lorsque la fréquence de la récompense, et donc la saillance liée à la récompense, était faible. Ces résultats corroborent l'opinion selon laquelle la nouveauté contextuelle améliore les réponses neuronales sous-jacentes à la représentation de la récompense dans le striatum et concorde avec les effets du traitement de la nouveauté prédit par le modèle de Lisman et Grace (2005).

Mots clés: nouveauté, récompense, striatum, hippocampe, mésencéphale, IRMf

Introduction

Les noyaux gris centraux, ainsi que leurs afférences dopaminergiques, fournissent un mécanisme pour en savoir plus sur la valeur de récompense des différentes options comportementales (Berridge et Robinson, 2003; Frank et al., 2004; Pessiglione et al., 2006). Dans cette optique, les études IRMf montrent que la récompense, et les signaux prédictifs, déclenchent une activité cérébrale dans le striatum (par exemple (Delgado et al., 2000; Knutson et al., 2000; O'Doherty et al., 2003; O'Doherty et al., 2004) et du mésencéphale (Aron et al., 2004; Wittmann et al., 2005). Cependant, le système dopaminergique du cerveau moyen répond également à de nouveaux stimuli non gratifiants chez les singes (Ljungberg et al., 1992) et les humains (Bunzeck et Duzel, 2006; Wittmann et al., 2007). Du point de vue du calcul, il a été suggéré que la nouveauté elle-même puisse constituer un signal de motivation qui stimule la représentation des récompenses et incite à explorer une option de choix nouvelle et inconnue (Kakade et Dayan, 2002).

Bien que le traitement de la nouveauté et de la récompense partagent des mécanismes neuronaux communs, le substrat neuronal qui supporte une interaction entre la nouveauté et la récompense reste mal compris. La recherche sur les animaux révèle que les signaux de nouveauté de l'hippocampe régulent la capacité des neurones dopaminergiques à montrer une activité de déclenchement en rafale. Étant donné que le tir en rafale est le principal modèle de réponse dopaminergique codant pour les récompenses, et peut-être d’autres événements marquants, il existe de bonnes raisons de penser que les signaux de nouveauté de l’hippocampe pourraient potentiellement réguler le traitement des récompenses et l’attribution de saillance (Lisman et Grace, 2005). Les signaux de nouveauté de l’hippocampe sont transmis à la VTA par le subiculum, le striatum ventral et le pallidum ventral où ils provoquent la désinhibition des neurones dopaminergiques silencieux pour induire un mode d’activité tonique (Lisman et Grace, 2005; Grace et Bunney, 1983). Il est important de noter que seuls les neurones dopaminergiques toniquement actifs mais non silencieux passent en mode de déclenchement en rafale et présentent des réponses phasiques (Floresco et al., 2003). De cette manière, les signaux de nouveauté dans l'hippocampe pourraient potentiellement stimuler les signaux phasiques de dopamine et faciliter le codage de nouvelles informations dans la mémoire à long terme.

Bien que des recherches récentes aient montré que la nouveauté de stimulus améliore une erreur de prédiction de récompense striatale (Wittmann et al., 2008), cette constatation ne répond pas à une hypothèse physiologique selon laquelle la nouveauté contextuelle exerce un effet de renforcement sur les signaux de récompense ultérieurs (Lisman et Grace, 2005). Cela nécessite une manipulation indépendante du niveau de nouveauté et de récompense, de sorte que la nouveauté (et la familiarité) agissent comme des contextes temporellement étendus précédant les récompenses. Nous avons étudié l'expression de la modulation striatale du traitement des récompenses dans le contexte de la nouveauté en présentant un nouveau stimulus précédant la présentation d'indices prédictifs des récompenses. De plus, nous avons manipulé les deux facteurs (nouveauté et récompense) indépendamment; cela nous a permis de distinguer leurs représentations neurales correspondantes. Nous avons présenté aux sujets une des trois images fractales différentes offrant une probabilité donnée de récompense (aucune récompense (p = 0), faible (p = 0.4) et probabilité de récompense élevée (p = 0.8)). De cette manière, notre conception nous a également permis d’étudier si la probabilité que la récompense se produise ait une influence sur la nouveauté du contexte. Un effet de probabilité de nouveauté dépendant de la probabilité sur le traitement des récompenses fournirait un appui solide à la prédiction que la nouveauté et le traitement des récompenses interagissent fonctionnellement. En revanche, un effet de nouveauté sur l'activité cérébrale liée aux récompenses indépendante de la probabilité et de l'ampleur des récompenses indiquerait que nouveauté et récompense partagent des régions cérébrales et produisent une activité neurale additive sans interaction fonctionnelle.

Matériel et méthodes

Sujets

Des adultes 16 ont participé à l'expérience (femmes 9 et hommes 7; tranche d'âge 19-32; moyenne 23.8, SD = années 3.84). Tous les sujets étaient en bonne santé, droitiers et avaient une acuité normale ou corrigée. Aucun des participants n'a signalé d'antécédents de troubles neurologiques, psychiatriques ou médicaux, ni aucun problème médical actuel. Toutes les expériences ont été conduites avec le consentement éclairé écrit de chaque sujet et conformément aux autorisations locales en matière d'éthique (University College London, Royaume-Uni).

Conception expérimentale et tâche

La tâche a été divisée en phases 3. Lors de la phase 1, les sujets ont été familiarisés avec un ensemble d’images 10 (5 indoor, 5 outdoor). Chaque image a été présentée fois 10 pour 1000ms avec un intervalle entre stimulus (ISI) de 1750 ± 500ms. Les sujets ont indiqué l'état intérieur / extérieur à l'aide de leur index droit et de leur majeur. Au cours de la phase 2, des images fractales 3 ont été appariées, sous différentes probabilités (0, 0.4 et 0.8), avec une récompense monétaire de penny 10 lors d'une session de conditionnement. Chaque image fractale a été présentée fois 40. Lors de chaque essai, une des images fractales 3 a été présentée à l'écran pour 750ms et les sujets ont indiqué que la présentation du stimulus était détectée en appuyant sur un bouton. Le résultat probabiliste (10 ou 0 pence) a été présenté ultérieurement sous forme de nombre à l'écran 750ms pour un autre 750ms et les sujets ont indiqué s'ils gagnaient de l'argent ou s'ils n'utilisaient pas leur index et leur majeur. L'intervalle entre essais (ITI) était de 1750 ± 500ms. Enfin, dans une phase de test (phase 3), l’effet de la nouveauté contextuelle sur les réponses liées aux récompenses a été déterminé au cours de quatre sessions de onze minutes (Figure 1). Ici, une image a été présentée pour 1000ms et les sujets ont indiqué l’état intérieur / extérieur à l’aide de leur index droit et de leur majeur. Les réponses pouvaient être faites pendant que l'image de la scène et l'image fractale suivante étaient affichées à l'écran (1750 ms au total). L'image provenait soit de l'ensemble d'images familier de la phase 1 (appelées «images familières»), soit d'un autre ensemble d'images jamais présentées (appelées «images originales»). Au total, de nouvelles images 240 ont été présentées à chaque sujet. Ensuite, une des images fractales 3 de la phase 2 (appelée indice prédictif de récompense) a été présentée pour 750ms (dans ce cas, les sujets avaient pour instruction de ne pas répondre). Comme lors de la deuxième phase, le résultat probabiliste (10 ou 0 pence) a été présenté à 750ms ultérieurement pour un autre 750ms et les sujets ont indiqué s'ils gagnaient de l'argent ou s'ils n'utilisaient ni leur index ni leur majeur. Les réponses pouvaient être faites pendant que le résultat était affiché à l'écran et pendant l'intervalle intertrial suivant (2500 ± 500 ms au total). L'ITI était 1750 ± 500ms. Au cours de chaque session, chaque image fractale a été présentée fois 20 à la suite d’une nouvelle image et 20 fois à la suite d’une image familière, donnant lieu à des essais 120 par session. L'ordre de présentation des six types d'essais a été entièrement randomisé. Les trois phases expérimentales ont été réalisées à l'intérieur du scanner IRM, mais les données BOLD n'ont été acquises que pendant la phase de test (phase 3). Les sujets ont été priés de réagir le plus rapidement et le plus correctement possible et de percevoir un salaire qui leur permettrait de gagner jusqu'à 20. Les participants ont été informés que le pence 10 serait soustrait pour chaque réponse incorrecte - ces essais ont été exclus de l'analyse. Le total des gains n’a été affiché à l’écran qu’à la fin du bloc 4th.

Figure 1 

Conception expérimentale

Toutes les images ont été mises à l'échelle gris et normalisées à une valeur de gris moyenne de 127 et à un écart-type de 75. Aucune des scènes ne représente des êtres humains ou des parties du corps humain (y compris des visages) au premier plan. Les stimuli ont été projetés sur le centre de l’écran et les sujets les ont regardés à travers un système de miroir monté sur la tête du scanner IRMf.

acquisition de données IRMf

La IRMf a été réalisée sur un scanner à résonance magnétique 3-Tesla Siemens Allegra (Siemens, Erlangen, Allemagne) avec imagerie écho planaire (EPI). Lors de la session fonctionnelle, nous avons obtenu des images pondérées 48 * par volume (couvrant toute la tête) avec un contraste dépendant de l'oxygénation du sang (matrice): matrice: 2 × 64; coupes axiales obliques 64 par volume angulées à −48 ° dans la région antéropostérieure. axe; résolution spatiale: 30 × 3 × 3 mm; TR = 3 ms; TE = 2880 ms). Le protocole d’acquisition IRMf a été optimisé pour réduire les pertes de sensibilité BOLD induites par la sensibilité dans les régions inférieures des lobes frontaux et temporaux (Weiskopf et al., 2006). Pour chaque sujet, des données fonctionnelles ont été acquises au cours de quatre sessions d'analyse contenant des volumes 224 par session. Six volumes supplémentaires au début de chaque série ont été acquis pour permettre l’aimantation en régime permanent et ont ensuite été rejetés. Des images anatomiques du cerveau de chaque sujet ont été collectées à l'aide de 3D FLASH multi-échos pour cartographier la densité de protons (PD), T1 et le transfert de magnétisation (MT) à 1mm.3 résolution (Weiskopf et Helms, 2008) et par séquences EPI (IR-EPI) préparées avec récupération par inversion pondérée T1 (résolution spatiale: 1 × 1 × 1 mm). En outre, des cartes de terrain individuelles ont été enregistrées en utilisant une séquence FLASH à double écho (taille de la matrice = 64 × 64; coupes 64; résolution spatiale = 3 × 3 × 3 mm; écart court = 1 ms; longueur TE = 10 ms) ; TR = 12.46 ms) pour la correction de distorsion des images EPI acquises (Weiskopf et al., 2006). Utiliser la 'boîte à outils FieldMap' (Hutton et al., 2002) les cartes de terrain ont été estimées à partir de la différence de phase entre les images acquises au TE court et au TE long.

analyse des données IRMf

Le pré-traitement incluait le réalignement, le dédoublement en utilisant des cartes de champs individuelles, la normalisation spatiale par rapport à l'espace de l'Institut de neurologie de Montréal (MNI) et enfin le lissage avec un noyau gaussien 4mm. Les données de la série temporelle IRMf ont été filtrées par passe-haut (seuil = 128) et blanchies à l'aide d'un modèle AR (1). Pour chaque sujet, un modèle statistique a été calculé en appliquant une fonction de réponse hémodynamique (FRC) canonique combinée à des dérivés de temps et de dispersion (Friston et al., 1998).

Notre conception factorielle 2 × 3 incluait des conditions d'intérêt 6 modélisées comme des régresseurs distincts: image familière avec probabilité de récompense 0, image familière avec probabilité de récompense 0.4, image familière avec probabilité de récompense 0.8, image de roman avec récompense -probabilité 0, nouvelle image avec probabilité de récompense 0.4, nouvelle image avec probabilité de récompense 0.8. La proximité temporelle des signaux prédictifs de récompense (image fractale) et du résultat de la récompense pose elle-même des problèmes pour la séparation des signaux BOLD issus de ces deux événements. Par conséquent, nous avons modélisé chaque essai comme un événement composé, en utilisant un mini-wagon couvert incluant la présentation du signal et du résultat. Cette limitation technique ne posait pas de problème pour notre analyse factorielle, qui portait principalement sur l’interaction entre le traitement de la nouveauté et le traitement des récompenses et la cooccurrence des effets de récompense et de nouveauté. Les essais d'erreur ont été modélisés comme un régresseur sans intérêt. Pour capturer les artefacts résiduels liés au mouvement, six covariables ont été incluses (les trois translation de corps rigide et les trois rotations résultant du réalignement) en tant que régresseurs sans intérêt. Les effets de conditions spécifiques à une région ont été testés en utilisant des contrastes linéaires pour chaque sujet et chaque condition (analyse de premier niveau). Les images de contraste résultantes ont été entrées dans une analyse à effets aléatoires de second niveau. Ici, les effets hémodynamiques de chaque condition ont été évalués à l'aide d'une analyse de variance 2 × 3 (ANOVA) avec les facteurs de «nouveauté» (nouveau, familier) et de probabilité de récompense (0, 0.4, 0.8).

Nous avons concentré notre analyse sur les régions d’intérêt anatomiquement définies de 3 (striatum, midbrain et hippocampus) dans lesquelles des interactions entre traitement de la nouveauté et du traitement des récompenses ont été émises sur la base d’études antérieures (Lisman et Grace, 2005; Wittmann et al., 2005; Bunzeck et Duzel, 2006). Par souci d'exhaustivité, nous rapportons également les résultats du cerveau entier dans le matériel supplémentaire. Les régions d’intérêt (ROI) du striatum et de l’hippocampe ont été définies à partir de la boîte à outils Pick Atlas (Maldjian et al., 2003; Maldjian et al., 2004). Alors que le retour sur investissement striatal incluait la tête du corps caudé, du corps caudé et du putamen, le retour sur investissement de l'hippocampe excluait l'amygdale et le cortex rhinal environnant. Enfin, la ROI du SN / VTA a été définie manuellement, à l’aide du logiciel MRIcro et de l’image moyenne MT du groupe. Sur les images MT, le SN / VTA peut être distingué des structures environnantes par une bande brillante (Bunzeck et Duzel, 2006). Il convient de noter que chez les primates, les neurones dopaminergiques sensibles à la récompense sont répartis dans le complexe SN / VTA et qu'il convient donc de considérer l'activation de l'ensemble du complexe SN / VTA plutôt que de se concentrer sur ses sous-compartiments (Duzel et al., 2009). Pour cela, une résolution de 3mm3, tel qu'utilisé dans la présente expérience, permet d'échantillonner des voxels 20-25 du complexe SN / VTA, dont le volume est de 350 à 400 mm3.

Résultats

Sur le plan comportemental, les sujets ont fait preuve d'une grande précision dans l'exécution de la tâche lors de la tâche de discrimination intérieur / extérieur (taux de réussite moyen 97.1%, SD = 2.8% pour les images familières; taux de réussite moyen 96.8%, SD = 2.1% pour les images originales; t15= 0.38, ns), ainsi que pour la discrimination gagnant / non gagnant au moment du résultat (taux de succès moyen 97.8%, SD = 2.3% pour les événements gagnants; taux de succès moyen 97.7%, SD = 2.2% pour les événements sans gain; t15= 0.03, ns). Les sujets ont plus rapidement distingué les statuts intérieurs et extérieurs des images familières par rapport aux images originales (temps de réaction moyen (RT) RT = 628.2 ms, SD = 77.3ms pour des images familières; RT moyen = 673.8 ms, SD = 111 ms pour des images originales; t15= 4.43, P = 0.0005). Il n'y avait pas de différence RT pour la discrimination gagnant / non gagnant au moment du résultat (moyenne RT = 542ms, SD = 82.2 ms pour les essais gagnants; moyenne RT = 551 ms, SD = 69 ms pour les essais sans gain; t15= 0.82, ns). De même, lors du conditionnement, il n'y avait pas de différence entre RT pour les différentes images fractales 3 (probabilité 0.8: RT = 370.1 ms, SD = 79 ms; probabilité 0.4: RT = 354.4, SD = 73.8ms; probabilité 0: RT = 372.2ms, SD = 79.3ms; F (1,12) = 0.045, ns). Cette dernière analyse RT exclut trois sujets en raison de problèmes techniques lors de l'acquisition de données.

Dans l'analyse des données IRMf, une ANOVA 2 × 3 avec facteurs de «nouveauté» (nouveauté, familière) et une probabilité de récompense (p = 0, p = 0.4, p = 0.8) ont montré un effet principal de nouveauté bilatéralement dans l'hippocampe (Figure 2A) et striatum droit, corrigé par FDR pour le volume de recherche des ROI. Un effet principal simple de la récompense ('p = 0.8> p = 0') a été observé dans le complexe SN / VTA gauche (Figure 2B) et dans le striatum bilatéral (Figure 2C). Voir Tableau 1 pour toutes les régions du cerveau activées.

Figure 2 

résultats IRMf
Tableau 1 

résultats IRMf

Nous n'avons pas observé d'interaction nouveauté × probabilité de récompense lors de la correction de plusieurs tests sur l'ensemble du volume de recherche de notre ROI. Cependant, lors d’une analyse post-hoc (test t) des trois voxels de pointe montrant un effet principal de la récompense sur le striatum, nous avons constaté des effets (orthogonaux) de la nouveauté et de son interaction avec la récompense: un voxel a également montré un effet principal de nouveauté et interaction nouveauté × récompense, alors qu'un autre voxel a également montré un effet principal de la nouveauté.

Comme représenté sur la figure 2C (milieu), dans le premier voxel ([8 10 0]; effet principal de la récompense F (2,30) = 8.12, P = 0.002; effet principal de la nouveauté F (1,15) = 7.03, P = 0.02; nouveauté × interaction de récompense F (2,30) = 3.29, P = 0.05) cet effet était motivé par des réponses BOLD plus élevées aux essais avec une probabilité de récompense de 0.4 et précédé d'une nouvelle image (test t post-hoc: t (15) = 3.48 , P = 0.003). Dans le second voxel (2C à droite) ([−10 14 2] effet principal de la récompense F (2,30) = 13.13, P <0.001; effet principal de la nouveauté F (1,15) = 9.19, P = 0.008; non interaction significative F (2,30) = 1.85, ns) les tests t post-hoc ont de nouveau démontré que l'effet principal de la nouveauté était motivé par des différences entre les images nouvelles et familières aux deux faibles probabilités de délivrance de récompense (t (15) = 2.79, P = 0.014; et t (15) = 2.19, P = 0.045, pour la probabilité p = 0 et p = 0.4, respectivement), (voir figure 2C). En revanche, le troisième voxel (2C ne laissait pas [−22 4 0] effet principal de récompense, F (2,30) = 9.1, P = 0.001) ni un effet principal de nouveauté (F (1,15) = 2.33, ns) ni un effet interaction (F (2,30) = 1.54, ns).

Dans le mésencéphale, le voxel avec des réponses maximales liées à la récompense ([−8 −14 −8], F (2,30) = 12.19, P <0.001), a également montré une tendance vers un effet principal de nouveauté (F (1,15 , 4.18) = 0.059, P = 2,30) en l'absence d'interaction significative (F (0.048) = XNUMX, ns).

a lieu

De nouvelles images de scènes ont amélioré les réponses aux récompenses striatales induites par des événements enrichissants ultérieurs et sans rapport (prédiction de signaux abstraits et de remise de récompenses). Comme prévu, de nouvelles images ont également activé l'hippocampe. À notre connaissance, ces résultats constituent la première preuve à l'appui d'une prédiction physiologique selon laquelle l'activation de l'hippocampe liée à la nouveauté devrait avoir un effet contextuellement meilleur sur le traitement des récompenses dans le striatum ventral (Lisman et Grace, 2005; Bunzeck et Duzel, 2006).

En raison des propriétés du signal BOLD, la proximité temporelle du signal prédictif de récompense et de la livraison du résultat a empêché une estimation des effets de la nouveauté sur ces événements séparément. Nous avons plutôt considéré la séquence résultat-résultat comme un événement composé et avons constaté que l’effet de la nouveauté sur le traitement de la récompense variait en fonction de la probabilité de réalisation de la récompense. Une amélioration a été observée uniquement lorsque la probabilité de récompense prévue était faible (0 ou 0.4) et était absente pour une probabilité de récompense élevée (0.8) (Figure 2C). Il est important de noter que ce schéma de résultats ne peut pas être expliqué par des effets indépendants de nouveauté et de récompense dans la même région. Les effets BOLD causés par deux populations neuronales fonctionnellement distinctes mais se chevauchant spatialement seraient additifs quelle que soit la probabilité de récompense et conduiraient donc à un effet de nouveauté également dans la condition de probabilité 0.8. Par conséquent, ces effets de la nouveauté dépendant de la probabilité sur le traitement de la récompense plaident contre la possibilité qu’ils reflètent une contamination par des réponses BOLD induites par de nouveaux stimuli. Les résultats indiquent plutôt que la nouveauté contextuelle a augmenté le traitement des récompenses en tant que tel, bien que dans la condition de faible probabilité.

Comme expliqué ci-dessus, nous n'avons pas pu distinguer les réponses BOLD entre anticipation de la récompense (indices) et remise de la récompense (résultats). La nouveauté peut avoir augmenté de manière sélective le traitement des résultats non enrichissants (pas de procès gagnant). Cela serait cohérent avec le fait que nous n'avons observé aucun effet de nouveauté significatif sur les essais avec une probabilité de récompense élevée, car 80% de ces essais ont abouti à une récompense. Alternativement, la nouveauté peut avoir influencé l'anticipation des récompenses pour les signaux prédictifs d'une remise de récompenses avec une probabilité faible (par exemple, 0 et 0.4). Dans les deux cas, la nouveauté contextuelle a amélioré la représentation cérébrale pour les événements objectivement moins enrichissants. De plus, il est peu probable que l'absence de modulation de la nouveauté des signaux de récompense dans la condition de probabilité élevée soit due à un effet de plafond dans le traitement de la récompense. Des travaux antérieurs ont montré que les réponses liées à la récompense dans le striatum humain sont mises à l'échelle de manière adaptative dans différents contextes, ce qui donne un signal indiquant si le résultat est favorable ou défavorable dans un contexte particulier (Nieuwenhuis et al 2004). On peut donc s’attendre à ce que les réponses aux récompenses soient également capables d’adapter un bonus de nouveauté dans des conditions de probabilité de récompense élevée.

Il est bien établi que le cerveau du primate apprend la valeur de différents stimuli associés à une récompense dans des expériences de conditionnement classiques, mesuré par une anticipation accrue du résultat (par exemple, une augmentation du léchage). Dans la présente expérience, nous avons mesuré les temps de réaction pendant la phase de conditionnement, mais nous n'avons pas trouvé de différences entre les différents niveaux de force des signaux prédictifs. Compte tenu de la simplicité de la tâche et de la vitesse à laquelle les sujets ont répondu (<375 ms pour toutes les conditions), cette absence de réponse différentielle peut être due à un effet plafond. Malgré l'absence de mesure comportementale objective pour le conditionnement, l'utilisation réussie de ce type d'indice dans les études précédentes (par ex. O'Doherty et al., 2003) suggère que les sujets ont encore formé une association entre les signaux et les différentes probabilités de distribution de récompense.

Dans des travaux antérieurs, les signaux de récompense dans le striatum ont été liés à diverses propriétés liées à la récompense chez l'homme et les primates non humains, y compris la probabilité (Preuschoff et al., 2006; Tobler et al., 2008), ordre de grandeur (Knutson et al., 2005), incertitude (Preuschoff et al., 2006) et la valeur d'action (Samejima et al., 2005). Cette diversité de variables liées à la récompense exprimées dans le striatum s’accorde bien avec son rôle d’interface limbique / sensorimotrice jouant un rôle essentiel dans l’organisation des comportements orientés vers les objectifs (Wickens et al., 2007). Le SN / VTA et le striatum, l’un des principaux sites de projection du système dopaminergique du cerveau moyen, répondent également à la récompense et récompensent les signaux prédictifs dans les paradigmes de conditionnement classiques (par exemple (Delgado et al., 2000; Knutson et al., 2000; Fiorillo et al., 2003; Knutson et al., 2005; Tobler et al., 2005; Wittmann et al., 2005; D'Ardenne et al., 2008). Selon plusieurs perspectives de calcul, la transmission de la dopamine provenant du SN / VTA enseigne au striatum la valeur des stimuli conditionnés via un signal d'erreur de prédiction (Schultz et al., 1997).

Bien que, dans les études sur le conditionnement classique, les représentations de récompense et de non-récompense exprimées dans le striatum n’aient pas toujours de conséquences comportementales évidentes (O'Doherty et al., 2003; den Ouden et al., 2009), les études IRMf ont systématiquement montré que les modifications de l’activité BOLD striatale étaient corrélées aux erreurs de prédiction liées aux options de choix de valeur caractérisées par des modèles informatiques adaptés aux données comportementales (O'Doherty et al., 2004; Pessiglione et al., 2006). Les représentations de valeur d'état non liées à une action peuvent être liées à des signaux de disponibilité de récompense traduits en réponses préparatoires, par exemple des effets d'approche ou de dynamisation tels que constatés dans le transfert pavlovien-instrumental (PIT) (Cardinal et al., 2002; Talmi et al., 2008). Nos données suggèrent que la nouveauté module de telles représentations de valeur d'état en augmentant l'espérance de récompense ou la réponse à des résultats non gratifiants. La conséquence de cette interaction entre nouveauté et récompense pourrait être la génération de réponses préparatoires non conditionnées. Dans le monde réel, de telles réponses conduiraient à une approche améliorée lorsque la nouveauté est identifiée avec un indice (Wittmann et al., 2008) ou une exploration aléatoire de l'environnement lorsque la nouveauté est détectée mais n'est pas associée à un indice spécifique, comme observé dans la littérature sur les animaux (Crochets et Kalivas, 1994). Ce point de vue est également cohérent avec les modèles de calcul influents (Kakade et Dayan, 2002).

L'hippocampe est une structure essentielle impliquée dans les réponses de récompense améliorées contextuellement dans le striatum. Comme dans les études précédentes (Tulving et al., 1996; Strange et al., 1999; Bunzeck et Duzel, 2006; Wittmann et al., 2007) nous montrons que la nouveauté contextuelle a activé l'hippocampe plus fortement que la familiarité. Compte tenu de ses fortes projections (indirectes) sur le SN / VTA, nous suggérons que cette structure soit la source probable d'un signal de nouveauté pour le système dopaminergique du cerveau moyen (Lisman et Grace, 2005; Bunzeck et Duzel, 2006). Le cerveau moyen dopaminergique reçoit également des données d’autres zones du cerveau, telles que le cortex préfrontal, qui auraient également pu lui transmettre des signaux de nouveauté (Fields et al., 2007). À la lumière des preuves dont nous disposons à ce jour, nous considérons toutefois l’hippocampe comme le candidat le plus susceptible de conduire à une désinhibition des neurones dopaminergiques du cerveau moyen reliée à la nouveauté qui expliquerait une amplification des signaux de récompense striatale dans le contexte de la nouveauté. D'autre part, la modération dépendante de la probabilité de l'effet de nouveauté contextuelle peut, à son tour, avoir son origine dans le cortex préfrontal (PFC). Des études physiologiques montrent que l’augmentation de l’entraînement des PFC vers les neurones SN / VTA améliore la modulation dopaminergique des régions de PFC uniquement, mais pas l’entrée dopaminergique dans le striatum ventral (Margolis et al., 2006). Par un tel mécanisme, les PFC pourraient réguler les effets contextuels dépendant de la probabilité de la nouveauté sur la SN / VTA et la représentation de la récompense striatale ventrale.

En conclusion, les résultats actuels démontrent que la nouveauté contextuelle augmente le traitement de la récompense dans le striatum en réponse à des signaux et des résultats sans rapport. Ces résultats sont compatibles avec les prédictions d’un modèle de voie polysynaptique (Lisman et Grace, 2005) dans laquelle les signaux de nouveauté de l'hippocampe fournissent un mécanisme de régulation contextuelle de l'attribution de la saillance à des événements indépendants.

Matériel complémentaire

Supp1

Remerciements

Ce travail a été financé par une subvention de projet Wellcome Trust (à ED et RJD 81259; www.wellcome.ac.uk; RD est soutenue par une subvention du programme Wellcome trust. MG est titulaire d'une bourse Marie Curie (www.mariecurie.org.uk). KES remercie le projet SystemsX.chh NEUROCHOICE.

Liste de référence

  • Aron AR, Shohamy D, Clark J, Myers C, Gluck MA et Poldrack RA. Sensibilité du cerveau moyen aux réactions cognitives et à l'incertitude lors de l'apprentissage de la classification. J Neurophysiol. 2004; 92: 1144 – 1152. [PubMed]
  • Berridge KC, Robinson TE. Récompense d'analyse. Tendances Neurosci. 2003; 26: 507 – 513. [PubMed]
  • Bunzeck N, Duzel E. Codage absolu de la nouveauté du stimulus dans la substance humaine nigra / VTA. Neurone. 2006; 51: 369 – 379. [PubMed]
  • Cardinal RN, Juge Parkinson, Hall J, Everitt BJ. Emotion et motivation: le rôle de l'amygdale, du striatum ventral et du cortex préfrontal. Neurosci Biobehav Rev. 2002; 26: 321 – 352. [PubMed]
  • D'Ardenne K, SM McClure, Nystrom LE, Cohen JD. Réponses BOLD reflétant les signaux dopaminergiques dans la région tégmentale ventrale humaine. Science. 2008; 319: 1264 – 1267. [PubMed]
  • Delgado MR, Nystrom LE, Fissell C, Noll DC, Fiez JA. Suivi des réponses hémodynamiques pour récompenser et punir le striatum. J Neurophysiol. 2000; 84: 3072 – 3077. [PubMed]
  • den Ouden HE, KJ Friston, ND ND, McIntosh AR, Stephan KE. Un double rôle pour l’erreur de prédiction dans l’apprentissage associatif. Cereb Cortex. 2009; 19: 1175 – 1185. [Article gratuit PMC] [PubMed]
  • Duzel E, Bunzeck N, Guitart-Masip M, Wittmann B, Schott BH, Tobler PN. Imagerie fonctionnelle du cerveau moyen dopaminergique humain. Tendances Neurosci. 2009 [PubMed]
  • Champs HL, GO Hjelmstad, EB Margolis, Nicola SM. Les neurones de la région tegmentale ventrale dans le comportement d'appétit appris et le renforcement positif. Annu Rev Neurosci. 2007; 30: 289 – 316. [PubMed]
  • Fiorillo CD, PN Tobler, Schultz W. Codage discret de la probabilité de récompense et de l’incertitude par les neurones dopaminergiques. Science. 2003; 299: 1898 – 1902. [PubMed]
  • Floresco SB, AR Ouest, B Ash, Moore H, Grace AA. La modulation afférente du tir de neurones dopaminergiques régule de manière différentielle la transmission tonique et phasique de la dopamine. Nat Neurosci. 2003; 6: 968 – 973. [PubMed]
  • Frank MJ, LC Seeberger, RC O'Reilly. À la carotte ou au bâton: apprentissage par renforcement cognitif dans le parkinsonisme. Science. 2004; 306: 1940 – 1943. [PubMed]
  • Friston KJ, Fletcher P, Josephs O, Holmes A, Rugg MD, Turner R. IRMf événementiel: caractérisation des réponses différentielles. Neuroimage. 1998; 7: 30 – 40. [PubMed]
  • Grace AA, Bunney BS. Electrophysiologie intracellulaire et extracellulaire des neurones dopaminergiques nigraux – 1. Identification et caractérisation. Neuroscience. 1983; 10: 301–315. [PubMed]
  • Crochets MS, Kalivas PW. Implication de la transmission de la dopamine et des acides aminés excitateurs dans l'activité motrice induite par la nouveauté. J Pharmacol Exp Ther. 1994; 269: 976 – 988. [PubMed]
  • Hutton C, A Bork, O Josephs, R Deichmann, J Ashburner, Turner R. Correction de distorsion de l'image dans IRMf: Une évaluation quantitative. Neuroimage. 2002; 16: 217 – 240. [PubMed]
  • Kakade S, Dayan P. Dopamine: généralisation et bonus. Neural Netw. 2002; 15: 549 – 559. [PubMed]
  • Knutson B, A Westdorp, Kaiser E, Hommer D. FMRI visualisation de l'activité cérébrale au cours d'une tâche de délai d'incitation monétaire. Neuroimage. 2000; 12: 20 – 27. [PubMed]
  • Knutson B, J Taylor, Kaufman M, R Peterson et Glover G. Représentation neuronale distribuée de la valeur attendue. J Neurosci. 2005; 25: 4806 – 4812. [PubMed]
  • Lisman JE, Grace AA. La boucle hippocampal-VTA: contrôle l’entrée des informations dans la mémoire à long terme. Neurone. 2005; 46: 703 – 713. [PubMed]
  • Ljungberg T, Apicella P, Schultz W. Réponses de neurones dopaminergiques de singe lors de l'apprentissage de réactions comportementales. J Neurophysiol. 1992; 67: 145 – 163. [PubMed]
  • Juge Maldjian, PJ Laurienti, Burdette JH. Différence de gyrus précentral dans les versions électroniques de l’atlas de Talairach. Neuroimage. 2004; 21: 450 – 455. [PubMed]
  • Juge Maldjian, JJ Laurienti, RA Kraft, JH Burdette Une méthode automatisée pour l’interrogation d’ensembles de données IRMf par atlas neuroanatomique et cytoarchitectonique. Neuroimage. 2003; 19: 1233 – 1239. [PubMed]
  • Margolis EB, serrure H, Chefer VI, TS de Shippenberg, GO de Hjelmstad, champs HL. Les opioïdes Kappa contrôlent sélectivement les neurones dopaminergiques se projetant dans le cortex préfrontal. Proc Natl Acad Sci US A. 2006; 103: 2938 – 2942. [Article gratuit PMC] [PubMed]
  • O'Doherty J, Dayan P, J Schultz, R Deichmann, K Friston, Dolan RJ. Rôles dissociables du striatum ventral et dorsal dans le conditionnement instrumental. Science. 2004; 304: 452 – 454. [PubMed]
  • O'Doherty JP, Dayan P, K Friston, H Critchley, RJ Dolan. Modèles de différences temporelles et apprentissage lié aux récompenses dans le cerveau humain. Neurone. 2003; 38: 329 – 337. [PubMed]
  • Pessiglione M, Seymour B, Flandin G, Dolan RJ, Frith CD. Les erreurs de prédiction liées à la dopamine sous-tendent le comportement de recherche de récompense chez les humains. La nature. 2006; 442: 1042 – 1045. [Article gratuit PMC] [PubMed]
  • Preuschoff K, Bossaerts P, Quartz SR. Différenciation neuronale de la récompense et du risque attendus dans les structures sous-corticales humaines. Neurone. 2006; 51: 381 – 390. [PubMed]
  • Samejima K, Y Ueda, Doya K, Kimura M. Représentation des valeurs de récompense spécifiques à l'action dans le striatum. Science. 2005; 310: 1337 – 1340. [PubMed]
  • Schultz W, Dayan P, PR de Montague. Un substrat neural de prédiction et de récompense. Science. 1997; 275: 1593 – 1599. [PubMed]
  • Etrange BA, PC Fletcher, RN Henson, KJ Friston, RJ Dolan. Séparer les fonctions de l'hippocampe humain. Proc Natl Acad Sci US A. 1999; 96: 4034 – 4039. [Article gratuit PMC] [PubMed]
  • Talmi D, Seymour B, Dayan P, Dolan RJ. Transfert pavlovien-instrumental humain. J Neurosci. 2008; 28: 360 – 368. [Article gratuit PMC] [PubMed]
  • Tobler PN, CD Fiorillo, Schultz W. Codage adaptatif de la valeur de la récompense par les neurones dopaminergiques. Science. 2005; 307: 1642 – 1645. [PubMed]
  • PN Tobler, Christopoulos GI, JP O'Doherty, RJ Dolan, Schultz W. Distorsions neuronales de la probabilité de récompense sans choix. J Neurosci. 2008; 28: 11703 – 11711. [Article gratuit PMC] [PubMed]
  • Tulving E, Markowitsch HJ, Craik FE, Habib R, Houle S. Activations de nouveauté et de familiarité dans les études PET du codage et de la récupération de la mémoire. Cereb Cortex. 1996; 6: 71 – 79. [PubMed]
  • Weiskopf N, Helms G. Cartographie multi-paramètres du cerveau humain à la résolution 1mm en moins de 20 minutes; ISMRM 16; Toronto, Canada. 2008.
  • Weiskopf N, C Hutton, O Josephs, R. Deichmann. Paramètres EPI optimaux pour la réduction des pertes de sensibilité BOLD induites par la susceptibilité: une analyse du cerveau complet chez 3 T et 1.5 T. Neuroimage. 2006; 33: 493 – 504. [PubMed]
  • Wickens JR, JC Horvitz, Costa RM, Killcross S. Mécanismes dopaminergiques dans les actions et les habitudes. J Neurosci. 2007; 27: 8181 – 8183. [PubMed]
  • Wittmann BC, Bunzeck N, Dolan RJ, Duzel E. L'anticipation de la nouveauté recrute le système de récompense et l'hippocampe tout en favorisant le souvenir. Neuroimage. 2007; 38: 194 – 202. [Article gratuit PMC] [PubMed]
  • Wittmann BC, Daw ND, Seymour B, Dolan RJ. L'activité striatale est à la base du choix fondé sur la nouveauté chez l'homme. Neurone. 2008; 58: 967 – 973. [Article gratuit PMC] [PubMed]
  • Wittmann BC, Schott BH, Guderian S, JU Frey, Heinze HJ, Duzel E. L'activation FMRI du cerveau moyen dopaminergique liée à la récompense est associée à une formation accrue de la mémoire à long terme dépendante de l'hippocampe. Neurone. 2005; 45: 459 – 467. [PubMed]