La prévisibilité module la réponse du cerveau humain à la récompense (2001)

COMMENTAIRES: Des récompenses imprévisibles conduisent à des pics de dopamine plus importants. C’est ce qui différencie le porno haute vitesse sur Internet du porno du passé
 
J Neurosci. 2001 Apr 15;21(8):2793-8.
 

Identifier

Département de psychiatrie et de sciences du comportement, École de médecine de l'Université Emory, Atlanta, Géorgie 30322, États-Unis. [email protected]

Abstract

Certaines classes de stimuli, tels que les aliments et les drogues, sont très efficaces pour activer les régions de récompense. Nous montrons chez l'homme que l'activité dans ces régions peut être modulée par la prévisibilité de la délivrance séquencée de deux stimuli modérément agréables, du jus de fruit délivré par voie orale et de l'eau. En utilisant l’imagerie par résonance magnétique fonctionnelle, l’activité de stimulation des stimuli dans le noyau accumbens et dans le cortex orbitofrontal médial était maximale lorsque les stimuli étaient imprévisibles. De plus, la préférence déclarée des sujets pour le jus ou l'eau n'était pas directement corrélée avec l'activité dans les régions de récompense, mais était plutôt corrélée avec l'activité dans le cortex sensori-moteur. Pour des stimuli agréables, ces résultats suggèrent que la prévisibilité module la réponse des régions de récompense humaines et que la préférence subjective peut être dissociée de cette réponse.

Introduction

La recherche de récompenses naturelles telles que la nourriture, les boissons et le sexe est une influence externe majeure sur le comportement humain. Néanmoins, la question de savoir comment les récompenses affectent le comportement humain reste en grande partie non résolue. De nombreux facteurs contribuent à cette lacune dans nos connaissances. Cependant, l'un des obstacles a été la difficulté de définir et de mesurer les effets isolés de récompenses sur le comportement humain ou l'activation du cerveau. Chez l'animal, la récompense est définie comme un concept opérationnel: un stimulus est considéré comme une récompense s'il renforce positivement un comportement (Coque, 1943; Rescorla et Wagner, 1972; Robbins et Everitt, 1996), c'est-à-dire augmente de manière fiable la probabilité du comportement. Le même concept s'applique aux humains; cependant, les humains ont la capacité d'exercer toutes sortes de contrôle exécutif sur leurs actions, et ainsi les tests comportementaux seuls sont un moyen incomplet de sonder le traitement des récompenses. De même, les rapports explicites de goûts et de dégoûts, c'est-à-dire les préférences, sont confondus par la perception subjective d'un individu de ce qu'il aime et de ce qu'il choisit de signaler. Pour surmonter ces difficultés expérimentales, on aimerait surveiller simultanément le rendement comportemental, la préférence subjective et la réponse cérébrale au cours d'une tâche bien définie. En adoptant une telle approche, nous rapportons ici que l'activité dans les régions de récompense humaine est plus étroitement corrélée avec la prévisibilité d'une séquence de stimuli agréables qu'avec les préférences explicitement énoncées.

Chez l’homme, l’activation des zones de récompense peut être visualisée à l’aide de l’imagerie par résonance magnétique fonctionnelle (IRMf) après l’administration de médicaments tels que la cocaïne (Breiter et al., 1997) Cependant, de telles perfusions peuvent ne pas être représentatives du traitement normal des récompenses en raison des effets pharmacologiques directs et indirects de la cocaïne. En outre, des drogues telles que la cocaïne peuvent agir sur différentes parties du système de récompense que les soi-disant récompenses naturelles telles que la nourriture et l’eau (Bradberry et al., 2000; Carelli et al., 2000). Les récompenses conditionnées, telles que l’argent, peuvent également agir sur différentes parties du système de récompense (Thut et al., 1997; Elliott et al., 2000; Knutson et al., 2000) et peuvent ne pas constituer une sonde appropriée des circuits de récompense primaires chez l’homme. Des expériences suggèrent une approche alternative qui démontre que la prévisibilité d’un stimulus principalement gratifiant est un paramètre critique pour l’activation des voies de récompense (Schultz et al., 1992, 1997; Schultz, 1998; Garris et al., 1999). Les enregistrements physiologiques chez les primates non humains ont démontré que les neurones situés dans des régions telles que la zone tégmentale ventrale (VTA), le noyau accumbens et le striatum ventral réagissent de manière adaptative à des stimuli valorisants tels que le jus de fruit ou l’eau (Shidara et al., 1998). Ainsi, la prévisibilité d'une séquence de stimuli peut elle-même recruter des structures neuronales liées à la récompense d'une manière détectable avec l'IRMf. De plus, les modèles théoriques de libération de dopamine suggèrent que des récompenses imprévisibles devraient susciter une plus grande activité dans ces régions (Schultz et al., 1997). Nous avons cherché à tester cette hypothèse en utilisant l'IRMf pour mesurer l'effet de la prévisibilité sur les réponses du cerveau humain à des séquences de stimuli agréables et ponctués.

Matériels et méthodes

Sujets. Vingt-cinq adultes normaux ont subi un examen IRMf alors qu’on leur administrait de petites quantités de jus de fruits par voie orale ou d’eau. Les sujets avaient un âge compris entre 18 et 43, et tous les sujets ont donné leur consentement éclairé à un protocole approuvé par le comité des enquêtes sur l’homme de l’Université Emory.

Tâche expérimentale. Dans le scanner, les sujets ont reçu de petites quantités de jus de fruits et d’eau livrés par voie orale de manière prévisible ou imprévisible. Nous avons choisi une distribution séquencée de jus de fruits et d’eau pour trois raisons: (1), l’homme trouve que le jus et l’eau sont subjectivement agréables; (2) les deux stimuli sont couramment utilisés comme stimuli de renforcement lors de l’entraînement de primates non humains sur des tâches comportementales; et (3) les neurones dopaminergiques du cerveau moyen, et vraisemblablement les neurones sur lesquels ils se projettent, montrent des modifications phasiques du rythme de déclenchement en fonction de la prédictabilité temporelle des stimuli séquentiels (Schultz et al., 1992). Les participants ont reçu à la fois le jus et l’eau de manière prévisible ou imprévisible au cours de deux analyses (Fig. 1). Pendant l'exécution prévisible, les bolus de jus et d'eau ont été alternés à un intervalle fixe de 10 sec. Au cours de l'analyse imprévisible, l'ordre des sucs et de l'eau a été randomisé, et l'intervalle de stimulus a également été randomisé en échantillonnant une distribution d'intervalle de Poisson avec une moyenne de 10 sec. Chaque analyse durait au minimum 5, et l'ordre des deux analyses (prévisible ou imprévisible) était randomisé entre les sujets. Comme le temps d'adaptation à la prévisibilité ou à l'imprévisibilité était inconnu et que la commutation fréquente de conditions pouvait provoquer une interaction, c'est-à-dire la «prévisibilité de la prévisibilité», nous avons choisi de séparer les conditions d'une analyse à l'autre plutôt que d'utiliser des blocs de condition plus petits. dans les analyses. Parce que tous les aspects de l'expérience reposaient sur la manipulation de la prévisibilité, nous avons choisi de ne pas répéter les conditions au sein des sujets mais plutôt d'étudier un plus grand nombre de sujets.

Figue. 1.  

Conception de l'expérience IRMf. Un plan factoriel 2 × 2 a été utilisé, avec des facteurs de préférence (jus ou eau) et de prévisibilité (prévisibles ou imprévisibles). Les sujets ont reçu des bolus de jus et d’eau 0.8 ml selon une séquence prévisible ou imprévisible. En utilisant l'IRMf événementielle, l'activation du cerveau a été analysée en termes de préférences et de prévisibilité, ainsi que leurs interactions.

Les sujets ont reçu des bolus oraux 0.8 ml de jus de fruits et d’eau via deux tubes en plastique. Un embout buccal maintenait les extrémités du tube en place sur la langue, le jus de fruit infusé du côté gauche de l'embout buccal et l'eau provenant du côté droit. Les tubes avaient une longueur de 10 m et étaient connectés à une pompe à double seringue commandée par ordinateur (Harvard Apparatus, Holliston, MA) située à l'extérieur de la salle de numérisation. Les sujets n’ont effectué aucune autre tâche au cours de la numérisation et ont reçu pour instruction de simplement avaler le liquide chaque fois qu’il était administré. Après la session de numérisation, les sujets ont été débriefés pour déterminer leurs préférences en matière de fluidité.

Acquisition de données IRM. La numérisation a été effectuée sur un scanner 1.5 Tesla Philips NT. Après l'acquisition d'un scanner anatomique haute résolution pondéré T1, les sujets ont subi chacun deux analyses fonctionnelles du cerveau entier de 150 (imagerie écho-planaire, écho avec rappel de gradient; temps de répétition, 2000 msec; temps d'écho, 40 msec; angle de retournement, 90 °; matrice 64 × 64, tranches axiales 24 5 mm acquises parallèlement à la ligne commissurale antéropostérieure) pour la mesure de l’effet dépendant du taux d’oxygénation du sang (BOLD) (Kwong et al., 1992; Ogawa et al., 1992). Le mouvement de la tête était minimisé par le rembourrage et les contraintes.

Analyse. Les données ont été analysées à l’aide de la méthode statistique de cartographie paramétrique (SPM99; Département Wellcome de neurologie cognitive, Londres, Royaume-Uni) (Friston et al., 1995b). La correction de mouvement du premier scan fonctionnel a été effectuée chez les sujets en utilisant une transformation de corps rigide à six paramètres. Parce que la déglutition provoque inévitablement un mouvement important de la tête, les paramètres de correction de mouvement ont également été utilisés pour déterminer si le mouvement de la tête différait de manière significative entre les conditions. La moyenne des images corrigées en mouvement a ensuite été co-enregistrée dans l'IRM structurelle à 24 coupes de l'individu en utilisant une transformation affine à 12 paramètres. Les images ont ensuite été normalisées spatialement au modèle de l'Institut neurologique de Montréal (INM) (Talairach et Tournoux, 1988) en appliquant une transformation affine de paramètre 12, suivie d'un gauchissement non linéaire à l'aide de fonctions de base (Ashburner et Friston, 1999). Les images ont ensuite été lissées avec un noyau gaussien isotrope 8 mm et filtrées par passe-bande dans le domaine temporel. Une analyse statistique liée aux événements et aux effets aléatoires a été réalisée avec SPM99 (Friston et al., 1995a, 1999). L'expérience a été analysée sous la forme d'un plan factoriel 2 × 2. Tout d'abord, un modèle linéaire général (GLM) distinct a été spécifié pour chaque sujet, avec quatre conditions représentant les quatre types d'événements possibles: fluide prévisible – préféré, prévisible – fluide non préféré, imprévisible – préféré fluide et imprévisible – fluide non préféré. Quatre vecteurs de fonctions delta avec des temps correspondant à chaque événement ont été créés pour chacune des quatre conditions. Celles-ci ont été convolutées avec une fonction de réponse hémodynamique générique et entrées dans une matrice de conception à quatre colonnes. La moyenne de chaque analyse a été éliminée voxelwise. Nous avons calculé trois images de contraste bilatérales correspondant aux principaux effets de préférence [vecteur de contraste (1-11-1)], de prévisibilité [vecteur de contraste (11-1-1)] et du terme d'interaction [vecteur de contraste (1 -1-11)]. L'interaction décrit comment la prévisibilité module l'effet de la préférence. Ces images de contraste individuelles ont été entrées dans une analyse de second niveau, en utilisant un échantillon séparé à un échantillon. t test (df = 24) pour chaque côté de chaque terme du GLM (six contrastes au total). Nous avons seuil ces cartes statistiques sommaires à p <0.001 (non corrigé pour les comparaisons multiples). Ces cartes ont été superposées sur une image structurelle à haute résolution en orientation MNI.

Modèle théorique. En tant qu’outil pour concevoir et interpréter l’expérience IRMf, nous avons utilisé un modèle de réseau de neurones de libération de dopamine existant pour simuler la réponse cérébrale à différents modèles temporels de stimuli gratifiants (Fig.2). Ce modèle s’appuie sur la méthode des différences temporelles (TD), qui postule qu’une substance se renforçant de façon synaptique, par exemple la dopamine, est libérée en réponse à des erreurs de prédiction de récompense (Schultz et al., 1997). Ce modèle a été utilisé dans une grande variété d’applications, y compris des tâches d’apprentissage complexes telles que le backgammon (Sutton, 1988; Tesauro et Sejnowski, 1989), ainsi que pour prédire avec succès l'activité des neurones dopaminergiques dans de nombreux paradigmes de conditionnement (Houk et al., 1995; Montague et al., 1995) et les tâches de séquencement moteur (Berns et Sejnowski, 1998).

Figue. 2.  

Modèle de réseau neuronal de l'expérience et des régions du cerveau associées au traitement de l'information. ALe diagramme indique notre hypothèse sur la manière dont la séquence de stimuli pourrait influencer le rendement dopaminergique. Dans cette hypothèse, nous avons indiqué que des modifications du débit dopaminergique pourraient influencer les structures neuronales cibles de manière détectable dans une mesure IRM en IRMf. On montre que le jus et l’eau ont les deux sensitifs (projection du temps finiboîte de fenêtre) et récompense (le r voies) dans leur influence sur l’activité dopaminergique. Pour générer une réponse hémodynamique attendue à partir de cette hypothèse, nous avons créé une fenêtre temporelle finie (petites boîtes pour le jus et l'eau), qui a déterminé la valeur de la récompense immédiater(t) (1 en cas de présence de jus, 0.5 en cas d’eau et 0 en l’absence de stimulus). Cette manœuvre a arbitrairement fixé le jus à deux fois la valeur de l'eau. Ce n'est pas important pour l'attente principale générée par le modèle.B, Effet dopaminergique prévu pour des séquences prévisibles et imprévisibles de la distribution de jus et d’eau. Axe horizontal est le numéro de scan. Axe vertical est la réponse hémodynamique attendue prédite par un modèle de différence temporelle. L'échelle sur le axe vertical est arbitraire. Le point important à noter est que l'exécution prévisible progresse vers 0, tandis que l'exécution imprévisible reste de grande amplitude. Les traces ont été générées en convertissant un noyau de réponse hémodynamique en sortie d'un modèle de différence temporelle. Cela suggère que la réponse BOLD moyenne serait plus grande lorsque les stimuli étaient imprévisibles.

En bref, l'apprentissage de la TD repose sur deux hypothèses principales. Premièrement, une adaptation à court terme dans un circuit neuronal donné a pour objectif de prédire une somme actualisée de toutes les récompenses futures. La définition d'une récompense dépend du contexte dans lequel elle est reçue. Si une récompense putative augmente la survenue d'un comportement particulier, elle est alors considérée comme un renforcement positif. En fonction de l'état interne de l'animal, la même récompense peut ne pas renforcer un comportement, par exemple lorsque l'animal est rassasié. Dans le contexte d'une expérience IRMf, qui n'est généralement pas naturelle, une substance appétitive familière telle que l'eau ou le jus de fruit est subjectivement ressentie comme étant agréable et donc enrichissante. Deuxièmement, les prévisions de récompense dépendent uniquement de la représentation actuelle d'un ensemble de stimulus. La représentation du stimulus est quelque peu arbitraire dans le modèle et elle inclut une certaine représentation dans le temps, c'est-à-dire une trace de stimulus. Pour des substances telles que l'eau ou le jus de fruit, il existe à la fois des dimensions sensorielles (par exemple, la température et une sensation tactile sur la langue) et la récompense réelle, qui est subjectivement ressentie comme un plaisir. Par conséquent, il est raisonnable de considérer les dimensions tactiles de la distribution de fluide à la fois neutres et distinctes de la dimension enrichissante. De même, ces dimensions distinctes sont supposées être traitées par différents circuits cérébraux, qui peuvent être visualisés avec l'IRMf. Pour cartographier la sortie du modèle sur une dimension analogue à la mesure obtenue avec l'IRMf, nous avons résumé les sorties des voies neutre et de la voie de la récompense, supposées converger dans le striatum ventral et le noyau accumbens. Nous reconnaissons qu’il n’existe aucune preuve directe à ce sujet et que, en fonction du récepteur spécifique, la dopamine peut avoir des effets variables sur l’activité neuronale. Le modèle expérimental exact a été entré dans le modèle, qui a été simulé avec Matlab 5.3 (MathWorks, Natick, MA). Les sorties correspondant aux neurones dopaminaux putatifs et à leurs sites de projection ont été calculées pour les analyses prévisibles et imprévisibles (Fig. 2).

Nous devons faire attention aux lecteurs que notre utilisation du modèle de différence temporelle pour expliquer notre conception et l'interprétation suivante (ci-dessous) est basée sur son succès antérieur à décrire les modifications de la production de pics dans les neurones dopaminergiques chez les primates soumis à des tâches comportementales connexes. Il existe d'autres descriptions informatiques plausibles qui pourraient également suffire.

RÉSULTATS

Après les balayages, les sujets ont été interrogés sur leur préférence pour les deux stimuli. Dix-huit des sujets 25 (72%) ont préféré le jus, les autres ont préféré de l'eau. La plupart des sujets avaient une préférence marquée pour l'un ou l'autre, bien que nous ne leur avons pas demandé de le quantifier. Bien qu'il y ait eu un mouvement important de la tête au cours des balayages, toutes les translations et les rotations autour de chaque stimulus étaient généralement petites et ne différaient pas significativement d'une condition à l'autre. Par exemple, la translation moyenne ± écart type associée à chaque stimulus était 0.041 ± 0.069 mm dans l’état prévisible et 0.044 ± 0.069 mm dans l’état imprévisible (apparié t tester;p = 0.853).

La réponse cérébrale au fluide préféré a montré étonnamment peu d’activité différentielle par rapport au fluide non préféré (Tableau1). Nous n'avons observé aucune différence d'activité significative dans les régions de récompense classiques telles que le noyau accumbens, l'hippocampe ou le cortex préfrontal médian. Le changement d'activité principal pour préféré> non préféré s'est produit dans le cortex somatosensoriel dans une zone proche de la région de la bouche et de la langue (t = 4.19, coordonnées MNI, −60, −12, 16).

Tableau 1.  

Régions cérébrales présentant des modifications significatives de l’activité mesurée (p <0.001 non corrigé; taille de cluster> 10 voxels, sauf indication contraire)

L’effet principal de la prévisibilité était sensiblement supérieur à celui de la préférence (Fig. 3). Pour le parcours imprévisible par rapport au parcours prévisible, une activation bilatérale a été observée dans une grande étendue de cortex orbitofrontal médial comprenant le noyau accumbens (Tableau 1). Des zones supplémentaires d'activation comprenaient une large zone de cortex pariétal bilatéral et paracentral et de petites activations focales dans le noyau médiodorsal gauche du thalamus et le cervelet droit. Comme aucune de ces régions ne chevauchait l'effet principal de la préférence, elles étaient activées au maximum par des stimuli imprévisibles, quelle que soit leur préférence. Pour le parcours prévisible par rapport au parcours imprévisible, une zone du gyrus temporal supérieur droit a été activée, ainsi que des activations focales dans le gyrus précentral gauche et le cortex orbitofrontal latéral droit.

Figue. 3.  

L’effet principal de la prévisibilité a montré que les régions liées aux récompenses présentaient une plus grande réponse BOLD aux stimuli imprévisibles. A, Les plans centrés sur (0, 4, −4) montrent que le noyau bilatéral accumbens / striatum ventral (CNA) et le cortex pariétal supérieur bilatéral étaient plus actifs dans l’état prévisible. B, Une petite région dans le gyrus temporal supérieur droit était relativement plus activée par les stimuli prévisibles. L’importance a été seuil àp <0.001 et une étendue> 10 voxels contigus.

L'interaction entre la préférence et la prévisibilité a identifié des zones dans lesquelles un effet modulait l'autre indépendamment des deux effets principaux. L'insula droite, le cingulaire postérieur gauche et le cervelet droit ont montré une interaction significative pour le contraste (préféré - non préféré) × (prévisible - imprévisible). Le contraste opposé, (préféré – non préféré) × (imprévisible – prévisible), n’a révélé aucune activation significative à la p <0.001 niveau; cependant, une petite région dans le gyrus temporal supérieur gauche (coordonnées MNI, -48, -4, -16) était significative au p <0.01 niveau (t = 3.15).

La simulation informatique a suggéré que des récompenses imprévisibles devraient provoquer plus de libération de dopamine que celles prévisibles (Fig.2 B). Lorsque les avantages sont prévisibles, chaque stimulus prédit parfaitement le suivant, et le signal d'erreur, supposé être médié par la dopamine, diminue progressivement. Lorsque les récompenses sont imprévisibles, le système n'a aucune possibilité d'apprendre et la réponse à chaque stimulus est meilleure.

DISCUSSION

Nos résultats ont démontré une séparation intéressante de la réponse du cerveau à la prévisibilité et aux rapports subjectifs de préférence. La réponse cérébrale à la préférence était exclusivement corticale, mais la réponse à la prévisibilité montrait l'activation spécifique de systèmes de récompense également connus pour être la cible des neurones dopaminergiques du cerveau moyen. Si nous supposons que l'activation de ces zones de récompense est agréable pour l'homme, cette découverte suggère que le rapport de préférence subjectif peut être dissocié des circuits neuronaux connus pour être de puissants déterminants des comportements conditionnés.

L'eau et le jus de fruit ont provoqué des activations significatives dans tout le cerveau et, bien qu'une partie de cette réponse soit imputable aux aspects moteurs de la tâche, des sous-ensembles spécifiques de ces régions ont été décomposés en dimensions de préférence et de prévisibilité. L'effet de préférence était limité aux régions corticales associées au traitement sensoriel et le stimulus préféré entraînait une plus grande activation dans ces régions. Ces régions se trouvent près du cortex sensorimoteur connu pour être activé lors des mouvements de la langue (Corfield et al., 1999) et avaler (Hamdy et al., 1999). Dans des travaux antérieurs sur la réponse du cerveau au mouvement de la langue, il y avait une activation substantielle du cervelet, une découverte notablement absente dans l'effet principal de la préférence. La réponse cérébrale différentielle, c'est-à-dire préférée – non préférée, supprime les régions d'activation communes; par conséquent, l'absence d'activation cérébelleuse suggère que les mouvements différentiels de la langue ne seraient probablement pas la cause du modèle d'activation corticale par préférence subjective. Le fait qu'une région somatosensorielle soit corrélée à une préférence déclarée suggère que des traitements neuronaux différentiels ont eu lieu pour les deux stimuli. Il était surprenant que cela se manifeste dans une zone de traitement sensoriel primaire et non dans les zones de récompense classiques. Bien que les sujets aient été forcés de désigner une substance plutôt que l’autre comme leur préférence, les deux fluides ont été choisis à dessein pour être agréables, à la différence d’un seul liquide aversif. Les deux fluides étant généralement agréables, l'effet de préférence n'a peut-être pas été suffisamment puissant pour entraîner une différence d'activité significative dans les régions de récompense. Cela concorderait avec les conclusions selon lesquelles les neurones dopaminergiques du cerveau moyen sont activés préférentiellement par des stimuli appétitifs plutôt que par aversifs (Mirenowicz et Schultz, 1996). Néanmoins, nos résultats suggèrent une différenciation systémique de la préférence subjective de la simple récompense, ce qui corrobore les hypothèses précédentes selon lesquelles «vouloir» n’est pas la même chose que «aimer» (Robinson et Berridge, 1993).

Contrairement à l'effet de préférence, l'imprévisibilité était corrélée en tant qu'effet principal significatif avec l'activité du noyau accumbens, du thalamus et du cortex orbitofrontal médial, alors que la prévisibilité était principalement liée à l’activité dans le gyrus temporal supérieur droit. Les anciennes régions correspondent étroitement aux sites de projection de la dopamine connus (Koob, 1992; Cooper et al., 1996). Il était quelque peu surprenant que l'imprévisibilité, et non la préférence, soit corrélée à l'activité dans ces zones de récompense. Si une activité accrue dans ces régions était associée au plaisir, on pourrait alors en conclure que des récompenses imprévisibles étaient plus agréables que des avantages prévisibles. Cependant, la plupart des sujets n'ont pas discerné de différence entre les conditions prévisibles et imprévisibles. Si les récompenses imprévisibles étaient plus agréables que les récompenses prévisibles, ou inversement, cela devait alors se produire à un niveau subconscient. Une autre explication présume que la dopamine est libérée en quantités accrues pour des récompenses inattendues (Montague et al., 1996; Schultz et al., 1997;Schultz, 1998). La dopamine peut diminuer l’excitabilité neuronale (Cooper et al., 1996) et peut également contraindre directement la microvascularisation (Krimer et al., 1998), mais l’activité accrue d’accumbens a également été associée au plaisir subjectif de la cocaïne (Breiter et al., 1997). Ces résultats suggèrent que l'augmentation observée de l'activation avec imprévisibilité pourrait être liée à l'augmentation des rejets de dopamine, soit parce qu'accumbens se projette vers la VTA, soit parce qu'elle reçoit une projection de la VTA, l'une ou l'autre étant compatible avec les résultats du modèle. Cette interprétation devrait être tempérée par deux faits importants: (1), les mécanismes qui coupleraient une transmission dopaminergique accrue aux modifications du signal BOLD sont inconnus et (2), nous n’avons aucune mesure indépendante de la transmission dopaminergique, mais uniquement des modifications de la réponse BOLD. La possibilité d'observer des modifications indirectes de l'activité dopaminergique est excitante mais ne peut être décidée de manière non équivoque dans le cadre d'une expérience IRMf. Cependant, la tomographie par émission de positons révèle que la dopamine est libérée dans le striatum ventral dans des conditions d’incitation monétaire (cela est en accord avec les découvertes antérieures).Koepp et al., 1998). Couplé à l’effet amplificateur de l’imprévisibilité, il est également compatible avec les effets supposés de la dopamine sur le «gain» neuronal (Cohen et Servan-Schreiber, 1992), avec pour résultat final que certaines régions augmenteront et d’autres diminueront.

Les régions spécifiques activées relativement par l'imprévisibilité correspondaient aux régions du cerveau associées aux fonctions d'appétit. En plus du noyau accumbens, le cortex orbitofrontal médial a montré un effet principal sur l'imprévisibilité. Chez les primates, on a montré que cette région intégrait à la fois les aspects enrichissants et neutres des sensations gustatives et reflétait principalement les valeurs de motivation de ces stimuli (Rouleaux, 2000). Cette région contient également des neurones qui discriminent la préférence relative pour la récompense (Tremblay et Schultz, 1999). Le cortex orbitofrontal est généralement difficile à numériser avec une IRMf en raison de l’artefact de susceptibilité des sinus nasaux (Ojemann et al., 1997). Cependant, la région que nous avons identifiée est généralement supérieure et caudale à l'emplacement habituel de l'artefact. Cette région a déjà été jugée sensible aux goûts agréables (Francis et al., 1999). Une deuxième région, dans le lobe pariétal supérieur, n'était probablement pas liée aux aspects enrichissants de la tâche, mais plutôt au résultat de changements d'attention. Cette région était auparavant impliquée dans l’attention visuospatiale, en particulier lors de violations des attentes (Nobre et al., 1999). Une autre région, dans le cortex temporal gauche, présentait une modulation significative par imprévisibilité. Dans des expériences récentes en IRMf, le lobe temporal gauche a été associé au traitement de la prévisibilité des stimuli séquentiels (Bischoff-Grethe et al., 2000). Ici, nous étendons ces découvertes précédentes des stimuli neutres aux stimuli agréables, suggérant que cette région peut effectuer une surveillance générique de la prévisibilité indépendamment de la valence du stimulus.

Les régions du cerveau que nous avons identifiées comme répondant à l'imprévisibilité de manière directe ou modulatrice ont été impliquées dans un certain nombre d'expériences sur la récompense financière. L'argent peut être enrichissant pour les humains, mais il ne se renforce que parce qu'il a acquis ces propriétés grâce à un conditionnement complexe. Semblable à la conclusion selon laquelle la cocaïne agit sur des neurones différents des renforçateurs naturels (Carelli et al., 2000), il est possible que des renforçateurs conditionnés, tels que l’argent, agissent sur des systèmes neuronaux différents des renforçateurs naturels tels que la nourriture et l’eau. L’activité dans le striatum ventral et le mésencéphale a été corrélée à des niveaux absolus de récompense financière (Thut et al., 1997;Delgado et al., 2000; Elliott et al., 2000; Knutson et al., 2000), une constatation notamment absente de nos résultats. Comme indiqué précédemment, le jus et l’eau étaient légèrement agréables. Par conséquent, il n’ya peut-être pas eu de différence substantielle en termes de récompense absolue, bien que nous ayons supposé une légère différence dans le modèle théorique. De plus, nous n’avons utilisé aucun stimulus aversif ni quoi que ce soit qui pourrait être interprété comme une récompense négative, ce qui pourrait également expliquer cette différence. Fait intéressant, les régions que nous avons identifiées comme étant directement affectées ou amplifiées par l’imprévisibilité correspondaient aux régions précédemment jugées sensibles à la dépendance du gain financier par rapport au contexte (Rogers et al., 1999; Elliott et al., 2000). En particulier, le thalamus sous-génital et le thalamus médial étaient corrélés à l'imprévisibilité dans notre étude et se sont révélés être dépendants du contexte par Elliott et al. (2000).

Comme la prévisibilité modulait l'effet de la préférence, il est important de distinguer les sources potentielles de prédiction. Dans une expérience de conditionnement classique, un stimulus neutre précède la récompense. Après l'entraînement, le stimulus précédemment neutre devient le prédicteur, ou stimulus conditionné. Comme il existe relativement peu de données sur l’utilisation des stimuli oraux en IRMf, nous avons choisi de simplifier l’expérience et de contrôler les aspects moteurs de la tâche en utilisant deux stimuli oraux différents, l’eau et le jus de fruit. Ainsi, la source de prédiction dans notre expérience provenait nécessairement de la séquence des stimuli eux-mêmes. À certains égards, cela est plus simple que d’introduire une autre modalité de stimulus, telle qu’un signal visuel, mais étant donné que les deux stimuli étaient enrichissants, nous ne pouvons tirer aucune conclusion en ce qui concerne le processus de conditionnement. Le modèle théorique (Schultz et al., 1997) et des données neurophysiologiques (Schultz et al., 1992, 1993) suggèrent que les prévisions de récompense sont calculées pendant l’intervalle précédant la distribution de la récompense. Parce que nous ne connaissons pas l’échelle de temps sur laquelle ces prédictions sont calculées, nous avons choisi d’analyser l’expérience comme simplement deux conditions, prévisibles et imprévisibles. En maintenant un intervalle psychologiquement raisonnable entre les stimuli, 10 sec, le temps était insuffisant pour résoudre les différences de traitement de l'interstimulus. On peut supposer qu'un tel traitement a effectivement lieu et qu'il pourrait être résolu avec une expérience conçue différemment.

En résumé, l'activité dans les régions de récompenses humaines peut être modulée par la prévisibilité temporelle des récompenses primaires telles que l'eau et les jus. Ces résultats apportent un soutien important aux modèles informatiques qui postulent que les erreurs de prévision des récompenses peuvent conduire à la modification synaptique et étendre ces conclusions des primates non humains à l'homme. La spécificité régionale de cette modulation suggère également que les informations, telles qu'incarnées par la prévisibilité relative d'un flux de stimulation, peuvent être une forme de monnaie neuronale pouvant être détectée avec l'IRMf.

Notes

    • Reçu Novembre 11, 2000.
    • Révision reçue Janvier 17, 2001.
    • Acceptée Janvier 26, 2001.
  • Ce travail a été soutenu par K08 DA00367 (à GSB) et RO1 DA11723 (à PRM), l’Alliance nationale pour la recherche sur la schizophrénie et la dépression (GSB) et la Kane Family Foundation (PRM). Nous remercions H. Mao, R. King et M. Martin pour leur aide dans la collecte de données.

    La correspondance peut être adressée à Gregory S. Berns, département de psychiatrie et de sciences du comportement, faculté de médecine de l'Université Emory, 1639 Pierce Drive, suite 4000, Atlanta, GA 30322, adresse électronique:[email protected], ou P. Read Montague, Division des neurosciences, Collège de médecine Baylor, 1 Baylor Plaza, Houston, TX 77030, Courriel:[email protected].

Articles citant cet article