Apprentissage guidé par récompense au-delà de la dopamine dans le noyau accumbens: fonctions intégratives des réseaux de ganglions cortico-basaux (2008)

Eur J Neurosci. 2008 Oct;28(8):1437-48. doi: 10.1111/j.1460-9568.2008.06422.x.

Yin HH1, Ostlund SB, Balleine BW.

Abstract

Nous contestons ici le point de vue selon lequel l’apprentissage guidé par récompense est uniquement contrôlé par la voie mésoaccumbens issue des neurones dopaminergiques situés dans la région tegmentale ventrale et faisant saillie vers le noyau accumbens. Ce point de vue largement accepté suppose que la récompense est un concept monolithique, mais des travaux récents ont suggéré le contraire. Il semble maintenant que, dans l’apprentissage guidé par des récompenses, les fonctions du striata ventral et dorsal, ainsi que celles des circuits des ganglions cortico-basaux qui leur sont associés, puissent être dissociées. Alors que le noyau accumbens est nécessaire à l'acquisition et à l'expression de certaines réponses pavloviennes appétitives et contribue au contrôle motivationnel de la performance instrumentale, le striatum dorsal est nécessaire à l'acquisition et à l'expression d'actions instrumentales. Ces résultats suggèrent l'existence de plusieurs systèmes fonctionnels indépendants mais en interaction qui sont implémentés dans des réseaux de ganglions cortico-basaux itératifs et organisés hiérarchiquement, engagés dans des comportements appétitifs allant des réponses d'approche pavlovienne aux actions instrumentales dirigées par des objectifs contrôlées par des contingences d'action-résultat.

Mots clés: striatum, dopamine, ganglions de la base, apprentissage, noyau accumbens, récompense

Il est devenu courant dans la littérature récente de trouver un concept monolithique de "récompense" appliqué uniformément au comportement appétitif, qu'il s'agisse de désigner tout ce qui est bon pour l'organisme (généralement du point de vue de l'expérimentateur), ou utilisé indifféremment avec des termes plus anciens tels que «renforcement» ou «incitation». Cet état de fait est encouragé par, voire lui-même, la conséquence de la focalisation sur un substrat neuronal unique pour la «récompense» impliquant la libération de dopamine (DA) dans le noyau accumbens (Berke et Hyman, 2000; Grace et al., 2007).

Le lien entre la voie mésoaccumbens et la récompense, reconnu il y a plusieurs décennies, a été revigoré par des preuves plus récentes selon lesquelles le signal DA phasique code une erreur de prédiction de récompense, qui sert vraisemblablement de signal d'apprentissage dans l'apprentissage associatif.g (Schultz et al., 1997). Selon l'interprétation la plus répandue, tout comme il n'y a qu'un seul signal de récompense, il en est de même pour un apprentissage guidé par une récompense, ce qui signifie dans ce cas l'association entre un stimulus et une récompense (Montague et al., 2004). La question de savoir comment ce type d'apprentissage contrôle le comportement adaptatif a toutefois été négligée; il est simplement supposé que le signal de la dopamine est suffisant à la fois pour l'apprentissage prédictif et les réponses conditionnelles ainsi engendrées, ainsi que pour les actions orientées vers les objectifs guidées par leur association à la récompense. Par conséquent, la plupart des recherches dans le domaine de la récompense et de la toxicomanie sont axées sur la signalisation par les DA et la plasticité associée dans la voie mésoaccumbens (Berridge et Robinson, 1998; Hyman et al., 2006; Grace et al., 2007).

Cette vision du processus de récompense, comme cela est de plus en plus reconnu (Cardinal et al., 2002; Balleine, 2005; Everitt et Robbins, 2005; Hyman et al., 2006), est à la fois inadéquat et trompeur. Il est inadéquat car ni l'acquisition ni la réalisation d'actions orientées vers un objectif ne peuvent être expliquées en termes de processus associatifs menant à un apprentissage stimulus-récompense.. De plus, il est trompeur parce que la focalisation exclusive sur l'activité dans la voie mésoaccumbens, qui n'est ni nécessaire ni suffisante pour des actions orientées vers un objectif, a détourné l'attention de la question plus fondamentale de savoir exactement ce que sont les actions orientées vers un objectif et comment elles sont mises en œuvre. par le cerveau. En effet, selon des données convergentes issues de diverses approches expérimentales, ce qui semblait auparavant être un mécanisme de récompense unique peut en réalité comprendre plusieurs processus ayant des effets comportementaux et des substrats neuronaux distincts (Corbit et al., 2001; O'Doherty et al., 2004; Yin et al., 2004; Delgado et al., 2005; Yin et al., 2005b; Haruno et Kawato, 2006a; Tobler et al., 2006; Jedynak et al., 2007; Robinson et al., 2007; Tobler et al., 2007).

Nous essayons ici d’exposer certains des problèmes associés au modèle actuel de mésoaccumbens et de proposer, à sa place, un modèle différent d’apprentissage guidé par récompense. Nous soutiendrons que le striatum est une structure très hétérogène qui peut être divisée en au moins quatre domaines fonctionnels, dont chacun agit comme un hub dans un réseau fonctionnel distinct avec d'autres composants corticaux, thalamiques, pallidaux et du cerveau moyen.. Les fonctions intégratives de ces réseaux, allant de la production de réponses inconditionnelles suscitées par la récompense au contrôle d’actions dirigées vers un objectif, peuvent être dissociées et étudiées à l’aide d’essais comportementaux contemporains.

Prédiction et contrôle

On suppose souvent que la voie mésoaccumbens est nécessaire à l’acquisition d’une association entre la récompense et les stimuli environnementaux prédictifs de cette récompense. Par exemple, dans certaines des expériences examinant l’activité phasique de cellules DA induites par récompense, des singes ont été entraînés à associer un stimulus à la délivrance de jus (Waelti et al., 2001) et ensuite répondre au stimulus avec une réponse conditionnelle (CR) - léchage anticipé. Le léchage du singe pourrait être dirigé vers un but, car il croit qu'il est nécessaire d'obtenir du jus. Alternativement, le léchage peut être provoqué par le stimulus antécédent auquel le jus est associé. Lequel de ces déterminants du léchage des singes contrôle le comportement dans une situation particulière n'est pas connu a prioriet ne peut être déterminé par une observation superficielle; il ne peut être déterminé qu'à l'aide de tests conçus spécifiquement à cet effet. Ces tests, qui ont pris plusieurs décennies à se développer, sont au cœur des principales avancées modernes dans l’étude de l’apprentissage et du comportement (Tableau 1). Grâce à l'utilisation de ces tests, comme nous le verrons plus loin, nous savons maintenant que la même réponse comportementale - approche ambulatoire, orientation ou action d'un levier - peut résulter d'influences multiples, dissociables expérimentalement.

Tableau 1  

Apprentissage guidé par récompense

L'insensibilité à l'ambiguïté centrale des déterminants réels du comportement est donc le principal problème de l'analyse neuroscientifique actuelle de l'apprentissage guidé par la récompense. TPour comprendre l’importance de ce problème, il est nécessaire d’apprécier les différences entre la manière dont l’apprentissage prédictif (ou pavlovien) et le comportement d’apprentissage contrôlé par l’apprentissage dirigé (ou instrumental). En fait, à en juger par la fréquence à laquelle ces deux processus ont été confondus dans la littérature sur les récompenses, un bref examen de cette distinction semble être un point de départ utile pour notre discussion.

Dans le conditionnement appétitif pavlovien, la récompense (c'est-à-dire le stimulus inconditionnel ou US) est associée à un stimulus (stimulus conditionnel ou CS), quel que soit le comportement de l'animal, alors que dans l'apprentissage intellectuel, la récompense dépend des actions de l'animal. La question cruciale dans les deux situations est toutefois de savoir si l’association stimulus-récompense ou l’action action-récompense contrôle le comportement.

Aussi simple que cela puisse paraître, cette question a échappé aux enquêteurs pendant plusieurs décennies, en grande partie parce que les réponses comportementales dans ces situations peuvent sembler identiques.

Ainsi, les réponses conditionnelles (CR) contrôlées par l'association pavlovienne stimulus-récompense peuvent souvent avoir un effet de placage axé sur les objectifs. Même la salivation, le RC d'origine de Pavlov, aurait pu être produite par ses chiens comme une tentative délibérée de faciliter l'ingestion. C’est précisément à cause de cette ambiguïté que l’explication la plus évidente - à savoir que l’on apprend dans le conditionnement de Pavlovian l’association résultat-stimulus, alors que dans le conditionnement instrumental l’apprentissage entre association action-résultat - n’a pas recueilli beaucoup de soutien pendant de nombreuses décennies (Skinner, 1938; Ashby, 1960; Bolles, 1972; Mackintosh, 1974). Néanmoins, bien que de nombreux CR pavloviens soient autonomes ou consommateurs, d’autres, tels que le comportement d’approche en vue d’une récompense, ne sont pas caractérisés de manière aussi commode (Rescorla et Solomon, 1967) En effet, ils peuvent facilement être confondus avec des actions instrumentales (Brown et Jenkins, 1968; Williams et Williams, 1969; Schwartz et Gamzu, 1977). Nous savons maintenant que, malgré une ressemblance superficielle, les RC pavloviennes et les actions instrumentales dirigées vers un objectif diffèrent par la structure de représentation contrôlant la performance de la réponse (Schwartz et Gamzu, 1977).

Le moyen le plus direct de déterminer si la performance d'une réponse est médiatisée par une association stimulus-récompense ou action-récompense consiste à examiner la performance de contrôle de contingence spécifique. L'exemple de la salivation est instructif ici. Sheffield (1965) testé si la salivation dans le conditionnement pavlovien était contrôlée par sa relation de récompense ou par l'association stimulus-récompense. Dans son expérience, les chiens ont reçu des combinaisons entre un ton et une récompense alimentaire (Sheffield, 1965). Cependant, si les chiens ont salivé pendant la sonnerie, la nourriture n’a pas été livrée lors de cet essai. Cet arrangement maintenait une relation pavlovienne entre le ton et la nourriture, mais supprimait toute association directe entre la salivation et la distribution de nourriture. Si la salivation était une action contrôlée par son rapport à la nourriture, les chiens devraient cesser de saliver - en fait, ils ne devraient jamais acquérir la salivation jusqu'au ton. Sheffield a découvert que c’était clairement la relation tonalité-pavlovienne qui contrôlait la RC de salivation. Au cours de plusieurs couplages tonus / nourriture 800, les chiens ont acquis et maintenu une salivation tonale même si cela leur a fait perdre la plus grande partie de la nourriture qu'ils auraient pu obtenir en ne salivant pas. Des conclusions similaires ont été obtenues par des études chez l'homme (Pithers, 1985) et d'autres animaux (Brown et Jenkins, 1968; Williams et Williams, 1969; Holland, 1979); dans tous les cas, il semble que, malgré leur grande variété, les réponses pavloviennes ne sont pas contrôlées par leur relation à la récompense, c'est-à-dire par la contingence action-résultat.

Le terme contingence fait référence à la relation conditionnelle entre un événement 'A' et un autre, 'B', de telle sorte que l'apparition de B dépend de A. Une telle relation peut facilement être dégradée en présentant B en l'absence de A. Ceci La manipulation expérimentale, appelée dégradation de contingence, est généralement effectuée en présentant une récompense indépendamment du stimulus prédictif ou de l'action. Bien que cette approche ait été initialement développée pour étudier le conditionnement de Pavlovian (Rescorla, 1968), la dégradation des contingences instrumentales est également devenue un outil commun (Hammond, 1980). Lorsque ces contingences sont directement manipulées, le contenu de l’apprentissage est révélé: par exemple, dans un codage automatique, un CR pavlovien «déguisé» en action instrumentale est perturbé par les manipulations du pavlovien plutôt que par la contingence instrumentale (Schwartz et Gamzu, 1977).

Les actions instrumentales dirigées vers un objectif sont caractérisées par deux critères: 1) sensibilité aux variations de la valeur du résultat et 2) sensibilité aux modifications de la contingence entre action et résultat. (Dickinson, 1985; Dickinson et Balleine, 1993). La sensibilité à la seule dévaluation des résultats, il convient de le souligner, ne suffit pas à caractériser une réponse comme étant orientée vers un objectif, car certaines réponses pavloviennes peuvent également être sensibles à cette manipulation (Holland et Rescorla, 1975). Cependant, la performance des actions instrumentales dirigées vers un objectif est également sensible aux manipulations de la contingence action-résultat, alors que les réponses pavloviennes sont sensibles aux manipulations de la contingence stimulation-résultat (Rescorla, 1968; Davis et Bitterman, 1971; Dickinson et Charnock, 1985). Une exception importante, cependant, peut être trouvée dans le cas des habitudes (voir ci-dessous), qui sont plus similaires aux réponses pavloviennes en ce qui concerne leur insensibilité relative aux changements de la contingence instrumentale, mais sont également insensibles à la dévaluation du résultat parce que le résultat ne fait pas partie de la structure de représentation contrôlant la performance (cf. Dickinson, 1985 et ci-dessous pour une discussion plus approfondie).

Pour résumer, il est donc de la plus haute importance qu’une réponse particulière soit clairement définie en termes de contingence de contrôle plutôt que par le formulaire de réponse ou la tâche comportementale utilisée pour l’établir. Sans examiner la contingence de contrôle dans une situation donnée, le comportement et les processus neuronaux impliqués dans la médiation du comportement risquent d'être mal interprétés. En fin de compte, comme nous le verrons, ce sont les contingences de contrôle réelles, acquises par l'apprentissage et mises en œuvre par des systèmes neuronaux distincts, qui contrôlent le comportement, même s'ils peuvent partager le même «chemin commun final». Le principal défi consiste donc à aller au-delà des apparences pour découvrir le comportement sous-jacent du contrôle des imprévus (pour un résumé, voir Tableau 1). Pour pouvoir affirmer que des structures neuronales spécifiques sous-tendent des capacités psychologiques spécifiques, telles que l'orientation vers un objectif, l'état du comportement doit être évalué à l'aide des tests comportementaux appropriés. Faire autrement, c'est créer de la confusion lorsque les groupes discutent des déterminants neuronaux appropriés tout en ne reconnaissant pas que leurs tâches comportementales pourraient mesurer différents phénomènes. Ce qui compte en fin de compte, c’est ce que l’animal apprend réellement, et non ce que l’expérimentateur croit que l’animal apprend, et ce que l’animal apprend réellement ne peut être révélé que par des essais qui sonderont directement le contenu de l’apprentissage.

La distinction pavlovienne-instrumentale aurait été triviale si l'animal avait réussi à apprendre la même chose (par exemple, une association entre le stimulus et la récompense), quelles que soient les dispositions expérimentales. À l’aide des mesures d’apprentissage les plus courantes disponibles actuellement en neuroscience, il n’ya tout simplement aucun moyen de le savoir. Ainsi, les chercheurs prétendent souvent étudier le comportement orienté vers un objectif sans vérifier si le comportement en question est réellement orienté vers l'objectif. Bien que l’on suppose généralement que différents types d’apprentissage résultent de l’utilisation de «tâches» ou de «paradigmes» différents, le plus souvent, les chercheurs échouent à justifier leurs hypothèses.

L'utilisation de labyrinthes pour étudier l'apprentissage est un exemple classique de ce problème. Un problème avec les expériences de labyrinthe et les analyses associées, comme la préférence de lieu conditionnée, est la difficulté de dissocier expérimentalement l’influence des contingences de Pavlovian (stimulus-récompense) et instrumentales (action-récompense) sur le comportement (Dickinson, 1994; Yin et Knowlton, 2002). Ainsi, passer à travers un labyrinthe en T pour obtenir de la nourriture pourrait refléter une stratégie de réponse (tournez à gauche) ou simplement une approche conditionnée à l’égard d’un repère de labyrinthe supplémentaire contrôlé par l’association cue-food (Restle, 1957). Une façon de vérifier si ce dernier joue un rôle dans les performances est d’inverser le labyrinthe; Maintenant, les apprenants de réponse devraient continuer à tourner à gauche, tandis que ceux utilisant des signaux extra-labyrinthe devraient tourner à droite. Mais ceux qui continuent à tourner à gauche utilisent-ils vraiment une stratégie de réponse ou s’approchent-ils de certains intra-la queue de labyrinthe associée à la nourriture? Ce n’est pas une mince affaire à découvrir, car les contrôles habituels du contrôle pavlovien du comportement ne peuvent pas être facilement appliqués dans les études sur les labyrinthes. L'un d'entre eux, le contrôle bidirectionnel, établit que les animaux peuvent exercer un contrôle sur une réponse particulière en exigeant l'inversion du sens de cette réponse pour gagner une récompense (Hershberger, 1986; Heyes et Dawson, 1990). Malheureusement, dans un labyrinthe, le renversement de la réponse peut toujours ne pas suffire pour établir une action dirigée vers un objectif, car ce renversement peut être accompli en éteignant la relation stimulus-récompense existante et en la remplaçant par une autre. Par exemple, un rat s'approchant d'un signal intra-labyrinthe particulier peut apprendre, lors d'un retournement, qu'il n'est plus associé à une récompense, mais qu'un autre stimulus est en train de créer une approche CR vers le nouveau stimulus. Ainsi, ils peuvent apparemment inverser leur réponse sans avoir jamais encodé la contingence réponse-récompense. Comme cette possibilité ne peut pas être testée dans la pratique, l’utilisation de labyrinthes, de procédures de préférence préférentielles ou de tâches locomotrices simples pour étudier les processus d’apprentissage dirigés vers un objectif est particulièrement périlleuse et risque d’entraîner une mauvaise description des processus contrôlant le comportement, ainsi que le rôle spécifique de tout neuronal. processus trouvés impliqués (Smith-Roe et Kelley, 2000; Hernandez et al., 2002; Atallah et al., 2007).

Le noyau accumbens n'est pas nécessaire pour l'apprentissage instrumental

Les insuffisances de l'analyse comportementale actuelle deviennent particulièrement évidentes dans l'étude du noyau accumbens. De nombreuses études ont suggéré que cette structure est essentielle pour l’acquisition d’actions ciblées. (Hernandez et al., 2002; Goto et Grace, 2005; Hernandez et al., 2005; Pothuizen et al., 2005; Taha et les champs, 2006; Atallah et al., 2007; Cheer et al., 2007; Lerchner et al., 2007). Mais cette conclusion a été tirée en grande partie par les mesures d’un changement de performance, en utilisant des tâches dans lesquelles le comportement de contrôle des imprévus est ambigu. Bien que l'observation qu'une manipulation altère l'acquisition de certaines réponses comportementales puisse indiquer un déficit d'apprentissage, elles pourraient également refléter un effet sur le déclenchement de la réponse ou sa motivation. Par exemple, une déficience dans l’acquisition du levier d’appui peut souvent refléter un effet sur les performances plutôt que sur l’apprentissage (Smith-Roe et Kelley, 2000). Les courbes d’acquisition seules, en tant que représentations incomplètes de tout processus d’apprentissage, doivent être interprétées avec prudence (Gallistel et al., 2004). Malheureusement, la distinction entre apprentissage et performance, peut-être la plus ancienne leçon de l'étude de l'apprentissage, est souvent ignorée de nos jours.

Une analyse plus détaillée indique que l'accumbens n'est ni nécessaire ni suffisant pour l'apprentissage instrumental. Les lésions de la coquille d 'accumbens ne modifient pas la sensibilité de la performance à la dévaluation du résultat (de Borchgrave et al, 2002; Corbit et al, 2001) ou à une dégradation de contingence instrumentale (Corbit et al, 2001), alors que des lésions du noyau d’accumbens réduisent la sensibilité à la dévaluation sans nuire à la sensibilité des rats à la dégradation sélective de la contingence instrumentale (Corbit et al., 2001). D’autres études évaluant l’effet des manipulations d’accumbens sur l’acquisition d’une nouvelle réponse dans des études sur le renforcement conditionnel ont toujours montré un effet sur la performance liée aux récompenses, en particulier l’amélioration de la performance par l’amphétamine, mais pas sur l’acquisition de la réponse en tant que telle (Parkinson et al, 1999). De même, une étude systématique menée par Cardinal et Cheung n'a également révélé aucun effet des lésions du noyau accumbens sur l'acquisition d'une réponse de la presse à levier avec un programme de renforcement continu; L’acquisition avec facultés affaiblies n’a été observée que lorsque le renforcement était retardé (Cardinal et Cheung, 2005).

Bien que les accumbens n'encodent pas la contingence instrumentale (Balleine & Killcross, 1994; Corbit, Muir et Balleine, 2001), de nombreuses preuves suggèrent qu’elle joue un rôle fondamental dans la performant, un rôle que nous pouvons maintenant mieux définir à la lumière des travaux récents. Comme le concluent plusieurs études, l'accumbens est essentiel pour certains types de conditionnements pavloviens appétitifs et permet de médiatiser à la fois les effets excitateurs non spécifiques que des indices associés à la récompense peuvent avoir sur la performance instrumentale, ainsi que les biais spécifiques à la sélection des réponses produits. par de tels signaux. Les lésions du noyau ou du cingulaire antérieur, source majeure d’apport cortical au noyau, ou une déconnexion entre ces deux structures, altèrent l’acquisition du comportement d’approche de Pavlovian (Parkinson et al., 2000). La perfusion locale d'un antagoniste des récepteurs de la dopamine ou de D1 ou d'un antagoniste des récepteurs du glutamate de NMDA immédiatement après l'entraînement a également nui à cette forme d'apprentissage sans nuire aux performances (Dalley et al., 2005). Ces données concordent avec les mesures de in vivo activité neuronale. Par exemple, Carelli et ses collègues ont constaté que les neurones du noyau d’accumbens peuvent changer systématiquement d’activité au cours de l’apprentissage d’une tâche d’autoshaping de Pavlovian (Day et al., 2006; Day et Carelli, 2007).

Les neurones de la région de la coquille semblent être à l’écoute des récompenses et des stimuli aversifs, même avant toute expérience d’apprentissage; ils sont également capables de développer des réponses aux CS qui prédisent ces résultats (Roitman et al., 2005). Les travaux de Berridge et de ses collègues ont d'ailleurs a évoqué la possibilité que certaines régions du noyau accumbens et du pallidum ventral en aval puissent être qualifiées de «points chauds hédoniques». Ces zones modulent directement les réponses hédoniques inconditionnelles aux récompenses, telles que la réactivité gustative. Par exemple, les agonistes des récepteurs opioïdes dans ces régions peuvent considérablement amplifier la réactivité du goût ingéré au saccharose. Toutefois, ces régions très localisées sont intégrées à des réseaux plus larges qui ne jouent pas un rôle dans le comportement consommé d'appétit (Taha et les champs, 2005; Pecina et al., 2006; Taha et les champs, 2006).

La distinction dans les rôles relatifs de noyau et de coque semble être une distinction entre les comportements d'appétit préparatoire et de consommation, respectivement, qui peuvent être facilement modifiés par l'expérience à travers différents types de conditionnement de Pavlovian. Les réponses préparatoires telles que l'approche sont liées aux qualités émotionnelles générales du résultat, alors que les comportements de consommation sont liés à des qualités sensorielles plus spécifiques; ils sont également très sensibles aux différents types de CS, par exemple les réponses préparatoires sont plus facilement conditionnées avec un stimulus de longue durée (Konorski, 1967; Dickinson et Dearing, 1979; Balleine, 2001; Dickinson et Balleine, 2002).

En tout état de cause, la preuve impliquant les accumbens dans certains aspects du conditionnement pavlovien est accablante. Ce n’est cependant pas la seule structure impliquée, et d’autres réseaux, tels que ceux impliquant les divers noyaux amygdaloïdes, semblent également jouer un rôle central dans les composantes préparatoire et consommatrice de la procédure pavlovienne. (Balleine et Killcross, 2006).

Une fonction qui peut clairement être attribuée aux accumbens est l’intégration des influences pavloviennes sur le comportement instrumental. Les RC pavloviennes, y compris celles qui reflètent l'activation d'états de motivation centraux, tels que l'état de manque et l'excitation, peuvent exercer une forte influence sur la performance des actions instrumentales (Trapold et Overmier, 1972; Lovibond, 1983; Hollande, 2004). Par exemple, un SC qui prédit de manière indépendante la distribution de nourriture peut augmenter la réponse instrumentale pour le même aliment. Cet effet est couramment étudié à l'aide du paradigme de transfert pavlovien-instrumental (PIT). Dans le PIT, les animaux reçoivent des phases d’entraînement pavloviennes et instrumentales distinctes, dans lesquelles ils apprennent, de manière indépendante, à associer une queue à un aliment et à appuyer sur un levier pour obtenir le même aliment. Ensuite, lors des essais avec sonde, le signal est présenté avec le levier disponible, et l’élévation des taux de réponse en présence du CS est mesurée. Deux formes d'IRP ont été identifiées. l'un lié à l'effet généralement stimulant des indices liés à la récompense et un deuxième effet plus sélectif sur la performance de choix produite par le statut prédictif d'un indice par rapport à une récompense spécifique par rapport aux autres. La coquille accumbens est nécessaire pour cette dernière forme d’IPP, mais elle n’est pas nécessaire non plus pour la première, plus générale, ni pour la sensibilité à la dévaluation des résultats; en revanche, les lésions du noyau accumbens réduisent la sensibilité à la fois à la dévaluation du résultat et à la forme générale de l'IRP, tout en laissant intact l'IRP spécifique au résultat (Corbit et al., 2001, (Balleine et Corbit, 2005).

Une étude récente a permis de mieux comprendre le rôle de la coquille d’accumbens dans l’IRP axé sur les résultats (Wiltgen et al., 2007). L'expression contrôlée de la protéine kinase II (CaMKII) dépendante du calcium / de la calmoduline dans le striatum n'affectait pas l'apprentissage instrumental ou pavlovien, mais supprimait l'IRP spécifique. Ce déficit en PIT n'était pas permanent et pouvait être inversé en désactivant l'expression du transgène avec la doxycycline, démontrant ainsi qu'il n'était associé qu'à la performance. Améliorer artificiellement le niveau de CaMKII dans le striatum bloque donc le transfert de la motivation d’incitation spécifique du résultat du système de Pavlovien au système instrumental. Il est intéressant de noter que l’activation du transgène CaMKII réduit également l’excitabilité des neurones de la coquille d’accumbens, sans affecter la transmission basale ou la force synaptique.

Le striatum dorsal

Le striatum dorsal, également appelé néostriatum ou caudé-putamen, reçoit des projections massives du soi-disant néocortex. Il peut être divisé en une région associative plus médiane et continue avec le striatum ventral chez les rongeurs et une région sensorimotrice plus latérale. (Groenewegen et al., 1990; Joel et Weiner, 1994). Dans l’ensemble, le striatum dorsal est innervé par les cellules DA de la substance noire nigra pars compacta (SNc) et ne reçoit que de maigres projections des neurones VTA DA. (Joel et Weiner, 2000). Les travaux antérieurs sur le striatum dorsal ont principalement porté sur son rôle dans l’apprentissage des habitudes de stimulation-réponse (RS) (SR) (Miller, 1981; Blanc, 1989). Ce point de vue est basé sur la loi d’effet, selon laquelle une récompense agit pour renforcer, ou renforcer, une association SR entre les stimuli environnementaux et la réponse effectuée, de sorte que la tendance à la réaliser augmente en présence de ceux-ci. stimuli (Thorndike, 1911; Coque, 1943; Miller, 1981). On pense donc que la voie corticostriatale est un médiateur de l’apprentissage du RS, le DA jouant le rôle de signal de renforcement (Miller, 1981; Reynolds et Wickens, 2002).

Les modèles de RS ont l'avantage de contenir une règle parcimonieuse pour traduire l'apprentissage en performance. En revanche, un modèle basé sur des attentes liées à l’action est plus complexe, car la conviction «L’action A conduit au résultat O» ne doit pas nécessairement être traduite en action (Guthrie, 1935; Mackintosh, 1974) Les informations de ce type peuvent être utilisées à la fois pour effectuer le "A" et pour éviter de réaliser le "A". Pour cette raison, les théories traditionnelles ont échappé à l'explication la plus évidente, à savoir que les animaux peuvent acquérir une contingence action-résultat qui guide le comportement de choix. Cependant, au cours des dernières décennies, le droit de l’effet a été considérablement révisé (Adams, 1982; Colwill et Rescorla, 1986; Dickinson, 1994; Dickinson et al., 1996). TLes résultats de nombreuses études ont démontré que les actions instrumentales peuvent être véritablement orientées vers un objectif, c’est-à-dire sensibles aux changements de la valeur de la récompense ainsi qu’à l’efficacité causale de l’action. (voir Dickinson et Balleine, 1994; 2002; Balleine, 2001 pour les revues). Néanmoins, au cours d’un entraînement intensif dans des conditions constantes, même les actions nouvellement acquises peuvent devenir relativement automatiques et pilotées par un stimulus - un processus connu sous le nom de formation d’habitude (Adams et Dickinson, 1981; Adams, 1982; Yin et al., 2004). Les habitudes ainsi définies, étant automatiquement provoquées par des stimuli antécédents, ne sont pas contrôlées par l'attente ou la représentation du résultat; ils sont par conséquent insensibles aux modifications de la valeur des résultats. De ce point de vue, la loi d’effet est donc un cas particulier qui ne s’applique qu’aux comportements habituels.

La classification actuelle du comportement instrumental le divise en deux classes. TLa première classe comprend les actions dirigées par un objectif et contrôlées par la contingence instrumentale; le second, le comportement habituel insensible aux changements de valeur de résultat (Tableau 1). En utilisant des tests comportementaux tels que la dévaluation du résultat et la dégradation de la contingence instrumentale, Yin et al. Ont établi une dissociation fonctionnelle entre les régions sensorimotrices (striatum dorsolatéral, DLS) et associatives (striatum dorsomédial, DMS) du striatum dorsal (Yin et Knowlton, 2004; Yin et al., 2004, 2005; Yin et al., 2005b; Yin et al., 2006a). Les lésions du DLS ont nui au développement des habitudes, ce qui a permis de mettre en place un mode de contrôle du comportement plus ciblé. Les lésions du DMS ont l'effet inverse et entraînent le passage du contrôle dirigé vers l'objectif au contrôle habituel. Yin et al. Ont donc conclu que le DLS et le DMS peuvent être dissociés fonctionnellement en termes de type de structures associatives qu’ils supportent: le DLS est essentiel à la formation des habitudes, tandis que le DMS est essentiel à l’acquisition et à l’expression d’actions dirigées vers un objectif. Cette analyse prédit que, dans certaines conditions (par exemple, une formation prolongée), le contrôle des actions peut passer du système dépendant du DMS au système dépendant du DLS, conclusion qui est en accord avec la littérature abondante sur les primates, y compris la neuroimagerie humaine (Hikosaka et al., 1989; Jueptner et al., 1997a; Miyachi et al., 1997; Miyachi et al., 2002; Delgado et al., 2004; Haruno et al., 2004; Tricomi et al., 2004; Delgado et al., 2005; Samejima et al., 2005; Haruno et Kawato, 2006a, b; Lohrenz et al., 2007; Tobler et al., 2007). Il faut se rappeler, bien sûr, tUn emplacement physique (par exemple dorsal ou ventral) ne peut à lui seul servir de guide fiable pour comparer le striatum des rongeurs et le striatum des primates; de telles comparaisons doivent être faites avec prudence, après un examen attentif de la connectivité anatomique.

Les effets des lésions striatales dorsales peuvent être comparés à ceux des lésions accumbens (Smith-Roe et Kelley, 2000; Atallah et al., 2007). Comme déjà mentionné, les tests standard pour établir un comportement comme étant «orienté vers un objectif» sont la dévaluation du résultat et la dégradation de la contingence action-résultat (Dickinson et Balleine, 1993). Les lésions du DMS rendent le comportement insensible aux deux manipulations (Yin et al., 2005b), alors que les lésions du noyau ou de la coquille d’accumbens ne le sont pas (Corbit et al., 2001). De plus, les tests de ces tests comportementaux sont généralement effectués en extinction, sans aucune récompense, afin d'évaluer ce que l'animal a appris sans être contaminé par un nouvel apprentissage. Ils sondent donc directement le comportement de contrôle de la structure de représentation. En tant que contrôle expérimental supplémentaire, il est souvent utile de procéder à un test de dévaluation séparé dans lequel les récompenses sont réellement distribuées, le "test récompensé". Les lésions du DMS n'ont pas aboli la sensibilité à la dévaluation du résultat du test récompensé, comme il fallait s'y attendre, car la fourniture d'un résultat dévalorisé subordonné à une action peut supprimer l'action indépendamment du codage action-résultat. En revanche, les lésions de la coquille d’Accumbens n’entamaient pas la sensibilité à la dévaluation du résultat, ni au test d’extinction ni au test récompensé, alors que les lésions du noyau d’Accumbens abolissaient la sensibilité à la dévaluation lors des deux tests (Corbit et al., 2001). La sensibilité à la dégradation de contingence, cependant, n'a été affectée par aucune des lésions, ce qui démontre qu'après les lésions accumbens, les rats étaient capables de coder et de récupérer des représentations d'action-résultats.

Le rôle de la dopamine: mésolimbique vs nigrostriatal

Depuis les études pionnières sur l'activité phasique des neurones DA chez le singe, on part du principe commun que toutes les cellules DA se comportent essentiellement de la même manière (Schultz, 1998a; Montague et al., 2004). Cependant, les données disponibles, ainsi que la connectivité anatomique, suggèrent le contraire. En fait, l'analyse ci-dessus de l'hétérogénéité fonctionnelle dans le striatum peut également être étendue aux cellules DA dans le mésencéphale.

Les cellules DA peuvent être divisées en deux groupes principaux: VTA et substantia nigra pars compacta (SNc). Bien que la projection de la La VTA à accumbens a été le centre d'attention dans le domaine de l'apprentissage lié aux récompenses, la voie beaucoup plus massive de la nigrostriatalité a été relativement négligée, avec une attention particulière portée à son rôle dans la maladie de Parkinson. Réflexion en cours sur le rôle de DA dans l'apprentissage a été fortement influencé par la proposition selon laquelle l'activité phasique des cellules de DA reflète une prédiction de récompense error (Ljungberg et al., 1992; Schultz, 1998b). jeDans la tâche de conditionnement pavlovienne la plus courante utilisée par Schultz et ses collègues, ces neurones se déclenchent en récompense (US) mais, avec l’apprentissage, l’activité évoquée par les États-Unis est transférée à la SC. Lorsque les États-Unis sont omis après l’apprentissage, les cellules du DA montrent une brève dépression de l’activité au moment prévu de sa livraison. (Waelti et al., 2001; Fiorillo et al., 2003; Tobler et al., 2003). Ces données constituent la base de divers modèles informatiques (Schultz et al., 1997; Schultz, 1998b; Brown et al., 1999; Montague et al., 2004).

Étant donné les multiples niveaux de contrôle des mécanismes de synthèse et de libération, la surépaisseur des neurones DA ne peut être assimilée à la libération de DA, même si on pourrait s’attendre à ce que ces deux mesures soient fortement corrélées. En effet, comme le montre une étude récente de Carelli et de ses collègues utilisant la voltamétrie cyclique à balayage rapide, la libération réelle de DA dans le noyau accumbens semble être corrélée à une erreur de prédiction dans le conditionnement de Pavlovian appétitif (Day et al., 2007). Ils ont trouvé un signal de phase DA dans le noyau d'accumbens immédiatement après la réception de la récompense de saccharose chez Pavlovian Autoshaping. Après un conditionnement pavlovien prolongé, cependant, ce signal n'a plus été retrouvé après la récompense elle-même, mais est passé à la CS.. Cette constatation corrobore l'hypothèse originale «d'erreur de prédiction». Cela concorde également avec des travaux antérieurs montrant des performances altérées de la RC pavlovienne après antagonisme des récepteurs DA ou épuisement de la DA dans le noyau d'accumbens (Di Ciano et al., 2001; Parkinson et al., 2002). Cependant, une observation de l’étude est nouvelle et d’un intérêt considérable: après un conditionnement prolongé avec un CS + qui prédit une récompense et un CS- qui ne prédit pas une récompense, un signal AD similaire, bien que plus petit, a également été observé après le CS-, bien que il a également montré une légère chute immédiatement (500 ~ 800 millisecondes après le début du signal) après le pic initial (Day et al, 2007, Figure 4). À ce stade de l'apprentissage, les animaux ne s'approchent presque jamais du CS - mais toujours du CS +. Ainsi, le signal DA phasique immédiatement après le prédicteur peut ne pas jouer de rôle causal dans la génération de la réponse d'approche, car il est présent même en l'absence de réponse. On ne sait toujours pas si un tel signal est nécessaire pour apprendre la contingence relance-récompense-relance, mais la réponse phasique observée à la CS- n'est certainement prédite par aucun des modèles actuels.

Fait intéressant, l’épuisement des DA locaux nuit à la performance de cette tâche (Parkinson et al., 2002). Alors qu'un signal DA phasique est observé après le CS−, qui ne génère pas de CR, abolir les DA phasique et tonique par épuisement local nuit à la performance des CR. Un tel schéma suggère qu'un signal DA phasique dans l'accumbens n'est pas nécessaire pour la performance du RC pavlovien, mais peut jouer un rôle dans l'apprentissage, tandis qu'un signal DA plus lent et plus tonique (supposé être aboli dans les études d'épuisement) est plus important pour la performance. de la réponse d'approche (Cagniard et al., 2006; Yin et al., 2006b; Niv et al., 2007). Cette possibilité reste à tester.

Bien qu’il n’existe aucune preuve directe d’un rôle causal du signal d’AD phasique dans l’apprentissage, l’hypothèse «erreur de prédiction» a néanmoins beaucoup attiré l’attention, car c’est précisément le type de signal d’enseignement utilisé dans les modèles d’apprentissage importants, tels que le modèle Rescorla-Wagner et son extension en temps réel l’algorithme d’apprentissage par renforcement de la différence temporelle (Schultz, 1998b). Selon cette interprétation, l'apprentissage par appétit est déterminé par la différence entre la récompense reçue et la récompense attendue (ou entre deux prédictions de récompense successives dans le temps). Un tel signal d’enseignement est régulé par un retour négatif de tous les prédicteurs de la récompense (Schultz, 1998b). Si aucune récompense ne suit le prédicteur, le mécanisme de rétroaction négative est alors démasqué comme une immersion dans l'activité des neurones DA. Ainsi, l'apprentissage implique la réduction progressive de l'erreur de prédiction.

L’élégance du signal d’enseignement dans ces modèles a peut-être distrait certains de la réalité anatomique. Dans l'étude de Day et al (2007), le signal DA dans l'accumbens provient principalement des cellules de la VTA, mais il semble peu probable que d'autres cellules DA, dotées d'une connectivité anatomique entièrement différente, présentent le même profil de réponse et fournissent le même signal. Un gradient dans le signal des cellules DA est plus probable, car les cellules DA se projettent dans différentes régions striatales ayant des fonctions entièrement différentes et reçoivent, à leur tour, des signaux de rétroaction négatifs distincts provenant également de différentes régions striatales (Joel et Weiner, 2000; Wickens et al., 2007). Les mécanismes d’absorption et de dégradation, ainsi que les récepteurs présynaptiques qui régulent la libération de dopamine, présentent également des variations considérables à travers le striatum (Cragg et al., 2002; Riz et Cragg, 2004; Wickens et al., 2007; Riz et Cragg, 2008).

Nous proposons donc que la voie mésoaccumbens joue un rôle plus limité dans l’apprentissage pavlovien, dans l’acquisition de la valeur des états et des stimuli, alors que la voie nigrostriatale est plus importante pour l’apprentissage instrumental, dans l’acquisition des valeurs des actions. TAinsi, le signal DA phasique peut coder différentes erreurs de prédiction, plutôt qu'une seule erreur de prédiction, comme cela est actuellement supposé. Trois sources de preuves soutiennent cet argument. Premièrement, l’appauvrissement génétique de la DA dans la voie nigrostriatale nuit à l’acquisition et à la performance d’actions instrumentales, alors que l’épuisement de la DA dans la voie mésolimbique ne le fait pas (Sotak et al., 2005; Robinson et al., 2007). Deuxièmement, les cellules DA de la SNc peuvent coder la valeur des actions, similaires aux cellules de leur région striatale cible (Morris et al., 2006). Troisièmement, une lésion sélective de la projection nigrostriatale vers le DLS altère la formation d’habitude (Faure et al., 2005).

Des travaux récents de Palmiter et de ses collègues ont montré que l'apprentissage et la performance instrumentaux de souris déficientes en AD génétiquement modifiées sont gravement compromis, mais que leurs performances pourraient être restaurées par injection de L-DOPA ou par transfert de gène viral vers la voie nigrostriatale (Sotak et al., 2005; Robinson et al., 2007). En revanche, la restauration de l'AD dans le striatum ventral n'était pas nécessaire pour rétablir le comportement instrumental. Bien que la manière dont les signaux DA permettent l’apprentissage instrumental reste une question ouverte, une possibilité évidente est qu’elle pourrait coder la valeur des actions entreprises par eux-mêmes, c’est-à-dire le montant de la récompense escomptée compte tenu d’un plan d’action donné.

Le striatum dorsal, dans son ensemble, contient l’expression la plus élevée des récepteurs DA dans le cerveau et reçoit la projection dopaminergique la plus massive.. La projection de l'AD sur le DMS peut jouer un rôle d'apprentissage différent de celui de la projection sur le DLS, car ces deux régions diffèrent de manière significative dans le profil temporel de la libération, de l'absorption et de la dégradation de l'AD (Wickens et al., 2007). Nous émettons l'hypothèse que la projection de l'AD sur le DMS à partir de la SNc médiale est essentielle pour l'apprentissage des résultats par action, alors que la projection de l'AD sur la DLS à partir de la SNc latérale est essentielle à la formation d'habitudes. Si cela est vrai, on devrait s'attendre à ce que les cellules DA de la SNc codent l'erreur dans la prédiction de récompense basée sur des actions auto-générées - erreur de prédiction instrumentale - plutôt que sur celle basée sur le CS. Les preuves préliminaires à l’appui de cette affirmation proviennent d’une étude récente de Morris et al., Qui a enregistré à partir de neurones SNc au cours d’une tâche d’apprentissage instrumental (Morris et al., 2006). Les singes ont été entraînés à bouger les bras en réponse à un stimulus discriminatif (SD) indiquant le mouvement approprié et la probabilité de récompense. Le sD l’activité phasique induite dans les neurones DA correspondant à la valeur d’action basée sur la probabilité de récompense attendue d’une action particulière. Le plus intéressant, bien que la réponse du DA au SD augmentée avec la valeur d'action, l'inverse était vrai de la réponse du DA à la récompense elle-même, ce qui correspond à l'idée que ces neurones codaient une erreur de prédiction associée à cette valeur. Sans surprise, on sait que la cible striatale principale de ces cellules, le noyau caudé, contient des neurones codant pour des valeurs d'action (Samejima et al., 2005). Il convient toutefois de noter que cette étude n'a pas utilisé de tâches comportementales qui évaluent sans ambiguïté la valeur des actions. Une prédiction claire de notre modèle est que l’activité de la DA phasique accompagnera la réalisation des actions, même en l’absence de SD. Par exemple, nous prédisons des tirs éclatés de neurones DA nigraux lors d’une action auto-initiée qui rapporte une récompense.

À notre avis, alors que le signal DA mésoaccumbens reflète la valeur du CS, le signal nigrostriatal, provenant peut-être des neurones se projetant vers le DMS, reflète la valeur de l'action elle-même, ou de tout SD cela prédit cette valeur. De plus, l'apprentissage instrumental et pavlovien semble impliquer une certaine forme de rétroaction négative pour contrôler le signal d'enseignement efficace. En fait, les projections directes du striatum sur les neurones DA du cerveau moyen (Figure 2) ont longtemps été proposés comme implémentation neuronale de ce type de rétroaction négative (Houk et al., 1995), et la force et la nature de l’entrée inhibitrice peuvent varier considérablement d’une région à l’autre.

Figure 2  

Les réseaux de ganglions cortico-basaux

Selon les modèles actuels, une erreur de prédiction est un signal d’enseignement qui détermine la durée de l’apprentissage. Tant qu'il est présent, l'apprentissage continue. Si évidente que cette affirmation apparaisse, une erreur de prédiction pour une valeur d'action, bien que syntaxiquement similaire à l'erreur de prédiction de Pavlovian, présente des caractéristiques uniques qui n'ont pas été examinées de manière approfondie. Dans les modèles traditionnels tels que le modèle Rescorla-Wagner, qui traite exclusivement du conditionnement pavlovien (avec un succès limité), l'élément clé est le retour négatif qui régit l'erreur de prédiction. Cette sortie représente la prédiction acquise, plus spécifiquement la somme de tous les prédicteurs actuels, tels que capturés par les stimuli composés généralement utilisés dans les expériences de blocage (Rescorla, 1988). C'est cette somme des prédicteurs disponibles pour établir un terme d'erreur global qui constitue l'innovation principale dans cette classe de modèles. Pour les actions instrumentales, cependant, les termes d'erreur individuels semblent plus probables, car il est difficile de voir en quoi la rétroaction négative présenterait la valeur de plusieurs actions simultanément lorsqu'une seule action peut être exécutée à la fois. Bien entendu, un certain nombre de solutions possibles existent. Par exemple, étant donné un état particulier (implémenté expérimentalement par un S distinctD), les actions possibles pourraient en effet être représentées simultanément comme des prédictions acquises. Mais la principale difficulté liée aux erreurs de prédiction instrumentale concerne la nature même de l'action. Une prédiction pavlovienne suit automatiquement la présentation du stimulus, qui est indépendante de l'organisme. Une erreur de prédiction instrumentale doit prendre en compte l'élément de contrôle, car la prédiction est elle-même subordonnée à une action et une action délibérée est émise spontanément sur la base de la poursuite par l'animal des conséquences de son action plutôt que provoquée par des stimuli antécédents. En fin de compte, c’est précisément une négligence générale de la nature spontanée des actions dirigées vers un objectif, à la fois en neuroscience et en psychologie, qui a estompé la distinction entre les processus d’apprentissage pavlien et instrumental, ainsi que la nature des erreurs de prédiction impliquées. Il reste donc à déterminer quel type de signal de retour négatif, s’il en existe, régit l’acquisition des valeurs d’action (Dayan et Balleine, 2002).

Enfin, des travaux récents ont également impliqué la projection nigrostriatale de la SNc latérale vers la DLS spécifiquement dans la formation des habitudes. Faure et ses collaborateurs ont lésé de manière sélective les cellules DA projetées dans DLS avec 6-OHDA et ont constaté que cette manipulation avait étonnamment peu d'effet sur le taux de pression sur le levier, bien qu'elle altère la formation d'habitudes, mesurée à l'aide de la dévaluation du résultat (Faure et al., 2005). Autrement dit, les animaux lésés ont réagi de manière ciblée, même si, dans un groupe témoin, la formation a généré un comportement habituel insensible à la dévaluation des résultats. L’appauvrissement en DA local est donc similaire aux lésions excitotoxiques du DLS, en ce sens que les deux manipulations retardent la formation d’habitude et favorisent l’acquisition d’actions dirigées vers un objectif (Yin et al., 2004). Un signal DA phasique critique pour la formation d'habitude est déjà bien décrit par le signal de renforcement efficace dans les algorithmes d'apprentissage du renforcement de différence temporelle contemporains inspirés des travaux de Hull et Spence (Coque, 1943; Spence, 1947, 1960; Sutton et Barto, 1998).

Réseaux ganglionnaires cortico-basaux

Jusqu'ici, nous avons discuté de l'hétérogénéité fonctionnelle au sein du striatum. Pourtant, il serait trompeur de suggérer que n'importe quelle zone de la striatalité puisse, par exemple, traduire la contingence action-résultat en exécution d'une action à part entière. Les hémisphères cérébraux sont plutôt organisés en unités fonctionnelles itératives composées de réseaux de ganglions cortico-basaux (Swanson, 2000; Zahm, 2005). TLe striatum, qui est la station d’entrée de l’ensemble des ganglions de la base, sert de plaque tournante unique dans le motif du réseau des ganglions de la corticale et des ganglions de la base, capable d’intégrer les entrées corticales, thalamiques et du cerveau moyen.. Comme décrit ci-dessus, bien qu'il s'agisse d'une structure continue, différentes régions striatales semblent participer à des réseaux fonctionnels distincts, par exemple l'accumbens joue le rôle de hub dans le réseau limbique et le DLS dans le réseau sensorimoteur. En raison de la propriété réentrante de tels réseaux, cependant, aucun composant de cette structure n'est en amont ou en aval dans un sens absolu; par exemple, le système thalamocortical est à la fois la source d'un apport majeur au striatum et la cible des voies à la fois striato-pallidale et striato-nigrale.

Bien que les boucles ganglionnaires de la base réentrantes parallèles soient reconnues depuis longtemps (Alexander et al., 1986), nous soulignons les rôles fonctionnels distincts de ces circuits basés sur des structures de représentation définies opérationnellement et sur des interactions entre circuits pour générer des comportements intégratifs. Sur cette base, on peut distinguer au moins quatre de ces réseaux: les réseaux limbiques impliquant respectivement l’enveloppe et le noyau des accumbens, le réseau associatif impliquant le striatum associatif (DMS) et le réseau sensorimoteur impliquant le sensorimoteur striatum (DLS). Leurs fonctions vont de la médiation du contrôle des UR et des CR appétitifs de Pavlov à des actions instrumentales (Figure 1).

Figure 1  

Principaux domaines fonctionnels du striatum. Une illustration du striatum d’une coupe coronale montrant la moitié du cerveau (Paxinos et Franklin, 2003). Notez que ces quatre domaines fonctionnels sont anatomiquement continus et correspondent approximativement à ce que ...

Comme nous l’avons déjà mentionné, le striatum ventral se compose principalement du noyau accumbens, qui peut être divisé en deux parties: la coque et le noyau, chacun participant à un réseau fonctionnel distinct. Les projections corticales (glutamatergiques) de la coquille proviennent des cortex orbitaux infralimbiques, centraux et latéraux, alors que les projections du noyau résultent de régions médianes plus dorsales du cortex préfrontal, comme les cortex ventral et dorsal antérieur et cingulaire antérieur (Groenewegen et al., 1990; Zahm, 2000, 2005). Au sein de ces réseaux de fonctions, les preuves examinées ci-dessus suggèrent que la coque est impliquée dans les UR afin de récompenser et d'acquérir des CR consommables; le noyau du comportement exploratoire, en particulier l'acquisition et l'expression des réponses de l'approche pavlovienne. On peut donc discerner au moins deux réseaux principaux dans le réseau plus vaste des ganglions cortico-basaux ventral ou limbique, l'un pour les comportements de consommation et l'autre pour les comportements préparatoires et leur modification par le conditionnement de Pavlovian (Figure 1).

Le striatum dorsal peut également être divisé en au moins deux régions principales, associative et sensorimotrice, avec un réseau fonctionnel distinct associé à chacune. Le striatum associatif (caudé et parties du putamen antérieur chez les primates) contient des neurones qui se déclenchent en prévision de récompenses contingentes, et modifient leur tir en fonction de l’ampleur de la récompense attendue (Hikosaka et al., 1989; Hollerman et al., 1998; Kawagoe et al., 1998). Dans le réseau associatif, les cortex d’association préfrontal et pariétal et leur cible dans le DMS sont impliqués dans la mémoire transitoire, à la fois prospective, sous la forme d’espérances de résultats, et rétrospective, en tant qu’enregistrement de copies d’efférence récentes (Konorski, 1967). Le niveau sensorimoteur, quant à lui, comprend les cortex sensorimoteurs et leurs cibles dans les noyaux gris centraux. Les sorties de ce circuit sont dirigées vers les cortex moteurs et les réseaux moteurs du tronc cérébral. L'activité neuronale dans le striatum sensorimoteur n'est généralement pas modulée par l'attente de récompense, affichant plus d'activité liée au mouvement que les neurones dans le striatum associatif (Kanazawa et al., 1993; Kimura et al., 1993; Costa et al., 2004). Enfin, outre le gradient médio-latéral, il existe une hétérogénéité fonctionnelle significative le long de l'axe antéro-postérieur du striatum dorsal, bien que nous ne disposions pas de données suffisantes à ce jour pour permettre une classification détaillée (Yin et al., 2005b).

Jusqu'à présent, les études ne portaient que sur les composantes corticales et striatales de ces réseaux. En général, les lésions de la zone corticale ont des effets similaires à ceux de la cible striatale (Balleine et Dickinson, 1998; Corbit et Balleine, 2003; Yin et al., 2005b). Mais d'autres composants du réseau pourraient servir à des fonctions similaires. Par exemple, il a été constaté que les lésions du noyau médiodorsal du thalamus, composante du réseau associatif, abolissaient la sensibilité à la dévaluation du résultat et à la dégradation de contingence de la même manière que les lésions du DMS et du cortex pré-liminaire (Corbit et al., 2003). Ainsi, bien que notre modèle général prédit des déficits comportementaux similaires après des dommages causés à chaque composant d’un réseau, il suggère également, pour toute structure donnée comme le pallidum ou le thalamus, de multiples domaines fonctionnels.

Interaction entre réseaux

Dans la plupart des conditions, l'apprentissage pavlovien et instrumental semble se dérouler en parallèle. Des phénomènes tels que l'IPP, cependant, démontrent à quel point ces processus par ailleurs distincts peuvent interagir. Après avoir défini les systèmes fonctionnels indépendants, l'étape suivante consiste à comprendre comment ces systèmes sont coordonnés pour générer un comportement. Une proposition intéressante, en accord avec les travaux anatomiques récents, est que les réseaux décrits ci-dessus soient organisés hiérarchiquement, chacun servant d’intermédiaire labile et fonctionnel dans la hiérarchie, permettant aux informations de se propager d’un niveau à l’autre. Les connexions en spirale récemment découvertes entre le striatum et le mésencéphale suggèrent en particulier une organisation anatomique pouvant potentiellement mettre en œuvre des interactions entre réseaux (Figure 2). Comme observé par Haber et ses collègues, les neurones du striatum envoient des projections inhibitrices directes aux neurones DA, à partir desquels ils reçoivent des projections DA réciproques, ainsi que des neurones DA qui se projettent à leur tour dans une zone striatale différente (Haber et al., 2000). Ces projections permettent une propagation des informations dans une seule direction, des réseaux limbiques aux réseaux associatifs et sensorimoteurs. Par exemple, une prédiction pavlovienne (valeur acquise de la CS) pourrait réduire le signal d'apprentissage effectif au niveau limbique, tout en potentialisant par coïncidence le signal DA au niveau suivant. L'annulation du signal d'apprentissage effectif est normalement mise en œuvre par un signal de retour négatif via une projection inhibitrice, par exemple, des neurones de projection épineux à milieu GABAergique du striatum aux neurones DA. En attendant, comme suggéré par l’organisation anatomique (Haber et al., 2000; Haber, 2003), la potentialisation du signal DA pour le réseau voisin de ganglions cortico-basaux (le niveau suivant dans la hiérarchie) pourrait être mise en œuvre via des projections désinhibitrices (ie neurones de projection striatale GABAergiques en interneurones gabAgiques nigraux en neurones DA). Ainsi, la valeur apprise du réseau limbique peut être transférée au réseau associatif, ce qui permet d'affiner et d'amplifier l'adaptation comportementale à chaque itération (Ashby, 1960). Ce modèle prédit donc l’implication progressive de différents réseaux de neurones au cours des différentes étapes de l’apprentissage, une suggestion appuyée par diverses données (Jueptner et al., 1997b; Miyachi et al., 1997; Miyachi et al., 2002; Yin, 2004; Everitt et Robbins, 2005; Yin et Knowlton, 2005; Belin et Everitt, 2008).

Les phénomènes qui nécessitent l’interaction de processus fonctionnels distincts, tels que l’ITP, constituent un terrain d’essai fertile pour des modèles de ce type. En effet, le modèle hiérarchique est en accord avec les découvertes expérimentales récentes sur l'IRP. Selon le modèle, les interactions pavloviennes-instrumentales sont médiées par des connexions réciproques entre les neurones striatum et DA. La DA semble être critique pour le transfert général, qui est supprimé par ses antagonistes et par l’inactivation locale de la VTA (Dickinson et al., 2000; Murschall et Hauber, 2006) considérant qu'une infusion locale d'amphétamine dans le corps humain, qui augmente vraisemblablement les niveaux de DA, peut l'améliorer considérablement (Wyvell et Berridge, 2000). D'autre part, le rôle de la dopamine striatale ventrale dans le transfert spécifique est moins clair. Certaines preuves suggèrent qu’il pourrait être épargné après l’inactivation de la VTA (Corbit et al., 2007) mais comme Corbit et Janak (2007) rapporté récemment, le transfert spécifique est supprimé par inactivation de la DLS, ce qui suggère que cet aspect du contrôle du stimulus sur la sélection de l'action pourrait impliquer la projection nigrostriatale (Corbit et Janak, 2007). En accord avec la perspective hiérarchique, Corbit et Janak (2007) ont également constaté que, alors que l’inactivation de DLS supprimait l’effet excitateur sélectif des signaux de Palovian (à peu près ce qui a été observé après des lésions de la coquille d’accumbens par Corbit et al, 2001), l'inactivation du DMS n'a aboli que la sélectivité du transfert vis-à-vis des résultats tout en semblant préserver l'effet excitateur général de ces signaux, tendance également observée après les lésions du thalamus médiodorsal, qui fait partie du réseau ganglionnaire cortico-basal associatif (Ostlund et Balleine, 2008). Sur la base de ces résultats préliminaires, le DMS semble n'intervenir que dans un transfert spécifique, alors que le DLS pourrait être nécessaire à la fois pour les effets excitateurs spécifiques et généraux des signaux pavloviens sur les actions instrumentales.

Fait intéressant, le striatum limbique se projette largement sur les cellules DA qui se projettent sur le striatum dorsal (Nauta et al., 1978; Nauta, 1989) les projections dopaminergiques sur le striatum et les projections striatales vers le cerveau moyen sont très asymétriques (Haber, 2003). Le striatum limbique reçoit une entrée limitée des neurones DA, mais envoie une sortie importante à un ensemble beaucoup plus grand de neurones DA, et le contraire est vrai du striatum sensorimoteur. Ainsi, les réseaux limbiques sont parfaitement placés pour contrôler les réseaux associatifs et sensorimoteurs. Ici, la neuroanatomie est en accord avec les données comportementales selon laquelle la facilitation pavlovienne du comportement instrumental est beaucoup plus forte que l’inverse; en effet, de nombreuses preuves suggèrent que les actions instrumentales ont tendance à inhiber, plutôt qu’exciter, les CR pavloviens - constat qui attend toujours une explication neurobiologique (Ellison et Konorski, 1964; Williams, 1965).

Conclusions

Il convient de noter que le modèle hiérarchique présenté ici est très différent des autres qui reposent exclusivement sur le cortex et les connexions à longue distance entre les aires corticales (Fuster, 1995). Il incorpore les composants connus et la connectivité du cerveau, plutôt que de le regarder comme un pot-pourri de modules corticaux qui, de manière non spécifiée, mettent en œuvre un large éventail de fonctions cognitives. Cela évite également les hypothèses héritées de 19th neurologie du siècle, que le cortex cérébral en général, et le cortex préfrontal en particulier, forme en quelque sorte une unité homonculaire «supérieure» qui contrôle tout le cerveau (Miller et Cohen, 2001).

En outre, plusieurs modèles spécifiques peuvent être dérivés du modèle actuel: (i) Il devrait exister des erreurs de prédiction distinctes pour les actions auto-générées et pour les états / stimuli avec des propriétés reflétant leurs différents substrats neuronaux et leurs rôles fonctionnels. (ii) Les composants pallidaux et thalamiques de chaque réseau discret de ganglions cortico-basaux devraient également être nécessaires pour le type de contrôle comportemental proposé pour chaque réseau, et pas uniquement pour les composants corticaux et striataux. (iii) Il devrait y avoir une implication progressive de différents réseaux de neurones à différentes étapes de l'apprentissage. (iv) L'activité d'Accumbens peut contrôler directement les neurones DA et, à son tour, l'activité striatale dorsale. Basé sur un rapport de Hollande (2004) En suggérant que l'IPS augmente avec la formation instrumentale, ce contrôle «limbique» des réseaux associatifs et sensorimoteurs devrait se renforcer avec une formation approfondie.

Sans données détaillées, il est encore trop tôt pour proposer un compte rendu formel du modèle hiérarchique. Néanmoins, la discussion ci-dessus devrait préciser que les versions actuelles de l'hypothèse de récompense de mésoaccumbens reposent sur des hypothèses problématiques concernant la nature du processus de récompense et l'utilisation de mesures comportementales inadéquates. Les principes unificateurs, qui constituent toujours l'objectif de l'entreprise scientifique, ne peuvent être fondés que sur la réalité des données expérimentales, aussi lourdes soient-elles. Parce que la fonction du cerveau est, en fin de compte, la génération et le contrôle du comportement, une analyse comportementale détaillée sera la clé pour comprendre les processus neuronaux, tout comme une description détaillée de l’immunité acquise et innée permet d’élucider le système immunitaire. Bien qu’apparemment un truisme, on ne saurait trop insister sur le fait que nous pouvons comprendre les mécanismes du cerveau dans la mesure où leurs fonctions sont décrites et mesurées avec précision. Lorsque l'étude de la fonction neuronale est basée sur des capacités psychologiques établies expérimentalement, par exemple la représentation de contingences action-résultat et stimulus-résultat, l'organisation anatomique connue ainsi que les mécanismes physiologiques sont vus sous un nouveau jour, ce qui conduit à la formulation de nouveaux hypothèses et la conception de nouvelles expériences. En tant que première étape dans cette direction, nous espérons que le cadre discuté ici constituera un point de départ utile pour de futures enquêtes.

Remerciements

Nous voudrions remercier David Lovinger pour ses suggestions utiles. HHY a bénéficié du soutien de la Division de la recherche clinique et fondamentale intra-muros du NIH, NIAAA. SBO est pris en charge par la subvention MH 17140 du NIH et BWB par la subvention du NIH MH 56446 et HD 59257.

Bibliographie

  1. Adams CD. Variations dans la sensibilité des réponses instrumentales pour renforcer la dévaluation. Journal trimestriel de psychologie expérimentale. 1982; 33b: 109 – 122.
  2. Adams CD, Dickinson A. Réponse instrumentale après renforcement de la dévaluation. Journal trimestriel de psychologie expérimentale. 1981; 33: 109 – 122.
  3. Alexander GE, MR DeLong, PL Strick. Organisation parallèle des circuits fonctionnellement séparés reliant les noyaux gris centraux et le cortex. Annu Rev Neurosci. 1986; 9: 357 – 381. [PubMed]
  4. Ashby WR. Conception pour un cerveau. deuxième édition. Chapman & Hall; 1960.
  5. Atallah HE, Lopez-Paniagua D, Rudy JW, O'Reilly RC. Substrats neuronaux séparés pour l'apprentissage des compétences et la performance dans le striatum ventral et dorsal. Nat Neurosci. 2007; 10: 126-131. [PubMed]
  6. Balleine BW. Processus incitatifs dans le conditionnement instrumental. Dans: Mowrer RR, Klein SB, éditeurs. Manuel des théories d'apprentissage contemporaines. Mahwah, NJ, États-Unis: Lawrence Erlbaum Associates, Inc., Éditeurs; 2001. pp. 307 – 366.
  7. Balleine BW. Bases neurales de la recherche de nourriture: affectent, éveillent et récompensent les circuits corticostriatolimbiques. Physiol Behav. 2005; 86: 717 – 730. [PubMed]
  8. Balleine BW, Dickinson A. Action instrumentale dirigée vers un objectif: apprentissage contingent et incitatif et leurs substrats corticaux. Neuropharmacologie. 1998; 37: 407 – 419. [PubMed]
  9. Balleine BW, Corbit LH. Les lésions du noyau accumbens et de la coquille produisent des effets dissociables sur les formes générales et spécifiques du transfert de Palovian-instrumental; Réunion annuelle de la Society for Neuroscience; 2005.
  10. Balleine BW, Killcross S. Traitement parallèle par incitation: vue intégrée de la fonction de l'amygdale. Tendances Neurosci. 2006; 29: 272 – 279. [PubMed]
  11. Belin D, Everitt BJ. La cocaïne à la recherche d'habitudes dépend de la connectivité série dépendante de la dopamine reliant le ventral au striatum dorsal. Neurone. 2008; 57: 432 – 441. [PubMed]
  12. Berke JD, Hyman SE. Addiction, dopamine et mécanismes moléculaires de la mémoire. Neurone. 2000; 25: 515 – 532. [PubMed]
  13. Berridge KC, Robinson TE. Quel est le rôle de la dopamine dans la récompense: impact hédonique, apprentissage de la récompense ou saillance incitative? Brain Res Brain Res Rev. 1998; 28: 309 – 369. [PubMed]
  14. Bolles R. Renforcement, espérance et apprentissage. Examen psychologique. 1972; 79: 394 – 409.
  15. Brown J, Bullock D, Grossberg S. Comment les ganglions de la base utilisent des voies d'apprentissage excitatrices et inhibitrices parallèles pour répondre de manière sélective à des signaux de récompense inattendus. J Neurosci. 1999; 19: 10502 – 10511. [PubMed]
  16. Brown PL, Jenkins HM. Mise en forme automatique du pic de clé du pigeon. Journal de l'analyse expérimentale du comportement. 1968; 11: 1–8. [Article gratuit PMC] [PubMed]
  17. Cagniard B, Juge Beeler, Britt JP, McGehee DS, Marinelli M, Zhuang X. La dopamine améliore la performance en l'absence de nouvel apprentissage. Neurone. 2006; 51: 541 – 547. [PubMed]
  18. Cardinal RN, Cheung TH. Les lésions de base du noyau accumbens retardent l'apprentissage et la performance instrumentaux avec renforcement tardif chez le rat. BMC Neurosci. 2005; 6: 9. [Article gratuit PMC] [PubMed]
  19. Cardinal RN, Juge Parkinson, Hall J, Everitt BJ. Emotion et motivation: le rôle de l'amygdale, du striatum ventral et du cortex préfrontal. Neurosci Biobehav Rev. 2002; 26: 321 – 352. [PubMed]
  20. Cheer JF, BJ Aragona, ML Heien, AT Seipel, RM Carelli, RM Wightman. La libération coordonnée de dopamine accumbal et l'activité neuronale déterminent un comportement orienté vers un objectif. Neurone. 2007; 54: 237 – 244. [PubMed]
  21. Colwill RM, Rescorla RA. Structures associatives dans l'apprentissage instrumental. Dans: Bower G, éditeur. La psychologie de l'apprentissage et de la motivation. New York: Presse académique; 1986. pp. 55 – 104.
  22. Corbit LH, Balleine BW. Le rôle du cortex prélimbique dans le conditionnement instrumental. Behav Brain Res. 2003; 146: 145 – 157. [PubMed]
  23. Corbit LH, Janak PH. L'inactivation du striatum latéral mais non médial élimine l'impact excitateur des stimuli pavloviens sur la réponse instrumentale. J Neurosci. 2007; 27: 13977 – 13981. [PubMed]
  24. Corbit LH, Muir JL, Balleine BW. Le rôle du noyau accumbens dans le conditionnement instrumental: mise en évidence d'une dissociation fonctionnelle entre le noyau accumbens et la coque. Journal of Neuroscience. 2001; 21: 3251 – 3260. [PubMed]
  25. Corbit LH, Muir JL, Balleine BW. Les lésions du thalamus médiodorsal et des noyaux thalamiques antérieurs produisent des effets dissociables sur le conditionnement instrumental chez le rat. Eur J Neurosci. 2003; 18: 1286 – 1294. [PubMed]
  26. Corbit LH, Janak PH, Balleine BW. Formes générales et de résultats spécifiques du transfert pavlovien-instrumental: effet des changements d’état de motivation et de l’inactivation de la région tegmentale ventrale. Eur J Neurosci. 2007; 26: 3141 – 3149. [PubMed]
  27. Costa RM, D Cohen, Nicolelis MA. Plasticité corticostriatale différentielle pendant l’apprentissage de la motricité rapide et lente chez la souris. Curr Biol. 2004; 14: 1124 – 1134. [PubMed]
  28. SJ Cragg, juge en chef Hille, Greenfield SA. Les domaines fonctionnels dans le striatum dorsal du primate non humain sont définis par le comportement dynamique de la dopamine. J Neurosci. 2002; 22: 5705 – 5712. [PubMed]
  29. Dalley JW, Laane K, DE Theobald DE, Armstrong HC, PR Corlett, Chudasama Y, Robbins TW. Modulation limitée dans le temps de la mémoire pavlovienne appétitive par les récepteurs D1 et NMDA dans le noyau accumbens. Proc Natl Acad Sci US A. 2005; 102: 6189 – 6194. [Article gratuit PMC] [PubMed]
  30. Davis J, Bitterman ME. Renforcement différentiel d'autres comportements (DRO): Comparaison contrôle-attelage. Journal de l'analyse expérimentale du comportement. 1971; 15: 237 – 241. [Article gratuit PMC] [PubMed]
  31. Day JJ, Carelli RM. Le noyau accumbens et l'apprentissage pavlovien récompensent. Neuroscientifique. 2007; 13: 148 – 159. [Article gratuit PMC] [PubMed]
  32. Day JJ, RA Wheeler, MF Roitman, RM Carelli. Les neurones du noyau accumbens encodent des comportements d’approche pavlovienne: preuve d’un paradigme autoshaping. Eur J Neurosci. 2006; 23: 1341 – 1351. [PubMed]
  33. Day JJ, MF Roitman, RM Wightman, RM Carelli. L'apprentissage associatif intervient dans les modifications dynamiques de la signalisation de la dopamine dans le noyau accumbens. Nat Neurosci. 2007; 10: 1020 – 1028. [PubMed]
  34. Dayan P, Balleine BW. Récompense, motivation et renforcement de l'apprentissage. Neurone. 2002; 36: 285 – 298. [PubMed]
  35. Delgado MR, Stenger VA, le juge Fiez. Réponses dépendantes de la motivation dans le noyau caudé humain. Cereb Cortex. 2004; 14: 1022 – 1030. [PubMed]
  36. Delgado MR, MM Miller, Inati S, EA Phelps. Une étude IRMf d'apprentissage probabiliste lié à la récompense. Neuroimage. 2005; 24: 862 – 873. [PubMed]
  37. Di Ciano P, cardinal RN, Cowell RA, Little SJ, Everitt BJ. Implication différentielle des récepteurs NMDA, AMPA / kaïnate et de la dopamine dans le noyau accumbens de base dans l'acquisition et la performance du comportement d'approche pavlovienne. J Neurosci. 2001; 21: 9471 – 9477. [PubMed]
  38. Dickinson A. Actions et habitudes: développement de l'autonomie comportementale. Transactions philosophiques de la Royal Society. 1985; B308: 67 – 78.
  39. Dickinson A. Conditionnement Instrumental. Dans: Mackintosh NJ, éditeur. Apprentissage des animaux et cognition. Orlando: académique; 1994. pp. 45 – 79.
  40. Dickinson A, Dearing MF. Interactions appétitro-aversives et processus inhibiteurs. Dans: Dickinson A, Boakes RA, rédacteurs. Mécanisme d'apprentissage et de motivation. Hillsadale, NJ: Lawrence Erlbaum Associates; 1979.
  41. Dickinson A, DJ Charnock. Effets de contingence avec renforcement instrumental maintenu. Journal trimestriel de psychologie expérimentale. Psychologie comparée et physiologique. 1985; 37: 397–416.
  42. Dickinson A, Balleine B. Actions et réponses: La double psychologie du comportement. Dans: Eilan N. McCarthy RA, et al., Éditeurs. Représentation spatiale: problèmes de philosophie et de psychologie. Malden, MA, États-Unis: Blackwell Publishers Inc .; 1993. pp. 277 – 293.
  43. Dickinson A, Balleine B. Le rôle de l'apprentissage dans le fonctionnement des systèmes de motivation. Dans: Pashler H, Gallistel R, éditeurs. Manuel de Steven de psychologie expérimentale (3e éd.), Vol. 3: Apprentissage, motivation et émotion. New York, NY, États-Unis: John Wiley & Sons, Inc .; 2002. pp. 497-533.
  44. Dickinson A, Smith J, Mirenowicz J. Dissociation de l'apprentissage incitatif pavlovien et instrumental sous antagonistes de la dopamine. Behav Neurosci. 2000; 114: 468 – 483. [PubMed]
  45. Dickinson A, Campos J, Varga ZI, Balleine B. Conditionnement instrumental bidirectionnel. Journal trimestriel de psychologie expérimentale: psychologie comparée et physiologique. 1996; 49: 289-306. [PubMed]
  46. Ellison GD, Konorski J. Séparation des réponses motrices et salivaires dans le conditionnement instrumental. Science. 1964; 146: 1071 – 1072. [PubMed]
  47. Everitt BJ, Robbins TW. Systèmes neuronaux de renforcement pour la toxicomanie: des actions aux habitudes en passant par la contrainte. Nat Neurosci. 2005; 8: 1481 – 1489. [PubMed]
  48. Faure A, U Haberland, Condé F, El Massioui N. Une lésion du système dopaminergique nigrostriatal perturbe la formation d'habitudes stimuli-réponse. J Neurosci. 2005; 25: 2771 – 2780. [PubMed]
  49. Fiorillo CD, PN Tobler, Schultz W. Codage discret de la probabilité de récompense et de l’incertitude par les neurones dopaminergiques. Science. 2003; 299: 1898 – 1902. [PubMed]
  50. Fuster JM. Mémoire dans le cortex cérébral. Cambridge: presse du MIT; 1995.
  51. Gallistel CR, S Fairhurst, Balsam P. La courbe d'apprentissage: les implications d'une analyse quantitative. Proc Natl Acad Sci US A. 2004; 101: 13124 – 13131. [Article gratuit PMC] [PubMed]
  52. Allez à Y, Grace AA. Modulation dopaminergique de la pulsion limbique et corticale du noyau accumbens dans un comportement dirigé vers un objectif. Nat Neurosci. 2005; 8: 805 – 812. [PubMed]
  53. Grace AA, SB Floresco, Goto Y, Lodge DJ. Régulation du déclenchement des neurones dopaminergiques et contrôle des comportements orientés vers un objectif. Tendances Neurosci. 2007; 30: 220 – 227. [PubMed]
  54. HJ Groenewegen, HW Berendse, JG Wolters, Lohman AH. La relation anatomique du cortex préfrontal avec le système striatopallidal, le thalamus et l'amygdale: évidence d'une organisation parallèle. Prog Brain Res. 1990; 85: 95 – 116. discussion 116 – 118. [PubMed]
  55. Guthrie ER. La psychologie de l'apprentissage. New York: Harpers; 1935.
  56. Haber SN. Les ganglions de la base des primates: réseaux parallèles et intégratifs. J Chem Neuroanat. 2003; 26: 317 – 330. [PubMed]
  57. Haber SN, Fudge JL, RN McFarland. Les voies striatonigostriatales chez les primates forment une spirale ascendante allant de la coquille au striatum dorsolatéral. J Neurosci. 2000; 20: 2369 – 2382. [PubMed]
  58. Hammond LJ. L'effet de la contingence sur le conditionnement appétent du comportement libre. Journal de l'analyse expérimentale du comportement. 1980; 34: 297 – 304. [Article gratuit PMC] [PubMed]
  59. Haruno M, Kawato M. Modèle d’apprentissage par renforcement hétérarchique pour l’intégration de multiples boucles cortico-striatales: examen IRMf dans l’apprentissage en association par association stimulus-action-récompense. Neural Netw. 2006a; 19: 1242 – 1254. [PubMed]
  60. Haruno M, Kawato M. Différents corrélats neuronaux d'espérance de récompense et d'erreur d'espérance de récompense dans le noyau putamen et caudé lors de l'apprentissage par association stimulation-action-récompense. J Neurophysiol. 2006b; 95: 948 – 959. [PubMed]
  61. Haruno M., Kuroda T., K. Doya, K. Toyama, K. Kimura, K. Samejima, H. Imamizu, K. Kawato. J Neurosci. 2004; 24: 1660 – 1665. [PubMed]
  62. Hernandez PJ, Sadeghian K, Kelley AE. La consolidation précoce de l’apprentissage instrumental nécessite la synthèse des protéines dans le noyau accumbens. Nat Neurosci. 2002; 5: 1327 – 1331. [PubMed]
  63. Hernandez PJ, ME Andrzejewski, Sadeghian K, Panksepp JB, Kelley AE. Les récepteurs D1 AMPA / kainate, NMDA et dopamine fonctionnent dans le noyau accumbens: ils jouent un rôle limité dans l’encodage et la consolidation de la mémoire instrumentale. Apprendre Mem. 2005; 12: 285 – 295. [Article gratuit PMC] [PubMed]
  64. Hershberger WA. Une approche à travers le miroir. Apprentissage et comportement des animaux. 1986; 14: 443–451.
  65. Heyes CM, Dawson GR. Une démonstration de l'apprentissage par observation chez le rat à l'aide d'un contrôle bidirectionnel. Le journal trimestriel de psychologie expérimentale. 1990; 42 (1): 59 – 71. [PubMed]
  66. Hikosaka O, Sakamoto M, Usui S. Propriétés fonctionnelles des neurones caudés de singe. III. Activités liées aux attentes de la cible et de la récompense. J Neurophysiol. 1989; 61: 814 – 832. [PubMed]
  67. Holland PC. Les relations entre transfert pavlovien-instrumental et renforcent la dévaluation. J Exp Psychol Anim Behav Process. 2004; 30: 104 – 117. [PubMed]
  68. Holland PC, Rescorla RA. Effet de deux manières de dévaluer le stimulus inconditionnel après un conditionnement appétitif de premier et de second ordre. J Exp Psychol Anim Behav Process. 1975; 1: 355 – 363. [PubMed]
  69. Hollerman JR, Tremblay L, Schultz W. Influence de l'attente de récompense sur l'activité neuronale liée au comportement chez le striatum de primate. J Neurophysiol. 1998; 80: 947 – 963. [PubMed]
  70. Houk JC, Adams JL, Barto AG. Un modèle de la façon dont les noyaux gris centraux génèrent et utilise des signaux neuronaux qui prédisent le renforcement. Dans: Houk JC, JD, DB, éditeurs. Modèles de traitement de l'information dans les noyaux gris centraux. Cambridge, MA: MIT Press; 1995. pp. 249 – 270.
  71. Hull C. Principes de comportement. New York: Appleton-Century-Crofts; 1943.
  72. Hyman SE, Malenka RC, Nestler EJ. Mécanismes neuronaux de la dépendance: rôle de l'apprentissage et de la mémoire liés aux récompenses. Annu Rev Neurosci. 2006; 29: 565 – 598. [PubMed]
  73. Jedynak JP, Uslaner JM, Esteban JA, Robinson TE. Plasticité structurale induite par la méthamphétamine dans le striatum dorsal. Eur J Neurosci. 2007; 25: 847 – 853. [PubMed]
  74. Joel D, Weiner I. L'organisation des circuits ganglionnaires de la base-thalamocorticaux: ouverte interconnectée plutôt que fermée séparée. Neuroscience. 1994; 63: 363 – 379. [PubMed]
  75. Joel D, Weiner I. Les connexions du système dopaminergique avec le striatum chez le rat et le primate: une analyse de l'organisation fonctionnelle et compartimentale du striatum. Neuroscience. 2000; 96: 451 – 474. [PubMed]
  76. Jueptner M, CD Frith, DJ Brooks, Frackowiak RS, Passingham RE. Anatomie de l'apprentissage moteur. II. Structures sous-corticales et apprentissage par essais et erreurs. J Neurophysiol. 1997a; 77: 1325 – 1337. [PubMed]
  77. Jueptner M, Stephan KM, CD Frith, DJ Brooks, Frackowiak RS, Passingham RE. Anatomie de l'apprentissage moteur. I. Cortex frontal et attention à l'action. J Neurophysiol. 1997b; 77: 1313 – 1324. [PubMed]
  78. Kanazawa I, Murata M, Kimura M. Rôles de la dopamine et de ses récepteurs dans la génération de mouvements choréiques. Adv Neurol. 1993; 60: 107 – 112. [PubMed]
  79. Kawagoe R, Y Takikawa, Hikosaka O. L'espérance de récompense module les signaux cognitifs dans les noyaux gris centraux. Nat Neurosci. 1998; 1: 411 – 416. [PubMed]
  80. Kimura M, Aosaki T, Ishida A. Aspects neurophysiologiques des rôles différentiels du noyau putamen et du noyau caudé dans le mouvement volontaire. Adv Neurol. 1993; 60: 62 – 70. [PubMed]
  81. Konorski J. Activité intégrative du cerveau. Chicago: Presses de l'Université de Chicago; 1967.
  82. Lerchner A, La Camera G, Richmond B. Savoir sans faire. Nat Neurosci. 2007; 10: 15 – 17. [PubMed]
  83. Ljungberg T, Apicella P, Schultz W. Réponses de neurones dopaminergiques de singe lors de l'apprentissage de réactions comportementales. J Neurophysiol. 1992; 67: 145 – 163. [PubMed]
  84. Lohrenz T, K McCabe, CF Camerer, PR de Montague. Signature neuronale de signaux d'apprentissage fictifs dans une tâche d'investissement séquentielle. Proc Natl Acad Sci US A. 2007; 104: 9493 – 9498. [Article gratuit PMC] [PubMed]
  85. Lovibond PF. Facilitation du comportement instrumental par un stimulus conditionnel appétitif de Pavlov. J Exp Psychol Anim Behav Process. 1983; 9: 225 – 247. [PubMed]
  86. Mackintosh NJ. La psychologie de l'apprentissage des animaux. Londres: Academic Press; 1974.
  87. Miller EK, Cohen JD. Une théorie intégrative de la fonction du cortex préfrontal. Annu Rev Neurosci. 2001; 24: 167 – 202. [PubMed]
  88. Miller R. Signification et but dans le cerveau intact. New York: Oxford University Press; 1981.
  89. Miyachi S, Hikosaka O, Lu X. Activation différentielle des neurones striataux de singe aux stades précoce et tardif de l'apprentissage procédural. Exp Brain Res. 2002; 146: 122 – 126. [PubMed]
  90. Miyachi S, O Hikosaka, Miyashita K, Karadi Z, Rand MK. Rôles différentiels du striatum de singe dans l'apprentissage du mouvement séquentiel des mains. Exp Brain Res. 1997; 115: 1 – 5. [PubMed]
  91. Montague PR, Hyman SE, Cohen JD. Rôles informatiques de la dopamine dans le contrôle comportemental. La nature. 2004; 431: 760 – 767. [PubMed]
  92. Morris G., Nevet A., Arkadir D., Vaadia E. et Bergman H. Les neurones dopaminergiques du cerveau moyen codent des décisions pour une action future. Nat Neurosci. 2006; 9: 1057 – 1063. [PubMed]
  93. Murschall A, Hauber W. L'inactivation de la région tegmentale ventrale a aboli l'influence excitatrice générale des signaux pavloviens sur la performance instrumentale. Apprendre Mem. 2006; 13: 123 – 126. [PubMed]
  94. Nauta WJ, GP Smith, Faull RL, Domesick VB. Connexions efférentes et afférences nigrales du noyau accumbens septi chez le rat. Neuroscience. 1978; 3: 385 – 401. [PubMed]
  95. Nauta WJH. Liens réciproques du corps striatum avec le cortex cérébral et le système limbique: un substrat commun pour le mouvement et la pensée? Dans: Mueller, éditeur. Neurologie et psychiatrie: la rencontre des esprits. Bâle: Karger; 1989. pp. 43 – 63.
  96. Niv Y, ND ND, Joël D, Dayan P. Dopamine tonique: coûts d'opportunité et contrôle de la vigueur de la réponse. Psychopharmacologie (Berl) 2007; 191: 507 – 520. [PubMed]
  97. O'Doherty J, Dayan P, J Schultz, R Deichmann, K Friston, Dolan RJ. Rôles dissociables du striatum ventral et dorsal dans le conditionnement instrumental. Science. 2004; 304: 452 – 454. [PubMed]
  98. Ostlund SB, Balleine BW. Implication différentielle de l'amygdale basolatérale et du thalamus médiodorsal dans la sélection de l'action instrumentale. J Neurosci. 2008; 28: 4398 – 4405. [Article gratuit PMC] [PubMed]
  99. Parkinson JA, Willoughby PJ, Robbins TW, Everitt BJ. La déconnexion du cortex cingulaire antérieur et du noyau accumbens altère le comportement à l'approche pavlovienne: preuve supplémentaire de l'existence d'un système limbique cortico-ventral striatopallidal. Behav Neurosci. 2000; 114: 42 – 63. [PubMed]
  100. Parkinson JA, Dalley JW, cardinal RN, Bamford A, Fehnert B, G Lachenal, Rudarakanchana N, Halkerston KM, Robbins TW, Everitt BJ. L’appauvrissement en dopamine du noyau accumbens nuit à la fois à l’acquisition et à la performance du comportement d’approche pavlovienne appétent: implications pour la fonction dopaminergique de mésoaccumbens. Behav Brain Res. 2002; 137: 149 – 163. [PubMed]
  101. Paxinos G, Franklin K. Le cerveau de souris en coordonnées stéréotaxiques. New York: Presse académique; 2003.
  102. Pecina S, Smith KS, Berridge KC. Points chauds hédoniques dans le cerveau. Neuroscientifique. 2006; 12: 500 – 511. [PubMed]
  103. Pothuizen HH, Jongen-Relo AL, Feldon J, Yee BK. La double dissociation des effets des lésions sélectives du noyau accumbens du noyau et de la coquille sur le comportement de choix impulsif et l'apprentissage de la saillance chez le rat. Eur J Neurosci. 2005; 22: 2605 – 2616. [PubMed]
  104. Rescorla RA. Probabilité de choc en présence et d'absence de CS dans le conditionnement de la peur. J Comp Physiol Psychol. 1968; 66: 1 – 5. [PubMed]
  105. Rescorla RA. Études comportementales du conditionnement pavlovien. Annu Rev Neurosci. 1988; 11: 329 – 352. [PubMed]
  106. Rescorla RA, Solomon RL. Théorie de l'apprentissage en deux étapes: relations entre le conditionnement de Pavlov et l'apprentissage instrumental. Psychol Rev. 1967; 74: 151 – 182. [PubMed]
  107. Restle F. Discrimination des indices dans les labyrinthes: une résolution de la question «place contre réponse». Revue psychologique. 1957; 64: 217. [PubMed]
  108. Reynolds JN, Wickens JR. Plasticité dépendante de la dopamine des synapses corticostriatales. Neural Netw. 2002; 15: 507 – 521. [PubMed]
  109. Rice ME, Cragg SJ. La nicotine amplifie les signaux dopaminergiques liés à la récompense dans le striatum. Nat Neurosci. 2004; 7: 583 – 584. [PubMed]
  110. Rice ME, Cragg SJ. Retombées dopaminergiques après libération quantitative: repenser la transmission de la dopamine par la voie nigrostriatale. Brain Res Rev. 2008 [Article gratuit PMC] [PubMed]
  111. Robinson S, Rainwater AJ, TS Hnasko, Palmiter RD. La restauration virale de la signalisation de la dopamine au striatum dorsal rétablit le conditionnement instrumental des souris déficientes en dopamine. Psychopharmacologie (Berl) 2007; 191: 567 – 578. [PubMed]
  112. Roitman MF, RA Wheeler, RM Carelli. Les neurones du noyau accumbens sont naturellement adaptés aux stimuli gustatifs valorisants et aversifs, encodent leurs prédicteurs et sont liés au débit moteur. Neurone. 2005; 45: 587 – 597. [PubMed]
  113. Samejima K, Y Ueda, Doya K, Kimura M. Représentation des valeurs de récompense spécifiques à l'action dans le striatum. Science. 2005; 310: 1337 – 1340. [PubMed]
  114. Schultz W. Le signal de récompense phasique des neurones dopaminergiques chez les primates. Adv Pharmacol. 1998a; 42: 686 – 690. [PubMed]
  115. Schultz W. Signal de récompense prédictif des neurones dopaminergiques. J Neurophysiol. 1998b; 80: 1 – 27. [PubMed]
  116. Schultz W, Dayan P, PR de Montague. Un substrat neural de prédiction et de récompense. Science. 1997; 275: 1593 – 1599. [PubMed]
  117. Schwartz B, Gamzu E. Pavlovian contrôle du comportement opérant. Dans: Honig W, Staddon JER, rédacteurs. Manuel du comportement opérant. New Jersey: Prentice Hall; 1977. pp. 53 – 97.
  118. Sheffield FD. Relation entre le conditionnement classique et le conditionnement instrumental. Dans: Prokasy WF, éditeur. Conditionnement classique. New York: Appleton-Century-Crofts; 1965. pp. 302 – 322.
  119. Skinner B. Le comportement des organismes. New York: Appleton-Century-Crofts; 1938.
  120. Smith-Roe SL, Kelley AE. L'activation simultanée des récepteurs D1 de la NMDA et de la dopamine dans le noyau du noyau accumbens est nécessaire pour l'apprentissage instrumental appétitif. J Neurosci. 2000; 20: 7737 – 7742. [PubMed]
  121. Sotak BN, TS Hnasko, Robinson S, EJ Kremer, RD Palmiter. La dérégulation de la signalisation de la dopamine dans le striatum dorsal inhibe l'alimentation. Brain Res. 2005; 1061: 88 – 96. [PubMed]
  122. Spence K. Le rôle du renforcement secondaire dans l'apprentissage différé des récompenses. Examen psychologique. 1947; 54: 1 – 8.
  123. Spence K. Théorie du comportement et apprentissage. Englewood Cliffs, NJ: Prentice-Hall; 1960.
  124. Sutton RS, Barto AG. Apprentissage par renforcement. Cambridge: MIT Press; 1998.
  125. Swanson LW. Régulation hémisphérique cérébrale du comportement motivé. Brain Res. 2000; 886: 113 – 164. [PubMed]
  126. Taha SA, Champs HL. Encodage des comportements d'appétence et d'appétence de populations neuronales distinctes dans le noyau accumbens. J Neurosci. 2005; 25: 1193 – 1202. [PubMed]
  127. Taha SA, Champs HL. Les inhibitions des neurones du noyau accumbens codent un signal de déclenchement pour un comportement dirigé par récompense. J Neurosci. 2006; 26: 217 – 222. [PubMed]
  128. Thorndike EL. Intelligence animale: études expérimentales. New York: Macmillan; 1911.
  129. Tobler PN, Dickinson A, Schultz W. Codage de l’omission de récompense prévue par les neurones dopaminergiques dans un paradigme d’inhibition conditionnée. J Neurosci. 2003; 23: 10402 – 10410. [PubMed]
  130. Tobler PN, O'Doherty JP, Dolan RJ, Schultz W. L'apprentissage neuronal humain dépend d'erreurs de prédiction de récompense dans le paradigme de blocage. J Neurophysiol. 2006; 95: 301–310. [Article gratuit PMC] [PubMed]
  131. Tobler PN, O'Doherty JP, Dolan RJ, Schultz W. Codage de valeur de récompense distinct du codage d'incertitude lié à l'attitude au risque dans les systèmes de récompense humaine. J Neurophysiol. 2007; 97: 1621–1632. [Article gratuit PMC] [PubMed]
  132. Trapold MA, Overmier JB. Conditionnement classique II: recherches et théorie actuelles. Appleton-Century-Crofts; 1972. Le deuxième processus d'apprentissage dans l'apprentissage instrumental; pp. 427 – 452.
  133. Tricomi EM, Delgado MR, le juge Fiez. Modulation de l'activité caudée par contingence d'action. Neurone. 2004; 41: 281 – 292. [PubMed]
  134. Waelti P, Dickinson A, Schultz W. Les réponses à la dopamine sont conformes aux hypothèses de base de la théorie de l’apprentissage formel. La nature. 2001; 412: 43 – 48. [PubMed]
  135. NM blanc. Une hypothèse fonctionnelle concernant la matrice et les patchs striataux: médiation de la mémoire SR et de la récompense. Life Sci. 1989; 45: 1943 – 1957. [PubMed]
  136. Wickens JR, CS Budd, BI Hyland, Arbuthnott GW. Contributions tripartites pour récompenser et prendre des décisions: comprendre les variations régionales dans une matrice de traitement réitérée. Ann NY Acad Sci. 2007; 1104: 192 – 212. [PubMed]
  137. Williams DR. Conditionnement classique et motivation incitative. Dans: Prokasy WF, éditeur. Conditionnement classique. New York: Appleton-Century-Crofts; 1965. pp. 340 – 357.
  138. Williams DR, Williams H. Automaintenance chez le pigeon: picage soutenu malgré le non-renforcement éventuel. Journal de l'analyse expérimentale du comportement. 1969; 12: 511 – 520. [Article gratuit PMC] [PubMed]
  139. Wiltgen BJ, Loi M, Ostlund S, M Mayford, Balleine BW. L'influence des signaux pavloviens sur la performance instrumentale est médiée par l'activité de CaMKII dans le striatum. Eur J Neurosci. 2007; 25: 2491 – 2497. [PubMed]
  140. Wyvell CL, Berridge KC. L’amphétamine intra-accumbens augmente l’importance conditionnelle de la récompense de saccharose: amélioration de la récompense «manquante» sans renforcement de la sympathie ou du renforcement de la réponse. J Neurosci. 2000; 20: 8122 – 8130. [PubMed]
  141. Yin HH. Département de psychologie. Los Angeles: UCLA; 2004. Le rôle du striatum dorsal dans les actions dirigées vers un objectif.
  142. Yin HH, Knowlton BJ. La dévaluation des renforceurs supprime la préférence des signaux conditionnés: preuve d'associations stimulus-stimulus. Behav Neurosci. 2002; 116: 174 – 177. [PubMed]
  143. Yin HH, Knowlton BJ. Contributions des sous-régions striatales à l'apprentissage des lieux et des réponses. Apprendre Mem. 2004; 11: 459 – 463. [Article gratuit PMC] [PubMed]
  144. Yin HH, Knowlton BJ. Dépendance et apprentissage. Dans: Stacy A, éditeur. Manuel de la cognition implicite et de la dépendance. Mille Chênes: Sauge; 2005.
  145. Yin HH, BJ de Knowlton, BW de Balleine. Les lésions du striatum dorsolatéral préservent les résultats attendus mais perturbent la formation d'habitudes lors de l'apprentissage instrumental. Eur J Neurosci. 2004; 19: 181 – 189. [PubMed]
  146. Yin HH, BJ de Knowlton, BW de Balleine. Le blocage des récepteurs NMDA dans le striatum dorsomédial empêche l’apprentissage des résultats d’action dans le conditionnement instrumental. Eur J Neurosci. 2005a; 22: 505 – 512. [PubMed]
  147. Yin HH, BJ de Knowlton, BW de Balleine. L'inactivation du striatum dorsolatéral augmente la sensibilité aux changements de la contingence action-résultat dans le conditionnement instrumental. Behav Brain Res. 2006a; 166: 189 – 196. [PubMed]
  148. Yin HH, Zhuang X, Balleine BW. Apprentissage instrumental chez des souris hyperdopaminergiques. Neurobiol Learn Mem. 2006b; 85: 283 – 288. [PubMed]
  149. Yin HH, SB Ostlund, BJ Knowlton, BW Balleine. Le rôle du striatum dorsomédien dans le conditionnement instrumental. Eur J Neurosci. 2005b; 22: 513 – 523. [PubMed]
  150. Zahm DS. Une perspective neuroanatomique intégrative sur certains substrats sous-corticaux de la réponse adaptative en mettant l’accent sur le noyau accumbens. Neurosci Biobehav Rev. 2000; 24: 85 – 105. [PubMed]
  151. Zahm DS. La théorie évolutive des «macrosystèmes» fonctionnels-anatomiques du cerveau antérieur basal. Neurosci Biobehav Rev. 2005 [PubMed]