Signal de récompense prédictif des neurones dopaminergiques (1998)

J Neurophysiol. 1998 Jul;80(1):1-27.

Schultz W1.

Abstract

Les effets des lésions, du blocage des récepteurs, de l'autostimulation électrique et des drogues d'abus suggèrent que les systèmes dopaminergiques du cerveau moyen participent au traitement des informations de récompense et au comportement de l'approche d'apprentissage. La plupart des neurones dopaminergiques présentent des activations phasiques après des récompenses primaires sous forme de liquide et de nourriture, ainsi que des stimuli visuels et auditifs conditionnés et prédictifs de la récompense. Ils présentent des réponses biphasiques, activation-dépression après traitement, qui ressemblent à des stimuli prédictifs, ou sont nouvelles ou particulièrement saillantes. Cependant, seules quelques activations phasiques suivent des stimuli aversifs. Ainsi, les neurones dopaminergiques étiquettent les stimuli environnementaux avec une valeur appétitive, prédisent et détectent les récompenses et signalent les événements d'alerte et de motivation. En omettant de faire la différence entre différentes récompenses, les neurones dopaminergiques semblent émettre un message d'alerte sur la présence ou l'absence surprenante de récompenses. Toutes les réponses aux récompenses et aux stimuli prédictifs dépendent de la prévisibilité des événements. Les neurones dopaminergiques sont activés par des événements enrichissants meilleurs que prévu, ne sont pas influencés par des événements aussi bons que prévus et déprimés par des événements pires que prévu. En signalant les récompenses selon une erreur de prédiction, les réponses dopaminergiques ont les caractéristiques formelles d'un signal d'enseignement postulé par les théories d'apprentissage par renforcement. Les réponses à la dopamine sont transférées pendant l'apprentissage des récompenses primaires aux stimuli prédictifs. Cela peut contribuer aux mécanismes neuronaux sous-jacents à l'action rétrograde des récompenses, l'une des principales énigmes de l'apprentissage par renforcement. La réponse impulsionnelle libère une courte impulsion de dopamine sur de nombreuses dendrites, transmettant ainsi un signal de renforcement plutôt global aux neurones postsynaptiques. Ce signal peut améliorer le comportement d'approche en fournissant des informations de récompense préalables avant que le comportement ne se produise et peut contribuer à l'apprentissage en modifiant la transmission synaptique. Le signal de récompense dopaminergique est complété par une activité dans les neurones du striatum, du cortex frontal et de l'amygdale, qui traitent des informations de récompense spécifiques sans émettre de signal d'erreur de prédiction de récompense globale. Une coopération entre les différents signaux de récompense peut assurer l'utilisation de récompenses spécifiques pour des comportements qui renforcent de manière sélective. Parmi les autres systèmes de projection, les neurones à la noradrénaline servent principalement les mécanismes de l'attention et le code des neurones à noyau de base est hétérogène. Les fibres grimpantes cérébelleuses signalent des erreurs de performances motrices ou des erreurs de prévision d'événements aversifs pour les cellules de Purkinje cérébelleuses. La plupart des déficits consécutifs à des lésions appauvrissant en dopamine ne sont pas facilement explicables par un signal de récompense défectueux, mais peuvent refléter l’absence de fonction générale habilitante des taux toniques de dopamine extracellulaire. Ainsi, les systèmes dopaminergiques peuvent avoir deux fonctions, la transmission phasique des informations de récompense et la tonification des neurones postsynaptiques.

INTRODUCTION

Lorsque les organismes multicellulaires sont nés de l'évolution des molécules auto-reproductibles, ils ont développé des mécanismes endogènes et autorégulateurs assurant que leurs besoins de bien-être et de survie étaient satisfaits. Les sujets s'engagent dans diverses formes de comportement d'approche pour obtenir des ressources pour maintenir l'équilibre homéostatique et se reproduire. Une classe de ressources est appelée récompenses, qui suscitent et renforcent le comportement d'approche. Les fonctions des récompenses ont été développées davantage au cours de l'évolution des mammifères supérieurs pour soutenir des formes plus sophistiquées de comportement individuel et social. Ainsi, les besoins biologiques et cognitifs définissent la nature des récompenses, et la disponibilité des récompenses détermine certains des paramètres de base des conditions de vie du sujet.

Les récompenses se présentent sous différentes formes physiques, sont très variables dans le temps et dépendent de l’environnement particulier du sujet. Malgré leur importance, les récompenses n'influencent pas le cerveau par le biais de récepteurs périphériques dédiés accordés sur une gamme limitée de modalités physiques, comme c'est le cas pour les systèmes sensoriels primaires. Au lieu de cela, les informations de récompense sont extraites par le cerveau d'une grande variété de stimuli polysensoriels, inhomogènes et inconstants en utilisant des mécanismes neuronaux particuliers. La nature très variable des récompenses nécessite des degrés élevés d’adaptation dans les systèmes neuronaux qui les traitent.

Le système dopaminergique semble être l’un des principaux systèmes neuronaux impliqués dans le traitement des informations de récompense. Des études comportementales montrent que les projections de dopamine sur le striatum et le cortex frontal jouent un rôle central dans la médiation des effets des récompenses sur le comportement et l'apprentissage de l'approche. Ces résultats sont dérivés de lésions sélectives de différents composants des systèmes dopaminergiques, de l'administration systémique et intracérébrale de médicaments agonistes et antagonistes directs et indirects des récepteurs de la dopamine, de l'autostimulation électrique et de l'auto-administration de drogues abusives majeures, telles que la cocaïne, l'amphétamine, opiacés, alcool et nicotine (Beninger et Hahn 1983; Di Chiara 1995; Fibiger et Phillips 1986; Robbins et Everitt 1992; Robinson et Berridge 1993; Wise 1996; Wise et Hoffman 1992; Wise et al. 1978).

Le présent article résume les recherches récentes sur la signalisation des stimuli de motivation environnementaux par les neurones dopaminergiques et évalue les fonctions potentielles de ces signaux pour modifier les réactions comportementales en se référant à l'organisation anatomique, aux théories de l'apprentissage, aux modèles neuronaux artificiels, aux autres systèmes neuronaux et aux déficits après lésions. Toutes les caractéristiques de réponse connues des neurones dopaminergiques seront décrites, mais principalement les réponses aux stimuli liés à la récompense seront conceptualisées car elles sont les mieux comprises actuellement. En raison de la grande quantité de données disponibles dans la littérature, le système principal discuté sera la projection nigrostriatale de dopamine, mais les projections des neurones de la dopamine du cerveau moyen vers le striatum ventral et le cortex frontal seront également prises en compte dans la mesure des connaissances actuelles.

RÉCOMPENSES ET PRÉDICTIONS

Fonctions de récompenses

Certains objets et événements dans l’environnement revêtent une importance motivationnelle particulière en raison de leurs effets sur le bien-être, la survie et la reproduction. Selon les réactions comportementales induites, la valeur motivationnelle des objets environnementaux peut être appétitive (gratifiante) ou aversive (punissante). (Notez que «appétitif» est synonyme de «récompensant» mais pas de «préparatoire».) Les objets appétitifs ont trois fonctions de base séparables. Dans leur fonction première, les récompenses suscitent une approche et un comportement consumériste. Cela est dû au fait que les objets sont étiquetés avec une valeur appétitive par le biais de mécanismes innés ou, dans la plupart des cas, d'apprentissage. Dans leur deuxième fonction, les récompenses augmentent la fréquence et l'intensité du comportement menant à de tels objets (apprentissage) et maintiennent le comportement appris en empêchant l'extinction. Les récompenses renforcent positivement le comportement dans les procédures de conditionnement classiques et instrumentales. Dans l’apprentissage par incitation en général, les stimuli environnementaux acquièrent une valeur appétitive à la suite d’associations de stimulation-récompense classiquement conditionnées et induisent un comportement d’approche (Bindra 1968). Dans le conditionnement instrumental, les récompenses «renforcent» les comportements en renforçant les associations entre stimuli et réponses comportementales (loi de l'effet: Thorndike 1911). C’est l’essence de «revenir pour plus» et elle est liée à la notion courante de récompenses obtenues pour avoir fait quelque chose de bien. Dans une forme instrumentale d’apprentissage par l’incitation, les récompenses sont des «incitations» et servent d’objectifs de comportement en fonction des associations entre les réponses comportementales et les résultats (Dickinson et Balleine 1994). Dans leur troisième fonction, les récompenses induisent des sentiments subjectifs de plaisir (hedonia) et des états émotionnels positifs. Les stimuli aversifs fonctionnent dans des directions opposées. Ils induisent des réactions de sevrage et agissent comme des renforçateurs négatifs en augmentant et en maintenant le comportement d'évitement lors de présentations répétées, réduisant ainsi l'impact d'événements dommageables. En outre, ils induisent des états émotionnels internes de colère, de peur et de panique.

Fonctions de prédiction

Les prévisions fournissent des informations préalables sur les stimuli, événements ou états du système futurs. Ils fournissent l’avantage fondamental de gagner du temps pour les réactions comportementales. Certaines formes de prédiction attribuent des valeurs de motivation aux stimuli environnementaux en les associant à des résultats particuliers, identifiant ainsi les objets d'importance vitale et les discriminant des objets de moindre valeur. D'autres formes codent les paramètres physiques des objets prédits, tels que la position spatiale, la vitesse et le poids. Les prévisions permettent à un organisme d'évaluer les événements futurs avant qu'ils ne se produisent réellement, de sélectionner et de préparer des réactions comportementales et d'augmenter la probabilité d'approcher ou d'éviter des objets étiquetés avec des valeurs de motivation. Par exemple, les mouvements répétés d'objets dans la même séquence permettent de prédire les positions à venir et préparent déjà le mouvement suivant tout en poursuivant l'objet présent. Cela réduit le temps de réaction entre les cibles individuelles, accélère les performances globales et aboutit à un résultat plus rapide. Les mouvements oculaires prédictifs améliorent les performances comportementales grâce à la mise au point avancée (Fleurs et Downing 1978).

À un niveau plus avancé, les informations avancées fournies par les prédictions permettent de prendre des décisions entre les alternatives pour atteindre des états de système particuliers, d'approcher des objectifs peu fréquents ou d'éviter des effets indésirables irréparables. Les applications industrielles utilisent le contrôle de modèle interne pour prévoir et réagir aux états du système avant qu’ils ne se produisent réellement (Garcia et al. 1989). Par exemple, la technique du «vol électrique» dans l’aviation moderne calcule les états prévisibles à venir des avions. Les décisions relatives aux manœuvres en vol tiennent compte de ces informations et permettent d’éviter des contraintes excessives sur les composants mécaniques de l’avion, réduisant ainsi le poids et augmentant la plage de fonctionnement.

L'utilisation d'informations prédictives dépend de la nature des événements futurs représentés ou des états du système. Les représentations simples concernent directement la position des cibles à venir et la réaction comportementale qui en découle, réduisant ainsi le temps de réaction de manière plutôt automatique. Les formes de prédiction supérieures sont basées sur des représentations permettant une inférence logique, auxquelles on peut accéder et que l'on peut traiter avec plus ou moins d'intentionnalité et de choix. Ils sont souvent traités consciemment chez l'homme. Avant que les événements prédits ou les états du système se produisent et que des réactions comportementales soient effectuées, de telles prédictions permettent d'évaluer mentalement diverses stratégies en intégrant des connaissances de différentes sources, en concevant divers modes de réaction et en comparant les gains et les pertes de chaque réaction possible.

Conditionnement comportemental

L'apprentissage appétitif associatif implique le couplage répété et contingent entre un stimulus arbitraire et une récompense primaire (Fig. 1). Cela se traduit par un comportement d'approche de plus en plus fréquent induit par le stimulus désormais «conditionné», qui ressemble en partie au comportement d'approche induit par la récompense principale et qui est également influencé par la nature du stimulus conditionné. Il semble que le stimulus conditionné sert de prédicteur de la récompense et, souvent sur la base d'une motivation appropriée, crée un état de motivation interne menant à la réaction comportementale. La similarité des réactions d’approche suggère que certaines des composantes préparatoires générales de la réponse comportementale sont transférées de la récompense primaire au stimulus conditionné le plus ancien et prédictif de la récompense. Ainsi, le stimulus conditionné agit en partie comme un substitut de motivation au stimulus principal, probablement par l’apprentissage pavlovien (Dickinson 1980).

Figue. 1. 

Traitement des stimuli d'appétit pendant l'apprentissage. Un stimulus arbitraire est associé à un aliment primaire ou à une récompense liquide par un couplage répété et contingent. Ce stimulus conditionné et prédictif de récompense induit un état de motivation interne en évoquant une attente de récompense, souvent sur la base d'une pulsion de faim ou de soif correspondante, et provoque la réaction comportementale. Ce schéma reprend les notions de base de la théorie de la motivation par incitation développée par Bindra (1968) et Bolles (1972). Cela s'applique au conditionnement classique, où la récompense est automatiquement délivrée après le stimulus conditionné, et au conditionnement instrumental (opérant), où la délivrance de la récompense nécessite une réaction du sujet au stimulus conditionné. Ce schéma s'applique également au conditionnement aversif qui n'est pas précisé pour des raisons de brièveté.

Bon nombre de prétendues récompenses alimentaires et liquides «non conditionnées» sont probablement apprises par expérience, comme le confirme tout visiteur dans des pays étrangers. La récompense principale pourrait alors consister en le goût éprouvé lorsque l'objet active les récepteurs gustatifs, mais cela peut être appris à nouveau. L'effet gratifiant ultime des objets nutritifs réside probablement dans leurs influences spécifiques sur des variables biologiques fondamentales, telles que les concentrations d'électrolytes, de glucose ou d'acides aminés dans le plasma et le cerveau. Ces variables sont définies par les besoins végétatifs de l'organisme et découlent de l'évolution. Les animaux évitent les nutriments qui n’influencent pas les variables végétatives importantes, tels que les aliments dépourvus d’acides aminés essentiels comme l’histidine (Rogers et Harper 1970), la thréonine (Hrupka et al. 1997; Wang et al. 1996), ou méthionine (Delaney et Gelperin 1986). Quelques récompenses primaires peuvent être déterminées par des instincts innés et soutiennent le comportement d'approche initiale et l'ingestion au début de la vie, alors que la majorité des récompenses seraient apprises au cours de l'expérience de vie ultérieure du sujet. L’apparence physique des récompenses pourrait alors être utilisée pour prédire les effets végétatifs beaucoup plus lents. Cela accélérerait considérablement la détection des récompenses et constituerait un avantage majeur pour la survie. L’apprentissage des récompenses permet également aux sujets d’utiliser une plus grande variété de nutriments comme récompenses efficaces et ainsi d’augmenter leurs chances de survie dans des zones où les ressources sont rares.

RÉACTIONS ADAPTATIVES À DES STIMULES D'APPÉTITION

Les corps cellulaires des neurones dopaminergiques sont situés principalement dans les groupes du cerveau moyen A8 (substantia nigra dorsale à latérale), A9 (partie compacte de la substantia nigra) et A10 (région tégmentale ventrale allant de la médiane à la substantia nigra). Ces neurones libèrent le neurotransmetteur dopamine avec des impulsions nerveuses provenant de varicosités axonales dans le striatum (noyau caudé, putamen et striatum ventral, y compris le noyau accumbens) et le cortex frontal, pour en nommer les sites les plus importants. Nous enregistrons l'activité impulsionnelle des corps cellulaires de neurones à dopamine uniques pendant des périodes de 20 – 60 min avec des microélectrodes mobiles à partir de positions extracellulaires pendant que les singes apprennent ou effectuent des tâches comportementales. Les impulsions polyphasiques caractéristiques, relativement longues et déchargées à basses fréquences, permettent aux neurones dopaminergiques de se distinguer facilement des autres neurones du cerveau moyen. Les paradigmes comportementaux utilisés incluent les tâches de temps de réaction, les tâches directes et différées, les tâches de réponse et d'alternance spatiales, les tâches d'évitement actif de souffle d'air et de solution saline, les tâches de discrimination visuelle opérantes et classiquement conditionnées, les mouvements auto-initiés et la livraison imprévue de récompense en l'absence de toute tâche formelle. Les neurones de la dopamine 100 – 250 sont étudiés dans chaque situation comportementale, et des fractions de neurones à modulation de tâche font référence à ces échantillons.

Les premières études d'enregistrement ont recherché des corrélats de déficits moteurs et cognitifs parkinsoniens dans les neurones dopaminergiques, mais n'ont pas permis de déterminer des covariations claires avec les mouvements des bras et des yeux (DeLong et al. 1983; Schultz et Romo 1990; Schultz et al. 1983) ou avec des composants mnémoniques ou spatiaux de tâches à réponse retardée (Schultz et al. 1993). En revanche, il a été constaté que les neurones dopaminergiques étaient activés de manière très distinctive par les caractéristiques valorisantes d’un large éventail de stimuli somatosensoriels, visuels et auditifs.

Activation par les stimuli appétitifs primaires

À propos de 75,% des neurones dopaminergiques présentent des activations phasiques lorsque les animaux touchent un petit morceau de nourriture cachée au cours de mouvements exploratoires en l'absence d'autres stimuli phasiques, sans être activés par le mouvement lui-même (Romo et Schultz 1990). Les neurones dopaminergiques restants ne répondent à aucun des stimuli environnementaux testés. Les neurones dopaminergiques sont également activés par une goutte de liquide administré par la bouche en dehors de toute tâche comportementale ou lors de l'apprentissage de paradigmes différents, tels que tâches temporelles de réaction visuelle ou auditive, réponse ou alternance spatiale et alternance, et discrimination visuelle, souvent chez le même animal (Fig. . 2 top) (Hollerman et Schultz 1996; Ljungberg et al. 1991, 1992; Mirenowicz et Schultz 1994; Schultz et al. 1993). Les réponses à la récompense se produisent indépendamment du contexte d'apprentissage. Ainsi, les neurones dopaminergiques ne semblent pas faire la différence entre différents objets alimentaires et les récompenses liquides. Cependant, leurs réponses distinguent les récompenses des objets non rémunérés (Romo et Schultz 1990). Seuls les 14% des neurones dopaminergiques présentent les activations phasiques lorsque des stimuli aversifs principaux sont présentés, tels qu’une bouffée d’air dans la main ou une solution saline hypertonique dans la bouche, et la plupart des neurones activés répondent également aux récompenses (Mirenowicz et Schultz 1996). Bien qu'ils soient non toxiques, ces stimuli sont aversifs en ce qu'ils perturbent le comportement et induisent des réactions d'évitement actives. Cependant, les neurones dopaminergiques ne sont pas totalement insensibles aux stimuli aversifs, comme le montrent les dépressions lentes ou les activations lentes occasionnelles après le stimuli du pincement de la douleur chez des singes anesthésiés (Schultz et Romo 1987) et par augmentation de la libération de dopamine striatale après un choc électrique et un pincement de la queue chez des rats éveillés (Abercrombie et al. 1989; Doherty et Gratton 1992; Louilot et al. 1986; Young et al. 1993). Ceci suggère que les réponses phasiques des neurones dopaminergiques rapportent de préférence les stimuli environnementaux avec une valeur d'appétit primaire, alors que les événements aversifs peuvent être signalés avec une évolution temporelle considérablement plus lente.

Figue. 2. 

Les neurones dopaminergiques rapportent les récompenses selon une erreur dans la prédiction des récompenses. Bien: une goutte de liquide se produit bien qu'aucune récompense ne soit prévue pour le moment. La survenue d'une récompense constitue donc une erreur positive dans la prédiction de la récompense. Le neurone dopaminergique est activé par la survenue imprévue du liquide. Milieu: stimulus conditionné prédit une récompense, et la récompense se produit en fonction de la prédiction, donc pas d'erreur dans la prédiction de la récompense. Le neurone dopaminergique ne parvient pas à être activé par la récompense prévue (droite). Il montre également une activation après le stimulus prédictif de la récompense, qui survient indépendamment d'une erreur dans la prédiction de la récompense ultérieure. (la gauche). Bas et Leggings: le stimulus conditionné prédit une récompense, mais la récompense échoue à cause du manque de réaction de l'animal. L'activité du neurone dopaminergique est déprimée exactement au moment où la récompense se serait produite. Notez la dépression survenant> 1 s après le stimulus conditionné sans aucun stimuli intermédiaire, révélant un processus interne d'attente de récompense. L'activité neuronale dans les 3 graphiques suit l'équation: réponse dopaminergique (récompense) = récompense survenue - récompense prévue. CS, stimulus conditionné; R, récompense principale. Réimprimé de Schultz et al. (1997) avec la permission de l'Association américaine pour l'avancement des sciences.

Imprévisibilité de la récompense

Une caractéristique importante des réponses dopaminergiques est leur dépendance à l'imprévisibilité des événements. Les activations qui suivent les récompenses ne se produisent pas lorsque les récompenses sous forme de nourriture et de liquide sont précédées de stimuli phasiques conditionnés pour prédire de telles récompenses (Fig. 2, milieu) (Ljungberg et al. 1992; Mirenowicz et Schultz 1994; Romo et Schultz 1990). Une différence cruciale entre l'apprentissage et le comportement pleinement acquis est le degré d'imprévisibilité de la récompense. Les neurones dopaminergiques sont activés par des récompenses au cours de la phase d’apprentissage, mais cessent de répondre après l’acquisition complète des tâches de temps de réaction visuelle et auditive (Ljungberg et al. 1992; Mirenowicz et Schultz 1994), tâches de réponse spatiale différée (Schultz et al. 1993) et discriminations visuelles simultanées (Hollerman et Schultz 1996). La perte de réponse n'est pas due à une insensibilité générale croissante aux récompenses, car les activations consécutives à des récompenses distribuées en dehors des tâches ne diminuent pas pendant plusieurs mois d'expérimentation (Mirenowicz et Schultz 1994). L’importance de l’imprévisibilité inclut le temps de récompense, comme le montrent les activations transitoires consécutives à des récompenses soudainement livrées plus tôt ou plus tard que prévu (Hollerman et Schultz 1996). Pris ensemble, l'occurrence de la récompense, y compris son heure, doit être imprévisible pour activer les neurones dopaminergiques.

Dépression par omission de récompense prévue

Les neurones dopaminergiques sont déprimés exactement au moment de l’occurrence habituelle de la récompense quand une récompense entièrement prédite ne se produit pas, même en l’absence d’un stimulus immédiatement précédent (Fig. 2, bas). Ceci est observé lorsque les animaux ne parviennent pas à obtenir de récompense en raison d'un comportement erroné, lorsque l'expérimentateur arrête le débit de liquide malgré le comportement correct ou quand une vanne s'ouvre de manière audible sans libérer de liquide (Hollerman et Schultz 1996; Ljungberg et al. 1991; Schultz et al. 1993). Lorsque la remise de récompense est retardée pour 0.5 ou 1.0, une dépression de l’activité neuronale se produit à l’heure habituelle de la récompense et une activation suit la récompense à la nouvelle heure (Hollerman et Schultz 1996). Les deux réponses ne se produisent que pendant quelques répétitions jusqu'à ce que la nouvelle heure de distribution des récompenses redevienne prédite. En revanche, offrir une récompense plus tôt que d'habitude entraîne une activation au nouveau moment de la récompense, mais ne provoque pas de dépression au moment habituel. Cela suggère qu'une distribution de récompense inhabituellement précoce annule la prévision de récompense pour l'heure habituelle. Ainsi, les neurones dopaminergiques surveillent à la fois l'apparition et le moment de la récompense. En l'absence de stimuli précédant immédiatement la récompense omise, les dépressions ne constituent pas une simple réponse neuronale, mais reflètent un processus d'attente basé sur une horloge interne traçant le moment précis de la récompense prédite.

Activation par des stimuli conditionnés, prédictifs de récompense

À propos de 55 – 70% des neurones dopaminergiques sont activés par des stimuli visuels et auditifs conditionnés dans les diverses tâches conditionnées classiquement ou instrumentalement décrites précédemment (Fig. 2, milieu et bas) (Hollerman et Schultz 1996; Ljungberg et al. 1991, 1992; Mirenowicz et Schultz 1994; Schultz 1986; Schultz et Romo 1990; Waelti, J. Mirenowicz et W. Schultz, données non publiées). Les premières réponses dopaminergiques à la lumière conditionnée ont été rapportées par Miller et al. (1981) chez les rats traités par l'halopéridol, ce qui a augmenté l'incidence et l'activité spontanée des neurones dopaminergiques, mais a entraîné des réponses plus durables que chez les animaux non-médicamentés. Bien que les réactions soient proches des réactions comportementales (Nishino et al. 1987), ils ne sont pas liés aux mouvements des bras et des yeux eux-mêmes, car ils se produisent également de manière ipsilatérale par rapport au bras en mouvement et lors d'essais sans mouvements des bras ou des yeux (Schultz et Romo 1990). Les stimuli conditionnés sont un peu moins efficaces que les récompenses primaires en termes d’ampleur de la réponse et de fractions de neurones activés. Les neurones dopaminergiques répondent uniquement à l’apparition de stimuli conditionnés et non à leur décalage, même si le décalage de stimulus prédit la récompense (Schultz et Romo 1990). Les neurones dopaminergiques ne font pas la distinction entre les modalités visuelles et auditives des stimuli appétitifs conditionnés. Cependant, ils font la distinction entre des stimuli appétitifs et des stimuli neutres ou aversifs, à condition qu’ils soient physiquement suffisamment dissemblables (Ljungberg et al. 1992; Waelti, J. Mirenowicz et W. Schultz, données non publiées). Seuls les 11% des neurones dopaminergiques, dont la plupart ont des réponses appétitives, montrent les activations phasiques typiques également en réponse à des stimuli visuels ou auditifs aversifs conditionnés lors de tâches d'évitement actif dans lesquelles les animaux libèrent une clé permettant d'éviter une bouffée d'air ou une goutte de sérum hypertonique. (Mirenowicz et Schultz 1996), bien que cet évitement puisse être considéré comme «gratifiant». Ces quelques activations ne sont pas suffisamment fortes pour induire une réponse moyenne de la population. Ainsi, les réponses phasiques des neurones dopaminergiques rapportent préférentiellement des stimuli environnementaux ayant une valeur de motivation appétitive, mais sans discrimination entre différentes modalités sensorielles.

Transfert d'activation

Au cours de l’apprentissage, les neurones dopaminergiques sont progressivement activés par des stimuli conditionnés prédictifs de récompenses et perdent progressivement leur réponse aux aliments primaires ou aux récompenses liquides prédites (Hollerman et Schultz 1996; Ljungberg et al. 1992; Mirenowicz et Schultz 1994) (Figues. 2 et 3). Pendant une période d'apprentissage transitoire, les récompenses et les stimuli conditionnés induisent des activations de la dopamine. Ce transfert de la récompense primaire au stimulus conditionné se produit instantanément dans des neurones à dopamine individuels testés dans le cadre de deux tâches bien apprises, utilisant respectivement des récompenses imprévues et prédites (Romo et Schultz 1990).

Figue. 3. 

Transfert de la réponse dopaminergique au premier stimulus prédictif. Réponses à un transfert primaire de récompense non prévu à des stimuli prédictifs de récompense progressivement plus précoces. Tous les écrans affichent les histogrammes de population obtenus en faisant la moyenne des histogrammes de temps de périence normalisés de tous les neurones à dopamine enregistrés dans les situations comportementales indiquées, indépendamment de la présence ou de l'absence de réponse. Bien: en dehors de toute tâche comportementale, il n'y a pas de réponse de la population dans les neurones 44 testés avec une petite lumière (données de Ljungberg et al. 1992), mais une réponse moyenne se produit dans 35 neurones à une goutte de liquide délivrée à un bec devant la bouche de l'animal (Mirenowicz et Schultz 1994). Milieu: réponse à un stimulus de déclenchement de prévision de récompense dans une tâche de portée spatiale à choix 2, mais absence de réponse à récompense fournie lors de l'exécution d'une tâche établie dans les mêmes neurones 23 (Schultz et al. 1993). Bas et Leggings: réponse à un signal d’instruction précédant le stimulus de déclenchement prédit par la récompense d’un intervalle fixe de 1 dans une tâche d’atteinte spatiale (neurones 19) (Schultz et al. 1993). La base de temps est divisée en raison des intervalles variables entre les stimuli conditionnés et la récompense. Reproduit de Schultz et al. (1995b) avec la permission de MIT Press.

Imprévisibilité des stimuli conditionnés

Les activations après des stimuli conditionnés prédictifs de récompense ne se produisent pas lorsque ces stimuli eux-mêmes sont précédés à un intervalle fixe de stimuli conditionnés phasiques dans des situations comportementales pleinement établies. Ainsi, avec les stimuli conditionnés en série, les neurones dopaminergiques sont activés par le premier stimulus prédictif de récompense, alors que tous les stimuli et récompenses qui en découlent à des moments prévisibles sont inefficaces (Fig. 3) (Schultz et al. 1993). Seuls les stimuli séquentiels espacés de manière aléatoire provoquent des réponses individuelles. De plus, un surentraînement important avec une performance de tâche hautement stéréotypée atténue les réponses aux stimuli conditionnés, probablement parce que les stimuli sont prédits par les événements de l'essai précédent (Ljungberg et al. 1992). Cela suggère que l'imprévisibilité des stimulus est une exigence commune à tous les stimuli activant les neurones dopaminergiques.

Dépression par omission des stimuli conditionnés prédits

Données préliminaires d'une expérience précédente (Schultz et al. 1993) suggèrent que les neurones dopaminergiques sont également déprimés lorsqu'un stimulus conditionné prédictif de la récompense est lui-même prédit à un moment déterminé par un stimulus précédent, mais qu'il ne se produit pas à cause d'une erreur de l'animal. Comme pour les récompenses primaires, les dépressions surviennent au moment de l’apparition habituelle du stimulus conditionné, sans être directement provoquées par un stimulus précédent. Ainsi, la dépression induite par l'omission peut être généralisée à tous les événements d'appétit.

Activation-dépression avec généralisation de la réponse

Les neurones dopaminergiques répondent également à des stimuli qui ne prédisent pas les récompenses, mais ressemblent beaucoup aux stimuli prédictifs de récompenses se produisant dans le même contexte. Ces réponses consistent principalement en une activation suivie d'une dépression immédiate, mais peuvent parfois consister en une activation pure ou une dépression pure. Les activations sont plus petites et moins fréquentes que celles qui suivent des stimuli prédictifs de récompense, et les dépressions sont observées dans 30 – 60% des neurones. Les neurones dopaminergiques répondent à des stimuli visuels qui ne sont pas suivis de récompense, mais ressemblent beaucoup à des stimuli prédictifs de récompense, malgré une discrimination comportementale correcte (Schultz et Romo 1990). L'ouverture d'une boîte vide n'active pas les neurones dopaminergiques mais devient efficace dans tous les essais dès que la boîte contient occasionnellement des aliments (Ljungberg et al. 1992; Schultz 1986; Schultz et Romo 1990) ou lorsqu’une boîte identique, voisine, contenant toujours des aliments s’ouvre en alternance aléatoire (Schultz et Romo 1990). La boîte vide suscite des activations plus faibles que la boîte appâtée. Les animaux effectuent des réactions d’orientation oculaire aveugles à chaque case mais ne s’approchent que de la main de la case appâtée. Pendant l’apprentissage, les neurones dopaminergiques continuent de réagir aux stimuli conditionnés antérieurement qui perdent leur prévision de récompense lorsque les contingences de récompense changent (Schultz et al. 1993) ou répondent à de nouveaux stimuli ressemblant à des stimuli précédemment conditionnés (Hollerman et Schultz 1996). Les réponses se produisent même pour des stimuli aversifs présentés en alternance aléatoire avec des stimuli appétitifs conditionnés physiquement similaires de la même modalité sensorielle, la réponse aversive étant plus faible que la réponse appétitive (Mirenowicz et Schultz 1996). Les réponses se généralisent même aux stimuli d'appétit éteints par le comportement. Apparemment, les réponses neuronales se généralisent aux stimuli non appétitifs en raison de leur ressemblance physique avec les stimuli appétitifs.

Réponses de nouveauté

De nouveaux stimuli provoquent des activations dans les neurones dopaminergiques qui sont souvent suivies de dépressions et persistent aussi longtemps que des réactions d'orientation comportementale se produisent (p. Ex., Saccades oculaires). Les activations disparaissent avec les réactions d'orientation après plusieurs répétitions de stimulus, en fonction de l'impact physique des stimuli. Alors que les petites diodes électroluminescentes suscitent à peine des réponses de nouveauté, les flashs lumineux et l'ouverture visuelle et auditive rapide d'une petite boîte provoquent des activations qui se dégradent progressivement vers la ligne de base pendant <100 essais (Ljungberg et al. 1992). Des clics bruyants ou de grandes images immédiatement devant un animal suscitent de fortes réponses de nouveauté qui se décomposent mais induisent toujours des activations mesurables avec plus de 1,000 essais (Hollerman et Schultz 1996; Horvitz et al. 1997; Steinfels et al. 1983). Figure 4 montre schématiquement les différentes amplitudes de réponse avec de nouveaux stimuli de saillance physique différente. Les réponses décroissent progressivement avec l'exposition répétée, mais peuvent persister à des amplitudes réduites avec des stimuli très saillants. Les amplitudes de la réponse augmentent à nouveau lorsque les mêmes stimuli sont conditionnés de manière appétissante. En revanche, les réponses aux stimuli nouveaux, même importants, s’affaiblissent rapidement lorsque ces stimuli sont utilisés pour conditionner un comportement évitant actif (Mirenowicz et Schultz 1996). Très peu de neurones (<5%) répondent pendant plus de quelques essais à des stimuli remarquables mais physiquement faibles, tels que l'effritement du papier ou les mouvements bruts de la main de l'expérimentateur.

Figue. 4. 

Évolution temporelle des activations des neurones dopaminergiques en stimuli nouveaux, en alerte et conditionnés. Les activations après de nouveaux stimuli diminuent avec une exposition répétée après des essais consécutifs. Leur ampleur dépend de la saillance physique des stimuli, car les stimuli plus forts induisent des activations plus élevées qui dépassent parfois celles qui suivent les stimuli conditionnés. Des stimuli particulièrement saillants continuent à activer les neurones dopaminergiques d'ampleur limitée, même après avoir perdu leur nouveauté, sans être associés à des récompenses primaires. Des activations cohérentes apparaissent à nouveau lorsque les stimuli sont associés aux récompenses primaires. Ce projet a été mis au point par Jose Contreras-Vidal.

Caractère homogène des réponses

Les expériences réalisées jusqu'à présent ont révélé que la majorité des neurones des groupes de cellules dopaminergiques du cerveau moyen A8, A9 et A10 présentent des activations et des dépressions très similaires dans une situation comportementale donnée, alors que les neurones dopaminergiques restants ne répondent pas du tout. Des fractions plus élevées de neurones réagissent dans davantage de régions médiales du cerveau moyen, telles que la région tegmentale ventrale et la substantia nigra médiale, par rapport aux régions plus latérales, qui atteignent parfois une signification statistique (Schultz 1986; Schultz et al. 1993). Les latences de réponse (50 à 110 ms) et les durées (<200 ms) sont similaires entre les récompenses primaires, les stimuli conditionnés et les nouveaux stimuli. Ainsi, la réponse dopaminergique constitue un signal de population scalaire relativement homogène. Il est évalué en ampleur par la réactivité des neurones individuels et par la fraction de neurones répondeurs au sein de la population.

Résumé 1: réponses adaptatives lors des épisodes d'apprentissage

Les caractéristiques des réponses de la dopamine aux stimuli liés aux récompenses sont mieux illustrées lors d’épisodes d’apprentissage au cours desquelles les récompenses sont particulièrement importantes pour l’acquisition de réponses comportementales. Le signal de récompense dopaminergique subit des modifications systématiques au cours de l’apprentissage et se manifeste dès le premier stimulus lié à la récompense phasique, qu’il s’agisse d’une récompense primaire ou d’un stimulus prédictif de la récompense (Ljungberg et al. 1992; Mirenowicz et Schultz 1994). Pendant l’apprentissage, de nouveaux stimuli intrinsèquement neutres induisent de manière transitoire des réponses qui s’affaiblissent rapidement et disparaissent (Fig. 4). Les récompenses primaires se produisent de manière imprévisible lors de l'appariement initial avec de tels stimuli et déclenchent des activations neuronales. Avec un jumelage répété, les récompenses deviennent prédites par des stimuli conditionnés. Les activations après la récompense diminuent progressivement et sont transférées au stimulus conditionné, prédictif de la récompense. Si, toutefois, une récompense prévue échoue à cause d'une erreur de l'animal, les neurones dopaminergiques sont déprimés au moment où la récompense se serait produite. Lors de l'apprentissage répété de tâches (Schultz et al. 1993) ou des composants de tâches (Hollerman et Schultz 1996), les stimuli conditionnés les plus précoces activent les neurones dopaminergiques pendant toutes les phases d’apprentissage en raison de la généralisation de stimuli similaires précédemment appris, alors que les stimuli conditionnels ultérieurs et les récompenses primaires n’activent les neurones dopaminergiques que de manière transitoire, tant qu’ils sont incertains et que de nouvelles contingences sont en cours d’établissement.

Résumé 2: stimuli efficaces pour les neurones dopaminergiques

Les réponses à la dopamine sont provoquées par trois catégories de stimuli. La première catégorie comprend les récompenses primaires et les stimuli qui sont devenus des prédicteurs de récompense valables grâce à une association répétée et contingente de récompenses. Ces stimuli forment une classe commune de stimuli explicites prédictifs de récompense, les récompenses primaires servant de prédicteurs des effets de récompense végétatifs. Les stimuli efficaces ont apparemment une composante d'alerte, car seuls les stimuli apparaissant clairement sont efficaces. Les neurones dopaminergiques présentent des activations pures suivant des stimuli explicites prédictifs de la récompense et sont déprimés lorsqu'une récompense prédite mais omise ne se produit pas (Fig. 5, top).

Figue. 5. 

Représentation schématique des réponses des neurones dopaminergiques aux types de stimuli conditionnés de type 2. Bien: la présentation d’un stimulus explicite prédictif de récompense conduit à une activation après le stimulus, à une absence de réponse à la récompense prévue et à la dépression lorsqu’une récompense prévue ne se produit pas. Bas et Leggings: la présentation d’un stimulus ressemblant beaucoup à un stimulus conditionné prédictif de récompense conduit à une activation suivie par une dépression, une activation après la récompense et à aucune réponse si aucune récompense ne se produit. L'activation après le stimulus reflète probablement la généralisation de la réponse en raison de la similarité physique. Ce stimulus ne prédit pas explicitement une récompense, mais est lié à la récompense par sa similitude avec le stimulus prédisant la récompense. Par rapport aux stimuli explicites prédictifs de récompense, les activations sont plus faibles et sont souvent suivies de dépressions, établissant ainsi une distinction entre les stimuli conditionnés récompensés (CS +) et non récompensés (CS−). Ce schéma résume les résultats des expériences précédentes et en cours (Hollerman et Schultz 1996; Ljungberg et al. 1992; Mirenowicz et Schultz 1996; Schultz et Romo 1990; Schultz et al. 1993; P. Waelti et W. Schultz, résultats non publiés).

La deuxième catégorie comprend les stimuli qui provoquent des réponses généralisantes. Ces stimuli ne prédisent pas explicitement les récompenses mais sont efficaces en raison de leur similitude physique avec les stimuli qui sont devenus des prédicteurs de récompense explicites à travers le conditionnement. Ces stimuli induisent des activations de magnitude inférieure et engagent moins de neurones que les stimuli explicites prédictifs de récompense (Fig. 5, bas). Ils sont fréquemment suivis de dépressions immédiates. Alors que l'activation initiale peut constituer une réponse appétitive généralisée signalant une récompense éventuelle, la dépression ultérieure peut refléter la prédiction de l'absence de récompense dans un contexte général de prévision de la récompense et annuler l'hypothèse de récompense erronée. L'absence de prédiction explicite de la récompense est également suggérée par la présence d'activation après la récompense principale et par l'absence de dépression sans récompense. Avec les réponses aux stimuli prédictifs de récompense, il semble que les activations de la dopamine signalent une «étiquette» appétissante apposée sur des stimuli liés à des récompenses.

La troisième catégorie comprend les stimuli nouveaux ou particulièrement saillants qui ne sont pas nécessairement liés à des récompenses spécifiques. En suscitant des réactions d'orientation comportementale, ces stimuli alertent et attirent l'attention. Cependant, ils ont aussi des fonctions motivantes et peuvent être enrichissants (Fujita 1987). Les nouveaux stimuli sont potentiellement appétitifs. Les stimuli nouveaux ou particulièrement saillants induisent des activations fréquemment suivies de dépressions, similaires aux réponses à des stimuli généralisants.

Ainsi, les réponses phasiques des neurones dopaminergiques rapportent des événements ayant des effets motivants positifs et potentiellement positifs, tels que des récompenses primaires, des stimuli prédictifs de récompense, des événements ressemblant à des récompenses et des stimuli d'alerte. Cependant, ils ne détectent pas dans une large mesure les événements ayant des effets motivants négatifs, tels que les stimuli aversifs.

Résumé 3: le signal d'erreur de prédiction récompense de la dopamine

Les réponses de la dopamine à des événements explicites liés à la récompense peuvent être mieux conceptualisées et comprises en termes de théories formelles de l’apprentissage. Les neurones dopaminergiques rapportent les récompenses par rapport à leur prédiction plutôt que de signaler inconditionnellement les récompenses primaires (Fig. 2). La réponse à la dopamine est positive (activation) lorsque les récompenses primaires se produisent sans être prédit. La réponse est nulle lorsque les récompenses se produisent comme prévu. La réponse est négative (dépression) lorsque les récompenses prévues sont omises. Ainsi, les neurones dopaminergiques rapportent les récompenses primaires en fonction de la différence entre l’occurrence et la prédiction de la récompense, ce qui peut être qualifié d’erreur dans la prédiction de la récompense (Schultz et al. 1995b, 1997) et est provisoirement formalisé

Réponse à la dopamine (Récompenser)=Récompense-Récompensé

Équation 1T: Cette suggestion peut être étendue aux événements liés à l'appétit conditionnés qui sont également signalés par les neurones dopaminergiques par rapport à la prédiction. Ainsi, les neurones dopaminergiques peuvent signaler une erreur dans la prédiction de tous les événements d'appétit, et Éq. 1 peut être indiqué dans la forme plus générale

Réponse à la dopamine (ApEvent)=ApEventOccur-ApEventPredicted

Équation 2Cette généralisation est compatible avec l’idée que la plupart des récompenses sont en réalité des stimuli conditionnés. Avec plusieurs événements de prédiction de récompense consécutifs et bien établis, seul le premier événement est imprévisible et provoque l'activation de la dopamine.

CONNECTIVITE DES NEURONES DE DOPAMINE

Origine de la réponse à la dopamine

Quelles entrées anatomiques pourraient être responsables de la sélectivité et de la nature polysensorielle des réponses à la dopamine? Quelle activité de saisie pourrait conduire au codage des erreurs de prédiction, induire le transfert de réponse adaptative au premier événement appétit imprévu et estimer le temps de récompense?

STRIATUM DORSAL ET VENTRAL.

Les neurones GABAergiques dans les striosomes (patchs) du striatum projettent de manière largement topographique et partiellement imbriquée, interdiginant les neurones dopaminergiques dans presque toute la partie compacte de la substance noire, tandis que les neurones de la matrice striatale beaucoup plus grande touchent principalement les neurones non confondus de la neurone. reticulata de substantia nigra, en plus de leur projection sur globus pallidus (Gerfen 1984; Hedreen et DeLong 1991; Holstein et al. 1986; Jimenez-Castellanos et Graybiel 1989; Selemon et Goldman-Rakic ​​1990; Smith et Bolam 1991). Les neurones du striatum ventral projettent de manière non topographique à la fois les parties compactes et les parties réticulées de la substance noire interne et de la région tégmentale ventrale (Berendse et al. 1992; Haber et al. 1990; Lynd-Balta et Haber 1994; Somogyi et al. 1981). La projection striatonigrale GABAergique peut exercer deux influences distinctes sur les neurones dopaminergiques, une inhibition directe et une activation indirecte (Grace et Bunney 1985; Smith et Grace 1992; Tepper et al. 1995). Cette dernière est médiée par l'inhibition striatale des neurones pars reticulata et l'inhibition ultérieure de GABAergic à partir de collatérales axonales locales de neurones de sortie de pars reticulata sur des neurones dopaminergiques. Ceci constitue un double lien inhibiteur et entraîne une activation nette des neurones dopaminergiques par le striatum. Ainsi, les striosomes et le striatum ventral peuvent inhiber monosynaptiquement et la matrice peut activer indirectement les neurones dopaminergiques.

Les neurones striés dorsaux et ventraux présentent un certain nombre d'activations qui pourraient contribuer aux réponses à la récompense de la dopamine, à savoir les réponses à des récompenses primaires (Apicella et al. 1991a; Williams et al. 1993), réponses aux stimuli prédictifs de récompense (Hollerman et al. 1994; Romo et al. 1992) et des activations soutenues pendant l'attente de stimuli prédictifs de récompense et de récompenses primaires (Apicella et al. 1992; Schultz et al. 1992). Cependant, les positions de ces neurones par rapport aux striosomes et à la matrice ne sont pas connues et les activations striatales reflétant le moment de la récompense attendue n'ont pas encore été rapportées.

Les réponses de récompense polysensorielle pourraient être le résultat de l'extraction de caractéristiques dans les zones d'association corticale. Latences de réponse de 30 – 75 ms dans le cortex visuel primaire et associatif (Maunsell et Gibson 1992; Miller et al. 1993) pourrait se combiner avec une conduction rapide vers le striatum et une double inhibition de la substantia nigra pour induire de courtes latences de réponse dopaminergique <100 ms. Alors que l'activité liée à la récompense n'a pas été rapportée pour le cortex d'association postérieur, les neurones du cortex préfrontal dorsolatéral et orbital répondent aux récompenses primaires et aux stimuli prédictifs de récompense et montrent des activations soutenues pendant l'attente de récompense (Rolls et al. 1996; Thorpe et al. 1983; Tremblay et Schultz 1995; Watanabe 1996). Certaines réponses de récompense dans le cortex frontal dépendent de l'imprévisibilité de la récompense (Matsumoto et al. 1995; L. Tremblay et W. Schultz, résultats non publiés) ou reflètent des erreurs de comportement ou des récompenses omises (Niki et Watanabe 1979; Watanabe 1989). L’influence corticale sur les neurones dopaminergiques serait même plus rapide grâce à une projection directe provenant du cortex préfrontal chez le rat (Gariano et Groves 1988; Sesack et Pickel 1992; Tong et al. 1996) mais faible chez les singes (Künzle 1978).

NUCLEUS PEDUNCULOPONTINUS.

Des latences courtes des réponses aux récompenses peuvent être dérivées de mécanismes adaptatifs de traitement des caractéristiques dans le tronc cérébral. Le Nucleus pedunculopontinus est un précurseur évolutif de la substance noire. Chez les vertébrés non mammifères, il contient des neurones dopaminergiques et se projette sur le paleostriatum (Lohman et Van Woerden-Verkley 1978). Chez les mammifères, ce noyau envoie de fortes influences excitatrices, cholinergiques et glutamatergiques à une fraction élevée de neurones dopaminergiques avec des latences de 7 ms (Bolam et al. 1991; Clarke et al. 1987; Futami et al. 1995; Scarnati et al. 1986). L’activation des projections de pédunculopontine-dopamine induit un comportement circulaire (Niijima et Yoshida 1988), suggérant une influence fonctionnelle sur les neurones dopaminergiques.

AMYGDALA.

Une contribution massive, probablement excitatrice, des neurones dopaminergiques provient de différents noyaux de l 'amygdale (Gonzalez et Chesselet 1990; Prix ​​et Amaral 1981). Les neurones de l'amygdale répondent aux récompenses primaires et aux stimuli visuels et auditifs prédictifs. Les réponses neuronales connues jusqu’à présent sont indépendantes de l’imprévisibilité du stimulus et ne font pas bien la distinction entre les événements appétitifs et les événements aversifs (Nakamura et al. 1992; Nishijo et al. 1988). La plupart des réponses montrent des latences de 140 – 310 ms, qui sont plus longues que dans les neurones à dopamine, bien que quelques réponses se produisent aux latences de 60 – 100 ms.

DORSAL RAPHÉ.

La projection monosynaptique du raphé dorsal (Corvaja et al. 1993; Nedergaard et al. 1988) a une influence dépressive sur les neurones dopaminergiques (Fibiger et al. 1977; Trent et Tepper 1991). Les neurones Raphé présentent des activations de courte latence après des stimuli environnementaux de haute intensité (Heym et al. 1982), leur permettant de contribuer aux réponses dopaminergiques après des stimuli nouveaux ou particulièrement saillants.

SYNTHÈSE.

Quelques structures d'entrée bien connues sont les candidats les plus probables pour la médiation des réponses dopaminergiques, bien que des entrées supplémentaires puissent également exister. Les activations des neurones dopaminergiques sous forme de récompenses primaires et de stimuli prédictifs de récompense pourraient être médiées par une entrée d’activation double inhibitrice nette de la matrice striatale (pour un diagramme simplifié, voir Fig. 6). Des activations pourraient également résulter d’un noyau pédonculo-contraceptique ou éventuellement d’une activité liée aux attentes en matière de récompense dans les neurones du noyau sous-thalamique se projetant sur des neurones dopaminergiques (Hammond et al. 1983; Matsumura et al. 1992; Smith et al. 1990). L'absence d'activation avec les récompenses entièrement prédites pourrait être le résultat d'une inhibition monosynaptique des striosomes, annulant l'activation simultanée de la matrice. Les dépressions au moment de la récompense omise pourraient être médiées par les entrées inhibitrices des neurones dans les striosomes striataux (Houk et al. 1995) ou globus pallidus (Haber et al. 1993; Hattori et al. 1975; Y. Smith et Bolam 1990, 1991). La convergence entre différentes entrées avant ou au niveau des neurones dopaminergiques pourrait aboutir à un codage assez complexe des erreurs de prédiction de récompense et au transfert de réponse adaptative de récompenses primaires à des stimuli prédictifs de récompense.

Figue. 6. 

Schéma simplifié des entrées dans les neurones à dopamine du cerveau moyen qui sont potentiellement responsables des réponses de la dopamine. Pour des raisons de simplicité, seules les entrées de caudate à substantia nigra (SN) sont présentées. Les activations peuvent résulter d'une double activité inhibitrice nette des neurones à matrice GABAergique dans les corps caudé et putamen via les neurones GABAergiques de SN pars reticulata aux neurones à dopamine de SN pars compacta. Les activations peuvent également être médiées par des projections excitatrices de cholinergique ou d’acides aminés provenant du noyau pédunculopontin. Les dépressions pourraient être dues aux projections monosynaptiques GABAergiques des striosomes (plaques) des caudés et du putamen vers les neurones dopaminergiques. Des projections similaires existent du striatum ventral aux neurones dopaminergiques dans le SN compact médial et au groupe A10 dans la région tegmentale ventrale et du striatum dorsal au neurone dopaminergique A8 du groupe dorsolatéral par rapport au SN (Lynd-Balta et Haber 1994). Le cercle lourd représente les neurones dopaminergiques. Ces projections représentent les entrées les plus probables sous-jacentes aux réponses dopaminergiques, sans exclure les entrées de globus pallidus et du noyau sous-thalamique.

Influence de la dopamine phasique sur les structures cibles

NATURE GLOBALE DU SIGNAL DOPAMINE.

Projections divergentes. Il y a des neurones dopaminergiques 8,000 dans chaque substantia nigra de rats (Oorschot 1996) et 80,000 – 116,000 chez les singes macaques (German et al. 1988; Percheron et al. 1989). Chaque striatum contient contains2.8 millions de neurones chez le rat et 31 millions chez le macaque, ce qui donne un facteur de divergence nigrostriatal de 300 – 400. Chaque axone dopaminergique se ramifie abondamment dans une zone terminale limitée du striatum et présente des varicosités striatales de 500,000 à partir desquelles la dopamine est libérée (Andén et al. 1966). Il en résulte une entrée de dopamine dans presque tous les neurones striataux (Groves et al. 1995) et une projection nigrostriatale moyennement topographique (Lynd-Balta et Haber 1994). L'innervation corticale de la dopamine chez les singes est la plus forte dans les régions 4 et 6, reste importante dans les lobes frontaux, pariétaux et temporaux et est la plus faible dans les lobes occipitaux (Berger et al. 1988; Williams et Goldman-Rakic ​​1993). Les synapses dopaminergiques corticales se trouvent principalement dans les couches I et V – VI, en contact avec une grande proportion de neurones corticaux. Avec la nature plutôt homogène de la réponse, ces données suggèrent que la réponse à la dopamine progresse comme une onde d'activité simultanée et parallèle du mésencéphale au striatum et au cortex frontal (Fig. 7).

Figue. 7. 

Signal dopaminergique global progressant vers le striatum et le cortex. La réponse en population relativement homogène de la majorité des neurones dopaminergiques à des stimuli appétitifs et alertes et sa progression de la substance noire vers des structures postsynaptiques peuvent être considérées schématiquement comme une vague d'activité parallèle et synchrone progressant à une vitesse de 1 – 2 m / s (Schultz et Romo 1987) le long des projections divergentes du mésencéphale au striatum (caudé et putamen) et au cortex. Les réponses sont qualitativement impossibles à distinguer entre les neurones de la substantia nigra (SN) pars compacta et la région tegmentale ventrale (VTA). L'innervation dopaminergique de tous les neurones du striatum et de nombreux neurones du cortex frontal permettrait au signal de renforcement dopaminergique d'exercer un effet plutôt global. Wave a été compressé pour souligner le caractère parallèle.

Libération de dopamine. Les impulsions des neurones dopaminergiques à des intervalles de 20 – 100 ms entraînent une concentration de dopamine beaucoup plus élevée dans le striatum que le même nombre d’impulsions à des intervalles de 200 ms (Garris et Wightman 1994; Gonon 1988). Cette non-linéarité est principalement due à la saturation rapide du transporteur de la recapture de la dopamine, qui élimine la dopamine libérée de la région extrasynaptique (Chergui et al. 1994). Le même effet est observé dans le noyau accumbens (Wightman et Zimmerman 1990) et survient même avec des intervalles d'impulsion plus longs en raison de sites de recapture plus dispersés (Garris et al. 1994b; Marshall et al. 1990; Stamford et al. 1988). La libération de dopamine après une impulsion de <300 ms est trop courte pour activer la réduction de la libération médiée par les autorécepteurs (Chergui et al. 1994) ou la dégradation enzymatique encore plus lente (Michael et al. 1985). Ainsi, une réponse dopaminergique éclatante est particulièrement efficace pour libérer de la dopamine.

Des estimations basées sur la voltamétrie in vivo suggèrent qu'une seule impulsion libère des molécules de amine1,000 dopamine au niveau des synapses du striatum et du noyau accumbens. Ceci conduit à des concentrations immédiates de dopamine synaptique de 0.5 – 3.0 μM (Garris et al. 1994a; Kawagoe et al. 1992). À 40 μs après le début de la libération,> 90% de la dopamine a quitté la synapse, une partie du reste étant par la suite éliminée par recaptage synaptique (demi-temps de 30 à 37 ms). Entre 3 et 9 ms après le début de la libération, les concentrations de dopamine atteignent un pic de ~ 250 nM lorsque toutes les varicosités voisines libèrent simultanément de la dopamine. Les concentrations sont homogènes dans une sphère de 4 μm de diamètre (Gonon 1997), qui est la distance moyenne entre les varicosités (Doucet et al. 1986; Groves et al. 1995). La diffusion maximale est limitée à 12 μm par le transporteur de recapture et est atteinte en 75 ms après le début de la libération (temps d'apparition de la moitié du transporteur de 30 à 37 ms). Les concentrations seraient légèrement plus faibles et moins homogènes dans les régions avec moins de varicosités ou lorsque <100% des neurones dopaminergiques sont activés, mais elles sont deux à trois fois plus élevées avec les sursauts impulsionnels. Ainsi, les activations d'éclatement induites par la récompense, légèrement synchrones, dans ∼ 75% des neurones dopaminergiques peuvent conduire à des pics de concentration plutôt homogènes de l'ordre de 150 à 400 nM. Les augmentations totales de la dopamine extracellulaire durent 200 ms après une seule impulsion et 500 à 600 ms après plusieurs impulsions à intervalles de 20 à 100 ms appliquées pendant 100 à 200 ms (Chergui et al. 1994; Dugast et al. 1994). Le transporteur de recapture extrasynaptique (Nirenberg et al. 1996) ramène ensuite les concentrations de dopamine à leur valeur initiale de 5 – 10 nM (Herrera-Marschitz et al. 1996). Ainsi, contrairement à la neurotransmission classique strictement synaptique, la dopamine libérée par voie synaptique diffuse rapidement dans la région juxtasynaptique immédiate et atteint de courts sommets de concentrations extracellulaires homogènes au niveau régional.

Récepteurs. Parmi les deux principaux types de récepteurs de la dopamine, les récepteurs de type D1, activateurs de l'adénylate cyclase, constituent UM80% des récepteurs de la dopamine dans le striatum. 80% se trouvent dans l’état de faible affinité de 2 – 4 μM et 20% dans l’état de haute affinité de 9 – 74 nM (Richfield et al. 1989). Les 20 restants,% des récepteurs striataux de la dopamine appartiennent au type D2 inhibiteur de l'adénylase cyclase, dont 10 – 0% sont à l'état de faible affinité et 80 – 90% à l'état d'affinité élevée, avec des affinités similaires à celles des récepteurs D1. Ainsi, les récepteurs D1 ont globalement une affinité ∼100 fois inférieure à celle des récepteurs D2. Les récepteurs D1 striataux sont situés principalement sur les neurones projetés vers le pallidum interne et la substance noire pars reticulata, alors que les récepteurs D2 striataux sont situés principalement sur les neurones projetés vers le pallidum externe (Bergson et al. 1995; Gerfen et al. 1990; Hersch et al. 1995; Levey et al. 1993). Cependant, les différences de sensibilité des récepteurs peuvent ne pas jouer un rôle au-delà de la transduction du signal, réduisant ainsi les différences de sensibilité à la dopamine entre les deux types de neurones de sortie striataux.

La dopamine est libérée dans 30 – 40% par synaptic et dans 60 – 70% par varicosités extrasynaptiques (Descarries et al. 1996). La dopamine libérée de manière synaptique agit sur les récepteurs de la dopamine postsynaptiques en quatre sites anatomiquement distincts du striatum, à savoir dans les synapses de la dopamine, immédiatement adjacentes aux synapses de la dopamine, dans les synapses du glutamate corticostriatal et des sites extrasynaptiques éloignés des sites de libération (Fig. 8) (Levey et al. 1993; Sesack et al. 1994; Yung et al. 1995). Les récepteurs D1 sont localisés principalement en dehors des synapses à dopamine (Caillé et al. 1996). Les concentrations transitoires élevées de dopamine après des impulsions phasiques activeraient les récepteurs D1 à proximité immédiate des sites de libération actifs et activeraient, voire satureraient les récepteurs D2 partout. Les récepteurs D2 resteraient partiellement activés lorsque la concentration de dopamine dans l’atmosphère reviendrait à la base après l’augmentation de la phase.

Figue. 8. 

Influence de la libération de dopamine sur les neurones épineux moyens du striatum dorsal et ventral. La dopamine libérée par les impulsions provenant de varicosités synaptiques active quelques récepteurs synaptiques (probablement de type D2 à l'état de faible affinité) et se diffuse rapidement hors de la synapse pour atteindre les récepteurs de type D1 de faible affinité (D1?) Localisés à proximité, dans les synapses corticostriales ou à une distance limitée. L’augmentation progressive de la dopamine active les récepteurs de type D2 à haute affinité proches de la saturation (D2 ™). Les récepteurs D2 restent partiellement activés par les concentrations ambiantes de dopamine après la libération augmentée de manière phasique. La dopamine libérée de manière extrasynaptique peut être diluée par diffusion et activer les récepteurs D2 à haute affinité. Il convient de noter que, contrairement à ce diagramme schématique, la plupart des récepteurs D1 et D2 sont situés sur des neurones différents. Le glutamate libéré des terminaux corticostriataux atteint les récepteurs postsynaptiques situés sur les mêmes épines dendritiques que les varicosités de la dopamine. Le glutamate atteint également les varicosités présynaptiques de la dopamine où il contrôle la libération de la dopamine. Les influences de la dopamine sur les neurones épineux du cortex frontal sont comparables à bien des égards.

Résumé. La réponse observée de la majorité des neurones dopaminergiques, de courte durée et presque synchrone, avec une légère résistance à l'éclatement, entraîne une libération optimale et simultanée de la dopamine à partir de la majorité des varicosités striatales rapprochées. La réponse neuronale induit une courte bouffée de dopamine qui est libérée par les sites extrasynaptiques ou qui diffuse rapidement des synapses dans la région juxtasynaptique. La dopamine atteint rapidement des concentrations homogènes régionales susceptibles d'influencer les dendrites de probablement tous les neurones du striatum et de nombreux cortex. De cette manière, le message de récompense dans 60 – 80% des neurones dopaminergiques est diffusé sous la forme d’un signal de renforcement divergent et plutôt global adressé au striatum, au noyau accumbens et au cortex frontal, assurant ainsi une influence phasique sur un nombre maximal de synapses impliquées dans le traitement. de stimuli et d’actions menant à la récompense (Fig. 7). La dopamine libérée par les activations neuronales après récompense et les stimuli prédictifs auraient une incidence sur les récepteurs D1 juxtasynaptiques des neurones striataux se projetant sur le pallidum interne et la substantia nigra pars reticulata et sur tous les récepteurs D2 des neurones se projetant sur le pallidum externe. La réduction de la libération de dopamine induite par les dépressions sans récompenses omises et les stimuli prédictifs des récompenses réduirait la stimulation tonique des récepteurs D2 par la dopamine ambiante. Ainsi, les erreurs de prédiction de récompense positive influenceraient tous les types de neurones à sortie striatale, alors que l’erreur de prédiction négative pourrait principalement affecter les neurones se projetant sur un pallidum externe.

Mécanismes potentiels de la cocaïne. Le blocage du transporteur de la recapture de la dopamine par des médicaments tels que la cocaïne ou l’amphétamine augmente et prolonge les augmentations phasiques des concentrations de dopamine (Church et al. 1987a; Giros et al. 1996; Suaud-Chagny et al. 1995). L'amélioration serait particulièrement prononcée lorsque des augmentations rapides de la concentration de dopamine induites par éclatement atteignent un pic avant que la régulation par rétroaction ne devienne efficace. Ce mécanisme conduirait à un signal dopaminergique considérablement accru après les récompenses primaires et les stimuli prédictifs des récompenses. Cela augmenterait également le signal de dopamine un peu plus faible après des stimuli ressemblant à des récompenses, des stimuli nouveaux et des stimuli particulièrement saillants qui pourraient être fréquents dans la vie quotidienne. L'amélioration apportée par la cocaïne laisserait ces stimuli non récompensés paraître aussi forts, voire plus puissants que les récompenses naturelles sans cocaïne. Les neurones postsynaptiques pourraient mal interpréter ce signal comme un événement particulièrement important lié à la récompense et subir des modifications à long terme de la transmission synaptique.

ACTIONS DE LA MEMBRANE DOPAMINE.

Les actions de la dopamine sur les neurones striataux dépendent du type de récepteur activé, sont liées aux états dépolarisé par rapport aux états hyperpolarisés des potentiels membranaires et impliquent souvent des récepteurs du glutamate. L’activation des récepteurs de la dopamine D1 renforce l’excitation évoquée par l’activation de N-méthyl-d-aspartate (NMDA) après des entrées corticales via du calcium de type L2+ canaux lorsque le potentiel de membrane est à l’état dépolarisé (Cepeda et al. 1993, 1998; Hernandez-Lopez et al. 1997; Kawaguchi et al. 1989). En revanche, l’activation de D1 semble réduire les excitations évoquées lorsque le potentiel membranaire est à l’état hyperpolarisé (Hernandez-Lopez et al. 1997). L'iontophorèse dopaminergique et la stimulation axonale in vivo induisent des excitations médiées par D1 qui durent au-delà de la libération de dopamine par 100 – 500 (Gonon 1997; Williams et Millar 1991). L'activation des récepteurs de la dopamine D2 réduit le Na+ et Ca de type N2+ courants et atténue les excitations évoquées par l'activation de récepteurs de l'acide NMDA ou α-amino-3-hydroxy-5-méthyl-4 (AMPA) à tout état membranaire (Cepeda et al. 1995; Yan et al. 1997). Au niveau des systèmes, la dopamine exerce un effet de focalisation sur lequel seuls les apports les plus forts passent par le striatum vers le pallidum interne et externe, tandis qu'une activité plus faible est perdue (Brown et Arbuthnott 1983; Filion et al. 1988; Toan et Schultz 1985; Yim et Mogenson 1982). Ainsi, la dopamine libérée par la réponse à la dopamine peut entraîner une réduction globale immédiate de l'activité striatale, bien qu'un effet facilitant sur les excitations évoquées de manière corticale puisse être induit par les récepteurs D1. La discussion suivante montrera que les effets de la neurotransmission de la dopamine peuvent ne pas être limités aux changements de polarisation membranaire.

PLASTICITÉ DÉPENDANTE DE LA DOPAMINE.

La stimulation électrique tétanique des entrées corticales ou limbiques du striatum et du noyau accumbens induit des dépressions post-tétaniques de plusieurs dizaines de minutes en tranches (Calabresi et al. 1992a; Lovinger et al. 1993; Pennartz et al. 1993; Walsh 1993; Wickens et al. 1996). Cette manipulation améliore également l’excitabilité des terminaisons corticostriatales (Garcia-Munoz et al. 1992). On observe une potentialisation posttétanique de durées similaires dans le striatum et le noyau accumbens lorsque la dépolarisation post-synaptique est facilitée par l'élimination du magnésium ou l'application d'antagonistes de l'acide γ-aminobutyrique (GABA) (Boeijinga et al. 1993; Calabresi et al. 1992b; Pennartz et al. 1993). Les antagonistes des récepteurs de la dopamine D1 ou D2 ou l'inhibition des récepteurs D2 abolissent la dépression corticostriatale posttétanique (Calabresi et al. 1992a; Calabresi et al. 1997; Garcia-Munoz et al. 1992) mais n'affectent pas la potentialisation du noyau accumbens (Pennartz et al. 1993). L’application de dopamine rétablit la dépression posttétanique striatale dans des coupes de rats lésés à la dopamine (Calabresi et al. 1992a) mais ne modifie pas la potentialisation posttétanique (Pennartz et al. 1993). De courtes impulsions de dopamine (5 – 20 ms) induisent une potentialisation à long terme des coupes striatales lorsqu’elles sont appliquées simultanément avec une stimulation corticostriatale tétanique et une dépolarisation postsynaptique, conformément à la règle de l’apprentissage par renforcement à trois facteurs (Wickens et al. 1996).

Des preuves supplémentaires de la plasticité synaptique liée à la dopamine se trouvent dans d'autres structures cérébrales ou avec des méthodes différentes. Dans l'hippocampe, la potentialisation post-tétanique est augmentée par l'application au bain d'agonistes de D1 (Otmakhova et Lisman 1996) et altéré par le blocage des récepteurs D1 et D2 (Frey et al. 1990). Les applications locales de dopamine et d’agonistes de dopamine augmentent proportionnellement, mais pas entre les parties. Les crises neuronales augmentent dans les tranches de l’hippocampe (Stein et al. 1994). Dans la rétine des poissons, l'activation des récepteurs de la dopamine D2 induit des mouvements des photorécepteurs dans ou hors de l'épithélium pigmentaire (Rogawski 1987). Les injections d'amphétamine et d'agonistes de la dopamine dans le noyau caudé du rat après le procès améliorent les performances des tâches de mémoire (Packard et 1991 Blanc). La présence de dopamine dans le striatum réduit le nombre d'épines dendritiques (Arbuthnott et Ingham 1993; Anglade et al. 1996; Ingham et al. 1993), suggérant que l'innervation de la dopamine a des effets persistants sur les synapses corticostriatales.

TRAITEMENT DANS LES NEURONS STRIATAUX.

Une terminaison corticale 10,000 estimée et des varicosités de la dopamine 1,000 entrent en contact avec les épines dendritiques de chaque neurone striatal (Doucet et al. 1986; Groves et al. 1995; Wilson 1995). L’innervation dense de la dopamine devient visible sous forme de paniers décrivant les péricaryas individuels chez le pigeon paleostriatum (Wynne et Güntürkün 1995). Les varicosités de la dopamine forment des synapses sur les mêmes épines dendritiques des neurones du striatum qui sont en contact avec des afférences corticales du glutamate (Fig. 8) (Bouyer et al. 1984; Freund et al. 1984; Pickel et al. 1981; Smith et al. 1994), et certains récepteurs de la dopamine sont situés à l’intérieur des synapses corticostriatales (Levey et al. 1993; Yung et al. 1995). Le nombre élevé d'entrées corticales dans les neurones striataux, la convergence entre les entrées dopamine et glutamate au niveau des épines des neurones striataux et le signal de dopamine largement homogène atteignant probablement tous les neurones striataux sont des substrats idéaux pour les modifications synaptiques dépendantes de la dopamine au niveau des épines des neurones striataux . Cela peut également être valable pour le cortex, où les épines dendritiques sont en contact par les entrées synaptiques des neurones dopaminergiques et corticaux (Goldman-Rakic ​​et al. 1989), bien que la dopamine n'influence probablement pas tous les neurones corticaux.

Les noyaux gris centraux sont reliés par des boucles ouvertes et fermées au cortex et aux structures limbiques sous-corticales. Le striatum reçoit à des degrés divers les apports de toutes les zones corticales. Les sorties des ganglions de la base sont principalement dirigées vers les aires corticales frontales mais atteignent également le lobe temporal (Middleton et Strick 1996). De nombreuses entrées d'aires corticales fonctionnellement hétérogènes dans le striatum sont organisées en canaux parallèles ségrégés, de même que les sorties du pallidum interne dirigées vers différentes aires corticales motrices (Alexander et al. 1986; Hoover et Strick 1993). Cependant, des afférences de zones corticales apparentées sur le plan fonctionnel mais anatomiquement différentes peuvent converger sur des neurones striataux. Par exemple, des projections de zones somatotopiques du projet primaire du cortex somatosensoriel et moteur vers des régions striatales communes (Flaherty et Graybiel 1993, 1994). Les projections corticostriatales divergent en «matrisomes» striataux distincts et se reconvertissent dans le pallidum, augmentant ainsi la «surface» synaptique pour les interactions et les associations modulatrices (Graybiel et al. 1994). Cet arrangement anatomique permettrait au signal de la dopamine de déterminer l'efficacité d'apports corticaux hautement structurés et spécifiques aux tâches dans les neurones du striatum, et d'exercer une influence généralisée sur les centres du cerveau antérieur impliqués dans le contrôle de l'action comportementale.

UTILISATION DU SIGNAL D'ERREUR DE DOPAMINE REWARD PREDICTION

Les neurones dopaminergiques semblent rapporter des événements appétitifs selon une erreur de prédiction (Eqs. 1 et 2 ). Les théories d’apprentissage actuelles et les modèles neuronaux démontrent l’importance cruciale des erreurs de prédiction pour l’apprentissage.

Théories d'apprentissage

MODELE RESCORLA-WAGNER.

Les théories d'apprentissage comportementales formalisent l'acquisition d'associations entre des stimuli arbitraires et des événements de motivation primaires dans les paradigmes de conditionnement classiques. Les stimuli gagnent en force associative lors d'essais consécutifs en étant associés à plusieurs reprises à un événement de motivation principal

ΔV=αβ(λ-V)

Équation 3where V λ est la force associative maximale éventuellement maintenue par l’événement de motivation principal, α et β sont des constantes reflétant respectivement la saillance des stimuli conditionnés et inconditionnés (Dickinson 1980; Mackintosh 1975; Pearce et Hall 1980; Rescorla et Wagner 1972). Le (λ-V) terme indique dans quelle mesure le principal événement motivant se produit de manière imprévisible et représente une erreur dans la prédiction du renforcement. Il détermine le taux d'apprentissage, car la force associative augmente lorsque le terme d'erreur est positif et que le stimulus conditionné ne permet pas de prédire complètement le renforcement. Quand V = λ, le stimulus conditionné prédit complètement le renforcement, et V ne va pas augmenter davantage. Ainsi, l'apprentissage ne se produit que lorsque l'événement de motivation principal n'est pas totalement prédit par un stimulus conditionné. Cette interprétation est suggérée par le phénomène de blocage selon lequel un stimulus ne parvient pas à acquérir une force associative lorsqu'il est présenté avec un autre stimulus qui prédit par lui-même complètement le renforçateur (Kamin 1969). Le (λ-V) le terme d'erreur devient négatif lorsqu'un renforcement prédit ne se produit pas, entraînant une perte de force associative du stimulus conditionné (extinction). Notez que ces modèles utilisent le terme «renforcement» au sens large pour augmenter la fréquence et l'intensité d'un comportement spécifique et ne font référence à aucun type d'apprentissage particulier.

DELTA RULE.

Le modèle Rescorla-Wagner repose sur le principe général d’apprentissage menant à des erreurs entre la sortie souhaitée et la sortie réelle, tel que la procédure d’erreur la plus petite moyenne (Kalman 1960; Widrow et Sterns 1985). Ce principe a été appliqué aux modèles de réseaux neuronaux dans la règle Delta, selon lequel les poids synaptiques () sont ajustés par

Δω=η(t-a)x

Équation 4where t est la sortie souhaitée (cible) du réseau, a est la sortie réelle, et η et x sont le taux d’apprentissage et l’activation des entrées, respectivement (Rumelhart et al. 1986; Widrow et Hoff 1960). La sortie souhaitée (t) est analogue au résultat (λ), la production réelle (a) est analogue à la prédiction modifiée au cours de l'apprentissage (V) et le terme d'erreur delta (δ = t - a) est équivalent au terme d'erreur de renforcement (λ-V) de la règle Rescorla-Wagner (Eq. 3) (Sutton et Barto 1981).

La dépendance générale à l’imprévisibilité des résultats est liée intuitivement à l’essence même de l’apprentissage. Si l'apprentissage implique l'acquisition ou le changement de prédiction du résultat, aucun changement dans les prédictions et donc aucun apprentissage ne se produira lorsque le résultat est parfaitement bien prédit. Cela limite l'apprentissage aux stimuli et aux réactions comportementales qui conduisent à des résultats surprenants ou altérés, et les stimuli redondants précédant les résultats déjà prédits par d'autres événements ne sont pas appris. En plus de leur rôle dans l’apprentissage, les renforçateurs ont une deuxième fonction, distinctement différente. Lorsque l'apprentissage est terminé, les renforcements prévus sont essentiels pour maintenir le comportement appris et prévenir l'extinction.

De nombreuses formes d'apprentissage peuvent impliquer la réduction des erreurs de prédiction. De manière générale, ces systèmes traitent un événement externe, génèrent des prédictions de cet événement, calculent l'erreur entre l'événement et sa prédiction et modifient à la fois les performances et la prédiction en fonction de l'erreur de prédiction. Cela peut ne pas être limité aux systèmes d’apprentissage utilisant des agents de renforcement biologiques, mais concerne un nombre beaucoup plus grand d’opérations neuronales, telles que la reconnaissance visuelle dans le cortex cérébral (Rao et Ballard 1997).

Algorithmes de renforcement

RENFORCEMENT INCONDITIONNEL.

Les modèles de réseau neuronal peuvent être entraînés avec des signaux de renforcement directs qui émettent un signal indépendant de la prédiction lorsqu'une réaction comportementale est correctement exécutée, mais aucun signal avec une réaction erronée. L’apprentissage dans ces modèles d’apprentissage largement instrumentaux consiste à modifier les poids synaptiques (ω) des neurones modèles en fonction de:

Δω=ɛrxy

L'équation 5where ɛ est le taux d'apprentissage, r est le renforcement, et x et y sont des activations de neurones pré- et postsynaptiques, respectivement, assurant que seules les synapses participant au comportement renforcé sont modifiées. Un exemple populaire est le modèle associatif récompense-pénalité (Barto et Anandan 1985). Ces modèles acquièrent des réponses squelettiques ou oculomotrices, apprennent des séquences et exécutent le test de tri des cartes du Wisconsin (Arbib et Dominey 1995; Dehaene et Changeux 1991; Dominey et al. 1995; Fagg et Arbib 1992). Les unités de traitement de ces modèles acquièrent des propriétés similaires à celles des neurones du cortex pariétal (Mazzoni et al. 1991).

Cependant, la persistance du signal d’apprentissage après l’apprentissage nécessite des algorithmes supplémentaires pour éviter les forces synaptiques de fuite (Montague et Sejnowski 1994) et d’éviter l’acquisition de stimuli redondants présentés avec des stimuli prédicteurs de renforcement. Le comportement précédemment appris persiste lorsque les imprévus changent, car le renforcement omis ne permet pas d'induire un signal négatif. La vitesse d'apprentissage peut être augmentée en ajoutant des informations externes provenant d'un enseignant (Ballard 1997) et en intégrant des informations sur les performances passées (McCallum 1995).

APPRENTISSAGE DES DIFFÉRENCES TEMPORELLES.

Dans une classe d’algorithmes de renforcement particulièrement efficace (Sutton 1988; Sutton et Barto 1981), les poids synaptiques sont modifiés en fonction de l’erreur dans la prédiction du ferraillage calculée sur des intervalles de temps consécutifs (t) dans chaque essai

rˆ(t)=r(t)+P(t)-P(t-l)

Équation 6where r est le renforcement et P est la prédiction de renforcement. P (t) est généralement multiplié par un facteur d'actualisation γ avec 0 ≤ γ <1 pour tenir compte de l'influence décroissante de récompenses de plus en plus éloignées. Pour des raisons de simplicité, γ est ici mis à 1. Dans le cas d'un seul stimulus prédisant un seul renforçateur, la prédiction P(t - 1) existe avant l'heure t du ferraillage mais se termine au moment du ferraillage [P (t) = 0]. Cela conduit à un signal de renforcement efficace au moment (T) de renfort

rˆ (t)=r(t)-P(t-l)

Équation 6aLa r(t) terme indique la différence entre le ferraillage réel et prévu. Pendant l'apprentissage, le renforcement est prédit de manière incomplète, le terme d'erreur est positif lorsqu'il se produit, et les poids synaptiques sont augmentés. Après l’apprentissage, le renforcement est entièrement prédit par un stimulus précédent [P(t - 1) = r(t)], le terme d'erreur est nul sur le comportement correct et les poids synaptiques restent inchangés. Lorsque le ferraillage est omis en raison de performances insuffisantes ou de contingences modifiées, l'erreur est négative et les poids synaptiques sont réduits. le r(t) terme est analogue au (λ-V) terme d'erreur du modèle Rescorla-Wagner (Éq. 4 ). Cependant, il s'agit de pas de temps individuels (t) au sein de chaque essai plutôt que de prédictions évoluant au cours d'essais consécutifs. Ces modèles temporels de renforcement misent sur le fait que les prédictions acquises incluent l’heure exacte du renforcement (Dickinson et al. 1976; Gallistel 1990; Smith 1968).

Les algorithmes de différence temporelle (TD) utilisent également des prédictions acquises pour modifier les poids synaptiques. Dans le cas d’un stimulus conditionnel simple et imprévisible prédisant un seul renforçateur, la prédiction P (t) commence à l'heure (t), il n'y a pas de prédiction précédente [P(t - 1) = 0], et le ferraillage n'a pas encore eu lieu [r(t) = 0]. Selon Éq. 6, le modèle émet un signal de renforcement effectif purement prédictif à l'époque (t) de la prédiction

rˆ=P(t)

Équation 6bDans le cas de stimuli prédictifs consécutifs multiples, toujours avec renforcement absent au moment des prédictions, le signal de renforcement effectif à ce moment-là (T) de la prédiction reflète la différence entre la prédiction actuelle P (t) et la prédiction précédente P(t - 1)

rˆ=P(t)-P(t-l)

Équation 6cCeci constitue un terme d'erreur de renforcement d'ordre supérieur. Comme pour les renforcements pleinement prédits, tous les stimuli prédictifs qui sont entièrement prédits eux-mêmes sont annulés [P(t - 1) = P(t)], résultant en r = 0 à l'époque (T) de ces stimuli. Seul le premier stimulus prédictif contribue au signal de renforcement effectif, car ce stimulus P (t) n'est pas prédit par un autre stimulus [P(t - 1) = 0]. Il en résulte le même r = P (t) à l'époque (T) de la première prédiction comme dans le cas d’une prédiction unique (Éq. 6b).

Figue. 9. 

Architectures de base de modèles de réseau neuronal implémentant des algorithmes de différence temporelle par rapport à la connectivité des noyaux gris centraux. A: dans la mise en œuvre initiale, le signal pédagogique effectif y - ȳ est calculé dans le neurone modèle A et envoyé aux terminaux présynaptiques des entrées x à neurone B, influençant ainsi xB traitement et modification des poids synaptiques à la xB synapse. Neurone B influence la sortie comportementale via axone y et contribue en même temps aux propriétés adaptatives du neurone A, à savoir sa réponse aux stimuli prédicteurs de renforcement. Des implémentations plus récentes de cette architecture simple utilisent neurone A plutôt que neurone B pour émettre une sortie O du modèle (Montague et al. 1996; Schultz et al. 1997). Reproduit de Sutton et Barto (1981) avec l'autorisation de l'American Psychological Association. B: une implémentation récente sépare la composante pédagogique A, appelé le critique (À droite), à partir d'un composant de sortie composé de plusieurs unités de traitement B, appelé l'acteur (la gauche). Le signal de renforcement effectif r(t) est calculée en soustrayant la différence temporelle dans la prédiction pondérée du renforçateur γP(t) - P(t - 1) du ferraillage primaire r(t) reçus de l'environnement (γ est le facteur de réduction réduisant la valeur des renforcements plus éloignés). La prévision de Reinforcer est calculée dans une unité de prévision séparée C, qui fait partie de la critique et forme une boucle fermée avec l'élément d'enseignement A, alors que le renforcement primaire entre dans la critique par une entrée séparée rt. Le signal de renforcement efficace influence les poids synaptiques aux axones entrants dans l'acteur, qui sert de médiateur à la sortie et dans l'unité de prédiction adaptative du critique. Reproduit de Barto (1995) avec la permission de MIT Press. C: la connectivité de base des noyaux gris centraux révèle des similitudes frappantes avec l'architecture acteur-critique. La projection de dopamine émet le signal de renforcement vers le striatum et est comparable à celle de l’unité. A en parties A et B, le striatum limbique (ou striosome-patch) prend la position de l'unité de prédiction C dans la critique, et le striatum sensorimoteur (ou matrice) ressemble aux unités acteur B. Dans le modèle d'origine (UNE), l’écart majeur par rapport à l’anatomie des ganglions de la base est l’influence des neurones A dirigés vers les terminaux présynaptiques, alors que les synapses dopaminergiques sont situées sur les dendrites postsynaptiques des neurones striataux (Freund et al. 1984). Reproduit de Smith et Bolam (1990) avec l'autorisation de Elsevier Press.

Pris ensemble, le signal de renforcement effectif (Éq. 6 ) se compose du renforcement primaire, qui diminue avec les prévisions émergentes (Éq. 6a) et est remplacé progressivement par les prédictions acquises (Eqs. 6b et 6c). Avec des stimuli prédictifs consécutifs, le signal de renforcement effectif recule dans le temps entre le renforçateur principal et le stimulus prédictif le plus ancien. Le transfert rétrograde conduit à une attribution plus spécifique du crédit aux synapses impliquées, car les prévisions sont plus proches dans le temps des stimuli et des réactions comportementales à conditionner, par rapport au renforcement à la fin de l'essai (Sutton et Barto 1981).

Les implémentations d'algorithmes d'apprentissage par renforcement utilisent l'erreur de prédiction de deux manières, pour modifier les poids synaptiques de la sortie comportementale et pour acquérir les prédictions elles-mêmes afin de calculer en continu l'erreur de prédiction (Fig. 9 A) (McLaren 1989; Sutton et Barto 1981). Ces deux fonctions sont séparées dans les implémentations récentes, dans lesquelles l’erreur de prédiction est calculée dans le composant critique adaptatif et modifie les poids synaptiques dans la sortie comportementale médiatrice du composant acteur (Fig. 9 B) (Barto 1995). Une erreur positive augmente la prédiction de renforcement du critique par rapport au renforcement, tandis qu'une erreur négative provenant d'un renforcement omis réduit la prédiction. Cela rend le signal de renforcement effectif hautement adaptatif.

Implémentations neurobiologiques de l'apprentissage par différence temporelle

COMPARAISON DE LA RÉPONSE DE DOPAMINE À DES MODÈLES DE RENFORCEMENT.

La réponse dopaminergique codant une erreur dans la prédiction de la récompense (Éq. 1 ) ressemble beaucoup au terme d'erreur effectif des règles d'apprentissage des animaux (λ-V; Éq. 4 ) et le signal de renforcement effectif des algorithmes TD à l'époque (t) de renfort [r(t) - P(t - 1); Éq. 6a], comme indiqué précédemment (Montague et al. 1996). De même, l’erreur de prédiction des événements liés à l’appétit de dopamine (Éq. 2 ) ressemble à l'erreur de ferraillage d'ordre supérieur TD [P(t) - P(t - 1); Éq. 6c]. La nature des projections étendues et divergentes des neurones dopaminergiques sur probablement tous les neurones du striatum et de nombreux neurones du cortex frontal est compatible avec la notion de signal de renforcement global TD, qui est émis par le critique pour influencer tous les neurones modèles de l'acteur. (comparer la Fig. 7 avec la Fig. 9 B). L’architecture critique-acteur est particulièrement attrayante pour la neurobiologie en raison de ses modules distincts d’enseignement et de performance. En particulier, il ressemble beaucoup à la connectivité des ganglions de la base, y compris la réciprocité des projections striatonigrales (Fig. 9 C), comme noté pour la première fois par Houk et al. (1995). Le critique simule des neurones dopaminergiques, la prévision de récompense entre des projections striatonigrales striosomales et l'acteur ressemble à des neurones matriciels striataux dotés d'une plasticité dopaminergique. Il est intéressant de noter que les termes de réponse à la dopamine et d'erreur théorique dépendent du signe. Ils diffèrent des termes d'erreur avec des valeurs absolues qui ne font pas de distinction entre acquisition et extinction et devraient avoir des effets principalement attentionnels.

APPLICATIONS POUR PROBLÈMES NEUROBIOLOGIQUES.

Bien que développés à l'origine sur la base du modèle de conditionnement classique de Rescorla-Wagner, les modèles utilisant des algorithmes TD apprennent une grande variété de tâches comportementales par le biais de formes de conditionnement essentiellement instrumentales. Ces tâches consistent à équilibrer un poteau sur une roue de chariot (Barto et al. 1983) à jouer au backgammon de classe mondiale (Tesauro 1994). Les robots utilisant des algorithmes TD apprennent à se déplacer dans un espace à deux dimensions et à éviter les obstacles, à atteindre et à saisir (Fagg 1993) ou insérer une cheville dans un trou (Gullapalli et al. 1994). Utiliser le signal de renforcement TD pour influencer directement et sélectionner le comportement (Fig. 9 A), Les modèles de la TD reproduisent le comportement alimentaire des abeilles domestiques (Montague et al. 1995) et simuler la prise de décision humaine (Montague et al. 1996). Les modèles de TD avec une architecture critique critique-acteur constituent des modèles très puissants qui apprennent efficacement les mouvements oculaires (Friston et al. 1994; Montague et al. 1993), mouvements séquentiels (Fig. 10) et des réactions d'orientation (Contreras-Vidal et Schultz 1996). Un modèle récent a ajouté des signaux de nouveauté activant et déprimant pour améliorer le signal d’enseignement, utilise des traces de stimulus et d’action chez le critique et l’acteur, et utilise des règles du vainqueur pour améliorer le signal d’enseignement et pour sélectionner les neurones acteurs avec la plus grande activation. Ceci a reproduit de manière très détaillée à la fois les réponses des neurones dopaminergiques et le comportement d’apprentissage des animaux dans des tâches à réponse retardée (Suri et Schultz 1996). Il est particulièrement intéressant de constater que l’enseignement des signaux à l’aide d’erreurs de prédiction permet un apprentissage plus rapide et plus complet par rapport aux signaux de renforcement inconditionnel (Fig. 10) (Friston et al. 1994).

Figue. 10. 

Avantage des signaux de renforcement prédictifs pour l'apprentissage. Un modèle de différence temporelle avec une architecture critique-acteur et une trace d'éligibilité dans l'acteur a été formé à une tâche de choix séquentielle 2 step-3 (encart en haut à gauche). L’apprentissage a progressé plus rapidement et a atteint de meilleures performances lorsqu'un signal de renforcement prédictif a été utilisé comme signal d’enseignement (critique adaptatif, top) par rapport à l'utilisation d'un signal de renforcement inconditionnel à la fin de l'essai (bas). Cet effet devient progressivement plus prononcé avec les séquences plus longues. Des performances comparables à celles du signal de renforcement inconditionnel nécessiteraient une trace d'éligibilité beaucoup plus longue. Les données ont été obtenues à partir de simulations 10 (R. Suri et W. Schultz, observations non publiées). Une amélioration similaire de l'apprentissage avec renforcement prédictif a été constatée dans un modèle de comportement oculomoteur (Friston et al. 1994).

Mécanismes d'apprentissage possibles utilisant le signal dopaminergique

La section précédente a montré que le signal d'erreur de prédiction formelle émis par la réponse à la dopamine peut constituer un signal d'apprentissage particulièrement approprié pour l'apprentissage par modèle. Les sections suivantes décrivent comment la réponse biologique à la dopamine pourrait potentiellement être utilisée pour l'apprentissage des structures des noyaux gris centraux et suggèrent des hypothèses vérifiables.

PLASTICITÉ POSTSYNAPTIQUE MÉDIÉE PAR SIGNAL DE PRÉDICTION DE RÉCOMPENSE.

L'apprentissage se déroulerait en deux étapes. La première étape consiste à acquérir une réponse prédictive de récompense de la dopamine. Lors d'essais ultérieurs, le signal prédictif de dopamine renforcerait spécifiquement les poids synaptiques () des synapses corticostriatales de type Hebbian actives au moment du stimulus prédictif de la récompense, tandis que les synapses corticostriatales inactives restent inchangées. Cela aboutit à la règle d'apprentissage à trois facteurs

Δω=ɛ rˆ i o

Équation 8where r est le signal de renforcement dopaminergique, i est l'activité d'entrée, o est l'activité de sortie, et ɛ est le taux d'apprentissage.

Dans un modèle simplifié, quatre entrées corticales (i1 – i4) entrent en contact avec les épines dendritiques de trois neurones striataux épineux de taille moyenne (o1 – o3; Fig. 11). Les entrées corticales convergent sur les neurones striataux, chaque entrée entrant en contact avec une colonne vertébrale différente. Une entrée commune de dopamine R. entre en contact de manière non sélective avec les mêmes épines. L'activation de l'entrée de dopamine R indique qu'un stimulus non prédictif de prévision de récompense s'est produit dans l'environnement, sans fournir d'autres détails (signal de qualité). Supposons que l'entrée corticale i2 soit activée simultanément avec les neurones dopaminergiques et code l'un des nombreux paramètres spécifiques d'un même stimulus prédictif, tels que sa modalité sensorielle, son côté corps, sa couleur, sa texture et sa position, ou un paramètre spécifique d'un mouvement. déclenché par le stimulus. Un ensemble de paramètres de cet événement serait codé par un ensemble d'entrées corticales i2. Les entrées corticales i1, i3 et i4 non liées aux stimuli et mouvements actuels sont inactives. La réponse dopaminergique entraîne une libération non sélective de la dopamine pour toutes les varicosités, mais ne renforcerait sélectivement que les synapses corticostriatales actives i2 – o1 et i2 – o2, à condition que les entrées corticales soient suffisamment puissantes pour activer les neurones striataux o1 et o2.

Figue. 11. 

Influence différentielle d'un signal global de renforcement dopaminergique sur l'activité corticostriatale sélective. Les épines dendritiques des neurones striataux épineux de taille moyenne 3, o1, o2 et o3, sont contactées par les entrées corticales 4 i1, i2, i3 et i4 et par des varicosités axonales provenant d'un seul groupe immunitaire dopant (en particulier) ). Chaque neurone striatal reçoit les entrées corticales ∼10,000 et 1,000 dopamine. Au niveau des épines dendritiques uniques, différentes entrées corticales convergent avec l'entrée dopamine. Dans la version 1 du modèle, le signal de dopamine améliore simultanément la transmission corticostriatale active par rapport à la transmission non active. Par exemple, l'entrée de dopamine R est active en même temps que l'entrée corticale i2, alors que i1, i3, i4 sont inactifs. Cela entraîne une modification de la transmission i2 → o1 et i2 → o2, mais laisse les transmissions i1 → o1, i3 → o2 → i3 → o3 → intacte. Dans une version du modèle utilisant la plasticité, les poids synaptiques des synapses corticostriatales sont modifiés à long terme par le signal de la dopamine selon la même règle. Cela peut se produire lorsque les réponses dopaminergiques à un stimulus conditionné agissent sur les synapses corticostriatales également activées par ce stimulus. Dans une autre version utilisant la plasticité, les réponses de la dopamine à une récompense primaire peuvent agir en arrière dans le temps sur les synapses corticostriatales précédemment actives. Ces synapses seraient rendues éligibles pour être modifiées par une hypothétique trace neuronale postsynaptique laissée par cette activité. En comparant la structure des ganglions de la base au modèle TD récent de la Fig. 9 B, l'entrée de dopamine R reproduit le critique avec le neurone A, le striatum avec les neurones o1 – o3 reproduit l'acteur avec le neurone B, entrées corticales i1 – i4 reproduisent l'entrée de l'acteur et la projection divergente des neurones dopaminergiques R sur plusieurs épines de plusieurs neurones striataux o1 – o3 reproduit l'influence globale du critique sur l'acteur. Une comparaison similaire a été faite par Houk et al. (1995). Ce dessin est basé sur des données anatomiques de Freund et al. (1984), Smith et Bolam (1990), Flaherty et Graybiel (1993)et Smith et al. (1994).

Ce mécanisme d’apprentissage utilise la réponse dopamine acquise au moment du stimulus prédictif de récompense comme signal d’apprentissage pour induire des modifications synaptiques durables (Fig. 12 A). L’apprentissage du stimulus prédictif ou du mouvement déclenché est basé sur l’acquisition démontrée de la réponse de la dopamine au stimulus prédictif de la récompense, ainsi que de la plasticité dopaminergique dans le striatum. Des modifications de la plasticité peuvent également se produire dans les structures corticales ou sous-corticales en aval du striatum après une amélioration à court terme induite par la dopamine de la transmission synaptique dans le striatum. Les effets rétroactifs de la récompense sur les stimuli et les mouvements précédant la récompense sont médiés par le transfert de réponse au stimulus le plus ancien qui prédit la récompense. La réponse de la dopamine à la récompense principale prédite ou omise n'est pas utilisée pour les modifications de la plasticité du striatum, car elle ne survient pas simultanément aux événements à conditionner, bien qu'elle puisse être impliquée dans le calcul de la réponse de la dopamine au stimulus prédictif de la récompense par analogie avec l'architecture et le mécanisme des modèles TD.

Figue. 12. 

Influence du signal de renforcement dopaminergique sur les mécanismes d'apprentissage possibles dans le striatum. A: la réponse prédictive de la récompense dopaminergique à un stimulus conditionné (SC) a un effet de renforcement direct ou de plasticité sur la neurotransmission striatale liée à ce stimulus. B: la réponse de la dopamine à la récompense primaire a un effet de plasticité rétrograde sur la neurotransmission striatale liée au stimulus conditionnel précédent. Ce mécanisme est médiatisé par une trace d'éligibilité qui résiste à l'activité striatale. Les flèches pleines indiquent les effets directs du signal de la dopamine sur la neurotransmission striatale (A) ou la trace d'éligibilité (B) petite flèche dans B indique un effet indirect sur la neurotransmission striatale via la trace d'éligibilité.

ENSEMBLE PLASTICITÉ POSTSYNAPTIQUE ET TRACE SYNAPTIQUE D’ADMISSIBILITÉ.

L'apprentissage peut avoir lieu en une seule étape si le signal de récompense dopaminergique a une action rétroactive sur les synapses striatales. Cela nécessite des traces hypothétiques d’activité synaptique qui durent jusqu’à ce que le renforcement se produise et rend ces synapses admissibles à une modification par un signal d’enseignement qui était actif avant le renforcement (Coque 1943; Klopf 1982; Sutton et Barto 19811). Les poids synaptiques () sont modifiés en fonction de

Δω=ɛ rˆ h (i,o)

Équation 9where r est le signal de renforcement dopaminergique, h (i, o) est la trace d'éligibilité d'activité d'entrée / sortie conjointe et ɛ est le taux d'apprentissage. Les substrats physiologiques potentiels des traces d'éligibilité consistent en des changements prolongés de la concentration en calcium (Wickens et Kötter 1995), la formation de la protéine kinase II dépendante de la calmoduline (Houk et al. 1995), ou une activité neuronale soutenue observée fréquemment dans le striatum (Schultz et al. 1995a) et cortex.

La plasticité dépendante de la dopamine impliquant des traces d’éligibilité constitue un mécanisme élégant d’apprentissage des séquences en arrière dans le temps (Sutton et Barto 1981). Pour commencer, la réponse dopaminergique à la récompense primaire imprévue facilite l’apprentissage comportemental de l’événement précédent en modifiant l’efficacité synaptique corticostriatale (Fig. 11). Dans le même temps, la réponse dopaminergique est transférée à l'événement prédictif de récompense. Une dépression au moment de l’omission de la récompense empêche l’apprentissage de réactions erronées. Au cours de l'étape suivante, la réponse dopaminergique à l'événement prédictif non prévu des récompenses facilite l'apprentissage de l'événement prédictif précédent, et la réponse dopaminergique revient également à cet événement. Comme cela se produit à plusieurs reprises, la réponse de la dopamine recule dans le temps jusqu'à ce qu'aucun autre événement ne précède, permettant à l'événement précédent d'acquérir une prédiction de récompense. Ce mécanisme conviendrait parfaitement à la formation de séquences comportementales conduisant à une récompense finale.

Ce mécanisme d'apprentissage utilise pleinement l'erreur de dopamine dans la prédiction d'événements d'appétit en tant que signal d'apprentissage rétroactif induisant des changements synaptiques durables (Fig. 12 B). Il utilise une plasticité dépendante de la dopamine ainsi que des traces d'élasticité striatale dont l'aptitude biologique à l'apprentissage reste à étudier. Il en résulte un apprentissage direct par résultat, essentiellement compatible avec l’influence du signal d’enseignement sur l’acteur des modèles TD. Le mouvement rétrograde démontré de la réponse à la dopamine est utilisé pour l'apprentissage de stimuli de plus en plus tôt.

UN MECANISME ALTERNATIF: INFLUENCE FACILITATOIRE DU SIGNAL PREDICTIF DE DOPAMINE.

Les deux mécanismes décrits ci-dessus utilisent la réponse à la dopamine comme signal d'apprentissage pour modifier la neurotransmission dans le striatum. Comme la contribution de la plasticité striatale dépendante de la dopamine à l'apprentissage n'est pas complètement comprise, un autre mécanisme pourrait être basé sur la plasticité démontrée de la réponse de la dopamine sans nécessiter de plasticité striatale. Dans un premier temps, les neurones dopaminergiques acquièrent des réponses aux stimuli prédictifs. Dans une étape ultérieure, les réponses prédictives pourraient être utilisées pour augmenter l’impact des entrées corticales qui se produisent simultanément sur les mêmes épines dendritiques des neurones striataux. L'activité postsynaptique changerait selon

Δactivité=δrˆ i

Équation 10where r est le signal de renforcement dopaminergique, i est l'activité d'entrée et δ est une constante d'amplification. Plutôt que de constituer un signal d'apprentissage, la réponse prédictive de la dopamine fournit un signal de renforcement ou de motivation pour la neurotransmission striatale au moment du stimulus prédictif de récompense. Avec des stimuli concurrents, les entrées neuronales se produisant simultanément avec le signal de dopamine prédictif de récompense seraient traitées préférentiellement. Les réactions comportementales profiteraient des informations préalables et deviendraient plus fréquentes, plus rapides et plus précises. L’influence facilitatrice de l’information préalable est démontrée dans des expériences comportementales en associant un stimulus conditionné à une pression sur levier (Lovibond 1983).

Un mécanisme possible pourrait utiliser l'effet de concentration de la dopamine. Dans le modèle simplifié de la Fig. 11, la dopamine réduit globalement toutes les influences corticales. Cela ne laisse passer que les entrées les plus puissantes aux neurones striataux, tandis que les entrées les plus faibles deviennent inefficaces. Cela nécessite un mécanisme non linéaire d'amélioration du contraste, tel que le seuil de génération de potentiels d'action. Une augmentation comparable des entrées les plus fortes pourrait se produire dans les neurones qui seraient principalement excités par la dopamine.

Ce mécanisme utilise la réponse dopamine acquise et prédictive de récompense en tant que signal de polarisation ou de sélection pour influencer le traitement postsynaptique (Fig. 12 A). L’amélioration des performances repose entièrement sur la plasticité démontrée des réponses à la dopamine et ne nécessite pas de plasticité dépendante de la dopamine dans les neurones striataux. Les réponses à une récompense non prévue ou omise apparaissent trop tard pour influencer le traitement striatal, mais peuvent aider à calculer la réponse prédictive de la dopamine par analogie aux modèles TD.

Stimulation électrique des neurones dopaminergiques comme stimulus inconditionnel

La stimulation électrique de régions cérébrales circonscrites sert de manière fiable au renforcement de l’acquisition et du maintien du comportement d’approche (Olds et Milner 1954). Certains sites d’autostimulation très efficaces coïncident avec des corps cellulaires de dopamine et des faisceaux d’axones dans le cerveau moyen (Corbett et Wise 1980), noyau accumbens (Phillips et al. 1975), striatum (Phillips et al. 1976) et le cortex préfrontal (Mora et Myers 1977; Phillips et al. 1979), mais se trouvent également dans des structures non liées aux systèmes dopaminergiques (White et Milner 1992). L’autostimulation électrique implique l’activation de neurones dopaminergiques (Fibiger et Phillips 1986; Wise et Rompré 1989) et est réduit par les lésions d’axones axones dopaminergiques induites par 6 (Fibiger et al. 1987; Phillips et Fibiger 1978), inhibition de la synthèse de la dopamine (Edmonds et Gallistel 1977), inactivation de la dépolarisation des neurones dopaminergiques (Rompré et Wise 1989) et les antagonistes des récepteurs de la dopamine administrés par voie systémique (Furiezos et Wise 1976) ou dans le noyau accumbens (Mogenson et al. 1979). L’auto-stimulation est facilitée par l’augmentation de la dopamine extracellulaire induite par la cocaïne ou l’amphétamineColle et Wise 1980; Stein 1964; Wauquier 1976). L’auto-stimulation augmente directement l’utilisation de la dopamine dans le noyau accumbens, le striatum et le cortex frontal (Fibiger et al. 1987; Mora et Myers 1977).

Il est intriguant d’imaginer que les impulsions et la libération de dopamine évoquées électriquement peuvent servir de stimulus inconditionnel dans l’apprentissage associatif, à l’instar de la stimulation des neurones octopaminiques chez les abeilles mellifères apprenant le réflexe de proboscis (Marteau 1993). Cependant, l'auto-stimulation liée à la dopamine diffère d'au moins trois aspects importants de l'activation naturelle des neurones dopaminergiques. Plutôt que d'activer uniquement les neurones dopaminergiques, les récompenses naturelles activent généralement plusieurs systèmes neuronaux en parallèle et permettent le codage distribué de différentes composantes de la récompense (voir texte complémentaire). Deuxièmement, la stimulation électrique est appliquée en tant que renforcement inconditionnel sans refléter une erreur dans la prédiction de récompense. Troisièmement, la stimulation électrique n'est délivrée comme une récompense qu'après une réaction comportementale, plutôt que lors d'un stimulus prédictif de la récompense. Il serait intéressant d'appliquer l'auto-stimulation électrique exactement de la même manière que les neurones dopaminergiques émettent leur signal.

Déficits d'apprentissage avec altération de la neurotransmission de la dopamine

De nombreuses études ont porté sur le comportement d'animaux présentant une neurotransmission altérée de la dopamine après l'application locale ou systémique d'antagonistes des récepteurs de la dopamine ou la destruction des axones de la dopamine dans le mésencéphale ventral, le noyau accumbens ou le striatum. En plus d’observer des déficits locomoteurs et cognitifs rappelant le parkinsonisme, ces études ont révélé des déficiences dans le traitement des informations de récompense. Les premières études ont argumenté pour des déficits dans la perception subjective et hédonique des récompenses (Wise 1982; Wise et al. 1978). D'autres expériences ont révélé une utilisation altérée des récompenses primaires et des stimuli appétitifs conditionnés pour un comportement d'approche et de consommation (Beninger et al. 1987; Ettenberg 1989; Miller et al. 1990; Salamone 1987; Ungerstedt 1971; Wise et Colle 1984; Wise et Rompre 1989). De nombreuses études ont décrit des déficiences dans les processus motivationnels et attentionnels sous-jacents à l’apprentissage par l’apprentissage (Beninger 1983, 1989; Beninger et Hahn 1983; Fibiger et Phillips 1986; LeMoal et Simon 1991; Robbins et Everitt 1992, 1996; White et Milner 1992; Wise 1982). La plupart des déficits d'apprentissage sont associés à une neurotransmission altérée de la dopamine dans le noyau accumbens, alors que des altérations du dorsal striatum entraînent des déficits sensorimoteurs (Amalric et Koob 1987; Robbins et Everitt 1992; Blanc 1989). Cependant, l'apprentissage des tâches instrumentales en général et des propriétés de stimulation discriminantes en particulier semble être souvent épargné, et il n'est pas entièrement résolu de déterminer si certains des déficits d'apprentissage apparents peuvent être confondus avec des déficits de performance motrice (Salamone 1992).

La dégénérescence des neurones dopaminergiques dans la maladie de Parkinson entraîne également un certain nombre de déficits d'apprentissage déclaratifs et procéduraux, y compris l'apprentissage associatif (Linden et al. 1990; Sprengelmeyer et al. 1995). Les déficits sont présents dans l’apprentissage par essais et erreurs avec renforcement immédiat (Vriezen et Moscovitch 1990) et lorsqu’on associe des stimuli explicites à différents résultats (Knowlton et al. 1996), même aux stades précoces de la maladie de Parkinson sans atrophie corticale (Canavan et al. 1989). Les patients parkinsoniens présentent également une perception altérée du temps (Pastor et al. 1992). Tous ces déficits se produisent en présence d'un traitement à la L-Dopa, qui rétablit les niveaux toniques de dopamine striatale sans rétablir les signaux phasiques de dopamine.

Ces études suggèrent que la neurotransmission de la dopamine joue un rôle important dans le traitement des récompenses pour le comportement d'approche et dans les formes d'apprentissage impliquant des associations entre stimuli et récompenses, alors qu'une implication dans des formes d'apprentissage plus instrumentales pourrait être remise en question. Il est difficile de savoir si ces déficits traduisent une inactivation comportementale plus générale due à une stimulation tonale du récepteur de la dopamine réduite, plutôt que l'absence d'un signal de récompense phasique de la dopamine. Pour résoudre cette question, et plus précisément pour élucider le rôle de la dopamine dans différentes formes d'apprentissage, il serait utile d'étudier l'apprentissage dans les situations où la réponse dopaminergique phasique aux stimuli d'appétit se produit réellement.

Formes d'apprentissage éventuellement médiées par le signal dopamine

Les caractéristiques des réponses à la dopamine et l’influence potentielle de celle-ci sur les neurones du striatum peuvent aider à définir certaines des formes d’apprentissage dans lesquelles des neurones à dopamine pourraient être impliqués. Les réponses préférentielles aux événements appétitifs par opposition aux événements aversifs favoriseraient une implication dans l’apprentissage du comportement d’approche et la médiation des effets de renforcement positif, plutôt que le retrait et la sanction. Les réponses aux récompenses primaires en dehors des tâches et des contextes d'apprentissage permettraient aux neurones dopaminergiques de jouer un rôle dans un spectre relativement large d'apprentissage impliquant des récompenses primaires, tant dans le conditionnement classique que dans le conditionnement instrumental. Les réponses aux stimuli prédictifs de récompense reflètent les associations stimulus-récompense et seraient compatibles avec une implication dans l'attente de récompense sous-jacente à l'apprentissage incitatif général (Bindra 1968). En revanche, les réponses dopaminergiques ne codent pas explicitement les récompenses en tant qu'objectifs, car elles ne signalent que des erreurs dans la prédiction des récompenses. Ils semblent également être insensibles aux états de motivation, défavorisant ainsi un rôle spécifique dans l'apprentissage incitatif, dépendant de l'état, d'actes dirigés vers un objectif (Dickinson et Balleine 1994). L'absence de relations claires entre les mouvements des bras et des yeux nuirait à un rôle de médiateur direct dans les réponses comportementales qui suivent des stimuli incitatifs. Cependant, les comparaisons entre les décharges de neurones individuels et l'apprentissage d'organismes entiers sont intrinsèquement difficiles. Au niveau synaptique, la dopamine libérée par phase atteint de nombreuses dendrites sur probablement tous les neurones du striatum et peut donc exercer un effet de plasticité sur la grande variété de composants comportementaux impliquant le striatum, qui peuvent inclure l’apprentissage des mouvements.

Les conditions spécifiques dans lesquelles les signaux dopaminergiques phasiques pourraient jouer un rôle dans l'apprentissage sont déterminées par les types de stimuli qui induisent efficacement une réponse dopaminergique. Dans le laboratoire des animaux, les réponses dopaminergiques nécessitent la présence en phase de stimuli appétitifs, nouveaux ou particulièrement saillants, y compris des récompenses en nutriments primaires et des stimuli prédictifs de récompense, alors que les stimuli aversifs ne jouent pas un rôle majeur. Des réactions à la dopamine peuvent se produire dans toutes les situations comportementales contrôlées par des résultats phasiques et explicites, bien que les stimuli conditionnels d'ordre supérieur et les renforçateurs secondaires n'aient pas encore été testés. Les réponses dopaminergiques phasiques ne joueraient probablement pas dans des formes d'apprentissage ne faisant pas l'objet de résultats en phase, et la réponse prédictive ne pourrait pas contribuer à l'apprentissage dans des situations où les stimuli prédictifs phasiques ne se produisent pas, tels que des changements de contexte relativement lents . Cela soulève la question intéressante de savoir si l’économie de certaines formes d’apprentissage par des lésions dopaminergiques ou des neuroleptiques pourrait simplement refléter l’absence de réponse phasique à la dopamine en raison du fait que les stimuli efficaces les provoquant n’ont pas été utilisés.

L'implication des signaux de dopamine dans l'apprentissage peut être illustrée par un exemple théorique. Imaginez les réponses dopaminergiques lors de l’acquisition d’une tâche de temps de réaction en série quand une réaction correcte conduit soudainement à une récompense en éléments nutritifs. La réponse à la récompense est ensuite transférée à des stimuli prédictifs de récompense progressivement plus précoces. Les temps de réaction s'améliorent encore avec une pratique prolongée à mesure que les positions spatiales des cibles deviennent de plus en plus prévisibles. Bien que les neurones dopaminergiques continuent de répondre aux stimuli prédictifs, l'amélioration du comportement pourrait être principalement due à l'acquisition d'un traitement prédictif des positions spatiales par d'autres systèmes neuronaux. Ainsi, les réactions à la dopamine se produiraient au cours de la partie incitative initiale de l’apprentissage dans laquelle les sujets arrivent à approcher des objets et à obtenir des récompenses primaires explicites, voire conditionnées. Ils seraient moins impliqués dans des situations dans lesquelles les progrès de l'apprentissage vont au-delà de l'induction d'un comportement d'approche. Cela ne limiterait pas le rôle de la dopamine aux étapes initiales de l'apprentissage, car de nombreuses situations nécessitent d'apprendre initialement à partir d'exemples et impliquent par la suite uniquement l'apprentissage par des résultats explicites.

COOPÉRATION ENTRE LES SIGNAUX DE RÉCOMPENSE

Erreur de prédiction

Le signal d'erreur de prédiction des neurones dopaminergiques serait un excellent indicateur de la valeur intrinsèque des événements environnementaux par rapport à la prédiction, mais ne permet pas d'établir une distinction entre les stimuli prédictifs pour les aliments, les liquides et les récompenses, et entre les modalités visuelles, auditives et somatosensorielles. Ce signal peut constituer un message d’alerte de récompense par lequel les neurones postsynaptiques sont informés de l’apparition ou de l’omission surprenante d’un événement enrichissant ou potentiellement enrichissant sans indiquer plus avant son identité. Il présente toutes les caractéristiques formelles d'un puissant signal de renforcement pour l'apprentissage. Cependant, des informations sur la nature spécifique des récompenses sont cruciales pour déterminer quels objets doivent être abordés et de quelle manière. Par exemple, un animal affamé doit principalement s’approcher de la nourriture, mais non d’un liquide. Pour distinguer les récompenses pertinentes des récompenses non pertinentes, le signal de dopamine doit être complété par des informations supplémentaires. Des expériences récentes de dialyse in vivo ont montré une libération plus élevée de dopamine d'origine alimentaire chez les rats affamés que chez les rats rassasiés (Wilson et al. 1995). Cette dépendance motrice de la libération de dopamine peut ne pas impliquer de réponses impulsionnelles, car nous n'avons pas réussi à établir une dépendance motrice nette avec les réponses dopaminiques lors de la comparaison entre des périodes de début et de fin de sessions expérimentales individuelles au cours desquelles les animaux sont devenus saturés de liquides (JL Contreras-Vidal et W. Schultz, données non publiées).

Récompenses spécifiques

Les informations concernant les récompenses sous forme de liquide et de nourriture sont également traitées dans des structures cérébrales autres que les neurones dopaminergiques, tels que le striatum dorsal et ventral, le noyau sous-thalamique, l'amygdale, le cortex préfrontal dorsolatéral, le cortex orbitofrontal et le cortex cingulaire antérieur. Cependant, ces structures ne semblent pas émettre de signal d'erreur de prédiction de récompense globale similaire aux neurones dopaminergiques. Chez les primates, ces structures traitent les récompenses comme 1) réponses transitoires après la remise de la récompense (Apicella et al. 1991a,b, 1997; Bowman et al. 1996; Hikosaka et al. 1989; Niki et Watanabe 1979; Nishijo et al. 1988; Tremblay et Schultz 1995; Watanabe 1989), 2) réponses transitoires à des signaux prédictifs de récompense (Aosaki et al. 1994; Apicella et al. 1991b; 1996; Hollerman et al. 1994; Nishijo et al. 1988; Thorpe et al. 1983; Tremblay et Schultz 1995; Williams et al. 1993), 3) des activations soutenues pendant l'attente de récompenses immédiates (Apicella et al. 1992; Hikosaka et al. 1989; Matsumura et al. 1992; Schultz et al. 1992; Tremblay et Schultz 1995), Et 4) modulations des activations liées au comportement par récompense prévue (Hollerman et al. 1994; Watanabe 1990, 1996). Beaucoup de ces neurones différencient bien les différentes récompenses alimentaires et les différentes récompenses liquides. Ainsi, ils traitent la nature spécifique de l'événement enrichissant et peuvent servir à la perception des récompenses. Certaines des réponses à la récompense dépendent de l’imprévisibilité de la récompense et sont réduites ou inexistantes lorsque la récompense est prédite par un stimulus conditionné (Apicella et al. 1997; Matsumoto et al. 1995; L. Tremblay et W. Schultz, données non publiées). Ils peuvent traiter les prévisions pour des récompenses spécifiques, bien qu'il ne soit pas clair s'ils signalent des erreurs de prévision car leurs réponses aux récompenses omises sont inconnues.

Maintenir la performance établie

Trois mécanismes neuronaux semblent être importants pour maintenir les performances comportementales établies, à savoir la détection des récompenses omises, la détection des stimuli prédictifs des récompenses et la détection des récompenses prédites. Les neurones dopaminergiques sont déprimés lorsque les récompenses prévues sont omises. Ce signal pourrait réduire l'efficacité synaptique liée aux réponses comportementales erronées et empêcher leur répétition. La réponse de la dopamine aux stimuli prédictifs de récompense est maintenue pendant le comportement établi et continue donc à servir d’information préalable. Bien que les neurones dopaminergiques ne détectent pas les avantages pleinement prévus, ils sont traités par les systèmes cortical et sous-cortical nonopaminergique mentionnés ci-dessus. Cela serait important pour éviter l’extinction du comportement appris.

Dans l’ensemble, il apparaît que le traitement de récompenses spécifiques pour l’apprentissage et le maintien du comportement d’approche bénéficierait fortement d’une coopération entre neurones dopaminergiques signalant l’occurrence ou l’omission imprévue de la récompense et des neurones dans les autres structures simultanément, indiquant ainsi la nature spécifique de la récompense.

COMPARAISONS AVEC D'AUTRES SYSTÈMES DE PROJECTION

Neurones noradrénaline

La quasi-totalité de la population de neurones noradrénaline du locus coeruleus chez le rat, le chat et le singe montre des réactions bipoliques activatrices-dépressives relativement homogènes vis-à-vis des stimuli visuels, auditifs et somatosensoriels, provoquant des réactions d'orientation (Aston-Jones et Bloom 1981; Foote et al. 1980; Rasmussen et al. 1986). Les événements peu fréquents auxquels les animaux sont attentifs sont particulièrement efficaces, tels que les stimuli visuels dans une tâche de discrimination bizarre (Aston-Jones et al. 1994). Les neurones à la noradrénaline distinguent très bien les événements excitants ou motivants et les événements neutres. Ils acquièrent rapidement les réponses aux nouveaux stimuli de cible lors du renversement et perdent les réponses aux cibles précédentes avant la fin du renversement comportemental (Aston-Jones et al. 1997). Les réponses se produisent pour libérer le liquide en dehors de toute tâche et pour passer à des stimuli cibles prédictifs de récompense dans une tâche ainsi qu'à des stimuli aversifs primaires et conditionnés (Aston-Jones et al. 1994; Foote et al. 1980; Rasmussen et Jacobs 1986; Sara et Segal 1991). Les réponses sont souvent transitoires et semblent refléter des changements dans l'occurrence ou la signification du stimulus. Les activations ne peuvent se produire que lors de quelques essais avec présentations répétées d'objetsVankov et al. 1995) ou avec des stimuli auditifs conditionnés associés à une récompense liquide, une bouffée d’air aversive ou un choc électrique au pied (Rasmussen et Jacobs 1986; Sara et Segal 1991). Pendant le conditionnement, les réponses aux premières présentations de nouveaux stimuli sont réapparues et réapparaissent de manière transitoire lorsque les contingences de renforcement changent au cours de l'acquisition, du renversement et de l'extinction (Sara et Segal 1991).

Prises ensemble, les réponses des neurones à la noradrénaline ressemblent à celles du neurone à la dopamine à plusieurs égards. Elles sont activées par les récompenses primaires, les stimuli prédictifs, les stimuli nouveaux et le transfert de la réponse des événements de l'appétit primaire aux événements conditionnés. Cependant, les neurones à la noradrénaline se différencient des neurones à la dopamine en répondant à une variété beaucoup plus grande de stimuli excitants, en réagissant bien aux stimuli aversifs primaires et conditionnés, en différenciant bien les stimuli neutres, en suivant rapidement les inversions comportementales et en montrant des réponses décroissantes avec des stimulus répétés présentation pouvant nécessiter des essais sur 100 pour des réponses appétitives solides (Aston-Jones et al. 1994). Les réponses à la noradrénaline sont fortement liées aux propriétés des stimuli provoquant des réactions d'orientation, qui attirent ou attirent l'attention, tout en étant beaucoup moins axées sur les propriétés du stimulus appétitif, comme la plupart des neurones dopaminergiques. Ils sont probablement davantage motivés par l’attention que par les éléments motivants des événements appétissants.

Neurones de la sérotonine

L’activité dans les différents noyaux de raphé facilite la production motrice en définissant le tonus musculaire et l’activité motrice stéréotypée (Jacobs et Fornal 1993). Les neurones du raphé dorsal chez le chat montrent des réponses phasiques et non-d'habitude aux stimuli visuels et auditifs sans signification comportementale particulière (Heym et al. 1982; LeMoal et Olds 1979). Ces réponses ressemblent aux réponses des neurones dopaminergiques à des stimuli nouveaux et particulièrement saillants. D'autres comparaisons nécessiteraient des expériences plus détaillées.

Nucleus basalis Meynert

Les neurones primitifs basaux du cerveau antérieur sont activés de manière phasique par une grande variété d'événements comportementaux, y compris des stimuli conditionnés prédictifs et des récompenses primaires. De nombreuses activations dépendent de la mémoire et des associations avec le renforcement de la discrimination et des tâches de réponse différée. Les activations reflètent la familiarité des stimuli (Wilson et Rolls 1990a), deviennent plus importants avec les stimuli et les mouvements se produisant plus près du temps de la récompense (Richardson et DeLong 1990), différencient bien les stimuli visuels sur la base d'associations appétitives et aversives (Wilson and Rolls 1990b) et évolutif au sein de quelques essais lors du renversement (Wilson et Rolls 1990c). Les neurones sont également activés par des stimuli aversifs, des stimuli visuels et auditifs prédits et des mouvements. Ils répondent fréquemment aux récompenses prévues dans des tâches comportementales bien établies (Mitchell et al. 1987; Richardson et DeLong 1986, 1990), bien que certaines études donnent des réponses plus inattendues à des récompenses imprévues (Richardson et DeLong 1990) mais pas chez d’autres (Wilson et Rolls 1990a-c). Comparés aux neurones dopaminergiques, ils sont activés par un spectre beaucoup plus large de stimuli et d'événements, y compris d'événements aversifs, et ne montrent pas la réponse plutôt homogène de la population à des récompenses imprévues et son transfert à des stimuli prédictifs de récompenses.

Fibres d'escalade cérébelleuse

On a probablement postulé que le premier signal d’enseignement du cerveau entraîné par une erreur impliquait la projection de fibres grimpantes des neurones de l’olive inférieure aux neurones de Purkinje dans le cortex cérébelleux (Marr 1969), et de nombreuses études sur l’apprentissage cérébelleux reposent sur ce concept (Houk et al. 1996; Ito 1989; Kawato et Gomi 1992; Llinas et Welsh 1993). L'ascension des fibres dans les neurones de Purkinje change transitoirement d'activité lorsque des charges de mouvements ou des gains entre mouvements et retour visuel sont modifiées et que les singes s'adaptent à la nouvelle situation (Gilbert et Thach 1977; Ojakangas et Ebner 1992). La plupart de ces changements consistent en une augmentation de l'activité plutôt qu'en une réaction d'activation à une dépression avec des erreurs dans des directions opposées dans les neurones dopaminergiques. Si l'activation de la fibre montante devait servir de signal d'apprentissage, l'activation conjointe de la fibre parallèle par fibre parallèle devrait entraîner des modifications de l'entrée de fibre parallèle dans les neurones de Purkinje. Ceci se produit en effet comme une dépression à long terme de l’apport de fibres parallèles, principalement dans les préparations in vitro (Ito 1989). Cependant, des modifications comparables des fibres parallèles sont plus difficiles à trouver dans les situations d’apprentissage comportemental (Ojakangas et Ebner 1992), laissant les conséquences de signaux d’escalade potentiels d’enseignement de la fibre ouverts pour le moment.

Un deuxième argument en faveur d'un rôle des fibres grimpantes dans l'apprentissage implique un conditionnement classique aversif. Une fraction des fibres grimpantes est activée par des souffles d'air aversifs de la cornée. Ces réponses sont perdues après un conditionnement de la paupière de Pavlov en utilisant un stimulus auditif (Sears et Steinmetz 1991), suggérant une relation avec l'imprévisibilité d'événements primaires aversifs. Après conditionnement, les neurones du noyau interpositus cérébelleux répondent au stimulus conditionné (Berthier et Moore 1990; McCormick et Thompson 1984). Des lésions de ce noyau ou des injections de bicuculline antagoniste du GABA dans l’olive inférieure empêchent la perte de réponses de bouffée d’air olive inférieure après conditionnement, suggérant que l’inhibition monosynaptique ou polysynaptique de l’interpositus à l’olive inférieure supprime les réponses après conditionnement (Thompson et Gluck 1991). Cela pourrait permettre aux neurones d'olive inférieurs d'être déprimés en l'absence de stimuli aversifs prédits et ainsi signaler une erreur négative dans la prédiction d'événements aversifs similaires aux neurones dopaminergiques.

Ainsi, les fibres grimpantes peuvent signaler des erreurs dans les performances motrices et des erreurs dans la prédiction d'événements aversifs, bien que cela ne puisse pas toujours impliquer de changements bidirectionnels comme avec les neurones dopaminergiques. Les fibres grimpantes ne semblent pas acquérir de réponses aux stimuli aversifs conditionnés, mais de telles réponses se trouvent dans le noyau interpositus. Le calcul des erreurs de prédiction aversives peut impliquer des entrées inhibitrices descendantes vers les neurones d'olive inférieurs, par analogie avec les projections striatales vers les neurones dopaminergiques. Ainsi, les circuits cérébelleux traitent les signaux d'erreur, bien que différemment des neurones dopaminergiques et des modèles TD, et ils pourraient mettre en œuvre des règles d'apprentissage des erreurs telles que la règle de Rescorla-Wagner (Thompson et Gluck 1991) ou la règle de Widrow-Hoff formellement équivalente (Kawato et Gomi 1992).

DOPAMINE REWARD SIGNAL VERSUS DEFKITS PARKINSONIAN

Une neurotransmission dopaminergique altérée associée à la maladie de Parkinson, à des lésions expérimentales ou à un traitement neuroleptique est associée à de nombreux déficits comportementaux au niveau du mouvement (akinésie, tremblements, rigidité), de la cognition (attention, bradyphrénie, planification, apprentissage) et de la motivation (réduction des réponses émotionnelles, dépression). La gamme des déficits semble trop large pour être simplement expliquée par un signal de récompense dopaminergique défectueux. La plupart des déficits sont considérablement atténués par la thérapie systémique par les précurseurs de la dopamine ou les agonistes des récepteurs, bien que cela ne puisse pas de manière simple restituer la transmission de l'information phasique par les impulsions neuronales. Cependant, de nombreux déficits appétitifs ne sont pas restaurés par cette thérapie, comme les déficits de discrimination induits pharmacologiquement (Ahlenius 1974) et déficits d’apprentissage parkinsoniens (Canavan et al. 1989; Knowlton et al. 1996; Linden et al. 1990; Sprengelmeyer et al. 1995; Vriezen et Moscovitch 1990).

De ces considérations, il apparaît que la neurotransmission de la dopamine remplit deux fonctions distinctes dans le cerveau, le traitement phasique des informations d’appétit et d’alerte et la tonique permettant une vaste gamme de comportements sans codage temporel. La physiopathologie de la schizophrénie peut être déficiente en une double fonction similaire de la dopamine (Grâce 1991). Il est intéressant de noter que des modifications phasiques de l'activité de la dopamine peuvent se produire à différentes échelles de temps. Alors que les réponses aux récompenses suivent une évolution dans le temps de l'ordre de dizaines et de centaines de millisecondes, les études de libération de dopamine avec voltampérométrie et microdialyse portent sur des échelles de temps en minutes et révèlent un spectre beaucoup plus large de fonctions dopaminergiques, comprenant le traitement des récompenses, l'alimentation, la boisson, etc. punitions, stress et comportement social (Abercrombie et al. 1989; Church et al. 1987b; Doherty et Gratton 1992; Louilot et al. 1986; Young et al. 1992, 1993). Il semble que la neurotransmission de la dopamine suive au moins trois échelles de temps et joue un rôle de plus en plus large dans le comportement, de la fonction rapide plutôt limitée de signalisation des récompenses aux stimuli d’alerte en passant par une fonction plus lente de traitement d’un nombre considérable d’événements à motivation positive et négative à la fonction tonique de permettre une grande variété de processus moteurs, cognitifs et motivationnels.

La fonction tonique de la dopamine est basée sur des concentrations de dopamine extracellulaires faibles et prolongées dans le striatum (5 – 10 nM) et d'autres zones innervées à la dopamine suffisantes pour stimuler les récepteurs extrasynaptiques de type D2 dans leur état d'affinité élevée (9 – 74). nM; Fig. 8) (Richfield et al. 1989). Cette concentration est régulée localement dans une plage étroite par le débordement synaptique et la libération extrasynaptique de la dopamine induite par l’activité spontanée tonique, le transport de la recapture, le métabolisme, la libération et le contrôle de synthèse par les autorécepteurs, et l’influence présynaptique du glutamate sur la libération de la dopamine (Chesselet 1984). L'importance des concentrations ambiantes de dopamine est démontrée expérimentalement par les effets délétères de niveaux non physiologiques de stimulation des récepteurs. Une stimulation réduite des récepteurs de la dopamine après des lésions d'afférents de la dopamine ou l'administration locale d'antagonistes de la dopamine dans le cortex préfrontal conduisent à une performance altérée des tâches de réponse spatiale retardée chez le rat et le singe (Brozoski et al. 1979; Sawaguchi et Goldman-Rakic ​​1991; Simon et al. 1980). Fait intéressant, l’augmentation du taux de roulement de la dopamine dans la région préfrontale induit des altérations similaires (Elliott et al. 1997; Murphy et al. 1996). Apparemment, la stimulation tonique des récepteurs de la dopamine ne devrait être ni trop basse ni trop élevée pour assurer le fonctionnement optimal d'une région cérébrale donnée. Changer l'influence d'une dopamine ambiante bien régulée compromettrait le bon fonctionnement des neurones striataux et corticaux. Différentes régions du cerveau peuvent nécessiter des niveaux spécifiques de dopamine pour la médiation de fonctions comportementales spécifiques. On peut supposer que les concentrations ambiantes de dopamine sont également nécessaires au maintien de la plasticité synaptique striatale induite par un signal de récompense dopaminergique. Un effet de la dopamine tonique sur la plasticité synaptique est suggéré par les effets délétères du blocage des récepteurs de la dopamine ou de l'inhibition des récepteurs D2 sur la dépression post-tétanique (Calabresi et al. 1992a, 1997).

De nombreux autres neurotransmetteurs existent également à de faibles concentrations ambiantes dans le liquide extracellulaire, tels que le glutamate dans le striatum (0.9 µM) et le cortex (0.6 µM) (Herrera-Marschitz et al. 1996). Cela peut suffire à stimuler les récepteurs NMDA hautement sensibles (Sands et Barish 1989) mais pas les autres types de récepteurs du glutamate (Kiskin et al. 1986). Le glutamate ambiant facilite l’activité du potentiel d’action par la stimulation des récepteurs NMDA dans l’hippocampe (Sah et al. 1989) et active les récepteurs NMDA dans le cortex cérébral (Blanton et Kriegstein 1992). Les niveaux de glutamate tonique sont régulés par l'absorption dans le cervelet et augmentent pendant la phylogenèse, ce qui influe sur la migration neuronale via la stimulation des récepteurs NMDA (Rossi et Slater 1993). D'autres neurotransmetteurs existent également à faibles concentrations ambiantes, tels que l'aspartate et le GABA dans le striatum et le cortex frontal (0.1 μM et 20 nM, respectivement) (Herrera-Marschitz et al. 1996), et l'adénosine dans l'hippocampe où il est impliqué dans l'inhibition présynaptique (Manzoni et al. 1994). Bien que incomplète, cette liste suggère que les neurones de nombreuses structures cérébrales sont baignés en permanence dans une soupe de neurotransmetteurs qui a des effets physiologiques puissants et spécifiques sur l’excitabilité neuronale.

Compte tenu de l’importance générale des concentrations toniques extracellulaires de neurotransmetteurs, il apparaît que la vaste gamme de symptômes parkinsoniens ne serait pas due à une transmission insuffisante des informations de récompense par les neurones dopaminergiques, mais refléterait un dysfonctionnement des neurones corticaux et corticaux dû à une altération permettant une diminution de la dopamine ambiante. . Les neurones dopaminergiques ne participeraient pas activement à la vaste gamme de processus déficients en parkinsonisme, mais fourniraient simplement la concentration de fond de dopamine nécessaire au bon fonctionnement des neurones striataux et corticaux impliqués dans ces processus.

Remerciements

Je remercie les Drs. Dana Ballard, Anthony Dickinson, François Gonon, David D. Potter, Traverse Slater, Roland E. Suri, Richard S. Sutton et R. Mark Wightman pour leurs discussions et commentaires éclairants, ainsi que deux arbitres anonymes pour de nombreux commentaires.

Le travail expérimental a été financé par le Fonds national suisse (actuellement 31.43331.95), les programmes Capital et mobilité et Biomed 2 de la Communauté européenne par l'intermédiaire du Bureau suisse de l'éducation et de la science (CHRX-CT94 - 0463 via 93.0121 et BMH4-CT95 –0608 via 95.0313 – 1), la Fondation James S. McDonnell, la Fondation pour la recherche Roche, la Fondation United Parkinson (Chicago) et le British Council.

Références

    1. Abercrombie ED,
    2. Keefe KA,
    3. DiFrischia DS,
    4. Zigmond MJ

    (1989) Effet différentiel du stress sur la libération in vivo de dopamine dans le striatum, le noyau accumbens et le cortex frontal médial. J. Neurochem. 52: 1655-1658.

    1. Ahlenius S.

    (1974) Effets des doses faibles et élevées de L-dopa sur la suppression du comportement induite par la tétrabénazine ou l'α-méthyltyrosine au cours d'une tâche de discrimination successive. Psychopharmacologie 39: 199-212.

    1. Alexander GE,
    2. DeLong MR,
    3. Strick PL

    (1986) Organisation parallèle de circuits fonctionnellement séparés reliant les noyaux gris centraux et le cortex. Annu. Rev. Neurosci. 9: 357-381.

    1. Amalric M.,
    2. Koob GF

    (1987) L'épuisement de la dopamine dans le noyau caudé mais pas dans le noyau accumbens altère la performance en temps de réaction. J. Neurosci. 7: 2129-2134.

    1. Andén NE,
    2. Fuxe K.,
    3. Hamberger B.,
    4. Hökfelt T. A

    (1966) étude quantitative sur les neurones dopaminergiques nigro-néostriataux. Acta Physiol. Scand. 67: 306-312.

    1. Anglade P.,
    2. Mouatt-Prigent A.,
    3. Agid Y.,
    4. Hirsch EC

    (1996) Plasticité synaptique dans le noyau caudé des patients atteints de la maladie de Parkinson. Neurodégénérescence 5: 121-128.

    1. Aosaki T.,
    2. Tsubokawa H.,
    3. Ishida A.,
    4. Watanabe K.,
    5. Graybiel AM,
    6. Kimura M.

    (1994) Les réponses des neurones toniquement actifs dans le striatum du primate subissent des changements systématiques au cours du conditionnement sensori-moteur comportemental. J. Neurosci. 14: 3969-3984.

    1. Apicella P.,
    2. Legallet E.,
    3. Trouche E.

    (1996) Réponses des neurones à décharge tonique du striatum de singe aux stimuli visuels présentés dans des conditions passives et pendant l'exécution d'une tâche. Neurosci. Lett. 203: 147-150.

    1. Apicella P.,
    2. Legallet E.,
    3. Trouche E.

    (1997) Réponses des neurones à décharge tonique du striatum de singe aux récompenses primaires délivrées au cours de différents états comportementaux. Exp. Brain Res. 116: 456-466.

    1. Apicella P.,
    2. Ljungberg T.,
    3. Scarnati E.,
    4. Schultz W.

    (1991a) Réponses à récompenser dans le striatum dorsal et ventral du singe. Exp. Brain Res. 85: 491-500.

    1. Apicella P.,
    2. Scarnati E.,
    3. Ljungberg T.,
    4. Schultz W.

    (1992) L'activité neuronale chez le singe striatum est liée à la prévision d'événements environnementaux prévisibles. J. Neurophysiol. 68: 945-960.

    1. Apicella P.,
    2. Scarnati E.,
    3. Schultz W.

    (1991b) Les neurones à décharge tonale du striatum de singe répondent aux stimuli préparatoires et gratifiants. Exp. Brain Res. 84: 672-675.

    1. Arbib MA,
    2. Dominey PF

    (1995) Modélisation du rôle des ganglions de la base dans la synchronisation et le séquençage des mouvements oculaires saccadés. dans Modèles de traitement de l'information dans les ganglions de la base, Houk JC, Davis JL, Beiser DG (Presse MIT, Cambridge, MA), pp 149 – 162.

    1. Arbuthnott GW,
    2. Ingham CA

    (1993) L'épineux problème de l'effet de la dopamine dans les maladies psychiatriques. Programme. Brain Res. 99: 341-350.

    1. Aston-Jones G.,
    2. Bloom FE

    (1981) Les neurones de locus coeruleus contenant de la norépinéphrine chez des rats en comportement présentent des réponses prononcées à des stimuli environnementaux non toxiques. J. Neurosci. 1: 887-900.

    1. Aston-Jones G.,
    2. Rajkowski J.,
    3. Kubiak P.

    (1997) Les réponses conditionnées des neurones du locus coeruleus du singe anticipent l'acquisition d'un comportement discriminant lors d'une tâche de vigilance. Neuroscience 80: 697-716.

    1. Aston-Jones G.,
    2. Rajkowski J.,
    3. Kubiak P.,
    4. Alexinsky T.

    (1994) Les neurones de locus coeruleus chez le singe sont activés sélectivement par des signaux surveillés lors d'une tâche de vigilance. J. Neurosci. 14: 4467-4480.

    1. Ballard DH

    (1997) Introduction à l'informatique neuronale. (Presse MIT, Cambridge, MA).

    1. Barto AG

    (1995) Critique adaptative et les noyaux gris centraux. dans Modèles de traitement de l'information dans les ganglions de la base, Houk JC, Davis JL, Beiser DG (Presse MIT, Cambridge, MA), pp 215 – 232.

    1. Barto AG,
    2. Anandan P.

    (1985) Automates d'apprentissage stochastiques à reconnaissance de modèle. IEEE Trasnact. Syst. Homme Cybern. 15: 360-375.

    1. Barto AG,
    2. Sutton RS,
    3. Anderson CW

    (1983) Éléments adaptatifs semblables aux neurones pouvant résoudre des problèmes d'apprentissage difficiles. IEEE Trans Syst. Homme Cybernet. 13: 834-846.

    1. Beninger RJ

    (1983) Le rôle de la dopamine dans l’activité et l’apprentissage locomoteur. Brain Res. Tour. 6: 173-196.

    1. Beninger RJ

    (1989) Dissociation des effets d'une altération de la fonction dopaminergique sur les performances et l'apprentissage. Cerveau Res. Taureau. 23: 365-371.

    1. Beninger RJ,
    2. Cheng M.,
    3. Hahn BL,
    4. Hoffman DC,
    5. Mazurski EJ

    (1987) Effets de l'extinction, du pimozide, du SCH 23390 et du métoclopramide sur la réponse des rats à un aliment récompensé par de la nourriture. Psychopharmacologie 92: 343-349.

    1. Beninger RJ,
    2. Hahn BL

    (1983) Le pimozide bloque l’établissement mais pas l’expression du conditionnement spécifique à l’environnement produit par l’amphétamine. Science 220: 1304-1306.

    1. Berendse HW,
    2. Groenewegen HJ,
    3. Lohman AHM

    (1992) Distribution compartimentale de neurones du striatum ventral se projetant vers le mésencéphale du rat. J. Neurosci. 12: 2079-2103.

    1. Berger B.,
    2. Trottier S.,
    3. Verney C.,
    4. Gaspar P.,
    5. Alvarez C.

    (1988) Distribution régionale et laminaire de l'innervation de la dopamine et de la sérotonine dans le cortex cérébral macaque: une étude radioautographique. J. Comp. Neurol. 273: 99-119.

    1. Bergson C.,
    2. Mrzljak L.,
    3. Smiley JF,
    4. Pappy M.,
    5. Levenson R.,
    6. PS Goldman-Rakic

    (1995) Variations régionales, cellulaires et subcellulaires de la distribution de D1 et d5 récepteurs de la dopamine dans le cerveau des primates. J. Neurosci. 15: 7821-7836.

    1. Berthier NE,
    2. Moore JW

    (1990) Activité des cellules nucléaires cérébelleuses profondes lors du conditionnement classique de l'extension membranaire nictitante chez le lapin. Exp. Brain Res. 83: 44-54.

    1. Bindra D.

    (1968) Interprétation neuropsychologique des effets de la motivation et de la motivation sur l’activité générale et le comportement instrumental. Psychol. Tour. 75: 1-22.

    1. Blanton MG,
    2. Kriegstein AR

    (1992) Propriétés des récepteurs de neurotransmetteurs d’acides aminés de neurones corticaux embryonnaires lorsqu’ils sont activés par des agonistes exogènes et endogènes. J. Neurophysiol. 67: 1185-1200.

    1. Boeijinga PH,
    2. Mulder AB,
    3. Pennartz CMA,
    4. Manshanden I.,
    5. Lopes da Silva FH

    (1993) Réponses du noyau accumbens après stimulation par le fornix / fimbria chez le rat. Identification et potentialisation à long terme des voies mono- et polysynaptiques. Neuroscience 53: 1049-1058.

    1. Bolam JP,
    2. Francis CM,
    3. Henderson Z.

    (1991) Entrée cholinergique dans les neurones dopaminergiques de la substance noire: une double étude immunocytochimique. Neuroscience 41: 483-494.

    1. Bolles RC

    (1972) Renforcement, espérance et apprentissage. Psychol. Tour. 79: 394-409.

    1. Bowman EM,
    2. Aigner TG,
    3. Richmond BJ

    (1996) Les signaux neuronaux dans le striatum ventral du singe sont liés à la motivation pour des récompenses en jus et en cocaïne. J. Neurophysiol. 75: 1061-1073.

    1. Bouyer JJ,
    2. Park DH,
    3. Joh TH,
    4. Pickel VM

    (1984) Analyse chimique et structurelle de la relation entre les entrées corticales et les terminaux contenant de la tyrosine hydroxylase dans le néostriatum du rat. Cerveau Res. 302: 267-275.

    1. Brown JR,
    2. Arbuthnott GW

    (1983) L’électrophysiologie de la dopamine (D2) récepteurs: étude des effets de la dopamine sur la transmission corticostriatale. Neuroscience 10: 349-355.

    1. Brozoski TJ,
    2. Brown RM,
    3. Rosvold HE,
    4. Goldman PS

    (1979) Déficit cognitif causé par une déplétion régionale de la dopamine dans le cortex préfrontal du singe rhésus. Science 205: 929-932.

    1. Caillé I.,
    2. Dumartin B.,
    3. Bloch B.

    (1996) Localisation ultrastructurale de l'immunoréactivité du récepteur de la dopamine D1 dans les neurones du striatonigral de rat et sa relation avec l'innervation dopaminergique. Cerveau Res. 730: 17-31.

    1. Calabresi P.,
    2. Maj R.,
    3. Pisani A.,
    4. Mercuri NB,
    5. Bernardi G.

    (1992a) Dépression synaptique à long terme dans le striatum: caractérisation physiologique et pharmacologique. J. Neurosci. 12: 4224-4233.

    1. Calabresi P.,
    2. Pisani A.,
    3. Mercuri NB,
    4. Bernardi G.

    (1992b) La potentialisation à long terme dans le striatum est démasquée en éliminant le bloc de magnésium dépendant de la tension des canaux du récepteur NMDA. EUR. J. Neurosci. 4: 929-935.

    1. Calabresi P.,
    2. Saiardi A.,
    3. Pisani A.,
    4. Baik JH,
    5. Centonze D.,
    6. Mercuri NB,
    7. Bernardi G.,
    8. Borelli E.

    (1997) Plasticité synaptique anormale dans le striatum de souris dépourvues de récepteurs D2 de la dopamine. J. Neurosci. 17: 4536-4544.

    1. AGA de Canavan,
    2. Passingham RE,
    3. CD Marsden,
    4. Quinn N.,
    5. Wyke M.,
    6. Polkey CE

    (1989) La performance sur les tâches d'apprentissage des patients aux premiers stades de la maladie de Parkinson. Neuropsychologia 27: 141-156.

    1. Cepeda C.,
    2. Buchwald NA,
    3. Levine MS

    (1993) Les actions neuromodulatrices de la dopamine dans le néostriatum dépendent des sous-types de récepteurs de l'acide aminé excitateurs activés. Proc. Natl. Acad. Sci. Etats-Unis 90: 9576-9580.

    1. Cepeda C.,
    2. Chandler SH,
    3. Shumate LW,
    4. Levine MS

    (1995) Na persistant+ Conductance dans les neurones néostriataux de taille moyenne: caractérisation par vidéomicroscopie infrarouge et enregistrements patch-clamp pour cellules entières. J. Neurophysiol. 74: 1343-1348.

    1. Cepeda C.,
    2. Colwell CS,
    3. Itri JN,
    4. Chandler SH,
    5. Levine MS

    (1998) Modulation dopaminergique des courants de cellules entières induits par NMDA dans les neurones néostriataux en coupes: contribution des conductances calciques. J. Neurophysiol. 79: 82-94.

    1. Chergui K.,
    2. Suaud-Chagny MF,
    3. Gonon F.

    (1994) Relation non linéaire entre flux impulsionnel, libération de dopamine et élimination de dopamine dans le cerveau de rat in vivo. Neurocience 62: 641-645.

    1. Chesselet MF

    (1984) Régulation présynaptique de la libération de neurotransmetteurs dans le cerveau: faits et hypothèses. Neuroscience 12: 347-375.

    1. Eglise WH,
    2. Le juge JB Jr.,
    3. Byrd LD

    (1987) dopamine extracellulaire dans le striatum de rat après inhibition de l'absorption par la cocaïne, la nomifensine et la benztropine. EUR. J. Pharmacol. 139: 345-348.

    1. Eglise WH,
    2. Le juge JB Jr.,
    3. Neill DB

    (1987) Détection de changements pertinents sur le plan comportemental dans la dopamine extracellulaire avec microdialyse. Cerveau Res. 412: 397-399.

    1. Clarke PBS,
    2. Hommer DW,
    3. Pert A.,
    4. Skirboll LR

    (1987) Innervation des neurones de la substance noire par les afférences cholinergiques du noyau de la pédonculopontine chez le rat: données neuroanatomiques et électrophysiologiques. Neuroscience 23: 1011-1019.

    1. Colle WM,
    2. Sage RA

    (1980) Effets de l'amphétamine de noyau accumbens sur l'hypothalamus latéral récompense de la stimulation cérébrale. Cerveau Res. 459: 356-360.

    1. Contreras-Vidal JL,
    2. Schultz W. A

    (1996) modèle de réseau neuronal d'apprentissage, de motivation et d'orientation orientés sur les récompenses. Soc. Neurosci. Abstr. 22: 2029.

    1. Corbett D.,
    2. Sage RA

    (1980) Autostimulation intracrânienne en relation avec les systèmes dopaminergiques ascendants du cerveau moyen: une étude de microélectrodes mobiles. Cerveau Res. 185: 1-15.

    1. Corvaja N.,
    2. Doucet G.,
    3. Bolam JP

    (1993) Ultrastructure et cibles synaptiques de la projection raphé-nigrale chez le rat. Neuroscience 55: 417-427.

    1. Dehaene S.,
    2. Changeux J.-P.

    (1991) Test de tri de cartes du Wisconsin: analyse théorique et modélisation dans un réseau neuronal. Cerebr. Cortex 1: 62-79.

    1. Delaney K.,
    2. Gelperin A.

    (1986) Apprentissage de l'aversion alimentaire post-ingestion pour les régimes déficients en acides aminés par la limace terrestre Limax maximus. J. Comp. Physiol. [UNE] 159: 281-295.

    1. DeLong MR,
    2. Crutcher MD,
    3. Georgopoulos AP

    (1983) Relations entre le mouvement et la décharge d'une cellule dans la substantia nigra du singe qui se comporte. J. Neurosci. 3: 1599-1606.

    1. Di Chiara G.

    (1995) Le rôle de la dopamine dans l'abus de drogues vu sous l'angle de son rôle dans la motivation. La drogue dépend de l'alcool. 38: 95-137.

    1. Dickinson A.

    (1980) Théorie de l'apprentissage des animaux contemporain. (Cambridge Univ. Press, Cambridge, Royaume-Uni).

    1. Dickinson A.,
    2. Balleine B.

    (1994) Contrôle motivationnel de l'action dirigée vers un objectif. Anim. Apprendre. Comportement 22: 1-18.

    1. Dickinson A.,
    2. Hall G.,
    3. Mackintosh NJ

    (1976) Surprise et atténuation du blocage. J. Exp. Psychol. Anim. Comportement Proc. 2: 313-322.

    1. Doherty MD,
    2. Gratton A.

    (1992) Mesures chronoampérométriques à haute vitesse de la libération de dopamine mésolimbique et nigrostriatale associée à un stress quotidien répété. Cerveau Res. 586: 295-302.

    1. Dominey P.,
    2. Arbib M.,
    3. Joseph J.-P. UNE

    (1995) modèle de plasticité corticostriatale pour l’apprentissage des associations et séquences oculomotrices. J. Cognit. Neurosci. 7: 311-336.

    1. Doucet G.,
    2. Descarries L.,
    3. Garcia S.

    (1986) Quantification de l'innervation de la dopamine dans le néostriatum de rat adulte. Neuroscience 19: 427-445.

    1. Dugast C.,
    2. Suaud-Chagny MF,
    3. Gonon F.

    (1994) Surveillance in vivo continue de la libération évoquée de dopamine dans le noyau accumbens du rat par ampérométrie. Neuroscience 62: 647-654.

    1. Edmonds DE,
    2. Gallistel CR

    (1977) Récompense versus performance en auto-stimulation: effets spécifiques de l'électrode α-méthyl-p-tyrosine sur la récompense chez le rat. J. Comp. Physiol. Psychol. 91: 962-974.

    1. Elliott R.,
    2. Sahakian BJ,
    3. Matthews K.,
    4. Bannerjea A.,
    5. Le juge Rimmer,
    6. Robbins TW

    (1997) Effets du méthylphénidate sur la mémoire de travail spatiale et la planification chez de jeunes adultes en bonne santé. Psychopharmacologie 131: 196-206.

    1. Ettenberg A.

    (1989) Dopamine, neuroleptiques et comportement renforcé. Neurosci. Biobehav. Tour. 13: 105-111.

    1. Fagg AH

    (1993) Apprentissage par renforcement pour atteindre et saisir des robots. dans Nouvelles perspectives dans le mouvement de contrôle de la portée pour saisir, eds Bennet KMB, U Castiello (Hollande du Nord, Amsterdam), pp 281 – 308.

    1. Fagg AH,
    2. Arbib MA A

    (1992) modèle d’apprentissage conditionnel vis-moteur des primates. Adapter. Comportement 1: 3-37.

    1. Fibiger HC,
    2. LePiane FG,
    3. Jakubovic A.,
    4. Phillips AG

    (1987) Rôle de la dopamine dans l’auto-stimulation intracrânienne de la région du tegmental ventral. J. Neurosci. 7: 3888-3896.

    1. Fibiger HC,
    2. Miller JJ

    (1977) Etude anatomique et électrophysiologique de la projection sérotoninergique du noyau raphé dorsal à la substance noire chez le rat. Neuroscience 2: 975-987.

    1. Fibiger HC,
    2. Phillips AG

    Récompense, motivation, cognition: psychobiologie des systèmes dopaminergiques mésotelencéphaliques.Handbook of Physiology. Le système nerveux. Systèmes de régulation intrinsèques du cerveau.1986Am. Physiol. Soc.Bethesda, MA, sect. 1, vol. IV, p. 647 – 675.

    1. Filion M.,
    2. Tremblay L.,
    3. Bédard PJ

    (1988) Influence anormale des mouvements des membres passifs sur l'activité des neurones globus pallidus chez le singe parkinsonien. Cerveau Res. 444: 165-176.

    1. Flaherty AW,
    2. Graybiel A.

    (1993) Deux systèmes d’entrée pour les représentations corporelles dans la matrice striatale de primates: preuves expérimentales chez le singe écureuil. J. Neurosci. 13: 1120-1137.

    1. Flaherty AW,
    2. Graybiel A.

    (1994) Organisation entrée-sortie du striatum sensorimoteur chez le singe-écureuil. J. Neurosci. 14: 599-610.

    1. Fleurs K.,
    2. Downing AC

    (1978) Contrôle prédictif des mouvements oculaires dans la maladie de Parkinson. Ann. Neurol. 4: 63-66.

    1. Foote SL,
    2. Aston-Jones G.,
    3. Bloom FE

    (1980) L'activité impulsionnelle des neurones du locus coeruleus chez des rats et des singes éveillés est fonction de la stimulation sensorielle et de l'excitation. Proc. Natl. Acad. Sci. Etats-Unis 77: 3033-3037.

    1. Freund TF,
    2. Powell JF,
    3. Smith AD

    (1984) Boutons immunoréactifs à la tyrosine hydroxylase en contact synaptique avec des neurones du striatonigral identifiés, avec une référence particulière aux épines dendritiques. Neuroscience 13: 1189-1215.

    1. Frey U.,
    2. Schroeder H.,
    3. Matthies H.

    (1990) Les antagonistes dopaminergiques empêchent le maintien à long terme de la LTP posttétanique dans la région CA1 des tranches de l'hippocampe. Cerveau Res. 522: 69-75.

    1. Friston KJ,
    2. Tononi G.,
    3. Reeke GN Jr.,
    4. Sporns O.,
    5. Edelman GM

    (1994) Sélection dépendante de la valeur dans le cerveau: simulation dans un modèle neural synthétique. Neuroscience 59: 229-243.

    1. Fujita K.

    (1987) Reconnaissance des espèces par cinq singes macaques. Primates 28: 353-366.

    1. Furiezos G.,
    2. Sage RA

    (1976) Extinction de l'auto-stimulation intracrânienne induite par le pimozide: les schémas de réponse éliminent les déficits moteurs ou de performance. Cerveau Res. 103: 377-380.

    1. Futami T.,
    2. Takakusaki K.,
    3. Kitai ST

    (1995) Entrées glutamatergiques et cholinergiques du noyau tegmental de la pédonculopontine aux neurones dopaminergiques de la substance compacte de la substance noire. Neurosci. Res. 21: 331-342.

    1. Gallistel CR

    (1990) L'organisation de l'apprentissage. (Presse MIT, Cambridge, MA).

    1. Garcia CE,
    2. Prett DM,
    3. Morari M.

    (1989) Contrôle prédictif de modèle: théorie et pratique - une enquête. Automatica 25: 335-348.

    1. Garcia-Munoz M.,
    2. Jeune SJ,
    3. Groves P.

    (1992) Modifications présynaptiques à long terme de l'excitabilité de la voie corticostriatale. Neuroreport 3: 357-360.

    1. Gariano RF,
    2. Groves PM

    (1988) Tir en rafale dans les neurones à dopamine du cerveau moyen par stimulation des cortex médial préfrontal et antérieur. Cerveau Res. 462: 194-198.

    1. Garris PA,
    2. Ciolkowski EL,
    3. Pastore P.,
    4. Wightman RM

    (1994a) Efflux de dopamine de la fente synaptique dans le noyau accumbens du cerveau de rat. J. Neurosci. 14: 6084-6093.

    1. Garris PA,
    2. Ciolkowski EL,
    3. Wightman RM

    (1994b) Hétérogénéité du trop-plein de dopamine évoqué dans les régions striatale et striatoamygdaloïde. Neuroscience 59: 417-427.

    1. Garris PA,
    2. Wightman RM

    (1994) Différentes cinétiques régissent la transmission dopaminergique dans l'amygdale, le cortex préfrontal et le striatum: une étude voltampérométrique in vivo. J. Neurosci. 14: 442-450.

    1. Gerfen CR

    (1984) La mosaïque néostriatale: compartimentation des systèmes d’entrée corticostriatale et de sortie striatonigral. Nature 311: 461-464.

    1. Gerfen CR,
    2. Engber TM,
    3. Mahan LC,
    4. Susel Z.,
    5. Chase TN,
    6. Monsma FJ Jr.,
    7. Sibley DR

    (1990) D1 et D2: expression génique régulée par les récepteurs de la dopamine des neurones striatonigral et striatopallidal. Science 250: 1429-1432.

    1. DC allemand,
    2. Dubach M.,
    3. Askari S.,
    4. Speciale SG,
    5. Bowden DM

    (1988) 1-méthyl-4-phényl-1,2,3,6-tétrahydropyridine (MPTP) induite par le syndrome parkinsonien chez le macaca fasciculaire: quels neurones dopaminergiques du cerveau moyen sont perdus? Neuroscience 24: 161-174.

    1. Gilbert PFC,
    2. Thach WT

    (1977) Activité des cellules de Purkinje au cours de l'apprentissage moteur. Cerveau Res. 128: 309-328.

    1. Giros B.,
    2. Jaber M.,
    3. Jones SR,
    4. Wightman RM,
    5. Caron MG

    (1996) Hyperlocomotion et indifférence à la cocaïne et à l'amphétamine chez les souris dépourvues du transporteur de la dopamine. Nature 379: 606-612.

    1. Goldman-Rakic ​​PS,
    2. Leranth C.,
    3. Williams MS,
    4. Mons N.,
    5. Geffard M.

    (1989) Complexe synaptique dopaminergique avec des neurones pyramidaux dans le cortex cérébral de primates. Proc. Natl. Acad. Sci. Etats-Unis 86: 9015-9019.

    1. Gonon F.

    (1988) Relation non linéaire entre le flux d’impulsion et la dopamine libérée par les neurones dopaminergiques du cerveau moyen du rat, telle que étudiée par électrochimie in vivo. Neuroscience 24: 19-28.

    1. Gonon F.

    (1997) Action excitatrice prolongée et extrasynaptique de la dopamine induite par les récepteurs D1 dans le striatum de rat in vivo. J. Neurosci. 17: 5972-5978.

    1. Gonzales C.,
    2. Chesselet M.-F.

    (1990) voie amygdalonigrale: une étude antérograde chez le rat avec Phaseolus vulgaris Leucoagglutinine (PHA-L). J. Comp. Neurol. 297: 182-200.

    1. Grace AA

    (1991) Libération de dopamine phasique ou tonique et modulation de la réactivité du système dopaminergique: une hypothèse pour l'étiologie de la schizophrénie. Neuroscience 41: 1-24.

    1. Grace AA,
    2. Bunney BS

    (1985) Effets opposés des voies de rétroaction du striatonigral sur l'activité des cellules dopaminergiques du cerveau moyen. Cerveau Res. 333: 271-284.

    1. Graybiel AM,
    2. Aosaki T.,
    3. Flaherty AW,
    4. Kimura M.

    (1994) Les noyaux gris centraux et le contrôle moteur adaptatif. Science 265: 1826-1831.

    1. Groves PM,
    2. Garcia-Munoz M.,
    3. Linder JC,
    4. Manley MS,
    5. Martone ME,
    6. Jeune sj

    (1995) Eléments de l'organisation intrinsèque et du traitement de l'information dans le néostriatum. dans Modèles de traitement de l'information dans les ganglions de la base, Houk JC, Davis JL, Beiser DG (Presse MIT, Cambridge, MA), pp 51 – 96.

  • Gullapalli, V., Barto, A. G. et Grupen, R. A. Apprentissage de la cartographie d'admittance pour un assemblage guidé par la force. Dans: Actes de la conférence internationale 1994 sur la robotique et l'automatisation. Los Alamitos, CA: Presse de la Computer Society, 1994, p. 2633 – 2638.
    1. Haber SN,
    2. Lynd E.,
    3. Klein C.,
    4. Groenewegen HJ

    (1990) Organisation topographique des projections efférentes du striatal ventral chez le singe rhésus: une étude de traçage autoradiographique. J. Comp. Neurol. 293: 282-298.

    1. Haber S.,
    2. Lynd-Balta E.,
    3. Mitchell SJ

    (1993) L'organisation des projections pallidales ventrales descendantes chez le singe. J. Comp. Neurol. 329: 111-128.

    1. Marteau M.

    (1993) Un neurone identifié intervient dans le stimulus non conditionné de l'apprentissage olfactif associatif chez les abeilles domestiques. Nature 366: 59-63.

    1. Hammond C.,
    2. Shibazaki T.,
    3. Rouzaire-Dubois B.

    (1983) Neurones de sortie ramifiés du noyau sous-thalamique de rat: étude électrophysiologique des effets synaptiques sur des cellules identifiées situées dans les deux principaux noyaux cibles, le noyau entopédonculaire et la substantia nigra. Neuroscience 9: 511-520.

    1. Hattori T.,
    2. Fibiger HC,
    3. McGeer PL

    (1975) Démonstration d'une projection pallido-nigrale innervant des neurones dopaminergiques. J. Comp. Neurol. 162: 487-504.

    1. Hedreen JC,
    2. DeLong MR

    (1991) Organisation des projections striatopallidales, striatonigrales et nigrostriatales chez le macaque. J. Comp. Neurol. 304: 569-595.

    1. Hernandez-Lopez S.,
    2. Le juge Bargas,
    3. DJ Surmeier,
    4. Reyes A.,
    5. Galarraga E.

    (1997) L’activation du récepteur D1 améliore la décharge évoquée dans les neurones épineux néostriataux en modulant un taux de calcium de type L2+ conductance. J. Neurosci. 17: 3334-3342.

    1. Herrera-Marschitz M.,
    2. Vous ZB,
    3. Goiny M.,
    4. Meana JJ,
    5. Silveira R.,
    6. Godukhin OV,
    7. Chen Y.,
    8. Espinoza S.,
    9. Pettersson E.,
    10. Loidl CF,
    11. Lubec G.,
    12. Andersson K.,
    13. Nylander I.,
    14. Terenius L.,
    15. Ungerstedt U.

    (1996) A l'origine des taux de glutamate extracellulaire contrôlés dans les noyaux gris centraux du rat par microdialyse in vivo. J. Neurochem. 66: 1726-1735.

    1. Hersch SM,
    2. Ciliax BJ,
    3. Gutekunst C.-A.,
    4. Rees HD,
    5. Le juge en chef Heilman,
    6. Yung KKL,
    7. Bolam JP,
    8. Ince E.
    9. Yi H.,
    10. Levey AI

    (1995) Analyse au microscope électronique des protéines du récepteur de la dopamine D1 et D2 dans le striatum dorsal et de leurs relations synaptiques avec les afférences cortico-motrices motrices. J. Neurosci. 15: 5222-5237.

    1. Heym J.,
    2. Trulson ME,
    3. Jacobs BL

    (1982) Activité unitaire du raphé chez les chats se déplaçant librement: effets des stimuli auditifs et visuels phasiques. Cerveau Res. 232: 29-39.

    1. Hikosaka O.,
    2. Sakamoto M.,
    3. Usui S.

    (1989) Propriétés fonctionnelles des neurones caudés de singe. III. Activités liées aux attentes de la cible et de la récompense. J. Neurophysiol. 61: 814-832.

    1. Hollerman JR,
    2. Schultz W.

    (1996) Activité des neurones dopaminergiques lors de l'apprentissage dans un contexte de tâche familier. Soc. Neurosci. Abstr. 22: 1388.

    1. Hollerman JR,
    2. Tremblay L.,
    3. Schultz W.

    (1994) Dépendance à la récompense de plusieurs types d’activités neuronales chez le primat striatum. Soc. Neurosci. Abstr. 20: 780.

    1. Holstein GR,
    2. Pasik P.,
    3. Hamori J.

    (1986) Synapses entre éléments axonaux et dendritiques immunoréactifs au GABA dans la substance noire du singe. Neurosci. Lett. 66: 316-322.

    1. Hoover JE,
    2. Strick PL

    (1993) Plusieurs canaux de sortie dans les ganglions de la base. Science 259: 819-821.

    1. Horvitz JC,
    2. Stewart T.,
    3. Jacobs BL

    (1997) L'activité d'éclatement des neurones dopaminergiques du tegmental ventral est provoquée par des stimuli sensoriels chez le chat éveillé. Cerveau Res. 759: 251-258.

    1. Houk JC,
    2. Adams JL,
    3. Barto AG A

    (1995) modèle de la manière dont les noyaux gris centraux génèrent et utilisent des signaux neuronaux qui prédisent le renforcement. dans Modèles de traitement de l'information dans les ganglions de la base, Houk JC, Davis JL, Beiser DG (Presse MIT, Cambridge, MA), pp 249 – 270.

    1. Houk JC,
    2. Buckingham JT,
    3. Barto AG

    (1996) Modèles de cervelet et d'apprentissage moteur. Comportement Brain Sci. 19: 368-383.

    1. Hrupka BJ,
    2. Lin YM,
    3. Gietzen DW,
    4. Rogers QR

    (1997) De petits changements dans les concentrations d'acides aminés essentiels modifient le choix du régime alimentaire chez les rats déficients en acides aminés. J. Nutr. 127: 777-784.

    1. Coque CL

    (1943) Principes de comportement. (Appleton-Century-Crofts, New York).

    1. Ingham CA,
    2. Hood SH,
    3. Weenink A.,
    4. Van Maldegem B.,
    5. Arbuthnott GW

    (1993) Modifications morphologiques du néostriatum chez le rat après des injections unilatérales de 6-hydroxydopamine dans la voie nigrostriatale. Exp. Brain Res. 93: 17-27.

    1. Ito M.

    (1989) Dépression à long terme. Annu. Rev. Neurosci. 12: 85-102.

    1. Jacobs BL,
    2. CA fornal

    (1993) 5-HT et le contrôle moteur: une hypothèse. Tendances Neurosci. 16: 346-352.

    1. Jimenez-Castellanos J.,
    2. Graybiel AM

    (1989) Les preuves que les zones histochimiquement distinctes de la substantia nigra pars compacta des primates sont liées à des distributions structurées de neurones de projection nigrostriataux et de fibres de striatonigral. Exp. Brain Res. 74: 227-238.

    1. Kalman RE A

    (1960) nouvelle approche des problèmes de filtrage et de prédiction linéaires. J. Basic Eng. Trans. COMME MOI 82: 35-45.

  • Kamin, L. J. Association sélective et conditionnement. Dans: Questions fondamentales de l'apprentissage instrumental, édité par N. J. Mackintosh et W. K. Honig. Halifax, Canada: Presse de l'Université Dalhousie, 1969, p. 42 – 64.
    1. Kawagoe KT,
    2. Garris PA,
    3. Wiedemann DJ,
    4. Wightman RM

    (1992) Régulation des gradients transitoires de concentration en dopamine dans le microenvironnement entourant les terminaisons nerveuses du striatum de rat. Neuroscience 51: 55-64.

    1. Kawaguchi Y.,
    2. Le juge en chef Wilson,
    3. Emson PC

    (1989) Enregistrement intracellulaire de cellules épineuses matricielles et à matrice néostriatale identifiées dans une préparation de tranches préservant les entrées corticales. J. Neurophysiol. 62: 1052-1068.

    1. Kawato M.,
    2. Gomi H.

    (1992) Modèles d'apprentissage du cervelet et du VOR / OKR. Tendances Neurosci. 15: 445-453.

    1. Kiskin NI,
    2. Krishtal OA,
    3. Tsyndrenko AY

    (1986) Récepteurs d'acides aminés excitateurs dans les neurones de l'hippocampe: le kaïnate ne parvient pas à les désensibiliser. Neurosci. Lett. 63: 225-230.

    1. Klopf AH

    (1982) Le neurone hédoniste: théorie de la mémoire, de l'apprentissage et de l'intelligence. (Hémisphère, Washington, DC).

    1. Knowlton BJ,
    2. Mangues JA,
    3. Squire LR A

    (1996) système d’apprentissage des habitudes néostriatales chez l’homme. Science 273: 1399-1402.

    1. Künzle H.

    (1978) Une analyse autoradiographique des connexions efférentes des régions pré-moteur et préfrontale adjacentes (zones 6 et 9) dans Macaca fascicularis. Comportement du cerveau. Evol. 15: 185-234.

    1. LeMoal M.,
    2. Olds ME

    (1979) Entrée auditive périphérique dans la région limbique du cerveau moyen et les structures associées. Cerveau Res. 167: 1-17.

    1. LeMoal M.,
    2. Simon H.

    (1991) Réseau dopaminergique mésocorticolimbique: rôles fonctionnels et régulateurs. Physiol. Tour. 71: 155-234.

    1. Levey AI,
    2. Hersch SM,
    3. Rye DB,
    4. Sunahara RK,
    5. Niznik HB,
    6. Kitt CA,
    7. Prix ​​DL,
    8. Maggio R.,
    9. Brann MR,
    10. Ciliax BJ

    (1993) Localisation des récepteurs de la dopamine D1 et D2 dans le cerveau avec des anticorps spécifiques au sous-type. Proc. Natl. Acad. Sci. Etats-Unis 90: 8861-8865.

    1. Linden A.,
    2. Bracke-Tolkmitt R.,
    3. Lutzenberger W.,
    4. AGA de Canavan,
    5. Scholz E.,
    6. Diener HC,
    7. Birbaumer N.

    (1990) Potentiels corticaux lents chez les patients parkinsoniens au cours d'une tâche d'apprentissage associatif. J. Psychophysiol. 4: 145-162.

    1. Ljungberg T.,
    2. Apicella P.,
    3. Schultz W.

    (1991) Réponses des neurones dopaminergiques du cerveau moyen chez le singe au cours de l'exécution en alternance retardée. Cerveau Res. 586: 337-341.

    1. Ljungberg T.,
    2. Apicella P.,
    3. Schultz W.

    (1992) Réponses des neurones dopaminergiques de singe lors de l’apprentissage de réactions comportementales. J. Neurophysiol. 67: 145-163.

    1. Llinas R.,
    2. Gallois jp

    (1993) Sur le cervelet et l'apprentissage moteur. Curr. Opin. Neurobiol. 3: 958-965.

    1. Lohman AHM,
    2. Van Woerden-Verkley I.

    (1978) Connexions ascendantes au cerveau antérieur dans le lézard tegu. J. Comp. Neurol. 182: 555-594.

    1. Louilot A.,
    2. LeMoal M.,
    3. Simon H.

    (1986) Réactivité différentielle des neurones dopaminergiques du noyau accumbens en réponse à différentes situations comportementales. Une étude voltampérométrique in vivo chez des rats en mouvement libre. Cerveau Res. 397: 395-400.

    1. Lovibond PF

    (1983) Facilitation du comportement instrumental par un stimulus conditionnel appétitif de Pavlov. J. Exp. Psychol. Anim. Comportement Proc. 9: 225-247.

    1. Lovinger DM,
    2. Tyler EC,
    3. Merritt A.

    (1993) Dépression synaptique à court et à long terme du néostriatum chez le rat. J. Neurophysiol. 70: 1937-1949.

    1. Lynd-Balta E.,
    2. Haber SN

    (1994) Projections du striatigral primitif: comparaison du striatum sensorimoteur et du striatum ventral. J. Comp. Neurol. 345: 562-578.

    1. Mackintosh NJ A

    (1975) théorie de l’attention: variations de l’associabilité du stimulus au renforcement. Psychol. Tour. 82: 276-298.

    1. Manzoni JO,
    2. Manabe T.,
    3. Nicoll RA

    (1994) Libération d'adénosine par l'activation de récepteurs NMDA dans l'hippocampe. Science 265: 2098-2101.

    1. Marr D. A

    (1969) théorie du cortex cérébelleux. J. Physiol. (Lond.) 202: 437-470.

    1. Marshall JF,
    2. O'Dell SJ,
    3. Navarrete R.,
    4. Rosenstein AJ

    (1990) Topographie du site de transport à haute affinité de la dopamine dans le cerveau du rat: différences majeures entre le striatum dorsal et ventral. Neuroscience 37: 11-21.

  • K. Matsumoto, K. Nakamura, A. Mikami et K. K. Réponse à une distribution imprévisible d'eau dans la bouche de neurones sensibles au toucher dans le cortex orbital de singes. Abstr. Satellite Symp. Réunion IBR en l'honneur du Prof. Kubota, Inuyama, Japon, P-14, 1995.
    1. Matsumura M.,
    2. Kojima J.,
    3. Gardiner TW,
    4. Hikosaka O.

    (1992) Fonctions visuelles et oculomotrices du noyau sous-thalamique de singe. J. Neurophysiol. 67: 1615-1632.

    1. Maunsell JHR,
    2. Gibson JR

    (1992) Latences de réponse visuelle dans le cortex strié du singe macaque. J. Neurophysiol. 68: 1332-1344.

    1. Mazzoni P.,
    2. Andersen RA,
    3. Jordan MI A

    (1991) règle d’apprentissage plus biologiquement plausible que la rétropropagation appliquée à un modèle de réseau de la zone corticale 7. Cereb. Cortex 1: 293-307.

  • McCallum, A. K. Apprentissage par renforcement avec perception sélective et états cachés (Thèse de doctorat). Rochester, NY: Univ. Rochester, 1995.
    1. McCormick DA,
    2. Thompson RF

    (1984) Réponses neuronales du cervelet de lapin lors de l'acquisition et performance d'une réponse nictitante membrane-paupière conditionnée de manière classique. J. Neurosci. 4: 2811-2822.

    1. McLaren I.

    (1989) L'unité de calcul en tant qu'ensemble de neurones: implémentation d'un algorithme d'apprentissage à correction d'erreur. dans The Computing Neuron, sous la direction de Durbin R., Miall C., Mitchison G. (Addison-Wesley, Amsterdam), pp 160 – 178.

    1. Michael AC,
    2. Le juge JB Jr.,
    3. Neill DB

    (1985) Détermination voltampérométrique in vivo de la cinétique du métabolisme de la dopamine chez le rat. Neurosci. Lett. 56: 365-369.

    1. Middleton FA,
    2. Strick PL

    (1996) Le lobe temporal est une cible de sortie des ganglions de la base. Proc. Natl. Acad. Sci. Etats-Unis 93: 8683-8687.

    1. Miller EK,
    2. Li L.,
    3. Desimone R.

    (1993) Activité des neurones du cortex temporal antérieur inférieur lors d'une tâche de mémoire à court terme. J. Neurosci. 13: 1460-1478.

    1. Miller JD,
    2. Sanghera MK,
    3. CD allemand

    (1981) Activité des unités dopaminergiques mésencéphaliques chez le rat conditionné comportementalement. Life Sci. 29: 1255-1263.

    1. Miller R.,
    2. Wickens JR,
    3. Beninger RJ

    (1990) Les récepteurs de la dopamine D-1 et D-2 en relation avec la récompense et la performance: un cas pour le récepteur D-1 en tant que site principal de l’action thérapeutique des médicaments neuroleptiques. Programme. Neurobiol. 34: 143-183.

    1. Mirenowicz J.,
    2. Schultz W.

    (1994) Importance de l'imprévisibilité pour les réponses de récompense dans les neurones dopaminergiques chez les primates. J. Neurophysiol. 72: 1024-1027.

    1. Mirenowicz J.,
    2. Schultz W.

    (1996) Activation préférentielle des neurones dopaminergiques du cerveau moyen par des stimuli appétitifs plutôt que par aversion. Nature 379: 449-451.

    1. Mitchell SJ,
    2. Richardson RT,
    3. Baker FH,
    4. DeLong MR

    (1987) Le primate globus pallidus: activité neuronale liée à la direction du mouvement. Exp. Brain Res. 68: 491-505.

    1. Mogenson GJ,
    2. Takigawa M.,
    3. Robertson A.,
    4. Wu M.

    (1979) Auto-stimulation du noyau accumbens et de la région tegmentale ventrale de Tsai atténuée par des microinjections de spiropéridol dans le noyau accumbens. Cerveau Res. 171: 247-259.

    1. Montague PR,
    2. Dayan P.,
    3. Nowlan SJ,
    4. Pouget A.,
    5. Sejnowski TJ

    (1993) Utilisation du renforcement apériodique pour une auto-organisation dirigée au cours du développement. dans Neuron Information Processing Systems 5, sous la direction de Hanson SJ, Cowan JD, Giles CL (Morgan Kaufmann, San Mateo, Californie), pp 969 – 976.

    1. Montague PR,
    2. Dayan P.,
    3. Personne C.,
    4. Sejnowski TJ

    (1995) Abeilles cherchant de la nourriture dans des environnements incertains en utilisant l'apprentissage prédictif de Hebbian. Nature 377: 725-728.

    1. Montague PR,
    2. Dayan P.,
    3. Sejnowski TJ A

    (1996) pour les systèmes dopaminergiques mésencéphaliques basés sur l’apprentissage prédictif de Hebbian. J. Neurosci. 16: 1936-1947.

    1. Montague PR,
    2. Sejnowski TJ

    (1994) Le cerveau prédictif: coïncidence temporelle et ordre temporel dans les mécanismes d'apprentissage synaptiques. Apprendre. Mémoire 1: 1-33.

    1. Mora F.,
    2. Myers RD

    (1977) Auto-stimulation cérébrale: preuve directe de l'implication de la dopamine dans le cortex préfrontal. Science 197: 1387-1389.

    1. Murphy BL,
    2. Arnsten AF,
    3. Goldman-Rakic ​​PS,
    4. Roth RH

    (1996) L'augmentation du chiffre d'affaires de la dopamine dans le cortex préfrontal nuit aux performances de la mémoire de travail dans l'espace chez le rat et le singe. Proc. Natl. Acad. Sci. Etats-Unis 93: 1325-1329.

    1. Nakamura K.,
    2. Mikami A.,
    3. Kubota K.

    (1992) Activité de neurones uniques dans l'amygdale de singe lors de l'exécution d'une tâche de discrimination visuelle. J. Neurophysiol. 67: 1447-1463.

    1. Nedergaard S.,
    2. Bolam JP,
    3. Greenfield SA

    (1988) Facilitation de la conductance calcique dendritique par 5-hydroxytryptamine dans la substance noire. Nature 333: 174-177.

    1. Niijima K.,
    2. Yoshida M.

    (1988) Activation des neurones dopaminergiques mésencéphaliques par stimulation chimique du noyau tegmenti pedunculopopus pars compacta. Cerveau Res. 451: 163-171.

    1. Niki H.,
    2. Watanabe M.

    (1979) Activité unitaire préfrontal et cingulée lors du comportement de chronométrage chez le singe. Cerveau Res. 171: 213-224.

    1. Nirenberg MJ,
    2. Vaughan RA,
    3. Uhl GR,
    4. Kuhar MJ,
    5. Pickel VM

    (1996) Le transporteur de la dopamine est localisé aux membranes plasmiques dendritiques et axonales des neurones dopaminergiques nigrostriataux. J. Neurosci. 16: 436-447.

    1. Nishijo H.,
    2. Ono T.,
    3. Nishino H.

    (1988) Distribution topographique des neurones amygdalaires spécifiques à la modalité chez le singe alerte. J. Neurosci. 8: 3556-3569.

    1. Nishino H.,
    2. Ono T.,
    3. Muramoto KI,
    4. Fukuda M.,
    5. Sasaki K.

    (1987) Activité neuronale dans la région tegmentale ventrale (VTA) lors du comportement alimentaire motivé de la presse à barres chez le singe. Cerveau Res. 413: 302-313.

    1. Ojakangas CL,
    2. Ebner TJ

    (1992) Complexe cellulaire de Purkinje et changements de pointes simples au cours d'une tâche d'apprentissage volontaire du mouvement du bras chez le singe. J. Neurophysiol. 68: 2222-2236.

    1. Olds J.,
    2. Milner P.

    (1954) Renfort positif produit par une stimulation électrique de la zone septale et d'autres régions du cerveau de rat. J. Comp. Physiol. Psychol. 47: 419-427.

    1. Otmakhova NA,
    2. Lisman JE

    (1996) L'activation du récepteur de dopamine D1 / D5 augmente l'ampleur de la potentialisation précoce à long terme des synapses de l'hippocampe CA1. J. Neurosci. 16: 7478-7486.

    1. Packard MG,
    2. NM blanc

    (1991) Dissociation des systèmes de mémoire noyau hippocampe et caudé par post-formation d'injection intracérébrale d'agonistes de la dopamine. Comportement Neurosci. 105: 295-306.

    1. Pasteur MA,
    2. Artieda J.,
    3. Jahanshahi M.,
    4. Obeso JA

    (1992) L'estimation du temps et la reproduction sont anormales dans la maladie de Parkinson. Cerveau 115: 211-225.

    1. Pearce JM,
    2. Hall G. A

    (1980) modèle de conditionnement pavlovien: variations de l'efficacité de stimuli conditionnés mais non conditionnés. Psychol. Tour. 87: 532-552.

    1. Pennartz CMA,
    2. Ameerun RF,
    3. Groenewegen HJ,
    4. Lopes da Silva FH

    (1993) Plasticité synaptique dans une préparation de tranches in vitro du noyau accumbens de rat. EUR. J. Neurosci. 5: 107-117.

  • Percheron, G., Francois, C., Yelnik, J. et Fenelon, G. Le système primate nigro-striato-pallido-nigral. Pas une simple boucle. Dans: Mécanismes neuronaux dans les troubles du mouvement, édité par A. R. Crossman et M. A. Sambrook. Londres: John Libbey, 1989, p. 103 – 109.
    1. Phillips AG,
    2. Brooke SM,
    3. Fibiger HC

    (1975) Effets des isomères d'amphétamine et des neuroleptiques sur l'auto-stimulation du noyau accumbens et du faisceau noradrénergique dorsal. Cerveau Res. 85: 13-22.

    1. Phillips AG,
    2. Carter DA,
    3. Fibiger HC

    (1976) Substrats dopaminergiques d'auto-stimulation intracrânienne dans le noyau caudé. Cerveau Res. 104: 221-232.

    1. Phillips AG,
    2. Fibiger HC

    (1978) Rôle de la dopamine dans la médiation de l'auto-stimulation du tegmentum ventral, du noyau accumbens et du cortex préfrontal médial. Pouvez. J. Psychol. 32: 58-66.

    1. Phillips AG,
    2. Mora F.,
    3. Rolls ET

    (1979) Auto-stimulation intracrânienne du cortex orbitofrontal et du noyau caudé du singe rhésus: effets de l’apomorphine, du pimozide et du spiropéridol. Psychopharmacologie 62: 79-82.

    1. Pickel VM,
    2. Beckley SC,
    3. Joh TH,
    4. Reis DJ

    (1981) Localisation immunocytochimique ultrastructurale de la tyrosine hydroxylase dans le néostriatum. Cerveau Res. 225: 373-385.

    1. Price JL,
    2. Amaral DG

    (1981) Étude autoradiographique des projections du noyau central de l'amygdale de singe. J. Neurosci. 1: 1242-1259.

    1. Rao RPN,
    2. Ballard DH

    (1997) Un modèle dynamique de reconnaissance visuelle prédit les propriétés de la réponse neurale dans le cortex visuel. Calcul neural. 9: 721-763.

    1. Rasmussen K.,
    2. Jacobs BL

    (1986) Activité unitaire des neurones du locus coeruleus chez le chat en mouvement libre. II. Études de conditionnement et pharmacologiques. Cerveau Res. 371: 335-344.

    1. Rasmussen K.,
    2. Morilak DA,
    3. Jacobs BL

    (1986) Activité unitaire des neurones du locus coeruleus chez le chat en mouvement libre. I. Au cours de comportements naturalistes et en réponse à des stimuli simples et complexes. Cerveau Res. 371: 324-334.

    1. Rescorla RA,
    2. Wagner AR A

    Théorie (1972) du conditionnement pavlovien: variations de l'efficacité du renforcement et du non renforcement. dans le conditionnement classique II: recherches et théories actuelles, eds Black AH, Prokasy WF (Appleton Century Crofts, New York), pp 64 – 99.

    1. Richardson RT,
    2. DeLong MR

    (1986) Nucleus basalis de l'activité neuronale Meynert au cours d'une tâche de réponse retardée chez le singe. Cerveau Res. 399: 364-368.

    1. Richardson RT,
    2. DeLong MR

    (1990) Réponses dépendantes du contexte des neurones basalis du noyau de primate dans une tâche aller / retour. J. Neurosci. 10: 2528-2540.

    1. Richfield EK,
    2. Pennney JB,
    3. Jeune AB

    (1989) Comparaisons anatomiques et d'affinités entre les récepteurs D1 et D2 de la dopamine dans le système nerveux central du rat. Neuroscience 30: 767-777.

    1. Robbins TW,
    2. Everitt BJ

    (1992) Fonctions de la dopamine dans le striatum dorsal et ventral. Semin. Neurosci. 4: 119-128.

    1. Robbins TW,
    2. Everitt BJ

    (1996) Mécanismes neurocomportementaux de récompense et de motivation. Curr. Opin. Neurobiol. 6: 228-236.

    1. Robinson TE,
    2. Berridge KC

    (1993) La base neuronale du désir de drogue: une théorie de la toxicomanie incitative-sensibilisation. Brain Res. Tour. 18: 247-291.

    1. Rogawski MA

    (1987) Nouvelles orientations pour l'action des neurotransmetteurs: la dopamine fournit des indices importants. Tendances Neurosci. 10: 200-205.

    1. Rogers QR,
    2. Harper AE

    (1970) Sélection d’une solution contenant de l’histidine chez des rats recevant un régime déséquilibré en histidine. J. Comp. Physiol. Psychol. 72: 66-71.

    1. Rolls ET,
    2. Critchley HD,
    3. Maçon R.,
    4. Wakeman EA

    (1996) Neurones du cortex orbitofrontal: rôle dans l’apprentissage par association olfactive et visuelle. J. Neurophysiol. 75: 1970-1981.

    1. Romo R.,
    2. Scarnati E.,
    3. Schultz W.

    (1992) Rôle des noyaux gris centraux et du cortex frontal chez le primate dans la génération interne de mouvements: comparaisons dans les neurones striataux activés au cours de l'initiation et de l'exécution du mouvement induit par le stimulus Exp. Brain Res. 91: 385-395.

    1. Romo R.,
    2. Schultz W.

    (1990) Neurones dopaminergiques du cerveau moyen de singe: contingences de réponses au toucher actif lors de mouvements de bras auto-initiés. J. Neurophysiol. 63: 592-606.

    1. Rompré P.-P.,
    2. Sage RA

    (1989) Preuve comportementale de l'inactivation de la dépolarisation de la dopamine dans le cerveau moyen. Cerveau Res. 477: 152-156.

    1. Rossi DJ,
    2. Slater NT

    (1993) Le début du développement de l'activité du canal du récepteur NMDA au cours de la migration neuronale. Neuropharmacologie 32: 1239-1248.

    1. Rumelhart DE,
    2. Hinton GE,
    3. Williams RJ

    (1986) Apprentissage des représentations internes par propagation d'erreur. dans Traitement parallèle distribué I, éd. Rumelhart DE, McClelland JL (Presse MIT, Cambridge, MA), pp 318 – 362.

    1. Sah P.,
    2. Hestrin S.,
    3. Nicoll RA

    (1989) L'activation tonique des récepteurs NMDA par le glutamate ambiant améliore l'excitabilité des neurones. Science 246: 815-818.

    1. Salamone JD

    (1987) Actions des médicaments neuroleptiques sur les comportements instrumentaux d'appétit. dans Manuel de psychopharmacologie, eds Iversen LL, Iversen SD, Snyder SH (plénum, ​​New York), 19: 576 – 608.

    1. Salamone JD

    (1992) Fonctions motrices et sensorimotrices complexes de la dopamine striatale et accumbens: implication dans des processus comportementaux instrumentaux. Psychopharmacologie 107: 160-174.

    1. Sands SB,
    2. Barish ME A

    (1989) description quantitative des réponses de neurotransmetteurs d’acides aminés excitateurs sur des neurones spinaux de Yenopus en culture. Cerveau Res. 502: 375-386.

    1. Sara SJ,
    2. Segal M.

    (1991) Plasticité des réponses sensorielles des neurones de locus coeruleus chez le rat qui se comporte: implications pour la cognition. Programme. Brain Res. 88: 571-585.

    1. Sawaguchi T.,
    2. PS Goldman-Rakic

    (1991) D1 Les récepteurs de la dopamine dans le cortex préfrontal: implication dans la mémoire de travail. Science 251: 947-950.

    1. Scarnati E.,
    2. Proia A.,
    3. Campana E.,
    4. Pacitti C. A

    (1986) étude de micro-iontophorèse sur la nature du neurotransmetteur synaptique présumé impliqué dans la voie pédiatculopontine-substantia nigra pars compacta compacte du rat. Exp. Brain Res. 62: 470-478.

    1. Schultz W.

    (1986) Réponses des neurones dopaminergiques du cerveau moyen aux stimuli comportementaux du singe. J. Neurophysiol. 56: 1439-1462.

    1. Schultz W.,
    2. Apicella P.,
    3. Ljungberg T.

    (1993) Réponses des neurones dopaminergiques de singe à la récompense et aux stimuli conditionnés au cours des étapes successives d'apprentissage d'une tâche de réponse retardée. J. Neurosci. 13: 900-913.

    1. Schultz W.,
    2. Apicella P.,
    3. Romo R.,
    4. Scarnati E.

    (1995a) Activité dépendant du contexte chez le striatum de primate reflétant des événements comportementaux passés et futurs. dans Modèles de traitement de l'information dans les ganglions de la base, Houk JC, Davis JL, Beiser DG (Presse MIT, Cambridge, MA), pp 11 – 28.

    1. Schultz W.,
    2. Apicella P.,
    3. Scarnati E.,
    4. Ljungberg T.

    (1992) L'activité neuronale dans le striatum ventral de singe est liée à l'attente d'une récompense. J. Neurosci. 12: 4595-4610.

    1. Schultz W.,
    2. Dayan P.,
    3. Montague RR A

    (1997) substrat neural de prédiction et de récompense. Science 275: 1593-1599.

    1. Schultz W.,
    2. Romo R.

    (1987) Réponses de neurones dopaminergiques nigrostriataux à une stimulation somatosensorielle de haute intensité chez le singe anesthésié. J. Neurophysiol. 57: 201-217.

    1. Schultz W.,
    2. Romo R.

    (1990) Neurones dopaminergiques du cerveau moyen de singe: contingences de réponses à des stimuli provoquant des réactions comportementales immédiates. J. Neurophysiol. 63: 607-624.

    1. Schultz W.,
    2. Romo R.,
    3. Ljungberg T.,
    4. Mirenowicz J.,
    5. Hollerman JR,
    6. Dickinson A.

    (1995b) Signaux associés aux récompenses portés par les neurones dopaminergiques. dans Modèles de traitement de l'information dans les ganglions de la base, Houk JC, Davis JL, Beiser DG (MIT Press, Cambrdige, MA), pp 233 – 248.

    1. Schultz W.,
    2. Ruffieux A.,
    3. Aebischer P.

    (1983) L'activité des neurones pars compacta de la substance noire du singe en relation avec l'activation motrice. Exp. Brain Res. 51: 377-387.

    1. Sears LL,
    2. Steinmetz JE

    (1991) L’activité de l’olive inférieure accessoire dorsale diminue lors de l’acquisition de la réponse classique des paupières du lapin. Cerveau Res. 545: 114-122.

    1. Selemon LD,
    2. PS Goldman-Rakic

    (1990) Mélange topographique de neurones striatonigral et striatopallidal chez le singe rhésus. J. Comp. Neurol. 297: 359-376.

    1. Sesack SR,
    2. Aoki C.,
    3. Pickel VM

    (1994) Localisation ultrastructurale de l’immunoréactivité de type récepteur D2 dans les neurones à dopamine du cerveau moyen et leurs cibles striatales. J. Neurosci. 14: 88-106.

    1. Sesack SR,
    2. Pickel VM

    (1992) Efférents corticaux préfrontal chez la synapse de rat sur des cibles neuronales non marquées des extrémités de la catécholamine dans le noyau accumbens septi et sur des neurones dopaminergiques dans la région tegmentale ventrale. J. Comp. Neurol. 320: 145-160.

    1. Simon H.,
    2. Scatton B.,
    3. LeMoal M.

    (1980) Les neurones A10 dopaminergiques sont impliqués dans les fonctions cognitives. Nature 286: 150-151.

    1. Smith AD,
    2. Bolam JP

    (1990) Le réseau neuronal des noyaux gris centraux tel que révélé par l'étude des connexions synaptiques de neurones identifiés. Tendances Neurosci. 13: 259-265.

    1. Smith ID,
    2. Grace AA

    (1992) Rôle du noyau sous-thalamique dans la régulation de l'activité des neurones à dopamine nigrale. Synapse 12: 287-303.

    1. Smith MC

    (1968) Intervalle CS-US et intensité US dans le conditionnement classique de la réponse membranaire nictitante du lapin. J. Comp. Physiol. Psychol. 66: 679-687.

    1. Smith Y.,
    2. Bennett BD,
    3. Bolam JP,
    4. Parent A.,
    5. Sadikot AF

    (1994) Relations synaptiques entre les afférences dopaminergiques et les entrées corticales ou thalamiques dans le territoire sensorimoteur du striatum chez le singe. J. Comp. Neurol. 344: 1-19.

    1. Smith Y.,
    2. Bolam JP

    (1990) Les neurones de sortie et les neurones dopaminergiques de la substantia nigra reçoivent une entrée contenant du GABA provenant du globus pallidus chez le rat. J. Comp. Neurol. 296: 47-64.

    1. Smith Y.,
    2. Bolam JP

    (1991) Convergence des entrées synaptiques du striatum et du globus pallidus sur des cellules nigrocolliculaires identifiées chez le rat: une étude de marquage antérograde double. Neuroscience 44: 45-73.

    1. Smith Y.,
    2. Hazrati L.-N.,
    3. Parent A.

    (1990) Projections efférentes du noyau sous-thamma chez le singe-écureuil étudiées par la méthode de traçage antérograde PHA-L. J. Comp. Neurol. 294: 306-323.

    1. Somogyi P.,
    2. Bolam JP,
    3. Totterdell S.,
    4. Smith AD

    (1981) Entrée monosynaptique du noyau accumbens - région du striatum ventral vers les neurones nigrostriataux marqués de manière rétrograde. Cerveau Res. 217: 245-263.

    1. Sprengelmeyer R.,
    2. AGA de Canavan,
    3. Lange HW,
    4. Hömberg V.

    (1995) Apprentissage associatif dans les troubles dégénératifs néostriataux: contrastes dans la mémoire explicite et implicite entre les patients atteints de la maladie de Parkinson et de Huntington. Mov. Disord. 10: 85-91.

    1. DJ Surmeier,
    2. Le juge Eberwine,
    3. Le juge en chef Wilson,
    4. Stefani A.,
    5. Kitai ST

    (1992) Les sous-types de récepteurs de la dopamine se localisent dans les neurones striatonigraux de rat. Proc. Natl. Acad. Sci. Etats-Unis 89: 10178-10182.

    1. Stamford JA,
    2. Kruk ZL,
    3. Palij P.,
    4. Millar J.

    (1988) Diffusion et absorption de dopamine chez le rat caudé et le noyau accumbens comparés à la voltamétrie cyclique rapide. Cerveau Res. 448: 381-385.

    1. Stein L.

    (1964) Auto-stimulation du cerveau et action stimulante centrale de l'amphétamine. Fédération Proc. 23: 836-841.

    1. Stein L.,
    2. Xue BG,
    3. Belluzzi JD

    (1994) Renforcement in vitro de l'éclatement hippocampique: une recherche d'atomes de comportement de Skinner. J. Exp. Anal. Comportement 61: 155-168.

    1. Steinfels GF,
    2. Heym J.,
    3. Strecker RE,
    4. Jacobs BL

    (1983) Corrélats comportementaux de l'activité des unités dopaminergiques chez les chats se déplaçant librement. Cerveau Res. 258: 217-228.

    1. Suaud-Chagny MF,
    2. Dugast C.,
    3. Chergui K.,
    4. Msghina M.,
    5. Gonon F.

    (1995) Absorption de dopamine libérée par écoulement impulsif dans le système mésolimbique et striatal de rat in vivo. J. Neurochem. 65: 2603-2611.

    1. Suri RE,
    2. Schultz W. A

    (1996) modèle d’apprentissage neuronal basé sur l’activité des neurones dopaminergiques chez les primates. Soc. Neurosci. Abstr. 22: 1389.

    1. Sutton RS

    (1988) Apprendre à prédire par la méthode de la différence temporelle. Machine à apprendre. 3: 9-44.

    1. Sutton RS,
    2. Barto AG

    (1981) Vers une théorie moderne des réseaux adaptatifs: anticipation et prédiction. Psychol. Tour. 88: 135-170.

    1. Tepper J. M,
    2. Martin LP,
    3. Anderson DR

    (1995) GABAA inhibition à médiation par le récepteur de neurones dopaminergiques de substance noire chez le rat par les neurones de projection pars reticulata. J. Neurosci. 15: 3092-3103.

    1. Tesauro G.

    (1994) TD-Gammon, un programme de backgammon à auto-apprentissage, permet de jouer au niveau maître. Neural Comp. 6: 215-219.

    1. Thompson RF,
    2. Gluck MA

    (1991) Substrats cérébraux pour l'apprentissage et la mémoire associatifs de base. dans Perspectives sur les neurosciences cognitives, eds Lister RG, Weingartner HJ (Oxford Univ. Press, New York), pp 25 – 45.

    1. Thorndike EL

    (1911) Intelligence animale: études expérimentales. (MacMillan, New York).

    1. Thorpe SJ,
    2. Rolls ET,
    3. Maddison S.

    (1983) Le cortex orbitofrontal: activité neuronale chez le singe qui se comporte. Exp. Brain Res. 49: 93-115.

    1. Toan DL,
    2. Schultz W.

    (1985) Réponses des cellules de pallidum de rat à une stimulation du cortex et effets d'une activité dopaminergique altérée. Neuroscience 15: 683-694.

    1. Tremblay L.,
    2. Schultz W.

    (1995) Traitement des informations relatives aux récompenses dans les neurones orbitofrontal de primates. Soc. Neurosci. Abstr. 21: 952.

    1. Trent F.,
    2. Tepper JM

    (1991) La stimulation par le raphé dorsal modifie l’invasion antidromique évoquée par le striatal des neurones à dopamine nigral in vivo. Exp. Brain Res. 84: 620-630.

  • Ungerstedt, U. Adipsia et l'aphagie après la 6-hydroxydopamine ont induit une dégénérescence du système dopaminergique nigro-striatal. Acta Physiol. Scand. Suppl. 367: 95-117, 1971.
    1. Vankov A.,
    2. Hervé-Minvielle A.,
    3. Sara SJ

    (1995) Réponse à la nouveauté et à son habituation rapide dans les neurones du locus coeruleus du rat en exploration libre. EUR. J. Neurosci. 7: 1180-1187.

    1. Vriezen ER,
    2. Moscovitch M.

    (1990) Mémoire pour l'ordre temporel et apprentissage associatif conditionnel chez les patients atteints de la maladie de Parkinson. Neuropsychologia 28: 1283-1293.

    1. Walsh JP

    (1993) Dépression de l'entrée synaptique excitatrice dans les neurones striataux de rat. Cerveau Res. 608: 123-128.

    1. Wang Y.,
    2. Cummings SL,
    3. Gietzen DW

    (1996) Schéma temporel et spatial de l'expression de c-fos dans le cerveau de rat en réponse à une carence en acides aminés indispensable. I. La phase de reconnaissance initiale. Mol. Brain Res. 40: 27-34.

    1. Watanabe M.

    (1989) Pertinence des réponses comportementales codées dans l'activité post-essai des unités préfrontales de primates. Neurosci. Lett. 101: 113-117.

    1. Watanabe M.

    (1990) Activité d'unité préfrontal lors d'un apprentissage associatif chez le singe. Exp. Brain Res. 80: 296-309.

    1. Watanabe M.

    (1996) Espérance de récompense dans les neurones préfrontaux de primates. Nature 382: 629-632.

    1. Wauquier A.

    (1976) L'influence des substances psychoactives sur l'auto-stimulation cérébrale chez le rat: une revue. dans Récompense de stimulation cérébrale, eds Wauquier A., ​​Rolls ET (Elsevier, New York), pp 123 – 170.

    1. NM blanc

    (1989) Récompense ou renforcement: quelle est la différence? Neurosci. Biobehav. Tour. 13: 181-186.

    1. White NW,
    2. Milner PM

    (1992) La psychobiologie des renforçateurs. Annu. Rev. Psychol. 43: 443-471.

    1. Wightman RM,
    2. Zimmerman JB

    (1990) Contrôle de la concentration extracellulaire de dopamine dans le striatum de rat par un flux impulsionnel et une absorption. Brain Res. Tour. 15: 135-144.

    1. Wickens JR,
    2. Begg AJ,
    3. Arbuthnott GW

    (1996) La dopamine renverse la dépression des synapses corticostriatales de rat qui suit normalement une stimulation à haute fréquence du cortex in vitro. Neuroscience 70: 1-5.

    1. Wickens J.,
    2. Kötter R.

    (1995) Modèles cellulaires de renforcement. dans Modèles de traitement de l'information dans les ganglions de la base, Houk JC, Davis JL, Beiser DG (Presse MIT, Cambridge, MA), pp 187 – 214.

  • Widrow, G. et Hoff, M. E. Circuits de commutation adaptatifs. IRE Western Electronic Show Conven., Conven. Rec. partie 4: 96 – 104, 1960.
  • Widrow, G. et Sterns, S. D. Traitement adaptatif du signal. Englewood Cliffs, NJ: Prentice-Hall, 1985.
    1. Williams SM,
    2. PS Goldman-Rakic

    (1993) Caractérisation de l'innervation dopaminergique du cortex frontal des primates à l'aide d'un anticorps spécifique de la dopamine. Cereb. Cortex 3: 199-222.

    1. Williams GV,
    2. Millar J.

    (1990) Actions dépendantes de la concentration de la libération stimulée de dopamine sur l'activité neuronale dans le striatum de rat. Neuroscience 39: 1-16.

    1. Williams GV,
    2. Rolls ET,
    3. Leonard CM,
    4. Stern C.

    (1993) Réponses neuronales dans le striatum ventral du singe qui se comporte. Behav. Cerveau Res. 55: 243-252.

    1. Wilson C.,
    2. Nomikos GG,
    3. Collu M.,
    4. Fibiger HC

    (1995) Corrélats dopaminergiques du comportement motivé: importance de la motivation. J. Neurosci. 15: 5169-5178.

    1. Juge en chef Wilson

    (1995) Contribution des neurones corticaux au schéma de déclenchement des neurones épineux striataux. dans Modèles de traitement de l'information dans les ganglions de la base, Houk JC, Davis JL, Beiser DG (Presse MIT, Cambridge, MA), pp 29 – 50.

    1. Wilson FAW,
    2. Rolls ET

    (1990a) Les réponses neuronales liées à la nouveauté et à la familiarité des stimuli visuels dans la substantia innominata, la bande diagonale de Broca et la région périventriculaire du cerveau antérieur des primates. Exp. Brain Res. 80: 104-120.

    1. Wilson FAW,
    2. Rolls ET

    (1990b) Réponses neuronales liées au renforcement du cerveau antérieur basal des primates. Cerveau Res. 509: 213-231.

    1. Wilson FAW,
    2. Rolls ET

    (1990c) L'apprentissage et la mémoire se reflètent dans les réponses des neurones liés au renforcement dans le cerveau antérieur basal des primates. J. Neurosci. 10: 1254-1267.

    1. Sage RA

    (1982) Neuroleptiques et comportement opérant: l'hypothèse de l'anhédonie. Comportement Brain Sci. 5: 39-87.

    1. Sage RA

    (1996) Neurobiologie de la toxicomanie. Curr. Opin. Neurobiol. 6: 243-251.

    1. RA sage,
    2. Colle L.

    (1984) Le pimozide atténue la libre alimentation: l'analyse des «meilleurs scores» révèle un déficit de motivation. Psychopharmacologie 84: 446-451.

    1. RA sage,
    2. Hoffman DC

    (1992) Localisation des mécanismes de récompense des médicaments par injections intracrâniennes. Synapse 10: 247-263.

    1. RA sage,
    2. Rompre P.-P.

    (1989) dopamine cérébrale et récompense. Annu. Rev. Psychol. 40: 191-225.

    1. RA sage,
    2. Spindler J.,
    3. de Wit H.,
    4. Gerber GJ

    (1978) «Anhédonie» induite par les neuroleptiques chez le rat: les blocs de pimozide récompensent la qualité de la nourriture. Science 201: 262-264.

    1. Wynne B.,
    2. Güntürkün O.

    (1995) Innervation dopaminergique du télencéphale du pigeon (Columba liva): une étude avec des anticorps contre la tyrosine hydroxylase et la dopamine. J. Comp. Neurol. 357: 446-464.

    1. Yan Z.,
    2. Chanson WJ,
    3. DJ Surmeier

    (1997) Les récepteurs de la dopamine D2 réduisent le Ca de type N2+ courants dans les interneurones cholinergiques néostriataux de rat par une voie insensible aux protéines kinases C délimitée par la membrane. J. Neurophysiol. 77: 1003-1015.

    1. Yim CY,
    2. Mogenson GJ

    (1982) Réponse des neurones du noyau accumbens à la stimulation de l'amygdale et à sa modification par la dopamine. Cerveau Res. 239: 401-415.

    1. Jeune AMJ,
    2. Joseph MH,
    3. Gray JA

    (1992) Augmentation de la libération de dopamine in vivo dans le noyau accumbens et le noyau caudé du rat pendant la consommation d'alcool: étude de microdialyse. Neuroscience 48: 871-876.

    1. Jeune AMJ,
    2. Joseph MH,
    3. Gray JA

    (1993) Inhibition latente de la libération de dopamine conditionnée dans le noyau accumbens du rat. Neuroscience 54: 5-9.

    1. Yung KKL,
    2. Bolam JP,
    3. Smith AD,
    4. Hersch SM,
    5. Ciliax BJ,
    6. Levey AI

    (1995) Localisation immunocytochimique des récepteurs de la dopamine D1 et D2 dans les noyaux gris centraux du rat: microscopie optique et électronique. Neuroscience 65: 709-730.

  •