Publié en ligne 2018 May 14. doi: 10.1038 / s41593-018-0152-y
Abstract
La dopamine est un modulateur essentiel de l’apprentissage et de la motivation. Cela pose un problème: comment les cellules cibles peuvent-elles savoir si une augmentation de la dopamine est un signal d’apprentissage ou de déplacement? On présume souvent que la motivation implique des changements lents («toniques») de la dopamine, alors que des fluctuations rapides («phasiques») de la dopamine transmettent des erreurs de prédiction de récompense pour l'apprentissage. Pourtant, des études récentes ont montré que la dopamine conférait une valeur motivationnelle et favorisait le mouvement, même à des échelles de temps inférieures à la seconde. Je décris ici un compte rendu alternatif de la manière dont la dopamine régule le comportement en cours. La libération de dopamine liée à la motivation est rapidement et localement modelée par les récepteurs situés aux extrémités de la dopamine, indépendamment du déclenchement des cellules de la dopamine. Les neurones cibles basculent brusquement entre les modes apprentissage et performance, les interneurones cholinergiques striataux fournissant un mécanisme de commutation candidat. L’impact de la dopamine sur le comportement varie d’une sous-région à l’autre, mais dans chaque cas, la dopamine fournit une estimation dynamique permettant de déterminer s’il vaut la peine de dépenser une ressource interne limitée, telle que l’énergie, l’attention ou le temps.
La dopamine est-elle un signal d'apprentissage, de motivation ou les deux?
Notre compréhension de la dopamine a changé dans le passé et change encore. Une distinction essentielle est entre les effets de la dopamine sur actuel comportement (performance) et les effets de la dopamine sur avenir comportement (apprentissage). Les deux sont réels et importants, mais à différents moments, l’un a été favorable et l’autre non.
Lorsque (dans les '70s), il devenait possible de réaliser des lésions sélectives et complètes des voies de la dopamine, la conséquence comportementale évidente était une réduction sévère du mouvement.1. Cela correspond aux effets akinétiques de la perte de dopamine chez l'homme, produite par la maladie de Parkinson avancée, des médicaments toxiques ou une encéphalite2. Pourtant, ni les cas humains ni les rats ne présentent une incapacité fondamentale à bouger. Les rats atteints de dopamine nagent dans l'eau froide3, et les patients akinétiques peuvent se lever et courir si une alarme incendie retentit (kinésie «paradoxale»). Il n’existe pas non plus de déficit fondamental dans l’appréciation des récompenses: des rats atteints d’une lésion à la dopamine consomment de la nourriture placée dans leur bouche et montrent des signes de satisfaction.4. Au contraire, ils ne choisiront pas de faire des efforts pour obtenir activement des récompenses. Ces résultats, parmi tant d’autres, ont établi un lien fondamental entre la dopamine et la motivation.5. Même le ralentissement des mouvements observé dans les cas moins graves de la maladie de Parkinson peut être considéré comme un déficit de motivation, reflétant des décisions implicites selon lesquelles il ne vaut pas la peine de dépenser l'énergie nécessaire pour des mouvements plus rapides.6.
Puis (dans les '80s), il y a eu des enregistrements pionniers de neurones dopaminergiques chez des singes se comportant bien (dans les zones du cerveau moyen qui se projettent sur le cerveau antérieur: zone tégmentale ventrale, VTA / substance noire parente, SNc). Parmi les schémas de tir observés, il y avait de brèves bouffées d'activité aux stimuli qui ont déclenché des mouvements immédiats. Ce tir de dopamine «phasique» a d'abord été interprété comme un soutien à «l'activation comportementale»7 et "excitation de motivation"8 - en d'autres termes, comme revigorant le comportement actuel de l'animal.
Un changement radical s’est produit dans les «90», avec la réinterprétation des sursauts dopaminergiques phasiques comme codant. erreurs de prédiction de récompense (RPE9). Ceci était basé sur une observation clé: les cellules de dopamine répondent aux stimuli inattendus associés à une récompense future, mais cessent souvent de répondre si ces stimuli sont attendus10. L'idée du RPE trouve ses origines dans les théories de l'apprentissage antérieures, et en particulier dans le domaine de l'apprentissage par renforcement en informatique de l'époque11. Le point d'un signal RPE est de mettre à jour valeurs(estimations des récompenses futures). Ces valeurs sont utilisées plus tard pour aider à faire des choix qui maximisent la récompense. Étant donné que les tirs de cellules dopaminergiques ressemblaient à des RPE et que ces derniers sont utilisés pour l'apprentissage, il est devenu naturel de souligner le rôle de la dopamine dans l'apprentissage. Des manipulations optogénétiques ultérieures ont confirmé l'identité dopaminergique des cellules codant pour le RPE12,13 et a montré qu'ils modulent en effet l'apprentissage14,15.
L'idée que la dopamine fournit un signal d'apprentissage cadre parfaitement avec la littérature selon laquelle la dopamine module la plasticité synaptique dans le striatum, la principale cible de la dopamine dans le cerveau antérieur. Par exemple, la triple coïncidence de la stimulation par le glutamate d'une colonne vertébrale dendrite striatale, de la dépolarisation postsynaptique et de la libération de dopamine entraîne la croissance de la colonne vertébrale16. La modulation dopaminergique des mécanismes d'apprentissage à long terme aide à expliquer les effets persistants sur le comportement de drogues entraînant une dépendance, qui partagent la propriété d'accroître la libération de dopamine dans le striatum17. Même les akinésies profondes avec perte de dopamine peuvent être en partie expliquées par de tels mécanismes d'apprentissage18. L'absence de dopamine peut être traitée comme un RPE constamment négatif, qui actualise progressivement les valeurs des actions vers zéro. Des antagonistes de la dopamine peuvent produire des effets similaires similaires et progressifs sur le comportement.19,20.
Pourtant, l'idée que la dopamine est impliquée de manière critique dans la motivation continue n'a jamais disparu - au contraire, elle est largement considérée comme acquise par les neuroscientifiques du comportement. Ceci est approprié étant donné les preuves solides que les fonctions de la dopamine dans la motivation / le mouvement / la revigoration sont dissociables de l'apprentissage15,20-23. Le défi que représente la réconciliation de ce rôle de motivation avec la théorie selon laquelle DA fournit un signal d'apprentissage en EP est moins bien compris.
La motivation «regarde en avant»: elle utilise des prédictions de récompense future (valeurs) pour dynamiser de manière appropriée le comportement actuel. En revanche, l’apprentissage «regarde en arrière» les états et les actions des dernières années et met à jour leurs valeurs. Ce sont des phases complémentaires d'un cycle: les valeurs mises à jour peuvent être utilisées dans la prise de décision ultérieure si ces états sont à nouveau rencontrés, puis à nouveau mis à jour, etc. Mais à quelle phase du cycle la dopamine est-elle impliquée - utiliser des valeurs pour prendre des décisions (performance) ou mettre à jour des valeurs (apprentissage)?
Dans certaines circonstances, il est facile d’imaginer que la dopamine joue les deux rôles simultanément.24Les indices inattendus prédictifs de récompense sont les événements archétypiques permettant d’évoquer le déclenchement et la libération de cellules dopaminergiques. De tels indices stimulent généralement le comportement et évoquent l’apprentissage (Fig. 1). Dans cette situation particulière, les erreurs de prédiction de récompense et de prédiction de récompense augmentent simultanément - mais ce n'est pas toujours le cas. À titre d'exemple, les gens et les autres animaux sont souvent motivés à travailler pour obtenir des récompenses, même lorsque rien de surprenant ne se produit. Ils peuvent travailler de plus en plus dur à mesure qu'ils se rapprochent de plus en plus de la récompense (la valeur augmente à mesure que les récompenses se rapprochent). Le fait est que l'apprentissage et la motivation sont distincts sur les plans conceptuel, informatique et comportemental - et pourtant la dopamine semble faire les deux.
Ci-dessous, j’évalue de manière critique les idées actuelles sur la manière dont la dopamine est capable de réaliser à la fois des fonctions d’apprentissage et de motivation. Je propose un modèle actualisé, basé sur trois faits essentiels: 1) la libération de dopamine à partir de terminaux ne résulte pas simplement du déclenchement de cellules dopaminergiques, mais peut également être contrôlée localement; 2) dopamine affecte à la fois la plasticité synaptique et l’excitabilité des cellules cibles, avec des conséquences distinctes sur l’apprentissage et les performances; 3) les effets de la dopamine sur la plasticité peuvent être activés ou désactivés par des éléments de circuit proches. Ensemble, ces caractéristiques peuvent permettre aux circuits cérébraux de basculer entre deux messages de dopamine distincts, pour l'apprentissage et la motivation, respectivement.
Existe-t-il des signaux de dopamine «phasiques» et «toniques» distincts, avec des significations différentes?
Il est souvent avancé que les rôles d'apprentissage et de motivation de la dopamine se produisent à différentes échelles de temps.25. Les cellules dopaminergiques tirent en continu ("toniquement") à quelques pics par seconde, avec de temps à autre des éclats ou des pauses brèves ("phasiques"). Les rafales, en particulier si elles sont synchronisées artificiellement sur les cellules de dopamine, entraînent une augmentation rapide correspondante de la dopamine dans le cerveau antérieur26 qui sont très transitoires (durée inférieure à la seconde27). La contribution séparée de la décharge de cellules toniques à la dopamine aux concentrations de dopamine dans le cerveau antérieur est moins claire. Certaines preuves suggèrent que cette contribution est très faible28. Il peut être suffisant de produire une stimulation quasi continue des récepteurs D2 de plus haute affinité, ce qui permet au système de noter de brèves pauses dans le déclenchement de cellules dopaminergiques.29 et utilisez ces pauses comme des erreurs de prédiction négatives.
La microdialyse a été largement utilisée pour mesurer directement les niveaux de dopamine dans le cerveau antérieur, avec une résolution temporelle faible (moyenne moyenne sur plusieurs minutes). De telles mesures lentes de la dopamine peuvent être difficiles à associer précisément au comportement. Néanmoins, la microdialyse de la dopamine dans le noyau accumbens (NAc; striatum ventral / médial) montre des corrélations positives avec l'activité locomotrice30 et autres indices de motivation5. Cela a été largement interprété comme signifiant qu'il y a des changements lents («toniques») de la concentration de dopamine et que ces changements lents transmettent un signal de motivation. Plus précisément, des modèles informatiques ont proposé que les taux de dopamine tonique suivent le taux de récompense moyen à long terme31 - une variable de motivation utile pour l'attribution de temps et les décisions de recherche de nourriture. Il convient de souligner que très peu d'articles définissent clairement les niveaux de dopamine «toniques» - ils supposent généralement que la concentration de dopamine change lentement sur l'échelle de temps de plusieurs minutes de la microdialyse.
Pourtant, cette vue «dopamine phasique = RPE / apprentissage, dopamine tonique = motivation» se heurte à de nombreux problèmes. Premièrement, il n’existe aucune preuve directe que le déclenchement des cellules toniques à la dopamine varie normalement sur des échelles de temps lentes. Les cadences de tir toniques ne changent pas avec la motivation32,33. Il a été avancé que les niveaux de dopamine toniques changent en raison d’une proportion changeante de cellules dopaminergiques actives.34,35. Toutefois, dans de nombreuses études sur des animaux non-médicamentés et non-lésés, il n’a jamais été rapporté que les cellules de dopamine basculent entre les états silencieux et actifs.
De plus, le fait que la microdialyse mesure lentement les taux de dopamine ne signifie pas que les taux de dopamine changent réellement lentement. Nous avons récemment15 a examiné la dopamine NAc de rat dans une tâche de récompense probabiliste, en utilisant à la fois une microdialyse et une voltampérométrie cyclique à balayage rapide. Nous avons confirmé que la dopamine mésolimbique, mesurée par microdialyse, est corrélée au taux de récompense (récompenses / minute). Cependant, même avec une résolution temporelle de la microdialyse améliorée (1min), la dopamine fluctuait aussi vite que nous l'avions échantillonné: nous n'avons constaté aucune preuve d'un signal de dopamine intrinsèquement lent.
En utilisant la résolution temporelle encore plus fine de la voltamétrie, nous avons observé une relation étroite entre les fluctuations dopaminergiques inférieures à la seconde et la motivation. Tandis que les rats effectuaient la séquence d'actions nécessaires pour obtenir des récompenses, la dopamine montait de plus en plus haut, atteignant un pic au moment même où ils obtenaient la récompense (et baissant rapidement lorsqu'ils la consommaient). Nous avons montré que la dopamine était fortement corrélée à la valeur instantanée de l’état, définie comme la récompense future attendue, actualisée en fonction du temps requis pour la recevoir. Cette dynamique rapide de la dopamine peut également expliquer les résultats de la microdialyse sans invoquer des signaux de dopamine distincts à différentes échelles de temps. Au fur et à mesure que les animaux expérimentent davantage de récompenses, ils attendent davantage de futures récompenses à chaque étape de la séquence d'essai. Plutôt qu'un signal de taux de récompense moyen à évolution lente, la corrélation entre le taux de dopamine et le taux de récompense est mieux expliquée par la moyenne, sur la durée de collecte prolongée de l'échantillon de microdialyse, de ces valeurs d'état en évolution rapide.
Cette interprétation des valeurs de la libération de dopamine mésolimbique est cohérente avec les résultats de voltampérométrie d’autres groupes de recherche, qui ont constaté à plusieurs reprises que la libération de dopamine augmentait avec la proximité croissante de la récompense.36-38(Fig. 2). Ce signal de motivation n'est pas intrinsèquement «lent», mais peut être observé sur une plage continue d'échelles de temps. Bien que les rampes de dopamine puissent durer plusieurs secondes lorsqu'un comportement d'approche dure également plusieurs secondes38, cela reflète l'évolution temporelle du comportement plutôt que la dynamique intrinsèque de la dopamine. La relation entre la libération de dopamine mésolimbique et la fluctuation de valeur est visible aussi rapidement que la technique d'enregistrement le permet, c'est-à-dire sur un laps de temps de ~ 100ms avec des électrodes de voltamétrie aiguë15.
Les fluctuations rapides de la dopamine ne reflètent pas simplement la motivation, elles conduisent également immédiatement à un comportement motivé. Des réponses phasiques plus importantes des cellules de dopamine pour déclencher des signaux prédisent des temps de réaction plus courts dans le même essai39. La stimulation optogénétique des cellules VTA de la dopamine rend les rats plus susceptibles de commencer à travailler dans notre tâche de récompense probabiliste15, tout comme s’ils attendaient plus de récompenses. La stimulation optogénétique des neurones dopaminergiques de la SNc, ou de leurs axones dans le striatum dorsal, augmente la probabilité de mouvement40,41. De manière critique, ces effets comportementaux sont apparents quelques centaines de millisecondes après le début de la stimulation optogénétique. La capacité des signaux prédictifs de récompense à stimuler la motivation semble être médiée par une modulation dopaminergique très rapide de l'excitabilité des neurones épineux de NAc42. Étant donné que la dopamine évolue rapidement et que ces modifications affectent rapidement la motivation, les fonctions de motivation de la dopamine sont mieux décrites comme étant rapides («phasiques») et non lentes («toniques»).
En outre, invoquer des échelles de temps rapides et lentes séparées ne résout pas en soi le problème de décodage auquel sont confrontés les neurones dotés de récepteurs dopaminergiques. Si la dopamine signale l'apprentissage, la modulation de la plasticité synaptique semblerait une réponse cellulaire appropriée. Mais les effets immédiats sur le comportement motivé impliquent des effets immédiats sur les pics - par exemple à travers des changements rapides de l'excitabilité. La dopamine peut avoir ces deux effets post-synaptiques (et plus), alors une concentration de dopamine donnée a-t-elle une signification spécifique? Ou cette signification doit-elle être construite - par exemple en comparant les niveaux de dopamine dans le temps, ou en utilisant d'autres signaux coïncidents pour déterminer quelle machinerie cellulaire engager? Cette possibilité est examinée plus en détail ci-dessous.
La libération de dopamine transmet-elle les mêmes informations que le déclenchement de cellules dopaminergiques?
La relation entre les fluctuations rapides de la dopamine et la valeur motivationnelle semble étrange, étant donné que le déclenchement de cellules dopaminergiques ressemble au contraire à un EPR. En outre, certaines études ont signalé des signaux d'EPR dans la libération de dopamine mésolimbique43. Il est important de noter un défi dans l'interprétation de certaines formes de données neuronales. Les signaux de valeur et les RPE sont corrélés les uns aux autres - il n'est pas surprenant que le RPE soit généralement défini comme le changement de valeur d'un instant à l'autre (RPE «différence temporelle»). En raison de cette corrélation, il est essentiel d'utiliser des conceptions et des analyses expérimentales qui distinguent la valeur des comptes RPE. Le problème est aggravé lors de l'utilisation d'une mesure neuronale qui repose sur des changements de signal relatifs plutôt qu'absolus. Les analyses de voltamétrie comparent généralement la dopamine à un moment d'intérêt à une époque «de référence» plus tôt dans chaque essai (pour supprimer les composants de signal qui ne dépendent pas de la dopamine, y compris la charge d'électrode à chaque balayage et dérive de tension sur une échelle de temps de quelques minutes). Mais en soustrayant une ligne de base, un signal de valeur peut ressembler à un signal RPE. C'est ce que nous avons observé dans nos propres données de voltampérométrie (Fig. 2e). Les changements dans les attentes en matière de récompense ont été reflétés dans les changements dans la concentration de dopamine au début de chaque essai, et ces changements ne sont pas pris en compte si l'on suppose simplement une base de référence constante dans tous les essais.15. Les conclusions sur la libération de dopamine et le codage RPE doivent donc être considérées avec prudence. Ce danger d'interprétation des données s'applique non seulement à la voltampérométrie, mais à toute analyse qui repose sur des changements relatifs - y compris potentiellement une IRMf et une photométrie44.
Néanmoins, nous avons encore besoin de réconcilier la libération de dopamine liée à la valeur dans le noyau NAc avec l’absence constante de dopage lié à la valeur par les neurones dopaminergiques.13, même dans la zone d'ATV latérale qui fournit de la dopamine au cœur de NAc45. Un facteur potentiel réside dans le fait que les cellules dopaminergiques sont généralement enregistrées chez des animaux serre-tête exécutant des tâches de conditionnement classiques, tandis que la libération de dopamine est généralement mesurée chez des animaux non attachés se déplaçant activement dans leur environnement. Nous avons proposé que la dopamine mésolimbique puisse indiquer spécifiquement la valeur de «travail»15 - qu'il reflète une exigence de consacrer du temps et des efforts pour obtenir la récompense. Conformément à cela, la dopamine augmente avec les signaux indiquant le mouvement, mais pas avec les signaux indiquant l'immobilité, même lorsqu'ils indiquent une récompense future similaire46. Si - comme dans de nombreuses tâches de conditionnement classiques - il n'y a aucun avantage à un «travail» actif, alors les changements dopaminergiques indiquant la valeur du travail peuvent être moins apparents.
Encore plus important peut être le fait que la libération de dopamine peut être localement contrôlée aux terminaux eux-mêmes et montrer ainsi des patrons spatio-temporels indépendants des pointes du corps cellulaire. Par exemple, l’amygdale basolatérale (BLA) peut influer sur la libération de dopamine de NAc même lorsque la VTA est inactivée.47. Inversement, inactiver la BLA réduit la libération de dopamine en NAc et le comportement motivé correspondant, sans affecter apparemment le déclenchement de la VTA48. Les terminaux dopaminergiques possèdent des récepteurs pour une gamme de neurotransmetteurs, notamment le glutamate, les opioïdes et l’acétylcholine. Les récepteurs de l'acétylcholine nicotinique permettent aux interneurones cholinergiques (CIN) striataux de contrôler rapidement la libération de dopamine49,50. Bien qu’il soit noté depuis longtemps que le contrôle local de la libération de dopamine est potentiellement important7,51, il n'a pas été inclus dans les comptes informatiques de la fonction dopaminergique. Je propose que la dynamique de la libération de dopamine liée au codage de la valeur résulte en grande partie de locales contrôle, alors même que le déclenchement de cellules dopaminergiques fournit d’importants signaux de type RPE pour l’apprentissage.
Comment la dopamine peut-elle signifier à la fois apprentissage et motivation sans confusion?
En principe, un signal de valeur suffit également à acheminer le RPE, car les RPE à différences temporelles sont simplement des changements de valeur rapides (Fig. 2B). Par exemple, des voies intracellulaires distinctes dans des neurones cibles pourraient être différemment sensibles à la concentration absolue de dopamine (représentant la valeur) par rapport aux changements relatifs rapides de concentration (représentant l'EPR). Ce schéma semble plausible, étant donné la modulation complexe de la physiologie des neurones épineux par la dopamine52 et leur sensibilité aux modèles temporels de concentration en calcium53. Pourtant, cela semble aussi quelque peu redondant. Si un signal de type RPE existe déjà dans le spiking de cellules dopaminergiques, il devrait être possible de l'utiliser, plutôt que de dériver le RPE d'un signal de valeur.
Pour utiliser correctement les signaux RPE et de valeur distincts, les circuits récepteurs de dopamine peuvent activement changer leur interprétation de la dopamine. Il existe des preuves fascinantes que l’acétylcholine pourrait également jouer ce rôle. En même temps que les cellules dopaminergiques déclenchent des pointes inattendues, les CIN sont brefs (~ 150ms) pauses dans le tir, qui ne se déplacent pas avec les RPE54. Ces pauses CIN peuvent être pilotées par les neurones VTA GABAergiques55 ainsi que des cellules liées «par surprise» dans le thalamus intralaminaire, et ont été proposées pour agir en tant que signal d'associabilité favorisant l'apprentissage56. Morris et Bergman ont suggéré54 les pauses cholinergiques définissent des fenêtres temporelles pour la plasticité striatale, pendant lesquelles la dopamine peut être utilisée comme signal d'apprentissage. La plasticité dépendante de la dopamine est supprimée en permanence par des mécanismes tels que les récepteurs muscariniques m4 sur les neurones striataux à voie directe57. Les modèles de signalisation intracellulaire suggèrent que pendant les pauses CIN, l'absence de liaison de m4 peut agir en synergie avec des sursauts dopaminergiques phasiques pour stimuler l'activation de la PKA58, favorisant ainsi le changement synaptique.
Les cellules cholinergiques striatales sont donc bien placées pour changer de façon dynamique la signification d’un message dopaminergique multiplexé. Pendant les pauses CIN, le soulagement d'un bloc muscarinique par rapport à la plasticité synaptique permettrait à la dopamine d'être utilisée pour l'apprentissage. À d'autres moments, la libération des terminaux dopaminergiques serait sculptée localement pour affecter les performances comportementales en cours. Actuellement, cette suggestion est à la fois spéculative et incomplète. Il a été proposé que les CIN intègrent les informations de nombreux neurones épineux environnants afin d’extraire des signaux utiles au niveau du réseau tels que l’entropie.59,60. Mais il n’est pas du tout évident que la dynamique de l’activité de la CIN puisse être utilisée pour générer des signaux de valeur de dopamine61et aussi pour déclencher des signaux d'apprentissage de la dopamine.
Est-ce que dopamine signifie la même chose dans tout le cerveau antérieur?
Lorsque l’idée du RPE s’est installée, on a imaginé que la dopamine était un signal global, transmettant un message d’erreur à travers les cibles corticales frontale et striatale. Schultz a souligné que les cellules de dopamine de singe à travers la VTA et la SNc ont des réponses très similaires62. Des études sur des cellules dopaminergiques identifiées ont également révélé des réponses assez homogènes analogues à l'EPR chez les rongeurs, du moins pour les neurones VTA latéraux dans des contextes de conditionnement classiques.13. Pourtant, les cellules dopaminergiques sont diverses sur le plan moléculaire et physiologique63-65 et il y a maintenant beaucoup de rapports indiquant qu'ils montrent des schémas de tir différents chez les animaux qui se comportent. Ceux-ci incluent des augmentations phasiques du tir aux événements aversifs66 et déclencheurs67 qui correspondent mal au compte RPE standard. De nombreuses cellules dopaminergiques manifestent une réponse initiale à court temps de latence à des événements sensoriels, ce qui reflète davantage une surprise ou une «alerte» que le codage spécifique de l'EPR.68,69. Cet aspect d'alerte est plus important dans SNc69, où les cellules dopaminergiques se projettent davantage vers le striatum dorsal / latéral «sensorimoteur» (DLS)45,63). On a également signalé que les sous-populations de cellules dopaminergiques de la SNc augmentaient41 ou diminuer70 tirer en conjonction avec des mouvements spontanés, même sans signaux extérieurs.
Plusieurs groupes ont utilisé la photométrie des fibres et l'indicateur de calcium GCaMP pour examiner l'activité globale des sous-populations de neurones dopaminergiques.71,72. Les cellules dopaminergiques qui se projettent sur le striatum dorsal / médian (DMS) ont présenté une activité transitoire déprimée entraînant de brefs chocs inattendus, tandis que celles se projetant vers le DLS ont présenté une activité accrue.71- plus cohérent avec une réponse d'alerte. Des réponses dopaminergiques distinctes dans différentes sous-régions du cerveau antérieur ont également été observées en utilisant GCaMP pour examiner l'activité des axones et des terminaisons de la dopamine40,72,73. Utilisation de l'imagerie à deux photons chez des souris à la tête retenue, Howe et Dombeck40 activité dopaminergique phasique liée à des mouvements spontanés. Cela a été principalement observé dans les axones individuels de la dopamine de la SNc qui se sont terminés dans le striatum dorsal, alors que les axones de la VTA dans la NAc réagissaient davantage pour récompenser la délivrance. D'autres ont également découvert une activité dopaminergique liée à la récompense dans NAc, le DMS étant plutôt lié à des actions controlatérales.72 et la queue postérieure du striatum sensible aux stimuli novateurs et aversifs74.
Les mesures directes de la libération de dopamine révèlent également une hétérogénéité entre les sous-régions30,75. Avec la microdialyse, nous avons trouvé que la dopamine était corrélée à la valeur spécifiquement dans le cortex frontal et le cortex frontal ventral-médial, et non dans les autres parties médiales du striatum (coquille de NAc, DMS) ou du cortex frontal. Ceci est intriguant, car il semble bien cartographier deux «points chauds» de codage de valeur régulièrement observés dans les études d’IRMf humaines.76,77. En particulier, le signal NAc BOLD, qui est étroitement lié à la signalisation par la dopamine78, augmente avec l'anticipation de la récompense (valeur) - plus qu'avec RPE76.
Que ces schémas spatiaux de libération de dopamine résultent de la mise à feu de sous-populations de cellules de dopamine distinctes, du contrôle local de la libération de dopamine, ou des deux, ils défient l’idée d’un message global sur la dopamine. On pourrait en conclure qu'il existe de nombreuses fonctions dopaminergiques différentes, avec (par exemple) la dopamine dans le striatum dorsal signalant le «mouvement» et la dopamine dans le striatum ventral indiquant la «récompense»40. Cependant, je privilégie une autre approche conceptuelle. Différentes sous-régions striatales reçoivent des entrées de différentes régions corticales et traiteront donc différents types d'informations. Pourtant, chaque sous-région striatale partage une architecture de microcircuit commune, comprenant des neurones épineux porteurs de récepteurs D1 et de D2 distincts.79, CIN, etc. Bien qu'il soit courant de se référer à diverses sous-régions striatales (par exemple, DLS, DMS, noyau NAc) comme s'il s'agissait de zones distinctes, il n'y a pas de frontière anatomique nette entre elles (la coquille NAc est un peu plus distinct sur le plan neurochimique). Au lieu de cela, il n’ya que de faibles gradients dans la densité du récepteur, les proportions d’interneurones, etc., qui ressemblent davantage à des modifications des paramètres d’un algorithme de calcul partagé. Étant donné cette architecture commune, pouvons-nous décrire une fonction dopaminergique commune, abstraite des informations spécifiques traitées par chaque sous-région?
La dopamine striatale et l'allocation de ressources limitées.
Je propose qu’une variété d’effets disparates de la dopamine sur le comportement en cours puisse être comprise comme une modulation de décisions d'allocation de ressources. Plus précisément, la dopamine fournit une estimation de la valeur de l’utilisation d’une ressource interne limitée, la ressource particulière étant différente d’une sous-région à l’autre. Pour le striatum «moteur» (~ DLS), la ressource est le mouvement, ce qui est limité car le déplacement coûte de l'énergie et que de nombreuses actions sont incompatibles.80. L'augmentation de la dopamine augmente la probabilité qu'un animal décide qu'il vaut la peine de dépenser de l'énergie pour se déplacer ou pour aller plus vite.6,40,81. Notez qu'un signal dopaminergique codant «le mouvement vaut la peine» produira des corrélations entre la dopamine et le mouvement, même sans «mouvement» codant la dopamine. per se.
Pour le striatum «cognitif» (~ DMS), les ressources sont des processus cognitifs, y compris l’attention (capacité limitée par définition82) et mémoire de travail83. Sans dopamine, les signaux externes saillants qui provoquent normalement des mouvements d'orientation sont négligés, comme s'ils étaient jugés moins dignes d'attention3. De plus, marshaler délibérément les processus de contrôle cognitif demande beaucoup d’effort84). Dopamine - en particulier dans le DMS85 - joue un rôle clé pour décider s'il vaut la peine de faire cet effort86,87. Cela peut inclure l’utilisation éventuelle de stratégies décisionnelles délibératives («basées sur un modèle») plus exigeantes sur le plan cognitif.88.
Pour le striatum «motivationnel» (~ NAc), le temps de l'animal peut constituer une ressource clé essentielle. La dopamine mésolimbique n’est pas nécessaire lorsque les animaux effectuent une action simple et fixe pour obtenir rapidement des récompenses.89. Mais de nombreuses formes de récompense ne peuvent être obtenues que par un travail prolongé: séquences d'actions non récompensées, comme dans la recherche de nourriture. Choisir de travailler signifie que l'on doit renoncer à d'autres moyens de gagner du temps. Une concentration élevée de dopamine mésolimbique indique qu'il est utile de faire un travail laborieux et prolongé dans le temps, mais comme la dopamine est réduite, les animaux ne sont pas gênés et peuvent au contraire se préparer à dormir.90.
Au sein de chaque circuit de l'anse cortico-striatale, la contribution de la dopamine à un comportement permanent est donc à la fois économique (liée à l'affectation de ressources) et motivante (qu'elle soit digne d'intérêt dépenser des ressources81). Ces circuits ne sont pas totalement indépendants, mais possèdent plutôt une organisation hiérarchique en spirale: des parties plus ventrales du striatum influencent les cellules dopaminergiques qui font saillie vers des parties plus dorsales.5,91. De cette manière, les décisions de s'engager dans le travail peuvent également aider à revigorer les mouvements spécifiques et plus brefs requis. Mais dans l'ensemble, la dopamine fournit des signaux «d'activation» - augmentant la probabilité qu'une décision soit prise - plutôt que des signaux «directionnels» spécifiant how les ressources devraient être dépensées5.
Quel est le rôle informatique de la dopamine dans la prise de décision?
Une façon de penser à ce rôle d’activation consiste à définir des «seuils» de prise de décision. Dans certains modèles mathématiques, les processus de décision augmentent jusqu'à atteindre un seuil, lorsque le système s'engage dans une action.92. Une dopamine plus élevée équivaudrait à une distance inférieure au seuil, de sorte que les décisions soient prises plus rapidement. Cette idée est simpliste, mais fait des prédictions quantitatives qui ont été confirmées. L'abaissement des seuils de mouvement provoquerait un changement spécifique dans la forme de la distribution du temps de réaction, à l'image de ce qui est observé lorsque de l'amphétamine est infusée dans le striatum sensorimoteur.20.
Plutôt que des seuils fixes, les données comportementales et neurales peuvent être mieux adaptées si les seuils diminuent avec le temps, comme si les décisions devenaient de plus en plus urgentes. La sortie des ganglions de la base a été proposée pour fournir un signal d’urgence évoluant de manière dynamique, qui dynamise les mécanismes de sélection dans le cortex.93. L'urgence était également plus grande lorsque les récompenses futures étaient plus proches dans le temps, faisant de ce concept un concept similaire au codage des valeurs, rôle activateur de la dopamine.
Un tel rôle activateur est-il suffisant pour décrire les effets modulateurs de la dopamine striatale sur la performance? Cela est lié à la question de savoir si les circuits des noyaux gris centraux sélectionnent directement parmi les actions acquises80 ou simplement revigorer les choix faits ailleurs93,94. Il y a au moins deux façons dont la dopamine peut sembler avoir un effet plus «directionnel». Le premier est le moment où la dopamine agit dans une sous-région cérébrale qui traite des informations intrinsèquement directionnelles. Les circuits des ganglions de la base ont un rôle important, partiellement latéralisé, dans l’orientation vers les récompenses potentielles et dans leur approche. Le primate caudé (~ DMS) est impliqué dans les mouvements des yeux vers les champs spatiaux controlatéraux95. Un signal dopaminergique vers lequel orienter quelque chose dans l’espace controlatéral peut expliquer la corrélation observée entre l’activité dopaminergique dans le DMS et les mouvements controlatéraux.72, ainsi que le comportement en rotation produit par les manipulations de la dopamine96. Une deuxième influence «directionnelle» de la dopamine est apparente lorsque les lésions (bilatérales) à la dopamine orientent les rats vers des choix demandant peu d'effort / peu de récompense, plutôt que des alternatives demandant beaucoup d'effort / très gratifiant.97. Cela peut refléter le fait que certaines décisions sont plus sérielles que parallèles, les rats (et les humains) évaluant les options une à la fois.98. Dans ces contextes décisionnels, la dopamine peut toujours jouer un rôle fondamentalement activateur en transmettant la valeur de l'option actuellement envisagée, qui peut ensuite être acceptée ou non.24.
Les animaux actifs prennent des décisions à plusieurs niveaux, souvent à des taux élevés. Au-delà de la réflexion sur les décisions individuelles, il peut être utile de considérer une trajectoire globale à travers une séquence d'états (Fig. 1). En facilitant les transitions d'un état à l'autre, la dopamine peut accélérer l'écoulement le long des trajectoires apprises99. Cela peut être lié à l'influence importante de la dopamine sur le moment du comportement44,100. Une des principales frontières pour les travaux futurs consiste à mieux comprendre comment de tels effets de la dopamine sur le comportement en cours surviennent de façon mécaniste, en modifiant le traitement de l’information au sein de cellules uniques, de microcircuits et de boucles à grande échelle des noyaux gris-corticaux. En outre, j'ai mis l'accent sur les rôles informatiques communs de la dopamine dans une gamme de cibles striatales, mais les cibles corticales largement négligées, et il reste à voir si les fonctions de la dopamine dans les deux structures peuvent être décrites dans le même cadre.
En résumé, une description adéquate de la dopamine expliquerait comment la dopamine peut signaler à la fois l’apprentissage et la motivation sur une même échelle de temps rapide, sans confusion. Cela expliquerait pourquoi la libération de dopamine chez des cibles clés suscite des espoirs de récompense, même si le déclenchement de cellules dopaminergiques ne le permet pas. Et cela fournirait un compte rendu informatique unifié des actions de la dopamine dans le striatum et ailleurs, ce qui explique les effets comportementaux disparates sur le mouvement, la cognition et le timing. Certaines idées spécifiques présentées ici sont spéculatives, mais ont pour but de revigorer les discussions, les modélisations et les expériences nouvelles les plus incisives.
Remerciements
Je remercie les nombreux collègues qui ont fourni des commentaires perspicaces sur des versions antérieures de textes, notamment Kent Berridge, Peter Dayan, Brian Knutson, Jeff Beeler, Peter Redgrave, John Lisman, Jesse Goldberg et les arbitres anonymes. Je regrette que les contraintes d'espace aient empêché la discussion de nombreuses études antérieures importantes. L’Institut national des troubles neurologiques et des accidents vasculaires cérébraux, l’Institut national de la santé mentale et l’Institut national de lutte contre l’abus des drogues ont apporté un soutien essentiel.