Dynamique dissociable de la dopamine pour l'apprentissage et la motivation (2019)

https://www.nature.com/articles/s41586-019-1235-y

Abstract

La projection de dopamine de la zone tegmentale ventrale (VTA) vers le noyau accumbens (NAc) est essentielle pour que la motivation fonctionne pour les récompenses et l'apprentissage axé sur les récompenses. La manière dont la dopamine soutient les deux fonctions n'est pas claire. Le dopage des cellules dopaminergiques peut coder des erreurs de prédiction, qui sont des signaux d'apprentissage vitaux dans les théories informatiques du comportement adaptatif. En revanche, la libération de dopamine augmente à mesure que les animaux approchent des récompenses, reflétant les attentes de récompense. Cette discordance pourrait refléter des différences dans les tâches comportementales, des changements plus lents dans le pic de cellules dopaminergiques ou une modulation indépendante des pics de la libération de dopamine. Ici, nous comparons le dopage des cellules dopaminergiques VTA identifiées avec la libération de dopamine NAc dans la même tâche décisionnelle. Les signaux indiquant une récompense à venir ont augmenté à la fois le pic et la libération. Cependant, la libération de dopamine du noyau NAc a également coïncidé avec des attentes de récompense en évolution dynamique, sans changements correspondants dans le pic de cellules dopaminergiques VTA. Nos résultats suggèrent une différence fondamentale dans la façon dont la libération de dopamine est régulée pour atteindre des fonctions distinctes: les signaux de diffusion en rafale favorisent l'apprentissage, tandis que le contrôle local stimule la motivation.

Entrée

La dopamine est liée à la «récompense», mais comment exactement? Une fonction consiste à apprendre de récompenses inattendues. De brèves augmentations du tir de cellules dopaminergiques codent des erreurs de prédiction de récompense (RPE)1,2,3—Des signaux d'apprentissage pour optimiser les comportements motivés par l'avenir. Les manipulations de la dopamine peuvent affecter l'apprentissage comme si elles altéraient les EPR4,5,6, mais ils affectent aussi immédiatement les comportements motivés, comme si les signaux de la dopamine récompensaient les attentes (valeur)5. En outre, la dopamine NAc augmente au cours de l’approche motivée, ce qui correspond à la valeur de codage de la dopamine.7,8,9,10,11.

À quelques exceptions près2,12,13, l'injection de dopamine dans le cerveau moyen a été examinée lors d'un conditionnement classique chez des animaux à tête fixe3,14, contrairement à la libération de dopamine dans le cerveau antérieur. Nous avons donc comparé le tir à la libération dans les mêmes conditions. Nous avons identifié les neurones de la dopamine VTA en utilisant un marquage optogénétique3,13. Pour mesurer la libération de dopamine en NAc, nous avons utilisé trois méthodes indépendantes: la microdialyse, la voltamétrie et le capteur optique dLight.15—Avec des résultats convergents. Notre principale conclusion est que, bien que les pics de dopamine de la VTA à l’échelle de RPE apportent des changements brusques de la libération de dopamine appropriés pour l’apprentissage, des fluctuations distinctes de la dopamine NAc associées à la motivation se produisent indépendamment du déclenchement de cellules de la dopamine VTA.

La dopamine surveille la motivation dans les loci clés

Nous avons entraîné des rats dans une tâche 'bandit' opérant5 (Figue. 1a, b). À chaque essai, l'éclairage d'un orifice de piqué du nez («Light-on») a incité l'approche et l'entrée («Center-in»). Après une période de maintien variable (0.5–1.5 s), un bruit blanc («Go cue») a conduit le rat à se retirer («Center-out») et à pousser un port adjacent («Side-in»). Lors des essais récompensés, cet événement parallèle était accompagné d'un clic de trémie de nourriture qui a incité le rat à s'approcher d'un port de nourriture (`` Food-port-in '') pour collecter un granulé de sucre. Les choix à gauche et à droite étaient chacun récompensés par des probabilités indépendantes, qui changeaient parfois sans avertissement. Lorsque les rats étaient plus susceptibles de recevoir des récompenses, ils étaient plus motivés pour accomplir la tâche. Cela était évident dans leur «latence» - le temps entre Light-on et Center-in-sensible aux résultats des quelques essais précédents (Extended Data Fig. 1) et donc inversement proportionnel au taux de récompense (Fig. 1b).

Fig. 1: Indices de libération de dopamine avec taux de récompense spécifiquement dans le cortex pré-nébuleux central et ventral.
figure1

a, Événements de tâche de bandit. b, Exemple de session. Rangée supérieure, récompenser les probabilités dans chaque bloc (gauche: droite); ligne deux, les coches indiquent le résultat de chaque essai (grand, récompensé; court, non récompensé); ligne trois, estimation de l'intégrateur de fuite du taux de récompense (noir) et moyenne courante de la latence (cyan; échelle logarithmique inversée); rangée du bas, NAc core dopamine dans la même session (échantillons de 1 min). DA, dopamine. c, Top, localisations de la microdialyse dans le cortex frontal médial et le striatum (voir également Extended Data Fig. 1). n = 51 emplacements de sonde de 12 rats, chacun avec 2 sondes de microdialyse qui ont été abaissées entre les sessions. La couleur de la barre indique la corrélation entre la dopamine et le taux de récompense. ACC, cortex cingulaire antérieur; dPL, cortex prélimbique dorsal; vPL, cortex prélimbique ventral; IL, cortex infralimbique; DMS, striatum dorso-médial. Corrélogrammes croisés moyens et moyens entre la dopamine et le taux de récompense. Les barres rouges indiquent un intervalle de confiance de 99% à partir de séries chronologiques mélangées. En bas, les relations entre les neurochimiques et le taux de récompense (régression multiple). NA, noradrénaline; 5-HT, sérotonine; ACh, acétylcholine; GABA, acide γ-aminobutyrique; Glu, glutamate; NM, normétadrénaline; DOPAC, acide 3,4-dihydroxyphénylacétique; 3-MT, 3-méthoxytyramine; HVA, acide homovanillique; 5-HIAA, acide 5-hydroxyindoleacétique. d, Effet des transitions en bloc sur le taux de récompense (gauche), la latence (milieu) et la dopamine de base NAc (droite). Les transitions ont été classées selon que le taux de récompense des expériences vécues a augmenté (n = 25) ou diminué (n = 33). Les données proviennent des 14 séances au cours desquelles la dopamine de base NAc a été mesurée (une par rat, combinant les données des nouvelles et des5 animaux), et tracés comme moyenne ± sem e, Cartes composites des corrélations entre dopamine et taux de récompense (n = 19 rats, 33 séances, 58 placements de sondes). Les contours de l'atlas du cerveau dans cette figure ont été reproduits avec l'autorisation de Paxinos et Watson, 200551.

Nous avons déjà signalé5 une corrélation entre la libération de dopamine de NAc et le taux de récompense, cohérente avec le rôle de motivation de la dopamine mésolimbique16. Ici, nous avons d’abord cherché à déterminer si cette relation s’observait dans les cibles du cerveau antérieur, conformément à la signalisation de la dopamine «diffusée à l’échelle mondiale».17, ou est limité à des sous-régions spécifiques. Nous avons en outre émis l’hypothèse que cette dynamique de la dopamine différerait entre le striatum et le cortex, car ces structures ont une cinétique de capture / dégradation de la dopamine distincte.18 et peut utiliser la dopamine pour des fonctions distinctes19,20.

En utilisant la microdialyse avec la chromatographie en phase liquide à haute performance – spectrométrie de masse (HPLC – MS), nous avons examiné le cortex frontal médial et le striatum (Fig. 1cDonnées étendues Fig. 1). Nous avons testé simultanément les neurotransmetteurs 21 et leurs métabolites avec une résolution temporelle 1-min, et nous avons utilisé la régression pour comparer les séries chronologiques chimiques avec des variables comportementales (Extended Data Fig. 2).

Nous avons reproduit la corrélation entre le taux de récompense et la dopamine NAc, contrairement à d’autres neurotransmetteurs (Fig. 1c, d). Cependant, cette relation était localisée dans le noyau NAc et ne se maintenait pas dans la coquille NAc ni dans le striatum dorsal-médial. Contrairement à notre hypothèse, nous avons observé un schéma spatial similaire dans le cortex frontal: la libération de dopamine était corrélée au taux de récompense dans le cortex prélagique ventral, mais pas dans les sous-régions plus dorsales ou ventrales (Fig. 1c, e). Bien qu'inattendus, ces deux «points chauds» de la libération de dopamine liée à la valeur ont un parallèle intriguant dans la neuroimagerie humaine: le signal dépendant du taux d'oxygène dans le sang est corrélé à la valeur subjective, en particulier dans le NAc et le cortex préfrontal ventral-médian21.

Le licenciement de la VTA n'est pas lié à la motivation

Nous avons ensuite examiné si cette dopamine liée à la motivation du cerveau antérieur résultait d’un déclenchement variable des cellules de dopamine du cerveau moyen. Le noyau NAc reçoit l’apport en dopamine des parties latérales de la VTA (VTA-l)6,22,23. Chez les souris fixées à la tête, les neurones dopaminergiques VTA-1 auraient des réponses uniformes, similaires à celles de l'EPP, aux stimuli conditionnés3. Pour enregistrer les cellules de dopamine VTA-1, nous avons infecté le virus avec un virus adéno-associé (AAV) pour l'expression dépendante de Cre de la channelrhodopsine (AAV-DIO-ChR2) chez le rat qui exprime la recombinase Cre sous un promoteur de la tyrosine hydroxylase (TH) (voir Méthodologie). Optrodes (Fig. 2a, b) enregistré des réponses unitaires à de brèves impulsions au laser bleu (Fig. 2c, Données étendues, fig. 3, 4, Fig. Supplémentaire 1). Nous avons trouvé des cellules VTA-1 27 bien isolées avec des pics de latence courte fiables, et nous les avons identifiées comme étant des neurones dopaminergiques.

Fig. 2: L'activité des neurones dopaminergiques identifiés par la VTA ne change pas avec le taux de récompense.
figure2

a, Gauche, schéma optrode avec 16 tétrodes autour d'une fibre optique de 200 µm de diamètre. À droite, exemple de placement d'optrode dans le VTA latéral. Barre d'échelle, 1 mm. Rouge, marqueur de cellules dopaminergiques tyrosine hydroxylase; vert, ChR2 – EYFP; jaune, se chevauchent. Pour tous les emplacements, voir Extended Data Fig. 3. b, Pointes de cellules de dopamine VTA. Les barres rouges indiquent les rafales détectées et le nombre de pointes dans chaque rafale (voir Méthodologie). Echelle, 0.5 s, 0.5 mV. cExemple de réponse neuronale à des impulsions laser de durée croissante. d, Taux de déclenchement à la session en fonction de la largeur du pic (au demi maximum) pour chaque cellule VTA. Cellules de dopamine bleues marquées; violet, un groupe distinct de neurones présumés non dopaminergiques. Encarts, exemples de formes d'onde moyennes (tension négative vers le haut). e, Fréquence de tir (bleu; bacs de 1 min) d'un neurone dopaminergique VTA pendant une tâche de bandit. La latence (cyan) fait des covariables avec le taux de récompense, mais pas le taux de tir. fTaux de déclenchement pour tous les neurones VTA (bleu, dopamine; violet, non dopamine; gris, non classifié) en blocs à taux de rendement faible ou élevé. Aucune différence significative (test de rang signé par Wilcoxon avec les bacs 1-min, tous P > 0.05 après correction pour plusieurs comparaisons). g, La corrélation croisée moyenne entre le déclenchement des cellules dopaminergiques et le taux de récompense ne montre aucune relation significative. h, Analyse de la vitesse de décharge de la dopamine aux transitions de blocs (même format que la Fig. 1d). n = 95 augmentations de récompense, 76 diminutions. i. Les distributions des intervalles inter-pointes (ISI, à gauche) et des pointes de pointes (à droite) sont inchangées entre les blocs de taux de rendement supérieur et inférieur (statistiques de Kolmogorov-Smirnov: ISI, 0.138, P = 0.92; éclats, 0.165, P = 0.63 XNUMX).

Tous les neurones dopaminergiques étaient toniquement actifs, avec des taux de déclenchement relativement faibles (moyenne de 7.7 Hz, plage de 3.7 à 12.9 Hz; par rapport à tous les neurones VTA-l enregistrés avec des cellules dopaminergiques, P <0.001 test de Mann – Whitney unilatéral). Ils avaient également des formes d'onde de pointe de plus longue durée (P <5 × 10-6test de Mann – Whitney unilatéral), bien qu’il y ait eu des exceptions (Fig. 2d), ce qui confirme que la durée de la forme d'onde est un marqueur insuffisant des cellules dopaminergiques in vivo3,24. Un groupe distinct de neurones VTA-l (n = 38, à partir des mêmes séances) avec de brèves formes d'onde et des fréquences de déclenchement plus élevées (> 20 Hz; moyenne 41.3 Hz, plage 20.1–97.1 Hz) ne comprenait aucune cellule dopaminergique marquée. Nous supposons que ces cellules à déclenchement plus rapide sont GABAergiques et / ou glutamatergiques3,25et appelez-les «non dopamine» ci-dessous.

Nous avons enregistré les mêmes cellules de dopamine dans plusieurs tâches comportementales. Les cellules dopaminergiques VTA-l ont fortement réagi aux clics aléatoires de trémies d'aliments et progressivement moins fortement lorsque ces clics ont été rendus plus prévisibles par les signaux précédents (Extended Data Fig. 5). Ceci est compatible avec le codage canonique de type RPE canonique par les cellules dopaminergiques dans les tâches de Pavlovian2,3,26.

Sur la base de preuves provenant d'animaux anesthésiés, il a déjà été avancé que les niveaux de dopamine modifiés mesurés par microdialyse résultent de changements dans le taux de décharge tonique des cellules dopaminergiques.27 et / ou la proportion de neurones dopaminergiques actifs par rapport aux neurones inactifs28. Cependant, dans la tâche des bandits, le taux de récompense des cellules déclenchées par des cellules dopaminergiques toniques dans chaque groupe d’essais (Fig. 2e, g). Il n’ya pas eu de changement significatif dans les vitesses de décharge des cellules de dopamine individuelles, ni de celles des autres neurones VTA-1, entre les blocs de récompense supérieure et inférieure (Fig. 2f, h; voir aussi réf. 29 pour des résultats concordants chez des souris à tête fixe). Il n’y avait pas non plus de changement global dans la vitesse à laquelle les cellules de dopamine déclenchent des pics d’épi (Fig. 2i). De plus, nous n'avons pas observé de cellules dopaminergiques commutant entre les états actif et inactif. La proportion de temps que les cellules dopaminergiques passaient inactives (intervalles inter-pointes longs) était très faible et ne variait pas entre les blocs de récompense supérieure et inférieure (Fig. 2i).

L’anatomie de la projection de dopamine VTA – NAc a été étudiée de manière approfondie6,22,23, mais, compte tenu de cette disparité fonctionnelle apparente entre le déclenchement et la libération, nous avons reconfirmé que nous enregistrions à partir de la partie correcte de la VTA. De petites injections de traceur rétrograde toxine B (CTb) dans le noyau NAc ont entraîné un marquage dense de la TH+ neurones dans la même région VTA-l que nos enregistrements optrodes (Extended Data Fig. 3). Dans la zone d’enregistrement approximative, 21% de TH+ les cellules étaient également CTb+, et ceci est probablement une sous-estimation de la fraction de cellules de dopamine VTA-1 projetant un noyau de NAc, car nos injections de traceurs n’ont pas complètement rempli le noyau de NAc. Ainsi, notre échantillon de n = 27 cellules dopaminergiques VTA marquées (plus de nombreuses autres cellules non marquées) incluent presque certainement des neurones de projection de noyau NAc. Enfin, chez un rat supplémentaire, nous avons enregistré deux cellules dopaminergiques VTA-l marquées après avoir injecté l'AAV de manière sélective dans le noyau NAc (Extended Data Fig. 3). Les deux cellules infectées rétrogrades avaient des schémas de tir qui ressemblaient étroitement aux autres cellules dopaminergiques marquées à tous égards, y compris un manque de changements de tir tonique avec un taux de récompense variable (Supplémentaire Fig.1). Nous concluons que les changements dans l'activation des cellules dopaminergiques toniques VTA-1 ne sont pas responsables des changements liés à la motivation dans la libération de dopamine dans le cerveau antérieur.

Suivi de la libération sur plusieurs échelles de temps

Le taux de récompense de la libération de dopamine NAc est-il en soi, comme suggéré dans certaines théories30, ou cette corrélation est-elle entraînée par des fluctuations dynamiques de la libération de dopamine trop rapides pour être résolues avec la microdialyse? Nous avons plaidé en faveur de cette dernière possibilité sur la base de données de voltamétrie5, mais a demandé une confirmation en utilisant une mesure indépendante de la libération de dopamine pouvant s'étendre sur différentes échelles de temps. La suite dLight1 d'indicateurs optiques à dopamine génétiquement codés a été mise au point en insérant une GFP à permutation circulaire dans des récepteurs D1 de la dopamine.15. La liaison de la dopamine entraîne une augmentation très spécifique de la fluorescence (Fig. 3a). Nous avons infusé AAV dans NAc pour exprimer soit dLight1.1 (quatre placements vérifiés de NAc chez trois rats), soit le variant plus lumineux dLight1.3b (six placements vérifiés de NAc chez quatre rats) et avons surveillé la fluorescence par photométrie de fibres. Nous avons observé des réponses claires de la dopamine NAc aux signaux prédictifs de récompense pavloviens, de la même manière que le déclenchement des cellules de la dopamine VTA (Extended Data Fig. 5).

Fig. 3: Echelles temporelles de pontage de la mesure de la dopamine.
figure3

aRéponse de fluorescence de dLight1.3b. Encart, titrages de dopamine (n = 15 régions d'intérêt (ROI)) et noradrénaline (n = 9). Figure principale, neurotransmetteurs appliqués par bain (tous n = 12 ROI). Son, histamine. b, Exemple de session de bandits comprenant le signal NAc dLight1.3b normalisé (bacs 1-min). c, Le signal de lumière change avec les transitions de bloc. n = 35 augmentations du taux de récompense, 45 diminutions. dCorrélation croisée entre le taux de lumière et le taux de récompense. e, Vue rapprochée de la partie ombrée de b. Flèches: noires, nez au centre; rouge clair, Side-in (récompensé); bleu clair, Side-in (non récompensé); rouge foncé, Food-port-in (récompensé); bleu foncé, Food-port-in (non récompensé). Rangées suivantes: estimation du taux de récompense par l'intégrateur de fuite; dLight à basse résolution (1 min); dLight à haute résolution (50 Hz, vert; filtre médian à cinq points, noir); valeurs d'état du modèle (cyan); et RPE (magenta). Après plusieurs essais non récompensés, les valeurs d'état au début de l'essai sont faibles, puis la délivrance de récompenses évoque un RPE positif et une forte augmentation de la dopamine qui l'accompagne. Les essais récompensés successifs diminuent les RPE, mais augmentent les valeurs d'état, accompagnés d'une augmentation de la dopamine. f, Les corrélations croisées sur une échelle de temps courte montrent une relation étroite entre dLight et value, et une relation plus petite avec RPE. g, Corrélations intra-essai entre les variables du modèle et dLight avec différents décalages; la corrélation à la fois avec la valeur et la RPE est la plus forte pour dLight environ 0.3 s plus tard. h, Dans toutes les sessions, la corrélation maximale était supérieure pour la valeur que pour l’EPR ou le taux de récompense.

Pour la tâche bandit, nous avons d’abord examiné le signal dLight dans les bacs 1-min (Fig. 3b) pour comparaison à la microdialyse. Nous avons de nouveau constaté une relation claire entre la libération de dopamine et le taux de récompense de NAc, à la fois en corrélation croisée et en analyse des transitions de blocs (Fig. 3c, d). Nous avons ensuite examiné de plus près comment cette relation se présentait. Plutôt que de varier lentement sur une échelle de temps en minutes, le signal dLight a montré des fluctuations hautement dynamiques au sein et entre chaque essai (Fig. 3e). Nous avons comparé ces fluctuations aux valeurs d’état instantanées et aux EPP estimés à partir d’un modèle d’apprentissage par renforcement (processus de décision semi-markovien).5). Comme il a été rapporté précédemment en utilisant la voltamétrie5La dopamine NAc, moment par moment, a montré une forte corrélation avec les valeurs d’état (Fig. 3f), visible au fur et à mesure que les récompenses étaient attendues lors des essais (Fig. 3e). Nous avons également constaté des augmentations transitoires avec des livraisons de récompenses moins attendues, cohérentes avec le taux de réussite (voir ci-dessous). À chaque séance de lumière, la dopamine présentait une corrélation plus forte avec les valeurs que ce soit avec les EPR ou avec le taux de récompense (Fig. 3hDonnées étendues Fig. 6). Les corrélations avec les valeurs d'état et RPE étaient maximales par rapport au signal dLight ~ 0.3 s plus tard, ce qui correspond à un bref décalage causé par le traitement neuronal des signaux et le temps de réponse du capteur (Fig. 3g; avec la voltampérométrie, nous avons signalé un décalage de 0.4 à 0.5 s)5.

Le tir de dopamine n'explique pas la libération

Nous avons ensuite comparé le déclenchement et la libération de cellules dopaminergiques lors d’activités réservées aux bandits. Les stimuli externes à Light-on, Go cue et récompensés Side-in (clic de la benne à nourriture) ont chacun provoqué une augmentation rapide du tir (Fig. 4a). Ces réponses ont été observées dans la grande majorité des cellules dopaminergiques (Fig. 4c), bien que l’ampleur relative des réponses à différents signaux variait d’une cellule à l’autre (Fig. Supplémentaire 1). Le signal NAc dLight a également répondu rapidement et de manière fiable à chacun de ces signaux saillants (Fig. 4b, c), compatible avec le tir éclaté de cellules de dopamine entraînant la libération de dopamine.

Fig. 4: Le tir de dopamine VTA phasique ne tient pas compte de la dynamique de la dopamine NAc.
figure4

a, Activité des cellules dopaminergiques VTA-l alignée sur les événements. Top, pointages rasters pour une cellule représentative; bas, taux de pointe moyen (n = 29). Dans tous les panneaux, les bandes d'erreur indiquent ± sem b, NAc dLight alignée sur les événements. En haut, session représentative; bas, moyenne (n = 10), normalisé au pic de réponse Side-in récompensé. Tout au long de cette figure, les signaux dLight sont représentés par rapport à une époque de «ligne de base» de 2 s se terminant 1 s avant Center-in. Notez les augmentations (flèches) juste avant Center-in et Food-port-in. cDistributions cumulatives du temps pris pour les cellules dopaminergiques (solide; n = 29), dLight (pointillé; n = 10), pour augmenter les démarrages de cue suivants (test de lecture aléatoire par rapport à la ligne de base, P <0.01, comparaisons multiples corrigées). Pour Light-on, seules les latences <1 s sont incluses; pour les essais récompensés Side-in uniquement. Latences médianes (à partir de l'ajustement sigmoïde): Light-on, tir 152 ms, dLight 266 ms; Go cue, tir 67 ms, dLight 212 ms; Side-in, tir 85 ms, dLight 129 ms. Les cellules non dopaminergiques étaient généralement indifférentes aux apparitions de signaux (Extended Data Fig. 8). d, Libération de dopamine distincte évoquée par une réplique, liée à une approche. Tirs de cellules dopaminergiques moyennes en haut (n = 29); moyenne, moyenne dLight (n = 10); bas, voltamétrie (n = 6), normalisé au pic de réponse Light-on à courte latence. Panneaux gauche, latences <1 s, droite, latences> 2 s. Les données sont alignées sur Light-on (solide) ou Center-in (pointillé); ligne pointillée rouge, latence médiane. Pour des latences plus longues, il n'y a pas d'augmentation du tir près de Center-in, mais la lumière et la voltampérométrie montrent une augmentation marquée. e, Nuage de points comparant les signaux de crête alignés sur Light-on (y axe) ou Center-in (x axe). Pour chaque cellule, les lignes connectées à la session indiquent des données pour des plages de latence distinctes (<1 s,> 2 s). Le déclenchement de dopamine (en haut) montre systématiquement une réponse Light-on pour les essais à courte latence (analyse bidirectionnelle de la variance (ANOVA), interaction d'alignement × latence, F = 7.47, P = 0.0008). Les signaux dLight (milieu), voltampérométrie (bas) sont toujours mieux alignés sur Center-in (ANOVA bidirectionnelle pour dLight: alignement × interaction de latence, F = 9.28, P = 0.0043 XNUMX). f, La dopamine augmente pendant l’approche, quantifiée en tant qu’angle de rampe (voir Méthodologie). Les cercles indiquent les cellules individuelles de dopamine (n = 29), sessions dLight (n = 10 XNUMX).

Nous avons également constaté une nette augmentation de la libération de dopamine en NAc à mesure que les rats approchaient du port de départ (juste avant l'entrée au centre) et du port pour l'alimentation (juste avant l'entrée au magasin). Cela cadre bien avec les nombreux ouvrages sur la voltampérométrie qui montrent que les comportements d’approche motivés sont accompagnés d’une augmentation rapide du taux de dopamine dans le noyau NAc.5,7,8,9,10,11. Cependant, la population de cellules de dopamine VTA-1 n’a pas montré d’augmentation correspondante du tir à ces moments (Fig. 4a; voir Données étendues Fig. 7 pour des comparaisons supplémentaires, y compris avec les cellules non dopaminergiques).

Pour mieux dissocier l'activité de la dopamine évoquée par le signal et celle liée à l'approche, nous avons séparé les essais par des latences courtes (<1 s) et longues (> 2 s) (Fig. 4d, e). Les augmentations de tir de cellules dopaminergiques étaient systématiquement bloquées au début du signal à Light-on, de préférence pour les essais à faible latence. Toutes les cellules dopaminergiques 25 présentant une augmentation significative du taux de déclenchement après l’allumage étaient mieux alignées sur l’allumage que sur le centre (Fig. 4e). En revanche, les augmentations de la libération de dopamine en NAc avant le centrage étaient distinctes de la libération de dopamine induite par un signal de repère (Fig. 4d, e). dLe nombre de signaux lumineux a augmenté régulièrement avant les essais centraux sur les essais de longue latence (dix séances sur dix) et avant l’arrivée des aliments (neuf séances sur dix), sans augmentation correspondante du tir de dopamine (Fig. 4f).

Enfin, nous avons examiné dans quelle mesure les signaux de dopamine liés à un événement dépendaient de l'historique des récompenses récentes. Au début de chaque essai, le déclenchement des cellules dopaminergiques ne dépendait pas du taux de récompense (Fig. 5a), malgré l’influence du taux de récompense sur la motivation (Fig. 5b). Par la suite, la réponse phasique au signal de récompense à Side-in était de manière fiable plus forte lorsque le taux de récompense était plus faible (Fig. 5a), compatible avec le codage RPE positif. Lorsque cette indication de récompense a été omise, les cellules de dopamine ont suspendu le tir, bien que le codage des EPR négatifs ait été beaucoup plus faible ou absent, qu’il ait été examiné au niveau de la population (Fig. 5a, b) ou sous forme de cellules individuelles (Extended Data Fig. 8). Il a déjà été proposé que les RPE négatifs soient codés dans la durée des pauses dopaminergiques31, mais cela a été observé dans seulement 2 neurones sur 29. Des résultats similaires ont été obtenus si l'attente de récompense était estimée par d'autres moyens, y compris des modèles d'apprentissage par renforcement basés sur des essais (acteur-critique et Q-learning) ou simplement en comptant les récompenses récentes (Extended Data Fig. 8).

Fig. 5: L’historique des récompenses influe différemment sur l’allumage de cellules dopaminergiques et la libération de dopamine NAc.
figure5

a, Taux de déclenchement moyens des cellules dopaminergiques (n = 29) aligné sur Side-in, ventilé par taux de récompense (terciles, calculés séparément pour chaque cellule). Avant Side-in, l'activité ne dépend pas de l'attente de récompense. Après les épreuves avec récompense (rouge) et non récompensé (bleu) en parallèle, sont affichées séparément. La réponse au clic alimentaire est plus forte lorsque le taux de récompense est faible, ce qui correspond au codage des RPE positifs. En bas, fraction de cellules dopaminergiques individuelles avec un taux de déclenchement qui varie considérablement avec le taux de récompense à chaque instant (test de mélange, P <0.01, comparaisons multiples corrigées). Les graduations en haut indiquent les moments où cette fraction était significativement plus élevée que le hasard (binomial, P <0.01). Après Side-in, seules les corrélations négatives sont testées, c'est-à-dire le codage RPE potentiel. b, Diagrammes de régression pour les sessions avec des cellules dopaminergiques enregistrées, montrant l’effet de l’historique récent des récompenses sur la latence (log) (en haut) et le dopage de la dopamine. Les astérisques indiquent des poids de régression significatifs (t-tester, P <0.05). Au cours des 0.5 s avant le départ (alors que le rat doit maintenir une poussée constante du nez pour que l'essai se poursuive), les pics de dopamine ne sont pas affectés par l'historique des récompenses (au milieu). Cela change une fois que le résultat est révélé (bas; évaluation du pic ou du creux de l'activité dans les 0.5 s après Side-in), mais uniquement pour les essais récompensés. c, d, Idem ci-dessus, sauf pour dLight (normalisé à la réponse crête en entrée latérale). La libération de dopamine varie de manière fiable avec le taux de récompense, même avant l'entrée directe.

La libération de dopamine à Side-in a également montré un codage clair et transitoire des EPR positifs, mais pas des EPR négatifs (Fig. 5c, d). Cette réponse légère était légèrement retardée et prolongée par rapport au déclenchement, ce qui correspond au temps pris pour la libération et la recapture.32, mais est resté un phénomène inférieur à la seconde. Cependant, contrairement au déclenchement, les signaux lumineux légers au début de chaque essai étaient plus importants lorsque les essais récents avaient été récompensés (Fig. 5c), cohérent avec le codage des valeurs. Nous avons observé cette dépendance vis-à-vis de l'historique des récompenses même lorsque le rat ne bougeait pas activement, mais maintenait un coup de nez dans le port central en attendant le signal Go (Fig. 5d). Globalement, nous concluons que la libération de dopamine NAc reflète à la fois les réponses évoquées et les attentes en matière de récompense, et que seul le premier peut être bien expliqué par le tir de cellules de la dopamine VTA-1.

a lieu

VTA-1 fournit la source prédominante de dopamine au coeur de NAc6,23,24. Les cellules dopaminergiques VTA-l, y compris celles qui font saillie dans le noyau de NAc, affichent systématiquement des sursauts codant pour le RPE3,12. Les sursauts de VTA sont considérés comme particulièrement importants pour la conduite de la dopamine NAc32et, en effet, nous avons constaté que les explosions de VTA évoquées par une réplique étaient associées à une libération NAc. Cependant, nous avons également découvert des modèles de libération de dopamine NAc liés à la valeur qui n’avaient pas été générés par la mise à feu de cellules de dopamine VTA-1, que ce soit sur des échelles de temps longues (toniques) ou courtes (phasiques). D'autres sous-populations de dopamine peuvent porter des signaux distincts13,33,34, et nous ne pouvons pas exclure la possibilité que le tir de sous-populations de cellules dopaminergiques non enregistrées à partir d'ici produise de la dopamine liée à la valeur dans le noyau NAc. Cependant, la mise à feu liée à la valeur n'a jamais été rapportée pour les cellules dopaminergiques, dans un large éventail d'études. Nos résultats suggèrent que la dynamique de la dopamine NAc est contrôlée de différentes manières, à différents moments et pour différentes fonctions, et que l'enregistrement des cellules dopaminergiques est important mais pas suffisant pour comprendre les signaux dopaminergiques.35.

La libération des terminaux dopaminergiques est fortement influencée par des mécanismes locaux non inducteurs36,37,38,39,40. Par exemple, la libération de dopamine en NAc est modulée par l’amygdale basolatérale, même lorsque le pic de VTA est inhibé pharmacologiquement.41,42. Depuis des décennies, il a été noté que le contrôle local de la libération de dopamine pourrait avoir des fonctions distinctes de celles de la dopamine.36,43, mais cela n’a pas été incorporé dans les vues théoriques de la dopamine. Des sous-régions striatales distinctes contribuent aux différents types de décisions et peuvent influer sur leur propre libération de dopamine en fonction des besoins44. Il reste à déterminer à quel point ce contrôle de la libération de dopamine peut être localisé. Une limitation partagée par les 3 façons dont nous avons mesuré la libération de dopamine est qu'elles échantillonnent toutes à une échelle spatiale d'au moins 100 µm, alors que la microscopie in vivo suggère que la libération de dopamine peut être hétérogène à des échelles considérablement plus petites.15.

Nos résultats ne supportent pas l'existence d'un signal tonique de dopamine distinct qui pourrait médier les effets motivationnels de la dopamine. Au lieu de cela, les changements de la dopamine qui semblent lents s’ils sont mesurés lentement (avec microdialyse) se transforment en fluctuations rapides s’ils sont mesurés rapidement (avec voltampérométrie ou dLight). De plus, des enregistrements de cellules de dopamine à VTA identifiées par nous-mêmes et d'autres30 fournir des preuves solides contre l'idée29 cela change les changements toniques dans la libération de dopamine. Bien que le tir tonique puisse être altéré par des lésions ou des manipulations médicamenteuses28, nous ne sommes pas au courant de changements durables de la cadence de tir dans aucune tâche comportementale. Le tir peut descendre sur une échelle de temps d'environ 1 s lors de l'anticipation d'événements pertinents sur le plan de la motivation45,46. Cependant, cette baisse est à l'opposé de ce qui serait nécessaire pour stimuler la libération de dopamine avec espérance de récompense et ressemble davantage à une séquence d'erreurs de prédiction négatives transitoires.47. Bien que des signaux soutenus codant le taux de récompense continu puissent être utiles au calcul30, la dopamine fournit à la place des signaux d'erreur et de valeur qui fluctuent rapidement. Il reste possible que des signaux soutenus soient calculés à une étape ultérieure, par des voies de signalisation intracellulaires en aval des récepteurs de la dopamine.

De nombreux groupes ont observé une libération croissante de dopamine à l'approche des récompenses chez les rats5,7,8,9,10,11, compatible avec le codage des attentes de plus en plus élevées en matière de récompense. Certains ont fait valoir que ces rampes de dopamine reflètent simplement les EPR, en supposant que les rats oublient rapidement les valeurs48 ou qu'ils ont un ensemble déformé de représentations étatiques49. Notre dernière idée n’est pas corroborée par notre constatation selon laquelle la montée en puissance est rapidement modulée d’essai en essai sur la base d’attentes de récompense actualisées, devenant plus forte au fil d’une courte séquence de récompenses successives, tandis que les réponses aux signaux de type RPE s’affaiblissant (Fig. 3e). Plus généralement, toute théorie dans laquelle la dopamine ne véhicule que des RPE (signaux d'apprentissage) ne peut expliquer le lien très bien établi entre la dopamine mésolimbique en cours et la motivation.16. Le noyau NAc n'est pas nécessaire pour les réponses hautement qualifiées aux stimuli conditionnés, mais est particulièrement important lorsqu'il est décidé de réaliser un travail fastidieux pour obtenir des récompenses50. La dopamine de base NAc semble fournir un signal dynamique essentiel de la nécessité de consacrer du temps et des efforts au travail5,44, même si ce signal n’est pas présent lors de l’allumage de cellules dopaminergiques par la VTA.

Méthodologie

Animaux

Toutes les procédures sur les animaux ont été approuvées par les comités institutionnels de l'Université du Michigan ou de l'Université de Californie à San Francisco sur l'utilisation et le soin des animaux. Rats mâles (300 à 500 g, soit Long-Evans de type sauvage, soit TH-Cre+ avec un fond Long-Evans52) ont été maintenus sur un cycle inverse 12: 12 lumière: obscurité et testés pendant la phase sombre. Les rats étaient légèrement privés de nourriture et recevaient chaque jour 15, en plus des récompenses alimentaires gagnées au cours de l'exécution d'un travail, une réserve standard de rats pour laboratoires. Aucun calcul préalable de la taille de l'échantillon n'a été effectué. Les enquêteurs n'ont pas été aveuglés lors de l'attribution lors des expériences et de l'évaluation des résultats.


COMPORTEMENT

La pré-formation et les tests ont été effectués dans des chambres opérantes Med Associates contrôlées par ordinateur (25 cm × 30 cm au point le plus large), chacune avec une paroi nasale à cinq trous, comme décrit précédemment.5. Les sessions de tâches Bandit ont utilisé les paramètres suivants: les longueurs de bloc étaient des essais 35-45, sélectionnés de manière aléatoire pour chaque bloc; La période de maintien avant le repère Go était 500 – 1,500 ms (distribution uniforme); Les probabilités de récompense gauche – droite étaient 10, 50 et 90% (pour l'électrophysiologie, la photométrie, la voltamétrie et les rats préalablement traités en microdialyse5) ou 20, 50 et 80% (rats de microdialyse nouvellement signalés).

Le taux de récompense actuel a été estimé à l'aide d'un intégrateur à fuite basé sur le temps53. Le taux de récompense était augmenté chaque fois qu'une récompense était reçue et baissait de manière exponentielle à une vitesse définie par le paramètre τ (le temps en s pour que le taux de récompense diminue de ~ 63%, c'est-à-dire 1 − 1 / e). Pour toutes les analyses, τ a été sélectionné sur la base du comportement du rat, en maximisant la corrélation (négative) entre le taux de récompense et le journal (latence) de chaque session. Les corrélations entre dopamine du cerveau antérieur et taux de récompense n'étaient pas très sensibles à ce choix de τ (Données étendues Fig. 1).

Pour classer les transitions de blocs dans les taux de récompense «croissant» ou «décroissant», nous avons comparé le taux de récompense moyen des intégrateurs présentant des fuites dans le dernier min 5 d'un bloc au taux de récompense moyen dans le premier min 8 du bloc suivant.

Les rats utilisés pour l'électrophysiologie et la photométrie ont également effectué une tâche d'approche pavlovienne, dans la même chambre opérante avec la lampe de maison allumée tout au long de la session. Trois signaux auditifs (2 kHz, 5 kHz et 9 kHz) étaient associés à différentes probabilités de livraison de nourriture (contrebalancées entre les rats). Les signaux ont été joués comme un train de pips de tonalité (100 ms allumés, 50 ms éteints) pendant une durée totale de 2.6 s suivi d'une période de retard de 500 ms. Les signaux et les livraisons de récompenses imprévues ont été délivrés dans un ordre pseudo-aléatoire avec un intervalle variable entre les essais (15 à 30 s, distribution uniforme).


Microdialyse

#

Les rats ont été implantés bilatéralement avec des canules de guidage (CMA, 830 9024) dans le cortex et le striatum. Un groupe (n = 8) ont reçu une canule de guidage ciblant le cortex préélimbique et infralimbique (antéropostérieur (AP) +3.2 mm, médiolatéral (ML) 0.6 mm par rapport au bregma; et dorsoventral (DV) 1.4 mm sous la surface du cerveau) et une autre ciblant le striatum dorsomédial et le noyau accumbens dans l'hémisphère opposé (AP +1.3, ML 1.9 et DV 3.4). Les deux implants étaient inclinés à 5 degrés l'un de l'autre le long du plan rostral-caudal. Un deuxième groupe (n = 4) ont reçu une canule guide ciblant le cortex cingulaire antérieur (AP +1.6, ML 0.8 et DV 0.8) et un autre accumbens ciblant (noyau / coquille dans l'hémisphère opposé à AP +1.6, ML 1.4 et DV 5.5 (n = 2) ou AP +1.6, ML 1.9 et DV 5.7 (n = 2). Les côtés de l'implant ont été contrebalancés chez les rats. On a laissé les animaux récupérer pendant une semaine avant le recyclage.

Produits chimiques

L'eau, le méthanol et l'acétonitrile pour les phases mobiles étaient de qualité HPLC Burdick & Jackson, achetés auprès de VWR (Radnor). Tous les autres produits chimiques ont été achetés auprès de Sigma Aldrich, sauf indication contraire. Le liquide céphalo-rachidien artificiel (aCSF) comprenait 145 mM de NaCl, 2.68 mM de KCl, 1.40 mM de CaCl2, 1.01 mM MgSO4, 1.55 mM Na2HPO4 et 0.45 mM NaH2PO4, ajusté le pH à 7.4 avec NaOH. De l'acide ascorbique (concentration finale 250 nM) a été ajouté pour réduire l'oxydation des analytes.

Collecte d'échantillons et HPLC-MS

Le jour du test, les animaux ont été placés dans la chambre opérante avec la veilleuse allumée. Des sondes de microdialyse concentriques sur mesure en membrane de polyacrylonitrile (membrane AN1 de dialyse 69-mm; Hospal) ont été insérées bilatéralement dans la canule guide et perfusées en continu (Chemyx, Fusion 400) avec du aCSF à 2 µl / min pour 90 min pour permettre l'équilibrage. Après la collecte de la ligne de base de 5-min, la lumière du foyer a été éteinte, indiquant à l'animal la disponibilité des tâches de bandit. La collecte des échantillons s'est poursuivie à intervalles de 1 / min et les échantillons ont été immédiatement transformés en dérivés.54 avec 1.5 µl de carbonate de sodium, 100 mM; 1.5 pl de chlorure de benzoyle (chlorure de benzoyle à 2% (v / v) dans l'acétonitrile); et 1.5 µl de mélange étalon interne marqué isotopiquement dilué dans 50% (v / v) d'acétonitrile contenant 1% (v / v) d'acide sulfurique, et enrichi avec ACh deutéré et choline (isotopes C / D / N) à une concentration finale de 20 nM. La collecte de séries d'échantillons a alterné entre les deux sondes à des intervalles de 30 s dans chacune des 26 sessions, à l'exception d'une session dans laquelle une membrane cassée a entraîné une seule série (51 séries d'échantillons au total). Les échantillons ont été analysés à l'aide de systèmes UHPLC Thermo Scientific (Accela, ou Vanquish Horizon interfacé à un spectromètre de masse Quantum Ultra triple quadripôle équipé d'une sonde HESI II ESI), fonctionnant en surveillance de réactions multiples. Des échantillons de cinq microlitres ont été injectés sur une colonne HPLC Phenomenex core-shell biphenyl Kinetex (2.1 mm x 100 mm). La phase mobile A était du formiate d'ammonium 10 mM avec 0.15% d'acide formique et la phase mobile B était de l'acétonitrile. La phase mobile a reçu un gradient d'élution à 450 ul / min comme suit: initial, 0% B; 0.01 min, 19% de B; 1 min, 26% de B; 1.5 min, 75% de B; 2.5 min, 100% B; 3 min, 100% B; 3.1 min, 5% de B; et 3.5 min, 5% de B. Thermo Xcalibur QuanBrowser (Thermo Fisher Scientific) a été utilisé pour traiter et intégrer automatiquement les pics. Chacun des plus de 100,000 XNUMX pics a été inspecté visuellement individuellement pour assurer une intégration adéquate.

Toutes les données de concentration neurochimique ont été lissées avec une moyenne mobile à trois points (y′ = [0.25 × (y−1) + 0.5y + 0.25 × (y+ 1)]) et z-score normalisé dans chaque session pour faciliter les comparaisons entre les sessions. Pour chaque région cible, un corrélogramme croisé a été généré pour chaque session et la moyenne des sessions a été tracée. Des limites de confiance de 100,000% ont été générées pour chaque sous-graphique en mélangeant une série temporelle 0.05 0.0005 fois et en générant une distribution des coefficients de corrélation pour chaque session. Des modèles de régression multiples ont été générés à l'aide de la fonction de régression dans MATLAB, avec le neurochimique comme variable de résultat et des mesures comportementales comme prédicteurs. Les coefficients de régression ont été jugés significatifs à trois niveaux alpha (0.000005, 21 et 7), après correction de Bonferroni pour des comparaisons multiples (alpha / (9 produits chimiques × 3 régions × XNUMX régresseurs comportementaux)). Pour l'analyse des transitions de blocs, les données ont été regroupées en époques de XNUMX minutes, rejetant l'échantillon qui comprenait le temps de transition.


Optogénétique et Électrophysiologie

Les rats (n = 25) ont été implantés avec des optrodes pilotables conçues sur mesure, chacune composée de 16 tétrodes (construites à partir de fil nichrome de 12.5 µm, Sandvik) collées sur le côté d'une fibre optique de 200 µm et s'étendant jusqu'à 500 µm sous la pointe de la fibre. Au cours de la même chirurgie, nous avons injecté 1 µl d'AAV2 / 5-EF1a-DIO-ChR2 (H134R) -EYFP dans le noyau latéral VTA (AP 5.6, ML 0.8, DV 7.5) ou NAc (AP 1.6, ML 1.6, DV 6.4) . Les signaux cérébraux à large bande (1 à 9,000 30,000 Hz) ont été échantillonnés (80 XNUMX échantillons par s) à l'aide des têtes numériques Intan. Les optrodes ont été abaissés d'au moins XNUMX µm à la fin de chaque session d'enregistrement. Les unités individuelles ont été isolées hors ligne à l'aide d'une implémentation MATLAB de MountainSort55 suivi d'une inspection manuelle minutieuse.

Classification

Identifier si une unité VTA-1 isolée était dopaminergique (TH+), nous avons utilisé le test de latence associé à un stimulus56. En résumé, à la fin de chaque session expérimentale, nous avons connecté l’optrode à une diode laser et fourni des trains d’impulsions lumineuses de différentes largeurs et fréquences. Pour qu’une unité soit identifiée comme réactive à la lumière, elle devait atteindre le niveau de signification de P <0.001 pour les trains d'impulsions de 5 ms et 10 ms. Nous avons également comparé les formes d'onde évoquées par la lumière (dans les 10 ms suivant le début de l'impulsion laser) aux moyennes à l'échelle de la session; toutes les unités évoquées par la lumière avaient un coefficient de corrélation de Pearson> 0.9. Les neurones dopaminergiques ont été enregistrés avec succès chez quatre rats avec des perfusions de VTA-l AAV (IM657, 1 unité; IM1002, 3 unités; IM1003, 15 unités; IM1037, 9 unités) et un rat avec NAc core AAV (IM-1078, 2 unités) . La largeur du pic a été définie comme la pleine largeur à mi-hauteur de la composante négative la plus importante de la forme d'onde de pointe moyenne alignée. Les neurones VTA non marqués avec un taux de déclenchement à l'échelle de la session> 20 Hz et une largeur de pic <200 µs ont été classés comme des cellules non dopaminergiques. Pour nous assurer que nous comparions les cellules dopaminergiques et non dopaminergiques dans les mêmes sous-régions, nous n'avons analysé que les cellules non dopaminergiques enregistrées lors des séances avec au moins une cellule dopaminergique à marquage optique.

Les pointes ont été détectées selon l'approche classique «modèle 80 / 160»57: chaque fois qu'un intervalle inter-pics de 80 ms ou moins se produit, ces pics et les pics suivants sont considérés comme faisant partie d'une salve jusqu'à ce qu'il y ait un intervalle de 160 ms ou plus. Pour comparer le tir «tonique» au taux de récompense, les pics de dopamine ont été comptés dans des bacs d'une minute. Pour examiner des changements plus rapides, des fonctions de densité de pointes ont été construites en convoluant des trains de pointes avec un noyau gaussien avec une variance de 1 ms. Pour déterminer la rapidité avec laquelle un neurone a répondu à un signal donné, nous avons utilisé des bacs de 20 ms (glissant par pas de 40 ms) et utilisé un test de lecture aléatoire (20 shuffles) pour chaque case de temps en comparant le taux de tir après le début du signal à les 10,000 ms précédant immédiatement la queue. Le premier bac auquel le taux de tir post-signal était significativement (P <0.01, correction pour des comparaisons multiples) supérieur au déclenchement de base a été considéré comme le temps de réponse.

La cadence de tir de pointe a été calculée comme étant la cadence de tir maximale (lissée gaussienne) de chaque essai dans une fenêtre 250-ms après ajustement latéral pour les essais récompensés, et la vallée a été calculée comme taux de tir minimum dans une fenêtre de 2, à partir une seconde après la participation aux essais non récompensés.

Pour calculer un angle de rampe lors de comportements d’approche, nous avons lissé les cadences de déclenchement moyennes avec un noyau gaussien 50-ms, détecté le maximum / minimum du signal résultant dans une fenêtre 0.5-s avant chaque événement (centre ou alimentaire). ) et mesuré l’angle signé reliant les deux extrema. Pour comparer les taux de déclenchement dans les blocs de récompense «élevé» et «faible», nous avons effectué pour chaque session un fractionnement médian du taux de récompense moyen des intégrateurs présentant des fuites dans chaque bloc.


Voltamétrie et modèle informatique

Les résultats de voltamétrie cyclique à balayage rapide sont présentés ici. Ils analysent à nouveau les données présentées précédemment.5. Les estimations intra-essai des erreurs de prédiction de la valeur et de la récompense des états ont été calculées à l'aide d'un modèle d'apprentissage du renforcement du processus de décision semi-markovien, exactement comme décrit précédemment5.


Photométrie

Nous avons utilisé une approche virale pour exprimer le capteur optique à dopamine génétiquement codé dLight15. Sous anesthésie à l'isoflurane, 1 μl d'AAV9-CAG-dLight (1 × 1012 génomes viraux par ml; UC Davis vector core) a été injecté lentement (100 nl / min) (Nanoject III, Drummond) à travers une micropipette en verre de 30 µm dans le striatum ventral bilatéralement (AP: 1.7 mm, ML: 1.7 mm, DV: -7.0 mm). Au cours de la même chirurgie, des fibres optiques (noyau de 400 µm, diamètre total de 430 µm) fixées à une virole métallique (Doric) ont été insérées (profondeur cible 200 µm plus élevée que l'AAV) et cimentées en place. Les données ont été collectées> trois semaines plus tard, pour permettre l'expression de dLight.

Pour l'excitation dLight, les LED bleues (470 nm) et violettes (405 nm; témoin) ont été modulées de manière sinusoïdale à des fréquences distinctes (211 Hz et 531 Hz, respectivement.58). Les signaux d'excitation et d'émission sont passés à travers des filtres minicube (Doric) et la fluorescence en vrac a été mesurée avec un détecteur femtowatt (Newport, modèle 2151) échantillonné à 10 kHz. La démodulation a produit des signaux séparés de 470 nm (dopamine) et de 405 nm (contrôle), qui ont ensuite été rééchelonnés l'un à l'autre via un ajustement des moindres carrés.58. Signal de fluorescence fractionnaire (dF/F) a ensuite été défini comme (470–405_fit) / 405_fit. Pour toutes les analyses, ce signal a été sous-échantillonné à 50 Hz et lissé avec un filtre médian à cinq points. Pour une présentation séparée des signaux 470 nm et 405 nm, voir Extended Data Fig. 7.

Les données relatives au placement des fibres optiques ont été incluses dans les analyses si la pointe de la fibre était en NAc et si la réponse de fluorescence à au moins une tâche avait une z-score de> 1. Ces critères ont exclu un rat et ont donné trois rats / quatre placements (IM1065-gauche, IM1066-bilatéral, IM1089-droite) pour dLight1.1, et quatre rats / six placements (IM1088-bilatéral, IM1105-droit, IM1106-bilatéral, IM1107-right) pour dLight1.3b. Des résultats similaires ont été obtenus pour dLight1.1 et dLight1.3 (Extended Data Fig. 7), les données ont donc été combinées.

Pour calculer un angle de rampe lors des comportements d'approche, nous avons détecté le maximum / minimum du signal résultant dans une fenêtre 0.5-s avant chaque événement (entrée centrale ou entrée alimentaire) et avons mesuré l'angle signé reliant les deux extrema.


Affinité et spécificité moléculaire de dLight1.3b

Les mesures in vitro ont été effectuées comme décrit précédemment15. En bref, les cellules HEK293T (ATCC CRL # 1573) ont été cultivées et transfectées avec des plasmides codant pour dlight1.3b pilotés par un promoteur CMV, et lavées avec du HBSS (Life Technologies) supplémenté en Ca2+ (4mM) et Mg2+ (2 mM) avant l'imagerie. L'imagerie a été réalisée en utilisant un objectif à base d'huile 40x sur un microscope confocal Zeiss Observer LSN710 inversé avec des longueurs d'onde de 488 nm / 513 nm (excitation / émission). Pour tester les réponses de fluorescence du capteur, les neurotransmetteurs ont été directement appliqués au bain pendant l'imagerie time-lapse, dans au moins deux expériences indépendantes. Des titrages de dopamine et de noradrénaline ont été obtenus en effectuant des dilutions en série décuplées pour atteindre huit concentrations différentes. Tous les autres neurotransmetteurs ont été testés à trois concentrations séquentielles (100 nM, 1 µM et 10 µM). Toutes les concentrations de neurotransmetteurs ont été obtenues par dilution à partir d'une concentration stock 1 mM dans HBSS, préparé frais. Les intensités de fluorescence brutes issues de l'imagerie time lapse ont été quantifiées aux Fidji; chaque ROI a été dessinée manuellement sur la membrane de cellules individuelles. Changement de pli fluorescent (ΔF/F) a été calculé comme F pic (intensité de fluorescence moyenne de quatre images) - F basal (intensité de fluorescence moyenne de quatre images avant addition de ligands) /F basal. Les graphiques et les analyses statistiques ont été réalisés avec GraphPad Prism 6. Les points de données ont été analysés avec une courbe de liaison spécifique à un site pour obtenir Kd valeurs. Dans les diagrammes à boîtes et moustaches, la boîte couvre la plage% de 25 à 75 et les moustaches s'étendent des valeurs minimales aux valeurs maximales.


Résumé du rapport

De plus amples informations sur le design de la recherche sont disponibles dans Résumé de la recherche sur la nature lié à cet article.

Disponibilité des données

Le virus AAV.Synapsin.dLight1.3b utilisé dans cette étude a été déposé auprès de Addgene (n ° 125560; http://www.addgene.org). Toutes les données seront disponibles sur le site Web de partage de données Recherche collaborative en neurosciences computationnelles (https://doi.org/110.6080/K0VQ30V9).

Disponibilité du code

Le code MATLAB personnalisé est disponible sur demande auprès de JDB.

Plus d'Infos

Note de l'éditeur: Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Bibliographie

  1. 1.

    Schultz, W., Dayan, P. & Montague, PR Un substrat neuronal de prédiction et de récompense. Science 275, 1593 – 1599 (1997).

  2. 2.

    Pan, WX, Schmidt, R., Wickens, JR & Hyland, BI Les cellules dopaminergiques répondent aux événements prédits lors du conditionnement classique: preuves de traces d'éligibilité dans le réseau d'apprentissage par récompense. J. Neurosci. 25, 6235 – 6242 (2005).

  3. 3.

    Cohen, JY, Haesler, S., Vong, L., Lowell, BB & Uchida, N. Signaux spécifiques de type neurone pour la récompense et la punition dans la zone tegmentale ventrale. Nature 482, 85 – 88 (2012).

  4. 4.

    Steinberg, EE et al. Un lien de causalité entre les erreurs de prédiction, les neurones dopaminergiques et l'apprentissage. Nat. Neurosci. 16, 966 – 973 (2013).

  5. 5.

    Hamid, AA et al. La dopamine mésolimbique signale la valeur du travail. Nat. Neurosci. 19, 117 – 126 (2016).

  6. 6.

    Saunders, BT, Richard, JM, Margolis, EB & Janak, PH Les neurones dopaminergiques créent des stimuli conditionnés pavloviens avec des propriétés motivationnelles définies par le circuit. Nat. Neurosci. 21, 1072 – 1083 (2018).

  7. 7.

    Phillips, PE, Stuber, GD, Heien, ML, Wightman, RM & Carelli, RM La libération de dopamine en sous-seconde favorise la recherche de cocaïne. Nature 422, 614 – 618 (2003).

  8. 8.

    Roitman, MF, Stuber, GD, Phillips, PE, Wightman, RM & Carelli, RM La dopamine fonctionne comme un modulateur sous-seconde de la recherche de nourriture. J. Neurosci. 24, 1265 – 1271 (2004).

  9. 9.

    Wassum, KM, Ostlund, SB & Maidment, NT La signalisation phasique de la dopamine mésolimbique précède et prédit la performance d'une tâche de séquence d'action auto-initiée. Biol. Psychiatrie 71, 846 – 854 (2012).

  10. 10.

    Howe, MW, Tierney, PL, Sandberg, SG, Phillips, PE & Graybiel, AM Signalisation prolongée de la dopamine dans le striatum signale la proximité et la valeur des récompenses éloignées. Nature 500, 575 – 579 (2013).

  11. 11.

    Syed, EC et al. L'initiation de l'action façonne le codage de la dopamine mésolimbique des récompenses futures. Nat. Neurosci. 19, 34 – 36 (2016).

  12. 12.

    Morris, G., Nevet, A., Arkadir, D., Vaadia, E. & Bergman, H. Les neurones dopaminergiques du cerveau moyen codent des décisions pour une action future. Nat. Neurosci. 9, 1057 – 1063 (2006).

  13. 13.

    da Silva, JA, Tecuapetla, F., Paixão, V. & Costa, RM L'activité des neurones dopaminergiques avant l'initiation à l'action ouvre et dynamise les mouvements futurs. Nature 554, 244 – 248 (2018).

  14. 14.

    Fiorillo, CD, Tobler, PN & Schultz, W. Codage discret de la probabilité de récompense et de l'incertitude par les neurones dopaminergiques. Science 299, 1898 – 1902 (2003).

  15. 15.

    Patriarchi, T., JR, Cho, K., Howe, MW et al. Imagerie neuronale ultrarapide de la dynamique de la dopamine avec des capteurs conçus génétiquement codés. Science 360eaat4422 (2018).

  16. 16.

    Salamone, JD & Correa, M. Les mystérieuses fonctions motivationnelles de la dopamine mésolimbique. Neuron 76, 470 – 485 (2012).

  17. 17.

    Schultz, W. Signal de récompense prédictif des neurones dopaminergiques. J. Neurophysiol. 80, 1 – 27 (1998).

  18. 18.

    Garris, PA & Wightman, RM Différentes cinétiques régissent la transmission dopaminergique dans l'amygdale, le cortex préfrontal et le striatum: une étude voltammétrique in vivo. J. Neurosci. 14, 442 – 450 (1994).

  19. 19.

    Frank, MJ, Doll, BB, Oas-Terpstra, J. & Moreno, F. Les gènes dopaminergiques préfrontal et striatal prédisent les différences individuelles dans l'exploration et l'exploitation. Nat. Neurosci. 12, 1062 – 1068 (2009).

  20. 20.

    St Onge, JR, Ahn, S., Phillips, AG & Floresco, SB Fluctuations dynamiques de l'efflux de dopamine dans le cortex préfrontal et le noyau accumbens lors de la prise de décision basée sur le risque. J. Neurosci. 32, 16880 – 16891 (2012).

  21. 21.

    Bartra, O., McGuire, JT & Kable, JW Le système de valorisation: une méta-analyse basée sur les coordonnées d'expériences d'IRMf BOLD examinant les corrélats neuronaux de valeur subjective. Neuroimage 76, 412 – 427 (2013).

  22. 22.

    Ikemoto, S. Circuit de récompense de la dopamine: deux systèmes de projection du cerveau moyen ventral au complexe noyau accumbens-olfactif. Brain Res. Brain Res. Tour. 56, 27 – 78 (2007).

  23. 23.

    Breton, JM et al. Contributions relatives et cartographie des neurones dopaminergiques et GABA de la région tégmentale ventrale par cible de projection chez le rat. J. Comp. Neurol. (2018).

  24. 24.

    Ungless, MA, Magill, PJ & Bolam, JP Inhibition uniforme des neurones dopaminergiques dans la zone tegmentale ventrale par des stimuli aversifs. Science 303, 2040 – 2042 (2004).

  25. 25.

    Morales, M. & Margolis, EB Zone tegmentale ventrale: hétérogénéité cellulaire, connectivité et comportement. Nat. Rev. Neurosci. 18, 73 – 85 (2017).

  26. 26.

    Morris, G., Arkadir, D., Nevet, A., Vaadia, E. & Bergman, H.Messages coïncidents mais distincts de la dopamine du mésencéphale et des neurones striataux à activité tonique. Neuron 43, 133 – 143 (2004).

  27. 27.

    Floresco, SB, West, AR, Ash, B., Moore, H. & Grace, AA La modulation afférente du déclenchement des neurones dopaminergiques régule de manière différentielle la transmission de la dopamine tonique et phasique. Nat. Neurosci. 6, 968 – 973 (2003).

  28. 28.

    Grace, AA Dysrégulation du système dopaminergique dans la physiopathologie de la schizophrénie et de la dépression. Nat. Rev. Neurosci. 17, 524 – 532 (2016).

  29. 29.

    Cohen, JY, Amoroso, MW & Uchida, N. Les neurones sérotoninergiques signalent la récompense et la punition sur plusieurs échelles de temps. eLife 4, e06346 (2015).

  30. 30.

    Niv, Y., Daw, N. & Dayan, P. À quelle vitesse travailler: vigueur de réponse, motivation et dopamine tonique. Adv. Neural Inf. Processus. Syst. 18, 1019 (2006).

  31. 31.

    Bayer, HM, Lau, B. & Glimcher, PW Statistiques des trains de pics neuronaux dopaminergiques du mésencéphale chez le primate éveillé. J. Neurophysiol. 98, 1428 – 1439 (2007).

  32. 32.

    Chergui, K., Suaud-Chagny, MF & Gonon, F. Relation non linéaire entre le flux d'impulsion, la libération de dopamine et l'élimination de la dopamine dans le cerveau du rat in vivo. Neuroscience 62, 641 – 645 (1994).

  33. 33.

    Parker, NF et al. Le codage de récompense et de choix aux extrémités des neurones à dopamine du cerveau moyen dépend de la cible striatale. Nat. Neurosci. 19, 845 – 854 (2016).

  34. 34.

    Menegas, W., Babayan, BM, Uchida, N. & Watabe-Uchida, M. Initialisation opposée à de nouveaux signaux dans la signalisation de la dopamine dans le striatum ventral et postérieur chez la souris. eLife 6, e21886 (2017).

  35. 35.

    Trulson, ME Enregistrement simultané de neurones de la substance noire et libération voltamétrique de la dopamine chez le chat qui se comporte bien. Brain Res. Taureau. 15, 221 – 223 (1985).

  36. 36.

    Glowinski, J., Chéramy, A., Romo, R. & Barbeito, L. Régulation présynaptique de la transmission dopaminergique dans le striatum. Cellule. Mol. Neurobiol. 8, 7 – 17 (1988).

  37. 37.

    Zhou, FM, Liang, Y. & Dani, JA L'activité cholinergique nicotinique endogène régule la libération de dopamine dans le striatum. Nat. Neurosci. 4, 1224 – 1229 (2001).

  38. 38.

    Threlfell, S. et al. La libération de dopamine striatale est déclenchée par l'activité synchronisée des interneurones cholinergiques. Neuron 75, 58 – 64 (2012).

  39. 39.

    Cachope, R. et al. L'activation sélective des interneurones cholinergiques améliore la libération de dopamine phasique accumbal: donner le ton au traitement de la récompense. Cell Reports 2, 33 – 41 (2012).

  40. 40.

    Sulzer, D., Cragg, SJ & Rice, ME Neurotransmission striatale de la dopamine: régulation de la libération et de l'absorption. Ganglions de la base 6, 123 – 148 (2016).

  41. 41.

    Floresco, SB, Yang, CR, Phillips, AG & Blaha, CD La stimulation de l'amygdale basolatérale évoque l'efflux de dopamine dépendant du récepteur du glutamate dans le noyau accumbens du rat anesthésié. EUR. J. Neurosci. 10, 1241 – 1251 (1998).

  42. 42.

    Jones, JL et al. L'amygdale basolatérale module la libération de dopamine en phase terminale dans le noyau accumbens et la réponse conditionnée. Biol. Psychiatrie 67, 737 – 744 (2010).

  43. 43.

    Schultz, W. Réponses des neurones dopaminergiques du cerveau moyen aux stimuli comportementaux du singe. J. Neurophysiol. 56, 1439 – 1461 (1986).

  44. 44.

    Berke, JD Que signifie dopamine? Nat. Neurosci. 21, 787 – 793 (2018).

  45. 45.

    Bromberg-Martin, ES, Matsumoto, M. & Hikosaka, O. Activité d'anticipation tonique et phasique distincte dans les neurones latéraux de l'habénula et de la dopamine. Neuron 67, 144 – 155 (2010).

  46. 46.

    Pasquereau, B. & Turner, RS Les neurones dopaminergiques codent des erreurs dans la prédiction de l'occurrence du déclencheur de mouvement. J. Neurophysiol. 113, 1110 – 1123 (2015).

  47. 47.

    Fiorillo, CD, Newsome, WT & Schultz, W. La précision temporelle de la prédiction des récompenses dans les neurones dopaminergiques. Nat. Neurosci. 11, 966 – 973 (2008).

  48. 48.

    Morita, K. & Kato, A. La montée en puissance de la dopamine striatale peut indiquer un apprentissage par renforcement flexible avec oubli dans les circuits des noyaux cortico-basaux. De face. Circuits Neuronaux 8, 36 (2014).

  49. 49.

    Gershman, SJ Les rampes d'accès à la dopamine sont une conséquence des erreurs de prédiction de récompense. Neural Comput. 26, 467 – 471 (2014).

  50. 50.

    Nicola, SM L'hypothèse d'approche flexible: unification de l'effort et des hypothèses de réponse au signal pour le rôle du noyau accumbens dopamine dans l'activation du comportement à la recherche de récompense. J. Neurosci. 30, 16585 – 16600 (2010).

  51. 51.

    Paxinos, G. et Watson, C. Le cerveau de rat en coordonnées stéréotaxiques 5th edn (Elsevier Academic, 2005).

  52. 52.

    Witten, IB et al. Lignées de rats conducteurs de la recombinase: outils, techniques et application optogénétique au renforcement par la dopamine. Neuron 72, 721 – 733 (2011).

  53. 53.

    Sugrue, LP, Corrado, GS & Newsome, WT Comportement d'appariement et représentation de la valeur dans le cortex pariétal. Science 304, 1782 – 1787 (2004).

  54. 54.

    Wong, JM et al. Dérivation du chlorure de benzoyle avec chromatographie en phase liquide - spectrométrie de masse pour la métabolomique ciblée de substances neurochimiques dans des échantillons biologiques. J. Chromatogr. UNE 1446, 78 – 90 (2016).

  55. 55.

    Chung, JE et al. Une approche entièrement automatisée du tri des pics. Neuron 95, 1381 – 1394 (2017).

  56. 56.

    Kvitsiani, D. et al. Corrélats comportementaux et réseau distincts de deux types d'interneurones dans le cortex préfrontal. Nature 498, 363 – 366 (2013).

  57. 57.

    Grace, AA & Bunney, BS Le contrôle du schéma de déclenchement dans les neurones dopaminergiques nigraux: tir en rafale. J. Neurosci. 4, 2877 – 2890 (1984).

  58. 58.

    Lerner, TN et al. Les analyses du cerveau intact révèlent des informations distinctes portées par les sous-circuits de dopamine de la SNc. Cellule 162, 635 – 647 (2015).

Télécharger des références

Remerciements

Nous remercions P. Dayan, H. Fields, L. Frank, C. Donaghue et T. Faust de leurs commentaires sur une version antérieure du manuscrit, ainsi que V. Hetrick, R. Hashim et T. Davidson pour leur assistance technique et leurs conseils. Ces travaux ont bénéficié du soutien de l'Institut national de lutte contre l'abus des drogues, de l'Institut national de la santé mentale, de l'Institut national des troubles neurologiques et des accidents cérébrovasculaires, de l'Université du Michigan à Ann Arbor et de l'Université de Californie à San Francisco.

Informations sur le réviseur

Nature remercie Margaret Rice et les autres relecteurs anonymes pour leur contribution à la relecture par les pairs de ce travail.

Information sur l'auteur

AM a réalisé et analysé l'électrophysiologie et la photométrie, et appliqué le modèle de calcul. JRP a effectué et analysé la microdialyse avec l'aide de J.-MTW et sous la supervision de RTKAAH. Il a développé la tâche comportementale et la configuration initiale de la photométrie, puis effectué la voltamétrie. LTV a effectué un traçage et une analyse rétrogrades. TP et LT ont développé le capteur dLight et partagé leur expertise. JDB a conçu et supervisé l’étude et rédigé le manuscrit.

Intérêts concurrents

Les auteurs ne déclarent aucun intérêt concurrent.

Correspondance à Joshua D. Berke.