Dinámica disociable de la dopamina para el aprendizaje y la motivación (2019)

https://www.nature.com/articles/s41586-019-1235-y

Resumen

La proyección de dopamina desde el área tegmental ventral (VTA) hasta el núcleo accumbens (NAc) es fundamental para que la motivación trabaje por las recompensas y el aprendizaje impulsado por recompensas. No está claro cómo la dopamina apoya ambas funciones. La adición de células de dopamina puede codificar errores de predicción, que son señales de aprendizaje vitales en las teorías computacionales del comportamiento adaptativo. Por el contrario, la liberación de dopamina aumenta a medida que los animales se acercan a las recompensas, lo que refleja las expectativas de recompensa. Este desajuste podría reflejar diferencias en las tareas de comportamiento, cambios más lentos en los picos de células de dopamina o modulación independiente de picos de la liberación de dopamina. Aquí comparamos el aumento de las células de dopamina VTA identificadas con la liberación de dopamina NAc en la misma tarea de toma de decisiones. Las señales que indican una recompensa próxima aumentaron tanto el aumento como la liberación. Sin embargo, la liberación de dopamina del núcleo de NAc también covarió con las expectativas de recompensa que evolucionan dinámicamente, sin los cambios correspondientes en el pico de células de dopamina VTA. Nuestros resultados sugieren una diferencia fundamental en cómo se regula la liberación de dopamina para lograr funciones distintas: las señales de ráfaga de transmisión promueven el aprendizaje, mientras que el control local impulsa la motivación.

Main

La dopamina está relacionada con la 'recompensa', pero ¿cómo exactamente? Una función implica aprender de recompensas inesperadas. Breves incrementos en la activación de células de dopamina codifican errores de predicción de recompensa (RPE)1,2,3- Señales de aprendizaje para optimizar futuros comportamientos motivados. Las manipulaciones de dopamina pueden afectar el aprendizaje como si estuvieran alterando los RPE.4,5,6, pero también afectan los comportamientos motivados de inmediato, como si las señales de dopamina recompensen la expectativa (valor)5. Además, la dopamina NAc aumenta durante un enfoque motivado, consistente con el valor de codificación de la dopamina7,8,9,10,11.

Con pocas excepciones2,12,13, se ha examinado la cocción de dopamina en el cerebro medio durante el condicionamiento clásico en animales con cabeza fija3,14, a diferencia de la liberación de dopamina en el cerebro anterior. Por lo tanto, comparamos el disparo con el lanzamiento en las mismas condiciones. Identificamos neuronas de dopamina VTA mediante el etiquetado optogenético.3,13. Para medir la liberación de dopamina NAc, utilizamos tres métodos independientes: microdiálisis, voltimetría y el sensor óptico dLight15—Con resultados convergentes. Nuestra principal conclusión es que aunque las ráfagas de dopamina con VTA a escala de RPE proporcionan cambios abruptos en la liberación de dopamina apropiada para el aprendizaje, las fluctuaciones de dopamina de NAc asociadas con la motivación surgen independientemente de la activación de células de dopamina con VTA.

La dopamina rastrea la motivación en loci clave

Entrenamos ratas en una tarea 'bandida' operante.5 (Higo. 1a, b). En cada prueba, la iluminación de un puerto de morro ('Light-on') impulsó el acercamiento y la entrada ('Center-in'). Después de un período de retención variable (0.5–1.5 s), el ruido blanco ('Go cue') llevó a la rata a retirarse ('Center-out') y pinchar un puerto adyacente ('Side-in'). En las pruebas recompensadas, este evento Side-in fue acompañado por un clic en la tolva de comida que llevó a la rata a acercarse a un puerto de comida ('Food-port-in') para recolectar una pastilla de azúcar. Las opciones hacia la izquierda y hacia la derecha fueron recompensadas con probabilidades independientes, que ocasionalmente cambiaban sin previo aviso. Cuando las ratas tenían más probabilidades de recibir recompensas, estaban más motivadas para realizar la tarea. Esto fue evidente en su 'latencia': el tiempo entre Light-on y Center-in-que fue sensible al resultado de los pocos ensayos anteriores (Datos ampliados Fig. 1) y, por lo tanto, escalado inversamente con la tasa de recompensa (Fig. 1b).

Fig. 1: la liberación de dopamina covaría con una tasa de recompensa específicamente en el núcleo de NAc y la corteza prelímbica ventral.
figure1

a, Bandidos de eventos de tarea. b, Sesión de ejemplo. Fila superior, probabilidades de recompensa en cada bloque (izquierda: derecha); fila dos, las garrapatas indican el resultado de cada prueba (alto, recompensado; bajo, no recompensado); fila tres, estimación del integrador con fugas de la tasa de recompensa (negro) y promedio móvil de latencia (cian; escala logarítmica invertida); fila inferior, dopamina de núcleo NAc en la misma sesión (muestras de 1 min). DA, dopamina. c, Arriba, ubicaciones de microdiálisis en la corteza frontal media y el estriado (ver también la Fig. 1). n = 51 ubicaciones de sonda de 12 ratas, cada una con 2 sondas de microdiálisis que se bajaron entre sesiones. El color de la barra indica la correlación entre la dopamina y la tasa de recompensa. ACC, corteza cingulada anterior; dPL, corteza dorsal prelímbica; vPL, corteza preliminar ventral; IL, corteza infralímbica; DMS, estriado dorsal-medial. Correlogramas cruzados medios, promediados entre la dopamina y la tasa de recompensa. Las barras rojas indican un intervalo de confianza del 99% de las series de tiempo barajadas. Abajo, relaciones entre neuroquímicos y tasa de recompensa (regresión múltiple). NA, noradrenalina; 5-HT, serotonina; ACh, acetilcolina; GABA, ácido γ-aminobutírico; Glu, glutamato; NM, normetadrenalina; DOPAC, ácido 3,4-dihidroxifenilacético; 3-MT, 3-metoxitiramina; HVA, ácido homovanílico; 5-HIAA, ácido 5-hidroxiindolacético. dEfecto de las transiciones en bloque sobre la tasa de recompensa (izquierda), la latencia (media) y la dopamina central NAc (derecha). Las transiciones se clasificaron según si la tasa de recompensa experimentada aumentaba (n = 25) o disminuido (n = 33). Los datos provienen de las 14 sesiones en las que se midió la dopamina del núcleo de NAc (una por rata, combinando datos nuevos y reportados previamente5 animales), y se representa como media ± sem e, Mapas compuestos de correlaciones entre dopamina y tasa de recompensa (n = 19 ratas, 33 sesiones, 58 colocaciones de sonda). Los contornos del atlas del cerebro en esta figura fueron reproducidos con permiso de Paxinos y Watson, 200551.

Previamente informamos5 una correlación entre la tasa de liberación y recompensa de dopamina NAc, consistente con el papel motivacional de la dopamina mesolímbica16. Aquí, primero intentamos determinar si esta relación se observa a través de los objetivos del cerebro anterior, en consonancia con la señalización de dopamina "de transmisión global"17, o está restringido a subregiones específicas. Además, planteamos la hipótesis de que estas dinámicas de dopamina diferirían entre el cuerpo estriado y la corteza, ya que estas estructuras tienen distintas cinéticas de captación y degradación de la dopamina.18 y puede usar dopamina para distintas funciones19,20.

Usando la microdiálisis con cromatografía líquida de alto rendimiento, espectrometría de masas (HPLC, MS, por sus siglas en inglés), examinamos la corteza frontal media y el estriado (Fig. 1c, Datos Extendidos Fig. 1). Analizamos de forma simultánea los neurotransmisores y los metabolitos 21 con resolución de tiempo 1-min, y utilizamos la regresión para comparar series de tiempo químicas con variables de comportamiento (Datos ampliados, Fig. 2).

Replicamos la correlación entre la tasa de recompensa y la dopamina NAc, en contraste con otros neurotransmisores (Fig. 1c, d). Sin embargo, esta relación se localizó en el núcleo de NAc y no se mantuvo en la capa de NAc ni en el cuerpo estriado dorsal-medial. Contrariamente a nuestra hipótesis, observamos un patrón espacial similar en la corteza frontal: la liberación de dopamina se correlacionó con la tasa de recompensa en la corteza prelímbica ventral, pero no en las subregiones más dorsales o ventrales (Fig. 1c, e). Aunque inesperados, estos 'puntos calientes' gemelos de la liberación de dopamina relacionada con el valor tienen un paralelo intrigante en la neuroimagen humana: la señal dependiente del nivel de oxígeno en la sangre se correlaciona con el valor subjetivo, específicamente en NAc y la corteza prefrontal ventral-medial21.

El disparo VTA no tiene relación con la motivación

A continuación, abordamos si esta dopamina del cerebro anterior relacionada con la motivación surge de la activación variable de las células de la dopamina del cerebro medio. El núcleo NAc recibe la entrada de dopamina de las partes laterales de VTA (VTA-1)6,22,23. En ratones con cabeza fija, las neuronas de dopamina VTA-1 tienen, al parecer, respuestas uniformes de tipo RPE a estímulos condicionados3. Para registrar las células de dopamina VTA-1, infectamos el VTA con el virus adenoasociado (AAV) para la expresión dependiente de Cre de la canalrodopsina (AAV-DIO-ChR2) en ratas que expresan la recombinasa Cre bajo un promotor de tirosina hidroxilasa (TH) (ver Métodos). Optrodos (fig. 2a, b) registró las respuestas de una sola unidad a breves pulsos de láser azul (Fig. 2c, Datos ampliados de las Figs. 3, 4, Fig. 1 suplementario). Encontramos 27 células VTA-l bien aisladas con picos de latencia corta confiables, y las identificamos como neuronas de dopamina.

Fig. 2: La actividad de las neuronas de dopamina VTA identificadas no cambia con la tasa de recompensa.
figure2

a, Izquierda, esquema de optrode con 16 tetrodes alrededor de fibra óptica de 200 µm de diámetro. Derecha, ejemplo de colocación de optrode dentro del VTA lateral. Barra de escala, 1 mm. Rojo, marcador de células de dopamina tirosina hidroxilasa; verde, ChR2 – EYFP; amarillo, superposición. Para todas las ubicaciones, consulte Datos extendidos Fig. 3. b, Picos de células de dopamina VTA. Las barras rojas indican las ráfagas detectadas y el número de picos en cada ráfaga (ver Métodos). Escala, 0.5 s, 0.5 mV. cEjemplo de respuesta neuronal a pulsos láser de duración creciente. d, Velocidad de disparo en toda la sesión versus ancho de pico (a la mitad del máximo) para cada celda VTA. Células de dopamina azules marcadas; púrpura, un grupo distinto de presuntas neuronas que no contienen dopamina. Inserciones, ejemplos de formas de onda promedio (voltaje negativo hacia arriba). e, Velocidad de disparo (azul; contenedores de 1 min) de una neurona de dopamina VTA durante una tarea de bandido. La latencia (cian) covaría con la tasa de recompensa, pero la tasa de disparo no. f, Velocidad de activación para todas las neuronas VTA (azul, dopamina; púrpura, sin dopamina; gris, sin clasificar) en bloques de tasa de recompensa baja versus alta. Ninguno mostró diferencias significativas (prueba de rango con signo de Wilcoxon que utiliza contenedores 1-min, todos P > 0.05 después de corregir para múltiples comparaciones). gLa correlación cruzada media entre la tasa de activación y recompensa de las células de dopamina no muestra una relación significativa. h, Análisis de la velocidad de disparo de dopamina en las transiciones de bloque (el mismo formato que la Fig. 1d). n = 95 aumentos de recompensa, 76 disminuciones. i. Las distribuciones de los intervalos entre picos (ISI, izquierda) y las ráfagas de picos (derecha) no se modifican entre los bloques de mayor y menor tasa de recompensa (estadísticas de Kolmogorov-Smirnov: ISI, 0.138, P = 0.92; ráfagas, 0.165, P = 0.63).

Todas las neuronas de dopamina estaban tónicamente activas, con tasas de activación relativamente bajas (media de 7.7 Hz, rango de 3.7 a 12.9 Hz; en comparación con todas las neuronas VTA-XNUMX registradas junto con las células de dopamina, P <0.001 prueba de Mann-Whitney de una cola). También tenían formas de onda de picos de mayor duración (P <5 × 10-6, prueba de Mann-Whitney de una cola), aunque hubo excepciones (Fig. 2d), lo que confirma que la duración de la forma de onda es un marcador insuficiente de las células de dopamina in vivo3,24. Un grupo distinto de neuronas VTA-l (n = 38, de las mismas sesiones) con formas de onda breves y tasas de disparo más altas (> 20 Hz; media 41.3 Hz, rango 20.1-97.1 Hz) no incluyeron células de dopamina marcadas. Suponemos que estas células de disparo más rápido son GABAérgicas y / o glutamatérgicas.3,25y refiérase a ellos como 'sin dopamina' a continuación.

Registramos las mismas células de dopamina en múltiples tareas de comportamiento. Las células de dopamina VTA-1 respondieron con fuerza a los clics de tolva de alimentos programados aleatoriamente, y progresivamente con menos fuerza cuando estos clics se hicieron más predecibles por las señales anteriores (Datos ampliados, Fig. 5). Esto es consistente con la codificación canónica de tipo RPE por células de dopamina en las tareas de Pavlov.2,3,26.

Sobre la base de la evidencia de animales anestesiados, se ha argumentado anteriormente que los niveles alterados de dopamina medidos con microdiálisis surgen de cambios en la tasa de activación tónica de las células de dopamina.27 y / o la proporción de neuronas de dopamina activas frente a inactivas28. Sin embargo, en la tarea del bandido, la activación tónica de las células de dopamina en cada bloque de ensayos fue indiferente a la tasa de recompensa (Fig. 2e, g). No hubo un cambio significativo en las tasas de activación de las células de dopamina individuales, o las de cualquier otra neurona VTA-1, entre los bloques de recompensa más alta y más baja (Fig. 2f, h; ver también ref. 29 para resultados concordantes en ratones con cabeza fija). Tampoco hubo un cambio general en la velocidad a la que las células de dopamina disparan ráfagas de picos (Fig. 2i). Además, no observamos ningún cambio de células de dopamina entre los estados activos e inactivos. La proporción de tiempo que las células de dopamina pasaron inactivas (largos intervalos entre espigas) fue muy baja y no cambió entre los bloques de recompensa mayor y menor (Fig. 2i).

La anatomía de la proyección de dopamina VTA-NAc ha sido investigada intensamente6,22,23, pero, dada esta aparente discrepancia funcional entre el disparo y el lanzamiento, volvimos a confirmar que estábamos grabando desde la parte correcta del VTA. Pequeñas inyecciones del marcador retrógrado toxina del cólera B (CTb) en el núcleo de NAc dieron como resultado un marcado denso de TH+ neuronas dentro de la misma área VTA-l que nuestras grabaciones de Optrode (Datos ampliados Fig. 3). Dentro de la zona de grabación aproximada, 21% de TH+ las células también fueron CTb+y es probable que esto sea una subestimación de la fracción de células de dopamina VTA-1 que proyectan el núcleo de NAc, ya que nuestras inyecciones de marcador no llenaron completamente el núcleo de NAc. Así, nuestra muestra de n = 27 células de dopamina VTA marcadas (más muchas más células no marcadas) casi con certeza incluyen neuronas que proyectan el núcleo de NAc. Finalmente, en una rata adicional registramos dos células de dopamina VTA-XNUMX marcadas después de infundir AAV selectivamente en el núcleo de NAc (Datos extendidos Fig. 3). Ambas células infectadas de forma retrógrada tenían patrones de activación que se parecían mucho a las otras células de dopamina marcadas en todos los aspectos, incluida la falta de cambios de activación tónica con una tasa de recompensa variable (Figura complementaria 1). Llegamos a la conclusión de que los cambios en la activación tónica de células de dopamina VTA-1 no son responsables de los cambios relacionados con la motivación en la liberación de dopamina en el cerebro anterior.

Lanzamiento de seguimiento en múltiples escalas de tiempo

¿La tasa de recompensa de seguimiento de liberación de dopamina NAc per se, como se sugiere en algunas teorías?30¿O es esta correlación impulsada por fluctuaciones dinámicas en la liberación de dopamina que son demasiado rápidas para resolverse con microdiálisis? Argumentamos para la última posibilidad sobre la base de los datos de voltametría5, pero buscó confirmación utilizando una medida independiente de la liberación de dopamina que puede abarcar diferentes escalas de tiempo. El conjunto dLight1 de indicadores ópticos de dopamina codificados genéticamente se diseñó mediante la inserción de GFP permutado circularmente en los receptores D1 de dopamina.15. La unión de la dopamina causa un aumento altamente específico en la fluorescencia (Fig. 3a). Infundimos AAV en NAc para expresar dLight1.1 (cuatro colocaciones de NAc verificadas de tres ratas) o la variante más brillante dLight1.3b (seis colocaciones de NAc verificadas de cuatro ratas) y monitoreamos la fluorescencia mediante fotometría de fibra. Observamos respuestas de dopamina NAc claras a las señales predictoras de recompensa pavlovianas, de manera similar a la activación de células de dopamina VTA (Datos ampliados, Fig. 5).

Fig. 3: Puente de las escalas de tiempo de la medición de la dopamina.
figure3

a, Respuesta de fluorescencia de dLight1.3b. Recuadro, titulaciones de dopamina (n = 15 regiones de interés (ROI)) y noradrenalina (n = 9). Figura principal, neurotransmisores aplicados al baño (todos n = 12 ROI). Su, histamina. b, Muestra de sesión de bandidos que incluye señal NAc dLight1.3b normalizada (bandejas de 1-min). c, la señal dLight cambia con las transiciones de bloque. n = 35 aumentos en la tasa de recompensa, 45 disminuciones. d, Correlación cruzada entre dLight y tasa de recompensa. e, Vista más cercana de la porción sombreada de b. Flechas: negras, nariz central hacia adentro; rojo claro, Side-in (recompensado); azul claro, Side-in (sin recompensa); rojo oscuro, puerto de entrada de alimentos (recompensado); azul oscuro, puerto de entrada de alimentos (sin recompensa). Próximas filas: estimación del integrador con fugas de la tasa de recompensa; dLuz a baja resolución (1 min); dLuz de alta resolución (50 Hz, verde; filtrado medio de cinco puntos, negro); valores de estado del modelo (cian); y RPE (magenta). Después de varios ensayos sin recompensa, los valores del estado al principio del ensayo son bajos, luego la entrega de recompensa evoca un RPE positivo y un fuerte aumento de dopamina que lo acompaña. Los ensayos con recompensa sucesivos disminuyen los RPE, pero aumentan los valores estatales, acompañados de un aumento de la dopamina. f, Las correlaciones cruzadas de corta escala de tiempo muestran una relación cercana entre dLight y value, y una relación más pequeña con RPE. g, Correlaciones intra-ensayo entre las variables del modelo y dLight con diferentes rezagos; la correlación tanto con el valor como con el RPE es más fuerte con dLight aproximadamente 0.3 s más tarde. hEn todas las sesiones, la correlación máxima fue mayor para el valor que para el RPE o la tasa de recompensa.

Para la tarea de bandidos, primero examinamos la señal dLight en contenedores 1-min (Fig. 3b) para comparacion con microdialisis. Nuevamente vimos una relación clara entre la liberación de dopamina NAc y la tasa de recompensa, tanto en la correlación cruzada como en el análisis de las transiciones de bloque (Fig. 3c, d). A continuación, examinamos más de cerca cómo surge esta relación. En lugar de variar lentamente en una escala de tiempo de minutos, la señal de dLight mostró fluctuaciones altamente dinámicas dentro y entre cada prueba (Fig. 3e). Comparamos estas fluctuaciones con los valores de estado instantáneos y los RPE estimados a partir de un modelo de aprendizaje por refuerzo (un proceso de decisión semi-Markov).5). Como se informó anteriormente utilizando voltamperometría5, momento a momento, la dopamina NAc mostró una fuerte correlación con los valores del estado (Fig. 3f), visible como un aumento gradual en las pruebas cuando se esperaban recompensas (Fig. 3e). También observamos aumentos transitorios con entregas de recompensa menos esperadas, consistentes con el RPE (examinado más adelante). En cada sesión de dLight, la dopamina mostró una mayor correlación con los valores que los RPE o la tasa de recompensa (Fig. 3h, Datos Extendidos Fig. 6). Las correlaciones con los valores de estado y RPE fueron máximas con respecto a la señal dLight ~ 0.3 s más tarde, consistente con un breve retraso causado por el procesamiento neuronal de las señales y el tiempo de respuesta del sensor (Fig. 3g; con voltamperometría, informamos un retraso de 0.4 a 0.5 s)5.

La cocción de dopamina no explica la liberación

A continuación comparamos la activación y liberación de las células de dopamina alrededor de los eventos de bandidos. Los estímulos externos en Light-on, Go cue y recompensados ​​Side-in (clic en la tolva de alimentos) provocaron un rápido aumento de disparo (Fig. 4a). Estas respuestas se observaron en la gran mayoría de las células de dopamina (Fig. 4c), aunque la magnitud relativa de las respuestas a diferentes señales varía de una celda a otra (Fig. 1 suplementario). La señal NAc dLight también respondió de manera rápida y confiable a cada una de estas señales salientes (la Fig. 4b, c), consistente con la explosión de las células de dopamina que impulsan la liberación de dopamina.

Fig. 4: La activación de dopamina fásica VTA no tiene en cuenta la dinámica de dopamina NAc.
figure4

aActividad alineada de eventos de las células de dopamina VTA-1. Arriba, esparcir rásteres para una celda representativa; inferior, tasa promedio de picos (n = 29). En todos los paneles, las bandas de error indican ± sem b, Alineado al evento NAc dLight. Arriba, sesión representativa; inferior promedion = 10), normalizado al pico de respuesta lateral recompensada. A lo largo de esta figura, las señales dLight se muestran en relación con una época de 'línea base' de 2 s que finaliza 1 s antes del Center-in. Observe los aumentos (flechas) poco antes de Center-in y Food-port-in. c, Distribuciones acumulativas del tiempo necesario para las células de dopamina (sólido; n = 29), dLight (discontinua; n = 10), para aumentar los siguientes inicios de la señal (prueba de reproducción aleatoria en comparación con la línea de base, 10,000 repeticiones de secuencia, P <0.01, comparaciones múltiples corregidas). Para Light-on, solo se incluyen latencias <1 s; para las pruebas recompensadas de Side-in. Latencias medias (de ajuste sigmoide): luz encendida, disparo 152 ms, dLight 266 ms; Go cue, disparando 67 ms, dLight 212 ms; Entrada lateral, disparo 85 ms, dLight 129 ms. Las células no dopaminérgicas eran típicamente indiferentes a la aparición de señales (Datos extendidos, Fig. 8). d, Liberación de dopamina relacionada con el enfoque, evocada a un indicio específico. Máxima, media de cocción de células de dopamina (n = 29); medio, medio dLight (n = 10); abajo, voltamperometrían = 6), normalizado al pico de respuesta de luz de latencia corta. Paneles izquierdos, latencias <1 s, derecho, latencias> 2 s. Los datos están alineados en Light-on (sólido) o Center-in (punteado); línea discontinua roja, latencia media. Para latencias más largas, no hay un aumento en el disparo cerca de Center-in, pero la dLight y la voltamperometría muestran un marcado aumento. e, Diagrama de dispersión que compara las señales de pico alineadas en Light-on (y eje) o Center-in (x eje). Para cada celda, las líneas conectadas a la sesión indican datos para distintos rangos de latencia (<1 s,> 2 s). La descarga de dopamina (arriba) muestra consistentemente la respuesta Light-on para ensayos de latencia corta (análisis de varianza de dos vías (ANOVA), interacción de alineación × latencia, F = 7.47, P = 0.0008). dLight (medio), las señales de voltamperometría (abajo) están consistentemente mejor alineadas con Center-in (ANOVA de dos vías para dLight: interacción de alineación × latencia, F = 9.28, P = 0.0043). f, La dopamina aumenta durante la aproximación, cuantificada como ángulo de rampa (ver Métodos). Los círculos indican células de dopamina individuales (n = 29), sesiones dLight (n = 10).

También vimos claros aumentos en la liberación de dopamina NAc cuando las ratas se acercaron al puerto de inicio (justo antes de la entrada central) y al puerto de alimentación (justo antes de la entrada de alimentación). Esto encaja bien con la extensa literatura de voltamperometría que muestra que los comportamientos de enfoque motivados están acompañados por aumentos rápidos en la dopamina central de NAc5,7,8,9,10,11. Sin embargo, la población de células de dopamina VTA-1 no mostró un aumento correspondiente en el disparo en estos momentos (Fig. 4a; ver datos ampliados Fig. 7 para comparaciones adicionales, incluidas las células que no contienen dopamina).

Para disociar mejor la actividad de dopamina evocada por señales y la relacionada con el abordaje, separamos los ensayos por latencias cortas (<1 s) y largas (> 2 s) (Fig. 4d, e). Los aumentos en el disparo de células de dopamina se bloquearon de forma consistente al inicio de la señal en Light-on, preferentemente para ensayos de corta latencia. Todas las células de dopamina 25 con aumentos significativos en la velocidad de disparo después de Light-on se alinearon mejor con Light-on que con Center-in (Fig. 4e). Por el contrario, los aumentos en la liberación de dopamina NAc antes del inicio del centro fueron diferentes de la liberación de dopamina evocada por el cue (Fig. 4d, e). Las señales de dLight aumentaron constantemente antes del inicio del centro en los ensayos de larga latencia (diez de cada diez sesiones) y antes del ingreso de alimentos (nueve de cada diez sesiones), sin aumentos correspondientes en el disparo de dopamina (Fig. 4f).

Finalmente, consideramos cómo las señales de dopamina relacionadas con eventos dependen del historial de recompensas reciente. Durante la primera parte de cada prueba, la activación de las células de dopamina no dependía de la tasa de recompensa (Fig. 5a), a pesar de la influencia de la tasa de recompensa en la motivación (Fig. 5b). Posteriormente, la respuesta fásica a la señal de recompensa en Side-in fue confiablemente más fuerte cuando la tasa de recompensa fue más baja (Fig. 5a), consistente con la codificación RPE positiva. Cuando se omitió esta señal de recompensa, las células de dopamina detuvieron la activación, aunque la codificación de RPE negativos fue mucho más débil o ausente, ya sea que se examinara a nivel de la población (la Fig. 5a, b) o como celdas individuales (Datos extendidos Fig. 8). Se ha propuesto anteriormente que los RPE negativos se codifican en la duración de las pausas de dopamina.31, pero esto se observó en solo 2 de las 29 neuronas individuales. Se obtuvieron resultados similares si la expectativa de recompensa se estimó de otras formas, incluidos modelos de aprendizaje por refuerzo basados ​​en pruebas (actor-crítico y Q-learning) o simplemente contando las recompensas recientes (Datos extendidos, Fig. 8).

Fig. 5: el historial de Recompensas afecta la activación de células de dopamina VTA y la liberación de dopamina NAc de manera diferente.
figure5

aMáxima, promedios de cocción de las células de dopamina (n = 29) alineado con Side-in, desglosado por tasa de recompensa (terciles, calculados por separado para cada celda). Antes de Side-in, la actividad no depende de la expectativa de recompensa. Después de Side-in, los ensayos con recompensa (rojo) y sin recompensa (azul) se muestran por separado. La respuesta al clic de la comida es más fuerte cuando la tasa de recompensa es baja, de acuerdo con la codificación de los RPE positivos. Abajo, fracción de células de dopamina individuales con una tasa de activación que varía significativamente con la tasa de recompensa en cada momento (prueba aleatoria, P <0.01, comparaciones múltiples corregidas). Las marcas de verificación en la parte superior indican momentos en los que esta fracción fue significativamente mayor que el azar (binomio, P <0.01). Después de Side-in, solo se prueban las correlaciones negativas, es decir, la posible codificación de RPE. b, Gráficos de regresión para sesiones con células de dopamina registradas, que muestran el efecto del historial de recompensas reciente en la latencia (log-) (superior) y el aumento de dopamina. Los asteriscos indican pesos significativos de regresión (t-prueba, P <0.05). Durante los 0.5 s antes de la señal de Go (mientras que la rata debe mantener un movimiento de nariz firme para que continúe el ensayo), el historial de recompensas no afecta el pico de dopamina (centro). Esto cambia una vez que se revela el resultado (abajo; evaluando el pico o valle de actividad en los 0.5 s después del Side-in), pero solo para las pruebas recompensadas. c, d, Igual que el anterior, a excepción de dLight (normalizado a la respuesta de entrada lateral máxima). La liberación de dopamina aumenta de manera confiable con la tasa de recompensa incluso antes de Side-in.

La liberación de dopamina en Side-in también mostró una codificación clara y transitoria de RPE positivos, pero no de RPE negativos (Fig. 5c, d). Esta respuesta de dLight se retrasó ligeramente y se prolongó en comparación con el disparo, en consonancia con el tiempo necesario para la liberación y la recaptación32, pero se mantuvo como un fenómeno subsegundo. Sin embargo, a diferencia de los disparos, las señales de dLight al principio de cada prueba fueron mayores cuando las pruebas recientes habían sido recompensadas (Fig. 5c), de acuerdo con la codificación de valor. Observamos esta dependencia del historial de recompensas incluso cuando la rata no se movía activamente, pero mantenía un pinchazo de nariz en el puerto central mientras esperaba la señal de Go (Fig. 5d). En general, llegamos a la conclusión de que la liberación de dopamina NAc refleja tanto la respuesta provocada por la señal como la expectativa de recompensa, y que solo la primera puede explicarse bien mediante el disparo de células de dopamina VTA-1.

Discusión

VTA-1 proporciona la fuente predominante de dopamina al núcleo de NAc6,23,24. Las células de dopamina VTA-1, incluidas aquellas que se proyectan al núcleo de NAc, muestran de forma consistente las ráfagas de codificación RPE3,12. Se cree que los estallidos de VTA son particularmente importantes para conducir dopamina NAc32, y de hecho, encontramos que las explosiones de VTA evocadas por el cue fueron emparejadas por la liberación de NAc. Sin embargo, también encontramos patrones relacionados con el valor de la liberación de dopamina NAc que no se generaron al disparar las células de dopamina VTA-1, ya sea en escalas de tiempo largas (tónicas) o cortas (fásicas). Otras subpoblaciones de dopamina pueden llevar señales distintas13,33,34, y no podemos descartar la posibilidad de que la activación de subpoblaciones de células de dopamina no registradas desde aquí produzca dopamina relacionada con el valor en el núcleo de NAc. Sin embargo, nunca se ha informado de la activación relacionada con el valor para ninguna célula de dopamina, en una amplia gama de estudios. Nuestros resultados sugieren que la dinámica de la dopamina NAc se controla de diferentes maneras, en diferentes momentos y para diferentes funciones, y que registrar las células de dopamina es importante pero no suficiente para comprender las señales de dopamina.35.

La liberación de los terminales de dopamina está fuertemente influenciada por los mecanismos locales, sin interferencia36,37,38,39,40. Por ejemplo, la liberación de dopamina NAc es modulada por la amígdala basolateral, incluso cuando se suprime farmacológicamente el aumento de VTA.41,42. Se ha observado durante décadas que el control local de la liberación de dopamina puede lograr funciones distintas de las de la mejora de las células de dopamina.36,43, pero esto no se ha incorporado a las opiniones teóricas de la dopamina. Las distintas subregiones estriadas contribuyen a diferentes tipos de decisiones y pueden influir en su propia liberación de dopamina según sea necesario.44. Queda por determinar cuán localizado puede ser este control de la liberación de dopamina. Una limitación compartida por las 3 formas en que medimos la liberación de dopamina es que todas toman muestras en una escala espacial de al menos 100 µm, mientras que la microscopía in vivo sugiere que la liberación de dopamina puede ser heterogénea a escalas considerablemente más pequeñas.15.

Nuestros resultados no apoyan la existencia de ninguna señal tónica de dopamina por separado que pueda mediar los efectos motivacionales de la dopamina. En cambio, los cambios de dopamina que parecen lentos si se miden lentamente (con microdiálisis) se convierten en fluctuaciones rápidas si se miden rápidamente (con voltametría o dLight). Además, las grabaciones de células de dopamina VTA identificadas por nosotros mismos y otros30 Proporcionar pruebas sólidas contra la idea.29 que los cambios en las células tónicas de dopamina activan los cambios tónicos en la liberación de dopamina. Aunque la activación tónica puede ser alterada por lesiones o manipulaciones farmacológicas.28, no tenemos conocimiento de cambios sostenidos en la tasa de disparo en ninguna tarea de comportamiento. El disparo puede descender en una escala de tiempo de aproximadamente 1 s durante la anticipación de eventos motivacionales relevantes45,46. Sin embargo, esta disminución es lo opuesto a lo que se requeriría para aumentar la liberación de dopamina con la expectativa de recompensa, y en cambio se parece más a una secuencia de errores de predicción negativos transitorios47. Aunque las señales sostenidas que codifican la tasa de recompensa en curso podrían ser computacionalmente útiles30La dopamina, en cambio, proporciona señales de error y valor que fluctúan rápidamente. Sigue siendo posible que las señales sostenidas se calculen en un paso posterior, mediante vías de señalización intracelular corriente abajo de los receptores de dopamina.

Muchos grupos han observado la liberación gradual de dopamina a medida que las ratas se acercan a las recompensas5,7,8,9,10,11, consistente con la codificación de las expectativas de recompensa creciente. Algunos han argumentado que estas rampas de dopamina simplemente reflejan RPE, al suponer que las ratas o bien olvidan rápidamente los valores48 o que tienen un conjunto deformado de representaciones estatales49. Esta última idea no está respaldada por nuestra observación de que la rampa se modula rápidamente de prueba a prueba sobre la base de las expectativas de recompensa actualizadas, y se hace más fuerte dentro de una breve secuencia de recompensas sucesivas, mientras que las respuestas de tipo RPE a las señales se vuelven más débiles (la Fig. 3e). De manera más general, cualquier teoría en la que la dopamina únicamente transmita RPE (señales de aprendizaje) no puede explicar la conexión bien establecida entre la dopamina mesolímbica en curso y la motivación16. El núcleo de NAc no es necesario para respuestas altamente entrenadas a estímulos condicionados, pero es particularmente importante cuando se decide realizar un trabajo que requiere mucho tiempo para obtener recompensas50. La dopamina central de NAc parece proporcionar una señal dinámica esencial de cuánto vale la pena asignar tiempo y esfuerzo para trabajar5,44Aunque esta señal no está presente en el disparo de células de dopamina VTA.

Métodos

Animales

Todos los procedimientos con animales fueron aprobados por los Comités Institucionales de Uso y Cuidado de Animales de la Universidad de Michigan o la Universidad de California en San Francisco. Ratas macho (300-500 g, ya sea de tipo salvaje Long-Evans o TH-Cre+ con un fondo de Long-Evans52) se mantuvieron en un ciclo 12: 12 luz: oscuridad inverso y se probaron durante la fase oscura. Las ratas sufrieron una leve privación de alimentos y recibieron 15 g de comida de rata de laboratorio estándar a diario, además de las recompensas de alimentos obtenidas durante el desempeño de la tarea. No se realizó ningún cálculo previo del tamaño de la muestra. Los investigadores no fueron cegados a la asignación durante los experimentos y la evaluación de resultados.


Comportamiento

El entrenamiento previo y las pruebas se realizaron en cámaras operantes de Med Associates controladas por computadora (25 cm × 30 cm en el punto más ancho) cada una con una pared de cinco orificios en la nariz, como se describió anteriormente5. Las sesiones de tarea de bandido utilizaron los siguientes parámetros: las longitudes de bloque fueron ensayos 35-45, seleccionados al azar para cada bloque; el período de espera antes de que Go cue fuera 500 – 1,500 ms (distribución uniforme); Las probabilidades de recompensa de izquierda-derecha fueron 10, 50 y 90% (para electrofisiología, fotometría, voltametría y ratas de microdiálisis informadas previamente5) o 20, 50 y 80% (ratas de microdiálisis recientemente informadas).

La tasa de recompensa actual se estimó utilizando un integrador de fugas basado en el tiempo53. La tasa de recompensa se incrementó cada vez que se recibía una recompensa, y decayó exponencialmente a una tasa establecida por parámetro τ (el tiempo en s para que la tasa de recompensa disminuya en ~ 63%, es decir, 1 − 1 / e). Para todos los análisis, τ fue seleccionado sobre la base del comportamiento de la rata, maximizando la correlación (negativa) entre la tasa de recompensa y el registro (latencia) en cada sesión. Las correlaciones entre la dopamina del cerebro anterior y la tasa de recompensa no fueron muy sensibles a esta elección de τ (Datos ampliados Fig. 1).

Para clasificar las transiciones de bloque como 'crecientes' o 'decrecientes' en la tasa de recompensa, comparamos la tasa de recompensa promedio del integrador con pérdidas en el último 5 mínimo de un bloque con la tasa de recompensa promedio en el primer minimo de 8 del bloque posterior.

Las ratas utilizadas para electrofisiología y fotometría también realizaron una tarea de aproximación pavloviana, en la misma cámara operante con la luz de la casa encendida durante toda la sesión. Tres señales auditivas (2 kHz, 5 kHz y 9 kHz) se asociaron con diferentes probabilidades de entrega de alimentos (compensadas entre ratas). Las señales se reprodujeron como un tren de pips de tono (100 ms activados, 50 ms desactivados) durante una duración total de 2.6 segundos seguidos de un período de retardo de 500 ms. Las señales y las entregas de recompensas imprevistas se entregaron en orden pseudoaleatorio con un intervalo variable entre ensayos (15-30 s, distribución uniforme).


Microdiálisis

La cirugía

Las ratas se implantaron bilateralmente con cánulas de guía (CMA, 830 9024) en la corteza y el cuerpo estriado. Un grupo (n = 8) recibieron una cánula guía dirigida a la corteza preliminar e infralímbica (anteroposterior (AP) +3.2 mm, mediolateral (ML) 0.6 mm en relación con el bregma; y dorsoventral (DV) 1.4 mm por debajo de la superficie del cerebro) y otra dirigida al cuerpo estriado dorsomedial y al núcleo accumbens en el hemisferio opuesto (AP +1.3, ML 1.9 y DV 3.4). Ambos implantes se colocaron en un ángulo de 5 grados entre sí a lo largo del plano rostral-caudal. Un segundo grupo (n = 4) recibieron una cánula guía dirigida a la corteza cingulada anterior (AP +1.6, ML 0.8 y DV 0.8) y otra dirigida a accumbens (núcleo / caparazón en el hemisferio opuesto en AP +1.6, ML 1.4 y DV 5.5 (n = 2) o AP +1.6, ML 1.9 y DV 5.7 (n = 2). Los lados del implante se compensaron en ratas. Se dejó que los animales se recuperaran durante una semana antes de volver a entrenarlos.

Productos químicos

El agua, el metanol y el acetonitrilo para las fases móviles eran de calidad Burdick & Jackson HPLC, adquiridos de VWR (Radnor). Todos los demás productos químicos se compraron a Sigma Aldrich a menos que se indique lo contrario. El líquido cefalorraquídeo artificial (aCSF) comprendía NaCl 145 mM, KCl 2.68 mM, CaCl 1.40 mM2, 1.01 mM MgSO4, 1.55 mM Na2HPO4 y 0.45 mM NaH2PO4, pH ajustado a 7.4 con NaOH. Se añadió ácido ascórbico (concentración final de 250 nM) para reducir la oxidación de los analitos.

Recogida de muestras y HPLC-MS.

El día del ensayo, los animales se colocaron en la cámara operante con la luz de la casa encendida. Las sondas concéntricas de microdiálisis de membrana de poliacrilonitrilo (1-mm que dializan la membrana AN69; Hospal) se insertaron bilateralmente en la cánula guía y se perfundieron continuamente (Chemyx, Fusion 400) con aCSF a 2 µl / min para 90 min para permitir el equilibrio. Después de la recolección de la línea de base de 5-min, la luz del hogar se extinguió, indicando al animal la disponibilidad de la tarea del bandido. La recolección de muestras continuó a intervalos 1-min y las muestras se derivaron de inmediato54 con 1.5 µl de carbonato de sodio, 100 mM; 1.5 µl de cloruro de benzoílo (2% (v / v) de cloruro de benzoílo en acetonitrilo); y 1.5 µl de mezcla de patrón interno marcada isotópicamente diluida en acetonitrilo al 50% (v / v) que contiene ácido sulfúrico al 1% (v / v) y enriquecida con ACh deuterada y colina (isótopos C / D / N) hasta una concentración final de 20 Nuevo Méjico. La recolección de series de muestras alternó entre las dos sondas a intervalos de 30 s en cada una de las 26 sesiones, excepto en una sesión en la que una membrana rota resultó en solo una serie (51 series de muestras en total). Las muestras se analizaron usando sistemas Thermo Scientific UHPLC (Accela o Vanquish Horizon interconectados con un espectrómetro de masas de triple cuadrupolo Quantum Ultra equipado con una sonda HESI II ESI), operando en monitoreo de reacción múltiple. Se inyectaron muestras de cinco microlitros en una columna de HPLC Phenomenex core-shell bifenil Kinetex (2.1 mm x 100 mm). La fase móvil A era formiato de amonio 10 mM con ácido fórmico al 0.15% y la fase móvil B era acetonitrilo. La fase móvil se administró con un gradiente de elución a 450 µl / min como sigue: inicial, 0% de B; 0.01 min, 19% de B; 1 min, 26% de B; 1.5 min, 75% de B; 2.5 min, 100% de B; 3 min, 100% de B; 3.1 min, 5% de B; y 3.5 min, 5% B. Se utilizó Thermo Xcalibur QuanBrowser (Thermo Fisher Scientific) para procesar e integrar picos automáticamente. Cada uno de los> 100,000 picos se inspeccionó visualmente de forma individual para garantizar una integración adecuada.

Analisis

Todos los datos de concentración neuroquímica se suavizaron con una media móvil de tres puntos (y′ = [0.25 × (y−1) + 0.5y + 0.25 × (y+ 1)]) y z-puntuación normalizada dentro de cada sesión para facilitar las comparaciones entre sesiones. Para cada región objetivo, se generó un correlograma cruzado para cada sesión y se trazó el promedio de las sesiones. Se generaron límites de confianza del uno por ciento para cada subparcela al mezclar una serie de tiempo 100,000 veces y generar una distribución de coeficientes de correlación para cada sesión. Se generaron múltiples modelos de regresión utilizando la función de regresión en MATLAB, con el neuroquímico como variable de resultado y las métricas de comportamiento como predictores. Los coeficientes de regresión se determinaron significativos en tres niveles alfa (0.05, 0.0005 y 0.000005), después de la corrección de Bonferroni para comparaciones múltiples (alfa / (21 sustancias químicas × 7 regiones × 9 regresores de comportamiento)). Para el análisis de las transiciones de bloques, los datos se agruparon en épocas de 3 minutos, descartando la muestra que incluía el tiempo de transición.


Electrofisiología

Ratasn = 25) se implantaron con optrodes manejables diseñados a medida, cada uno de los cuales constaba de 16 tetrodos (construidos con alambre de nicromo de 12.5 µm, Sandvik) pegados al costado de una fibra óptica de 200 µm y extendiéndose hasta 500 µm por debajo de la punta de la fibra. Durante la misma cirugía, inyectamos 1 µl de AAV2 / 5-EF1a-DIO-ChR2 (H134R) -EYFP en el VTA lateral (AP 5.6, ML 0.8, DV 7.5) o en el núcleo NAc (AP 1.6, ML 1.6, DV 6.4) . Se muestrearon señales cerebrales de banda ancha (1–9,000 30,000 Hz) (80 XNUMX muestras por s) utilizando escenarios digitales Intan. Los optrodes se bajaron al menos XNUMX µm al final de cada sesión de grabación. Las unidades individuales se aislaron fuera de línea mediante una implementación de MATLAB de MountainSort55 seguido de una cuidadosa inspección manual.

Clasificación

Para identificar si una unidad VTA-1 aislada era dopaminérgica (TH+), utilizamos la prueba de latencia asociada al estímulo.56. En resumen, al final de cada sesión experimental, conectamos el optrode a un diodo láser y entregamos trenes de pulsos de luz de diferentes anchos y frecuencias. Para que una unidad fuera identificada como sensible a la luz, necesitaba alcanzar el nivel de significación de P <0.001 para trenes de pulsos de 5 ms y 10 ms. También comparamos las formas de onda evocadas por la luz (dentro de los 10 ms del inicio del pulso láser) con promedios de toda la sesión; todas las unidades evocadas por la luz tenían un coeficiente de correlación de Pearson de> 0.9. Se registraron con éxito las neuronas de dopamina de cuatro ratas con infusiones de VTA-657 AAV (IM1, 1002 unidad; IM3, 1003 unidades; IM15, 1037 unidades; IM9, 1078 unidades) y una rata con NAc core AAV (IM-2, 20 unidades) . El ancho de pico se definió como el ancho completo a la mitad del máximo del componente negativo más prominente de la forma de onda de pico alineada y promediada. Las neuronas VTA no marcadas con una tasa de activación de toda la sesión> 200 Hz y un ancho de pico <XNUMX µs se clasificaron como células no dopaminérgicas. Para asegurarnos de que estábamos comparando células de dopamina y no dopaminérgicas dentro de las mismas subregiones, solo analizamos las células no dopaminérgicas registradas durante las sesiones con al menos una célula de dopamina marcada ópticamente.

Analisis

Las ráfagas de picos fueron detectadas por el enfoque convencional '80 / 160 template'57: cada vez que se produce un intervalo entre picos de 80 ms o menos, estos picos y los picos posteriores se consideran parte de una ráfaga hasta que haya un intervalo de 160 ms o más. Para comparar la descarga "tónica" con la tasa de recompensa, se contaron los picos de dopamina en contenedores de 1 minuto. Para examinar cambios más rápidos, se construyeron funciones de densidad de picos convolucionando trenes de picos con un kernel gaussiano con una varianza de 20 ms. Para determinar la rapidez con la que una neurona respondió a una señal dada, usamos bins de 40 ms (deslizándose en pasos de 20 ms) y usamos una prueba de reproducción aleatoria (10,000 aleatorios) para cada bin comparando la tasa de disparo después del inicio de la señal con la tasa de disparo en los 250 ms inmediatamente anteriores a la señal. El primer contenedor en el que la tasa de disparo posterior a la señal fue significativamente (P <0.01, corrigiendo comparaciones múltiples) mayor que el disparo inicial se consideró el tiempo para indicar la respuesta.

La velocidad de disparo máxima se calculó como la velocidad de disparo máxima (suavizada en Gauss) de cada prueba en una ventana de 250-ms después del cohorte para las pruebas recompensadas, y el valle se calculó como la velocidad de disparo mínima en una ventana de 2, comenzando un segundo después de la aproximación para los ensayos no recompensados.

Para calcular un ángulo de rampa durante los comportamientos de aproximación, suavizamos las velocidades de disparo medias con un kernel gaussiano de 50-ms, detectamos el máximo / mínimo de la señal resultante en una ventana de 0.5 antes de cada evento (center-in o food-port-in ) y midió el ángulo con signo que conecta los dos extremos. Para comparar las tasas de disparo en los bloques de recompensa 'alta' y 'baja', para cada sesión se realizó una división mediana de la tasa de recompensa promedio del integrador con pérdidas en cada bloque.


Voltametría y modelo computacional.

Los resultados de voltametría cíclica de escaneo rápido que se muestran aquí reanalizan los datos presentados anteriormente en detalle5. Las estimaciones dentro del ensayo del valor del estado y los errores de predicción de recompensa se calcularon utilizando un modelo de aprendizaje de refuerzo de proceso de decisión semi-Markov, exactamente como se describió anteriormente5.


Fotometría

Utilizamos un enfoque viral para expresar el sensor óptico de dopamina codificado genéticamente dLight15. Bajo anestesia con isoflurano, 1 μl de AAV9-CAG-dLight (1 × 1012 genomas virales por ml; UC Davis vector core) se inyectó lentamente (100 nl / min) (Nanoject III, Drummond) a través de una micropipeta de vidrio de 30 µm en el cuerpo estriado ventral bilateralmente (AP: 1.7 mm, ML: 1.7 mm, DV: -7.0 mm). Durante la misma cirugía, se insertaron fibras ópticas (núcleo de 400 µm, diámetro total de 430 µm) unidas a una férula metálica (dórica) (profundidad objetivo 200 µm más alta que AAV) y se cementaron en su lugar. Los datos se recopilaron> tres semanas después, para permitir la expresión de dLight.

Para la excitación dLight, los LED azul (470 nm) y violeta (405 nm; control) se modularon sinusoidalmente a distintas frecuencias (211 Hz y 531 Hz, respectivamente58). Tanto las señales de excitación como las de emisión pasaron a través de filtros minicubo (dórico) y la fluorescencia en masa se midió con un detector de femtovatios (Newport, modelo 2151) con muestreo a 10 kHz. La demodulación produjo señales separadas de 470 nm (dopamina) y 405 nm (control), que luego se reescalaron entre sí mediante un ajuste de mínimos cuadrados58. Señal de fluorescencia fraccional (dF/F) se definió luego como (470–405_fit) / 405_fit. Para todos los análisis, esta señal se redujo a 50 Hz y se suavizó con un filtro de mediana de cinco puntos. Para la presentación de señales de 470 nm y 405 nm por separado, consulte Datos extendidos Fig. 7.

Los datos de una colocación de fibra óptica se incluyeron en los análisis si la punta de la fibra estaba en NAc, y la respuesta de fluorescencia a al menos una señal de tarea tenía una z-puntaje de> 1. Estos criterios excluyeron una rata y dieron como resultado tres ratas / cuatro ubicaciones (IM1065-izquierda, IM1066-bilateral, IM1089-derecha) para dLight1.1, y cuatro ratas / seis ubicaciones (IM1088-bilateral, IM1105-derecha, IM1106-bilateral, IM1107-derecha) para dLight1.3b. Se obtuvieron resultados similares para dLight1.1 y dLight1.3 (Datos extendidos Fig. 7), por lo que los datos se combinaron.

Para calcular un ángulo de rampa durante los comportamientos de aproximación, detectamos el máximo / mínimo de la señal resultante en una ventana de 0.5 antes de cada evento (centro de entrada o entrada de alimentos) y medimos el ángulo con signo que conecta los dos extremos.


Afinidad y especificidad molecular de dLight1.3b

Las mediciones in vitro se realizaron como se describió anteriormente.15. En resumen, las células HEK293T (ATCC CRL # 1573) se cultivaron y se transfectaron con plásmidos que codifican dlight1.3 impulsado por un promotor de CMV y se lavaron con HBSS (Life Technologies) suplementado con Ca2+ (4mM) y Mg2+ (2 mM) antes de la imagen. La formación de imágenes se realizó utilizando un objetivo a base de aceite 40x en un microscopio confocal Zeiss Observer LSN710 invertido con longitudes de onda de 488 nm / 513 nm (excitación / emisión). Para probar las respuestas de fluorescencia del sensor, se aplicaron neurotransmisores directamente al baño durante la obtención de imágenes de lapso de tiempo, en al menos dos experimentos independientes. Las titulaciones de dopamina y noradrenalina se obtuvieron realizando diluciones en serie diez veces mayores para lograr ocho concentraciones diferentes. Todos los demás neurotransmisores se probaron a tres concentraciones secuenciales (100 nM, 1 µM y 10 µM). Todas las concentraciones de neurotransmisores se obtuvieron mediante dilución a partir de una concentración de stock 1 mM en HBSS, recién preparado. En Fiji se cuantificaron las intensidades de fluorescencia brutas de las imágenes de lapso de tiempo; cada ROI se dibujó manualmente en la membrana de las células individuales. Cambio de pliegue fluorescente (ΔF/F) se calculó como F pico (intensidad de fluorescencia media de cuatro fotogramas) - F basal (intensidad de fluorescencia promediada de cuatro cuadros antes de la adición de ligandos) /F basal. Los gráficos y el análisis estadístico se realizaron con GraphPad Prism 6. Los puntos de datos se analizaron con una curva de unión específica de un sitio ajustada para obtener Kd valores. En las gráficas de caja y bigotes, la caja cubre el rango de 25% a 75% y los bigotes se extienden desde los valores mínimos hasta los valores máximos.


Resumen de informes

Más información sobre el diseño de la investigación está disponible en el Resumen de informes de investigación de la naturaleza vinculado a este documento.

Disponibilidad de datos

El virus AAV.Synapsin.dLight1.3b utilizado en este estudio se ha depositado en Addgene (no. 125560; http://www.addgene.org). Todos los datos estarán disponibles a través del sitio web de intercambio de datos de Collaborative Research in Computational Neuroscience (https://doi.org/110.6080/K0VQ30V9).

Disponibilidad de código

El código MATLAB personalizado está disponible a pedido de JDB

Información Adicional

Nota del editor: Springer Nature permanece neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Referencias

  1. 1.

    Schultz, W., Dayan, P. y Montague, PR Un sustrato neuronal de predicción y recompensa. Ciencias: 275, 1593 – 1599 (1997).

  2. 2.

    Pan, WX, Schmidt, R., Wickens, JR & Hyland, BI Las células de dopamina responden a eventos predichos durante el condicionamiento clásico: evidencia de rastros de elegibilidad en la red de aprendizaje de recompensa. J. Neurosci. 25, 6235 – 6242 (2005).

  3. 3.

    Cohen, JY, Haesler, S., Vong, L., Lowell, BB & Uchida, N.Señales específicas de tipo neuronal para recompensa y castigo en el área tegmental ventral. Naturaleza 482, 85 – 88 (2012).

  4. 4.

    Steinberg, EE et al. Un vínculo causal entre los errores de predicción, las neuronas de dopamina y el aprendizaje. Nat. Neurosci. 16, 966 – 973 (2013).

  5. 5.

    Hamid, AA et al. La dopamina mesolímbica señala el valor del trabajo. Nat. Neurosci. 19, 117 – 126 (2016).

  6. 6.

    Saunders, BT, Richard, JM, Margolis, EB & Janak, PH Las neuronas de dopamina crean estímulos condicionados pavlovianos con propiedades motivacionales definidas por circuitos. Nat. Neurosci. 21, 1072 – 1083 (2018).

  7. 7.

    Phillips, PE, Stuber, GD, Heien, ML, Wightman, RM & Carelli, RM La liberación de dopamina por debajo del segundo promueve la búsqueda de cocaína. Naturaleza 422, 614 – 618 (2003).

  8. 8.

    Roitman, MF, Stuber, GD, Phillips, PE, Wightman, RM & Carelli, RM La dopamina opera como un modulador de subsegundos de la búsqueda de alimentos. J. Neurosci. 24, 1265 – 1271 (2004).

  9. 9.

    Wassum, KM, Ostlund, SB & Maidment, NT La señalización de dopamina mesolímbica fásica precede y predice el desempeño de una tarea de secuencia de acción autoiniciada. Biol. Psiquiatría 71, 846 – 854 (2012).

  10. 10.

    Howe, MW, Tierney, PL, Sandberg, SG, Phillips, PE y Graybiel, AM La señalización prolongada de dopamina en el cuerpo estriado indica proximidad y valor de recompensas distantes. Naturaleza 500, 575 – 579 (2013).

  11. 11.

    Syed, EC et al. La iniciación de acciones da forma a la codificación de dopamina mesolímbica de recompensas futuras. Nat. Neurosci. 19, 34 – 36 (2016).

  12. 12.

    Morris, G., Nevet, A., Arkadir, D., Vaadia, E. y Bergman, H. Las neuronas de dopamina del cerebro medio codifican decisiones para acciones futuras. Nat. Neurosci. 9, 1057 – 1063 (2006).

  13. 13.

    da Silva, JA, Tecuapetla, F., Paixão, V. & Costa, RM La actividad de la neurona dopamina antes de la iniciación de la acción abre y vigoriza los movimientos futuros. Naturaleza 554, 244 – 248 (2018).

  14. 14.

    Fiorillo, CD, Tobler, PN y Schultz, W. Codificación discreta de la probabilidad de recompensa y la incertidumbre por las neuronas de dopamina. Ciencias: 299, 1898 – 1902 (2003).

  15. 15.

    Patriarchi, T., Cho, JR, Merten, K., Howe, MW, y otros. Imágenes neuronales ultrarrápidas de la dinámica de la dopamina con sensores diseñados codificados genéticamente. Ciencias: 360, eaat4422 (2018).

  16. 16.

    Salamone, JD & Correa, M. Las misteriosas funciones motivacionales de la dopamina mesolímbica. Neurona 76, 470 – 485 (2012).

  17. 17.

    Schultz, W. Señal de recompensa predictiva de las neuronas de dopamina. J. neurofisiol. 80, 1 – 27 (1998).

  18. 18.

    Garris, PA & Wightman, RM Diferentes cinéticas gobiernan la transmisión dopaminérgica en la amígdala, la corteza prefrontal y el cuerpo estriado: un estudio voltamétrico in vivo. J. Neurosci. 14, 442 – 450 (1994).

  19. 19.

    Frank, MJ, Doll, BB, Oas-Terpstra, J. y Moreno, F. Los genes dopaminérgicos prefrontales y estriatales predicen diferencias individuales en la exploración y explotación. Nat. Neurosci. 12, 1062 – 1068 (2009).

  20. 20.

    St Onge, JR, Ahn, S., Phillips, AG & Floresco, SB Fluctuaciones dinámicas en el flujo de dopamina en la corteza prefrontal y el núcleo accumbens durante la toma de decisiones basada en el riesgo. J. Neurosci. 32, 16880 – 16891 (2012).

  21. 21.

    Bartra, O., McGuire, JT & Kable, JW El sistema de valoración: un metanálisis basado en coordenadas de experimentos BOLD fMRI que examinan los correlatos neuronales de valor subjetivo. Neuroimagen 76, 412 – 427 (2013).

  22. 22.

    Ikemoto, S. Circuito de recompensa de dopamina: dos sistemas de proyección desde el cerebro medio ventral al complejo de tubérculo olfatorio del núcleo accumbens. Brain Res. Brain Res. Rdo. 56, 27 – 78 (2007).

  23. 23.

    Breton, JM et al. Contribuciones relativas y mapeo de la dopamina del área tegmental ventral y neuronas GABA por objetivo de proyección en la rata. J. comp. Neurol. (2018).

  24. 24.

    A menos que, MA, Magill, PJ & Bolam, JP Inhibición uniforme de las neuronas de dopamina en el área tegmental ventral por estímulos aversivos. Ciencias: 303, 2040 – 2042 (2004).

  25. 25.

    Morales, M. & Margolis, EB Área tegmental ventral: heterogeneidad celular, conectividad y comportamiento. Nat. Rev. Neurosci. 18, 73 – 85 (2017).

  26. 26.

    Morris, G., Arkadir, D., Nevet, A., Vaadia, E. y Bergman, H. Mensajes coincidentes pero distintos de la dopamina del mesencéfalo y las neuronas tónicamente activas del estriado. Neurona 43, 133 – 143 (2004).

  27. 27.

    Floresco, SB, West, AR, Ash, B., Moore, H. y Grace, AA La modulación aferente de la activación de las neuronas de dopamina regula diferencialmente la transmisión de dopamina tónica y fásica. Nat. Neurosci. 6, 968 – 973 (2003).

  28. 28.

    Grace, AA Disregulación del sistema de dopamina en la fisiopatología de la esquizofrenia y la depresión. Nat. Rev. Neurosci. 17, 524 – 532 (2016).

  29. 29.

    Cohen, JY, Amoroso, MW & Uchida, N. Las neuronas serotoninérgicas señalan recompensa y castigo en múltiples escalas de tiempo. ELIFE 4, e06346 (2015).

  30. 30.

    Niv, Y., Daw, N. & Dayan, P. Qué tan rápido se trabaja: respuesta vigorosa, motivación y tónico dopamina. Adv. Neural Inf. Proceso. Syst. 18, 1019 (2006).

  31. 31.

    Bayer, HM, Lau, B. & Glimcher, PW Estadísticas de trenes de picos de neuronas de dopamina del mesencéfalo en primates despiertos. J. neurofisiol. 98, 1428 – 1439 (2007).

  32. 32.

    Chergui, K., Suaud-Chagny, MF & Gonon, F. Relación no lineal entre el flujo de impulsos, la liberación de dopamina y la eliminación de dopamina en el cerebro de rata in vivo. Neurociencia 62, 641 – 645 (1994).

  33. 33.

    Parker, NF et al. La codificación de recompensa y elección en terminales de neuronas de dopamina del cerebro medio depende del objetivo estriado. Nat. Neurosci. 19, 845 – 854 (2016).

  34. 34.

    Menegas, W., Babayan, BM, Uchida, N. y Watabe-Uchida, M. Inicialización opuesta a nuevas señales en la señalización de dopamina en el estriado ventral y posterior en ratones. ELIFE 6, e21886 (2017).

  35. 35.

    Trulson, ME Registro simultáneo de neuronas de sustancia negra y liberación voltamétrica de dopamina en el caudado de los gatos que se comportan. Brain Res. Toro. 15, 221 – 223 (1985).

  36. 36.

    Glowinski, J., Chéramy, A., Romo, R. y Barbeito, L. Regulación presináptica de la transmisión dopaminérgica en el cuerpo estriado. Célula. Mol. Neurobiol. 8, 7 – 17 (1988).

  37. 37.

    Zhou, FM, Liang, Y. & Dani, JA La actividad colinérgica nicotínica endógena regula la liberación de dopamina en el cuerpo estriado. Nat. Neurosci. 4, 1224 – 1229 (2001).

  38. 38.

    Threlfell, S. et al. La liberación de dopamina estriatal se desencadena por la actividad sincronizada en las interneuronas colinérgicas. Neurona 75, 58 – 64 (2012).

  39. 39.

    Cachope, R. et al. La activación selectiva de las interneuronas colinérgicas mejora la liberación de dopamina fásica accumbal: establece el tono para el procesamiento de recompensa. Cell Reports 2, 33 – 41 (2012).

  40. 40.

    Sulzer, D., Cragg, SJ & Rice, ME Neurotransmisión de dopamina estriatal: regulación de la liberación y absorción. Ganglios basales 6, 123 – 148 (2016).

  41. 41.

    Floresco, SB, Yang, CR, Phillips, AG & Blaha, CD La estimulación de la amígdala basolateral evoca un flujo de salida de dopamina dependiente del receptor de glutamato en el núcleo accumbens de la rata anestesiada. EUR. J. Neurosci. 10, 1241 – 1251 (1998).

  42. 42.

    Jones, JL et al. La amígdala basolateral modula la liberación terminal de dopamina en el núcleo accumbens y la respuesta condicionada. Biol. Psiquiatría 67, 737 – 744 (2010).

  43. 43.

    Schultz, W. Respuestas de las neuronas de la dopamina del cerebro medio al estímulo del comportamiento en el mono. J. neurofisiol. 56, 1439 – 1461 (1986).

  44. 44.

    Berke, JD ¿Qué significa la dopamina? Nat. Neurosci. 21, 787 – 793 (2018).

  45. 45.

    Bromberg-Martin, ES, Matsumoto, M. & Hikosaka, O. Actividad anticipatoria tónica y fásica distinta en neuronas de habénula lateral y dopamina. Neurona 67, 144 – 155 (2010).

  46. 46.

    Pasquereau, B. & Turner, RS Las neuronas de dopamina codifican errores en la predicción de la ocurrencia de desencadenantes de movimiento. J. neurofisiol. 113, 1110 – 1123 (2015).

  47. 47.

    Fiorillo, CD, Newsome, WT & Schultz, W. La precisión temporal de la predicción de recompensa en neuronas de dopamina. Nat. Neurosci. 11, 966 – 973 (2008).

  48. 48.

    Morita, K. & Kato, A. La rampa de dopamina estriatal puede indicar un aprendizaje de refuerzo flexible con olvido en los circuitos de los ganglios cortico-basales. Frente. Circuitos neuronales 8, 36 (2014).

  49. 49.

    Gershman, SJ Las rampas de dopamina son una consecuencia de los errores de predicción de recompensa. Computación neural. 26, 467 – 471 (2014).

  50. 50.

    Nicola, SM La hipótesis del enfoque flexible: la unificación del esfuerzo y las hipótesis de respuesta para el papel del núcleo accumbens dopamina en la activación del comportamiento de búsqueda de recompensa. J. Neurosci. 30, 16585 – 16600 (2010).

  51. 51.

    Paxinos, G. y Watson, C. El cerebro de rata en coordenadas estereotáxicas 5th edn (Elsevier Academic, 2005).

  52. 52.

    Witten, IB et al. Líneas de ratas impulsoras de recombinasa: herramientas, técnicas y aplicación optogenética al refuerzo mediado por dopamina. Neurona 72, 721 – 733 (2011).

  53. 53.

    Sugrue, LP, Corrado, GS & Newsome, WT Comportamiento de emparejamiento y representación del valor en la corteza parietal. Ciencias: 304, 1782 – 1787 (2004).

  54. 54.

    Wong, JM et al. Derivatización de cloruro de benzoilo con cromatografía líquida-espectrometría de masas para metabolómica dirigida de neuroquímicos en muestras biológicas. J. Chromatogr. UNA 1446, 78 – 90 (2016).

  55. 55.

    Chung, JE et al. Un enfoque totalmente automatizado para la clasificación de picos. Neurona 95, 1381 – 1394 (2017).

  56. 56.

    Kvitsiani, D. et al. Distintos comportamientos y redes se correlacionan con dos tipos de interneuronas en la corteza prefrontal. Naturaleza 498, 363 – 366 (2013).

  57. 57.

    Grace, AA y Bunney, BS El control del patrón de disparo en neuronas de dopamina nigral: disparo por ráfagas. J. Neurosci. 4, 2877 – 2890 (1984).

  58. 58.

    Lerner, TN et al. Los análisis cerebrales intactos revelan información distintiva que llevan los subcircuitos de dopamina SNc. Celular 162, 635 – 647 (2015).

Descargar referencias

Agradecimientos

Agradecemos a P. Dayan, H. Fields, L. Frank, C. Donaghue y T. Faust por sus comentarios sobre una versión anterior del manuscrito, y a V. Hetrick, R. Hashim y T. Davidson por su asistencia técnica y asesoramiento. Este trabajo fue apoyado por el Instituto Nacional sobre el Abuso de Drogas, el Instituto Nacional de Salud Mental, el Instituto Nacional de Trastornos Neurológicos y Accidentes Cerebrovasculares, la Universidad de Michigan, Ann Arbor y la Universidad de California, San Francisco.

Información del revisor

Naturaleza agradece a Margaret Rice y a los otros revisores anónimos por su contribución a la revisión por pares de este trabajo.

Información del autor

AM realizó y analizó la electrofisiología y la fotometría, y aplicó el modelo computacional. JRP realizó y analizó la microdiálisis con la asistencia de J.-MTW y la supervisión por RTKAAH desarrolló la tarea de comportamiento y la configuración inicial de la fotometría, y realizó la voltimetría. LTV realizó seguimiento y análisis retrógrado. TP y LT desarrollaron el sensor dLight y compartieron experiencia. JDB diseñó y supervisó el estudio y escribió el manuscrito.

Conflicto de intereses

Los autores declaran no tener conflictos de intereses.

Correspondencia a Joshua D. Berke.