El costo de obtener recompensas mejora la señal de error de predicción de recompensa de las neuronas de dopamina del cerebro medio (2019)

Resumen

Se sabe que las neuronas de dopamina del mesencéfalo codifican errores de predicción de recompensa (RPE) utilizados para actualizar las predicciones de valor. Aquí, examinamos si las señales de RPE codificadas por las neuronas de dopamina del mesencéfalo están moduladas por el costo pagado para obtener recompensas, mediante el registro de las neuronas de dopamina en monos que se despiertan durante la realización de una tarea saccade. Las respuestas de las neuronas de dopamina a las señales que predicen la recompensa y a la entrega de recompensas aumentaron después de la realización de una acción costosa en comparación con una acción menos costosa, lo que sugiere que los RPE se mejoran después de la realización de una acción costosa. A nivel de comportamiento, las asociaciones de estímulo-recompensa se aprenden más rápido después de realizar una acción costosa en comparación con una acción menos costosa. Por lo tanto, la información sobre el costo de acción se procesa en el sistema de recompensa de dopamina de una manera que amplifica la siguiente señal de dopamina RPE, que a su vez promueve un aprendizaje más rápido en situaciones de alto costo.

Introducción

Los humanos y los animales prefieren una recompensa recibida después de hacer un gran esfuerzo para obtenerla en comparación con la misma recompensa después de una cantidad menor de esfuerzo.1,2,3. Se han planteado una serie de explicaciones para este efecto, como la justificación del esfuerzo.4,5 y el efecto de contraste6, en el que se atribuye un mayor valor a un resultado obtenido después del esfuerzo pagado. Sin embargo, no queda claro si el procesamiento de la información de recompensa en el cerebro está modulado por el esfuerzo realizado para obtener una recompensa.

Nos centramos específicamente en el sistema de dopamina del mesencéfalo, dado el papel de este sistema en la promoción de la adaptación conductual a las recompensas.7,8,9. Se sabe que las neuronas de dopamina representan señales de error de predicción de recompensa (RPE) que pueden facilitar el aprendizaje de las predicciones de recompensa por los ganglios basales10,11,12,13,14,15,16,17. La fuerza del RPE depende de la cantidad, calidad y valor subjetivo o utilidad de la recompensa.7,18,19,20,21. Además, la actividad dopaminérgica está modulada por los costos y / o el esfuerzo.22,23. Sobre esta base, postulamos que la señal dopaminérgica de RPE estaría directamente modulada por el costo pagado para obtener una recompensa. Además, debido a que la señal RPE está causalmente involucrada en la mediación del aprendizaje de las asociaciones de estímulo-recompensa.24,25,26, planteamos la hipótesis de que el costo pagado para obtener la recompensa aumentaría directamente la velocidad de aprendizaje de las asociaciones de estímulo-recompensa.

Para probar nuestras hipótesis, medimos tanto el comportamiento como la actividad dopaminérgica en dos monos japoneses mientras realizaban una tarea de esfuerzo basada en la sacada. Los monos reaccionan más rápido a una señal de predicción de recompensa que se presenta después de una acción de alto costo (HC) en comparación con eso después de una acción de bajo costo (LC). La actividad de las neuronas dopaminérgicas a las señales de predicción de recompensa se incrementa por el costo pagado. Además, la velocidad de aprendizaje de la asociación estímulo-recompensa también se ve reforzada por el costo pagado. Por lo tanto, sugerimos que el costo pagado para obtener recompensas aumenta la señal de RPE en las neuronas de dopamina y, por lo tanto, mejora las asociaciones de estímulo-recompensa.

Resultados

Tarea saccade de costo alto-bajo (HLC)

Para examinar el efecto del costo pagado en el comportamiento y en la actividad de la neurona dopamina, los monos realizaron una tarea saccade con dos condiciones de costo (Fig. 1a, ver Métodos). En las pruebas de HC, los monos rápidamente hicieron una sacada al objetivo y mantuvieron la mirada fija en él sin parpadear durante un período más largo (Fig. 1b; líneas verdes). En contraste, en los ensayos de LC, los monos miraron alrededor libremente al principio antes de fijarlos por un período más corto (Fig. 1b, líneas moradas). Debido a que mantener una fijación larga es difícil para los monos, cometieron más errores durante los retrasos en los ensayos de HC (Fig. 1c) Para controlar la diferencia consiguiente en la probabilidad de recompensa entre los ensayos de HC y los ensayos de LC, insertamos abortos forzados en una parte de los ensayos de LC para igualar las tasas de éxito y las probabilidades de recompensa entre los tipos de ensayos (Fig. 1d).

figure1

Tarea saccade HLC. a La tarea sacádica de HLC. Las señales de costo (señal C) indicaron la cantidad de esfuerzo que se requería para lograr una recompensa potencial. Se requirió una fijación prolongada durante el período de demora en los ensayos de alto costo. La señal de recompensa (señal R) indica si los monos podrían obtener una recompensa o no. b El curso temporal del ángulo de la mirada durante el período de retraso. Los paneles superior e inferior muestran los ángulos de mirada horizontal y vertical, respectivamente. Las líneas verdes y moradas indican el ángulo de la mirada en los ensayos de alto costo (ensayos 50 en cada panel) y en los ensayos de bajo costo (ensayos 50 en cada panel), respectivamente. c El número de errores durante el período de retraso en las pruebas de alto costo y bajo costo (**P< 0.01; emparejado de dos colas t prueba; t67 = 8.8 P = 4.8 × 10-15, n = 68 para Monkey P; t83 = 26.6 P ≈ 0, n = 84 para Monkey S). Los círculos negros y las barras de error indican la media y el SEM. d Tasas de éxito en los ensayos de alto costo y bajo costo (emparejado de dos colas t prueba; t67 = 0.51 P = 0.61 n = 68 para Monkey P; t83 = 0.79 P = 0.43 n = 84 para Monkey S). e RT a las señales de costo (**P <0.01; emparejado de dos colas t prueba; t67 = 20.4 P ≈ 0, n = 68 para Monkey P; t69 = 2.0 P = 1.2 × 10-3, n = 70 para Monkey S). f RT a las señales de recompensa (**P <0.01; emparejado de dos colas t prueba; Mono P (n = 68): HC + frente a LC +, t67 = 3.5 P = 9.2 × 10-4; HC− vs. LC−, t67 = 24.5 P ≈ 0; HC + frente a HC−, t67 = 21.6 P ≈ 0; LC + frente a LC−, t67 = 28.5 P ≈ 0; Mono S (n = 70): HC + frente a LC +, t69 = 5.6 P = 4.4 × 10-7; HC− vs. LC−, t69 = 4.8 P = 8.4 × 10-5; HC + vs. HC−, t69 = 18.0 P ≈ 0; LC + frente a LC−, t69 = 5.9 P = 1.1 × 10-7)

El costo pagado aumenta el valor de las señales de predicción de recompensas

Para obtener evidencia implícita de una diferencia en la valoración subjetiva de las señales del mono, probamos los tiempos de reacción (RT) de los monos. En particular, anticipamos que si los monos asignan un valor subjetivo más alto a una opción que a otra, deben mostrar RT más rápidos para la opción más valorada27. Cuando se compararon las RT entre las señales de costo, ambos monos mostraron RT más rápidas a la LC en comparación con la señal HC (Fig. 1e), demostrando una preferencia implícita por la condición LC. Cuando se compararon las RT entre las señales de recompensa, ambos monos mostraron RT más rápidas para las señales de recompensa (R +) que las señales de no recompensa (R−) (Fig. 1f), lo que indica que preferían las señales R + a las R−. Además, ambos monos mostraron RTs más rápidos a la RHC+ cue comparado con el RLC+ cue y a la RHC- señal en comparación con la RLC- señal (Fig. 1f), lo que indica que valoraron más las señales de predicción de recompensa en el HC en comparación con la condición de LC.

Además, incluimos ensayos de elección en la tarea saccade HLC para evaluar las preferencias abiertas de los monos entre las señales (Fig. Suplementaria. 1a) Los monos eligieron preferentemente la señal LC cuando eligieron entre las señales de costo (Fig. Suplementaria. 1b) El mono S eligió preferentemente el RHC+ cue al realizar la tarea de elección entre RHC+ y RLC+ cue, pero sin preferencia entre RHC- y RLC- señales (Fig. Suplementaria 1c, d) Por el contrario, el mono P no mostró preferencia abierta entre RHC+ y RLC+ señales, pero sin embargo prefirió la RHC- señal al elegir entre RHC- y RLC- señales (Fig. Suplementaria 1c, d).

Resultados electrofisiológicos en la tarea saccade HLC

Registramos la actividad de una sola unidad de neuronas ubicadas dentro de la sustancia negra pars compacta (SNc) y el área tegmental ventral (VTA) durante la tarea saccade HLC. Identificamos neuronas de dopamina 70 en los dos monos (Fig. Suplementaria. 2a; Neuronas 18 y 52 de Monkey P y S, respectivamente). El examen histológico confirmó que las neuronas estaban ubicadas dentro o alrededor del SNc / VTA (Fig. Suplementaria. 2b).

En la Fig. 2, mostramos la actividad de una neurona dopamina representativa. Esta neurona mostró una activación modesta a la señal LC, y activación o supresión fásica a la recompensa (RHC+ y RLC+) o sin señales de recompensa (RHC- y RLC-), respectivamente (Fig. 2, Fig. Suplementaria 3) La neurona también mostró activación fásica a la recompensa impredecible, así como supresión fásica en respuesta a un estímulo aversivo, un soplo de aire impredecible (Fig. 2, panel derecho). Además, la neurona mostró una modesta supresión de la señal de inicio, pero no respondió a la entrega de recompensas. Toda la población de neuronas de dopamina que registramos mostró respuestas similares a la señal de inicio y entrega de recompensa (Fig. Suplementaria. 4a, b) En la tarea saccade de HLC, se pagó un costo de esfuerzo antes de obtener la recompensa. Debido a que el costo previsto redujo la actividad de la neurona dopamina22,23, las respuestas de las neuronas de dopamina se suprimirían en el momento de la presentación de la señal de inicio16.

figure2

Actividad de una neurona dopamina representativa en la tarea saccade HLC. Las funciones de densidad de picos (convolucionadas con una función gaussiana) y los gráficos de trama están alineados con el tiempo de inicio de la señal de inicio, la señal de costo (C), el objetivo de fijación, la señal de recompensa (R cue) y el pitido. Cada color representa una condición (amarillo: HC +, verde: HC−, rosa: LC +, cian: LC−), respectivamente. Los tiempos del inicio de la sacada están indicados por cruces grises. Las respuestas de las neuronas de dopamina a la recompensa imprevisible o al soplo de aire también se representan en el panel derecho (rojo: recompensa impredecible, azul: soplo de aire impredecible)

Las neuronas de dopamina codifican información sobre recompensa y costo

Las neuronas respondieron de manera gradual a la señal LC, pero de manera menos robusta a la señal HC (Fig. 3a, b) Las respuestas evocadas a las señales de condición de costo exhibieron una respuesta más pequeña a la señal HC que la señal LC (prueba de rango con signo de Wilcoxon de dos colas, P <3.2 × 10-4, n = 70). Cuantificamos el efecto del costo previsto en las respuestas neuronales mediante un análisis de características operativas del receptor (ROC). La distribución del área bajo la curva ROC (auROC) fue significativamente <0.5 (Fig. 3c; prueba de rango con signo de Wilcoxon de dos colas; P = 5.4 × 10-4, n = 70), lo que indica que las respuestas de las señales de HC fueron más pequeñas que las de las señales de LC. Se ha descubierto anteriormente que el costo previsto reduce la actividad de las neuronas de dopamina, de acuerdo con nuestros resultados22,23. Además, la población de neuronas de dopamina exhibió una activación significativa a la señal de LC sin mostrar una supresión significativa de las señales de HC (Fig. Suplementaria. 4c, d) Estos resultados sugieren que las neuronas de dopamina codifican e integran información sobre la recompensa y el costo en el momento de la presentación de la señal de costo.

figure3

La neurona de dopamina responde a las señales de costo. a Una respuesta representativa de la neurona de dopamina a las señales de costo. Las funciones de densidad de los picos se calcularon a partir de la actividad normalizada de una neurona de dopamina registrada en el mono P. Las líneas coloreadas indican las funciones de densidad de los picos y los puntos de colores indican la sincronización del pico. Los colores verde y morado indican actividad en las pruebas de alto costo y bajo costo, respectivamente. La línea vertical indica el momento de la presentación de la indicación de costos. El área de color gris indica el período para calcular la tasa de disparo como respuesta a las señales de condición. b Actividad promediada por la población de las neuronas de dopamina registradas del mono P a las señales de condición. Las líneas continuas las líneas discontinuas representan la media y SEM, respectivamente. c La distribución de las áreas bajo los ROC para cuantificar el efecto del costo predicho en la respuesta neuronal a la señal de costo. Los cuadrados rellenos y los círculos abiertos indican datos de los monos P y S, respectivamente. La punta de flecha indica la mediana del auROC (0.47). d, g Respuestas representativas del valor motivacional tipo neurona de dopamina (d) o la neurona dopamina de tipo prominente (g) a la recompensa impredecible o al soplo de aire. Las curvas rojas y azules indican la respuesta a la recompensa impredecible y al soplo de aire impredecible, respectivamente. La línea vertical indica el momento de la recompensa impredecible o la entrega de soplo de aire. Los cuadrados rojo y azul pálido indican el período para calcular la velocidad de disparo como la respuesta a la recompensa imprevisible o al soplo de aire. e, h Actividad promediada por la población de neuronas de dopamina de tipo motivacional (e) o neuronas de dopamina de tipo prominente (h) a la recompensa impredecible o al soplo de aire. f, i La distribución de los auROC calculada a partir del valor motivacional tipo neuronas de dopamina (f) o neuronas de dopamina de tipo prominente (i) Las puntas de flecha indican las medianas de los auROCs (f 0.48; i 0.46).

Se han descrito previamente dos subtipos distintos de neuronas de dopamina: valor motivacional y neuronas sobresalientes28,29. Encontramos evidencia en nuestra población de neuronas de dopamina de patrones de respuesta consistentes con ambos subtipos. Las neuronas de tipo valor mostraron supresión fásica a los estímulos aórticos aversivos (Fig. 3d, e) Por el contrario, las neuronas prominentes mostraron una activación fásica en los estímulos aversivos (Fig. 3g, h) La larga fijación en el ensayo de HC también es desagradable y aversiva; por lo tanto, es posible que los dos subtipos de neuronas de dopamina muestren patrones de respuesta diferentes a las señales de la condición de costo. Si las neuronas de dopamina representan estímulos aversivos y cuestan de manera similar, entonces las neuronas de valor deberían mostrar una actividad disminuida en la señal de HC debido a su aversión. Por otro lado, las neuronas prominentes deberían aumentar en actividad a la señal de HC porque también aumentan a estímulos desagradables. Sin embargo, las respuestas evocadas de ambos tipos de neuronas fueron más pequeñas que la señal HC en comparación con la señal LC (prueba de rango con signo de Wilcoxon de dos colas; P = 0.021 n = 41 y P = 0.0044 n = 29 para el valor y los tipos de prominencia, respectivamente), y el análisis ROC mostró respuestas más pequeñas a la HC en comparación con la señal LC en ambos subtipos (Fig. 3f, i; prueba de rango con signo de Wilcoxon de dos colas; P = 0.030 n = 41 y P = 0.0058 n = 29 para el valor y los tipos de prominencia, respectivamente). Por tanto, el coste previsto redujo la actividad en ambos subtipos de neuronas de dopamina. Estos resultados indican que la información de costos es procesada por las neuronas de dopamina de una manera cualitativamente diferente a los estímulos aversivos.

En la tarea sacádica de HLC, insertamos un aborto forzado en una parte de las pruebas de LC para igualar las tasas de éxito y la probabilidad de recompensa entre los tipos de prueba. Esta manipulación aumentó la incertidumbre de obtener recompensa o el riesgo de no recibir recompensa en la condición de LC. Por lo tanto, la mayor actividad de las neuronas de dopamina y la mayor valoración de los monos para el LC sobre la señal de HC podrían deberse a la diferencia en el riesgo o la incertidumbre entre las condiciones de costo. Sin embargo, no encontramos ninguna relación entre el número de abortos forzados y la diferencia en los RT (Fig. 5a, b), y encontramos una correlación positiva entre el número de abortos forzados y el auROC (Fig. suplementaria. 5c) También comparamos las respuestas de dopamina a las señales de costo después de abortos versus después de ensayos correctos, pero no encontramos diferencias en ambas condiciones de costo (Fig. Suplementaria. 5d) Estos resultados indican que el número de abortos forzados en la condición de LC no explica el aumento en la valoración o la activación dopaminérgica mejorada a la señal de LC.

Aumento de las respuestas de dopamina a la señal de recompensa por costo pagado

Se encontró que las neuronas de dopamina registradas mostraban activación y supresión fásicas para recompensar y sin señales de predicción de recompensa, respectivamente (Fig. 2) Luego, evaluamos si estas respuestas fueron moduladas por el costo incurrido previamente. Un ejemplo de una neurona representativa y neuronas promediadas por la población que exhiben una activación mayor a la RHC+ señal que la RLC+ cue se muestran en la Figura 4a y b, respectivamente. (prueba de rango con signo de Wilcoxon de dos colas; P = 7.4 × 10-5, n = 70). La distribución de auROC fue> 0.5, lo que indica que la respuesta a la RHC+ cue era más grande que la RLC+ cue (Fig. 4c; prueba de rango con signo de Wilcoxon de dos colas; P = 1.4 × 10-4, n = 70). Estos resultados indican que la respuesta a la señal que predice la recompensa en la condición de HC es significativamente mayor que en la condición de LC. Por lo tanto, nuestros hallazgos sugieren que la señal de RPE positiva representada por las neuronas de dopamina aumenta por el costo incurrido anteriormente.

figure4

La neurona de dopamina responde a las señales de recompensa. a Un ejemplo de respuesta neuronal a las señales R +. Las funciones de densidad de espiga se calcularon a partir de la actividad de la neurona de dopamina registrada en el mono P. Las líneas y puntos coloreados indican la densidad de espiga y el tiempo de espiga, respectivamente. Los colores amarillo y rosa indican actividad en los ensayos de alto y bajo costo, respectivamente. La línea vertical indica el tiempo de la presentación de cue R +. El área de color gris indica el período para calcular la tasa de disparo como respuesta a las señales de recompensa. b Actividad promediada de la población de las neuronas de dopamina registradas desde el mono P hasta las señales R +. Las líneas continuas y las líneas discontinuas representan la media y el SEM, respectivamente. c La distribución de los auROCs para cuantificar el efecto del costo pagado en la respuesta neuronal a las señales de R +. Los cuadrados rellenos y los círculos abiertos indican datos de los monos P y S, respectivamente. La punta de flecha indica la mediana de los auROCs (0.53). d Una respuesta representativa a las pistas R. Los colores verde y cian indican ensayos de alto y bajo costo, respectivamente. La línea vertical indica el tiempo de la presentación R-cue. e Actividad promediada por la población de las neuronas de dopamina registradas desde el mono P hasta las señales R. f La distribución de los auROCs para cuantificar el efecto del costo pagado en la respuesta neuronal a las señales R. La punta de flecha indica la mediana del auROC (0.50)

Las neuronas de dopamina también mostraron supresión fásica de las señales R (Fig. 4d, e) Sin embargo, las respuestas de las neuronas de dopamina a las señales R no mostraron una diferencia significativa en función del costo incurrido (prueba de rango con signo de Wilcoxon de dos colas; P = 0.25 n = 70), y el análisis ROC no reveló ninguna evidencia de sesgo en la distribución de la respuesta (Fig. 4f; Prueba de rango firmado de Wilcoxon, P = 0.35; n = 70). Por lo tanto, el costo pagado no se reflejó en la señal de RPE negativa provocada por las señales que no predicen la recompensa. Esto puede deberse a un efecto suelo: la actividad espontánea de la neurona dopaminérgica es baja (alrededor de 5 Hz); y, en consecuencia, puede que no haya un rango dinámico suficiente para codificar adecuadamente cualquier diferencia en el costo gastado para la respuesta negativa del RPE (Fig. 4d, e).

También examinamos el efecto del costo pagado en las señales de recompensa para las neuronas de dopamina de tipo de valor y prominencia por separado, pero ambos tipos de neuronas de dopamina mostraron un patrón de respuesta similar (Fig. Suplementaria. 6a – h) Por lo tanto, el costo pagado manifiesta un efecto similar en la respuesta a las señales de recompensa en las neuronas de dopamina tanto de valor como de importancia.

Las duraciones reales de fijación de los monos no fueron constantes, sino que variaron de una prueba por prueba (Fig. 1b) Por lo tanto, era posible que las respuestas de dopamina a las señales de recompensa se modularan por las duraciones de fijación reales de una prueba por prueba. Sin embargo, no pudimos encontrar ninguna correlación significativa entre ellos para cada condición de costo y recompensa (Fig. Suplementaria. 7anuncio). Además, los RT a la señal de recompensa también fueron modulados por el costo y las condiciones de recompensa (Fig. 1f) Una posibilidad es que las respuestas de las neuronas de dopamina podrían explicarse por los RT a las señales de recompensa ensayo por ensayo. Sin embargo, no pudimos encontrar ninguna correlación significativa entre las RT y las respuestas normalizadas de dopamina a las señales de recompensa (Fig. Suplementaria. 7e – h). Estos resultados sugieren que las respuestas de dopamina son independientes de las RT y las duraciones de fijación en cada ensayo, pero moduladas por la cantidad de costo requerido y la recompensa esperada que se fijan para cada tipo de ensayos.

Además, también es posible que los abortos forzados en la condición de LC generen tanto las preferencias de los monos como la activación mejorada de las neuronas de dopamina a la señal de recompensa en la condición de HC. Si es así, el número de abortos forzados debe estar relacionado tanto con la preferencia como con el grado de activación mejorada. Sin embargo, el número de abortos forzados no tuvo efectos ni en la preferencia de los monos ni en la activación de las neuronas de dopamina a las señales de recompensa (Fig. Suplementaria. 8) Por lo tanto, RTs más rápidas y respuestas DA más altas a la RHC+ señal que la RLC+ cue no se debe a los abortos forzados insertados en la condición LC.

El costo incurrido aumenta las respuestas de dopamina a la entrega de recompensas

La respuesta de las neuronas de dopamina a las señales R + debe originarse en la respuesta a la recompensa misma, porque las neuronas de dopamina alteran su respuesta a las señales de predicción de recompensa en relación con la asociación estímulo-recompensa.8,30. Por lo tanto, esperábamos que las neuronas de dopamina mostraran una mejora de respuesta dependiente del costo pagado para recompensar la entrega. Para medir la actividad de la neurona dopamina en la entrega de recompensas, los monos realizaron la tarea incierta de HLC con dos nuevas señales de recompensa (Fig. 5a) Debido a que las recompensas se entregaron en solo la mitad de las presentaciones de señales de recompensa, las señales de recompensa no predijeron de manera confiable ni diferencial la entrega de recompensas. Esto se hizo para maximizar la capacidad de respuesta de las neuronas de dopamina a la recepción de una recompensa (imprevista), a fin de aumentar nuestra sensibilidad para detectar una modulación en la capacidad de respuesta de las neuronas en función del costo gastado.

figure5

HLC tarea incierta. a La tarea incierta de HLC. En esta tarea, se utilizaron señales de recompensa inciertas, en las cuales las recompensas se entregaron 50% del tiempo, independientemente de la señal presentada. b RT a las señales de costo en los ensayos de alto y bajo costo. Solo el mono P mostró una RT más rápida a la señal LC que la señal HC (**P <0.01; emparejado de dos colas t prueba; t4 = 9.0 P = 8.5 × 10-4, n = 5 para mono P; t18 = 1.4 P = 0.19 n = 19 para mono S). Los círculos negros y las barras de error indican la media y el SEM. c RT a las señales de recompensa en los ensayos de alto costo y bajo costo. No hubo diferencia en los RT para las señales de recompensa entre la condición de alto costo y de bajo costo (emparejado de dos colas t prueba; t4 = 0.97 P = 0.39 n = 5 para mono P; t18 = 0.99 P = 0.39 n = 19 para mono S)

Cuando se compararon las RT entre las señales de costo, el mono P mostró una RT más rápida a la señal LC que la señal HC (Fig. 5b) No hubo diferencia en RTs a las señales de recompensa entre la condición HC y LC en ninguno de los monos (Fig. 5c).

En la tarea incierta de HLC, las neuronas de dopamina mostraron una activación moderada a la señal de LC pero no respondieron a las señales de recompensa porque no eran predictivas de recompensa (Fig. 6a) En toda la población, las respuestas evocadas fueron menores a la señal de HC que LC (Fig. 6b; prueba de rango con signo de Wilcoxon de dos colas; P = 2.7 × 10-3, n = 19), y los análisis ROC mostraron respuestas más pequeñas a la señal de HC (Fig. 6c; prueba de rango con signo de Wilcoxon de dos colas; P = 5.5 × 10-3, n = 19). La respuesta neuronal a la entrega de recompensa en la condición de HC fue mayor que la LC (Fig. 6d; prueba de rango con signo de Wilcoxon de dos colas; P = 0.036 n = 19). La distribución de auROC fue> 0.5, lo que indica una respuesta de entrega de recompensa mayor en los ensayos de HC en comparación con los ensayos de LC (Fig. 6e; prueba de rango con signo de Wilcoxon de dos colas; P = 0.049 n = 19). Estos resultados indican que la respuesta de entrega de recompensa mejora en la prueba de HC y que el costo pagado aumenta la señal de RPE positiva en la entrega de recompensa.

figure6

Respuesta de la neurona dopamina a la entrega de recompensas. a Actividad representativa de la neurona dopamina en la tarea incierta de HLC. Cada color representa las condiciones (amarillo: HC +, verde: HC−, rosa: LC +, cian: LC−). Los tiempos del inicio de la sacada están indicados por cruces grises. Las respuestas de esta neurona de dopamina a la recompensa impredecible y al soplo de aire también se muestran en el panel derecho (rojo: recompensa impredecible, azul: soplo de aire impredecible). b Actividad promedio de población de las neuronas de dopamina registradas desde el mono S hasta las señales de condición. Los colores verde y morado indican actividad en las pruebas de alto costo y bajo costo, respectivamente. Las líneas continuas y las líneas discontinuas representan la media y el SEM, respectivamente. El área de color gris indica la ventana de tiempo para calcular la tasa de disparo como respuesta a las señales de condición. c La distribución de los auROCs para cuantificar el efecto del costo predicho en la respuesta neuronal a las señales de costo. Los cuadrados rellenos indican los datos del mono P (n = 3) y los círculos abiertos indican los datos del mono S (n = 16). La punta de flecha indica la mediana del auROC (0.44). d Actividad promediada por la población de las neuronas de dopamina registradas desde el mono S hasta la entrega de recompensas. Los colores amarillo y rosa indican actividad en los ensayos de alto y bajo costo, respectivamente. El área de color gris indica la ventana de tiempo para calcular la tasa de disparo como respuesta a la entrega de recompensas. e La distribución de los auROCs para cuantificar el efecto del costo pagado en la respuesta neuronal a la entrega de recompensas. La punta de flecha indica la mediana del auROC (0.55)

Además, comparamos las respuestas de dopamina después de la ausencia de una recompensa. Los auROC no mostraron una distribución sesgada, lo que indica que el costo pagado no tuvo efecto sobre los RPE negativos en el momento del resultado (Fig. Suplementaria. 9a) Las neuronas de dopamina no mostraron diferencias entre las respuestas a la RHC Y RLC señales (Fig. suplementaria 9b).

El costo incurrido mejora la velocidad de aprendizaje

Dado que los RPE para recompensar la entrega aumentan con el costo pagado, bajo la hipótesis de que los RPE están directamente involucrados en la mediación del aprendizaje de estímulo-recompensa, esperábamos que los RPE mejorados se reflejaran en el comportamiento de aprendizaje a través de una mayor velocidad de aprendizaje.24. Para evaluar el efecto del costo pagado en el aprendizaje, los monos realizaron la tarea de exploración HLC (Fig. 7a; ver Métodos). En esta tarea, se presentaron dos señales de recompensa (R + y R−) simultáneamente y los monos tuvieron que elegir una. Igualamos las tasas de éxito y la probabilidad de recompensa entre los tipos de prueba (emparejado de dos colas t prueba; t48 = 0.15 P = 0.89 n = 49 para mono P; t85 = 1.2 P = 0.25 n = 86 para mono S). Cuando se compararon los RT para las señales de costo, ambos monos mostraron RT más rápidos para la señal LC que la señal HC (Fig. 7b; emparejado de dos colas t prueba; t48 = 12.9 P ≈ 0, n = 49 para mono P; t85 = 3.4 P = 9.4 × 10-4, n = 86 para mono S). Al comparar los RT con las señales de recompensa, el mono S mostró RT más rápidos en la condición HC que en LC (Fig. 7c; emparejado de dos colas t prueba; t48 = 1.3 P = 0.19 n = 49 para mono P; t85 = 2.8 P = 6.8 × 10-3, n = 86 para mono S). Al comparar los RT durante la primera y la segunda mitad de la sesión de aprendizaje por separado, los RT a la señal LC fueron más rápidos que a la señal HC durante la primera (Fig. Complementaria. 10a) y la segunda mitad de la sesión (Fig. suplementaria. 10c) Por el contrario, las RT del mono S a la señal de recompensa en la condición HC fueron más rápidas que en la condición LC solo durante la segunda mitad de la sesión (Fig. Suplementaria. 10d) pero no la primera mitad (Fig. suplementaria. 10b).

figure7

Tarea de exploración HLC. a La tarea de exploración HLC. En esta tarea, los monos tuvieron que elegir entre R + y R-cues, que se generaron aleatoriamente en cada sesión de aprendizaje. Si eligen la señal R +, podrían obtener una recompensa y si eligen la señal R + no obtendrían una recompensa. b RT a las señales de costo en los ensayos de alto y bajo costo. Los monos mostraron RT más rápidos a la señal de bajo costo (**P< 0.01; emparejado de dos colas t prueba). Los círculos negros y las barras de error indican media y SEM. c RT a las señales de recompensa en los ensayos de alto costo y bajo costo. El mono S mostró RT más rápidas a las señales de recompensa en la condición de alto costo

En la tarea de exploración HLC, se generaron señales de recompensa al azar en cada sesión de aprendizaje. Por lo tanto, los monos tuvieron que aprender la relación entre las señales de recompensa y las recompensas en cada sesión. A medida que las pruebas progresaban dentro de una sesión, los monos elegían señales de R + con más frecuencia en cada condición de costo (Fig. 8a) Para cuantificar la velocidad de aprendizaje, ajustamos una función exponencial acumulativa a los datos, incorporando dos parámetros libres, a y b, indicando la inclinación de la curva y la meseta, respectivamente (Fig. suplementaria. 11a, b) La relación de registro entre los parámetros de inclinación (log aHC/aLC) fue significativamente mayor que cero, lo que indica un parámetro de inclinación mayor en HC que en los ensayos de LC (Fig. 8b; dos colas t prueba; t48 = 2.1 P = 0.042, media = 0.58, n = 49 para mono P; t85 = 2.5 P = 0.013, media = 0.19, n = 86 para mono S). La relación logarítmica entre los parámetros de meseta (log bHC/bLC), no fue diferente de cero, lo que indica que no hay diferencia entre las condiciones de costo (Fig. 8c; dos colas t prueba; t48 = 0.76 P = 0.45, media = −0.0024, n = 49 para mono P; t85 = 0.56 P = 0.58, media = 0.010, n = 86 para mono S). Estos resultados indican que la velocidad de aprendizaje es más rápida en las pruebas de HC. A continuación, modelamos las curvas de aprendizaje utilizando un modelo de aprendizaje por refuerzo (RL) (ver Métodos). Este modelo incluye parámetros de tasa de aprendizaje (αHC y αLC) y tasas de exploración (βHC y βLC) para ambas condiciones de costo (Fig. suplementaria 11c, d) Al ajustarnos al comportamiento, encontramos que la relación logarítmica entre los parámetros de velocidad de aprendizaje (log αHC/αLC) fue mayor que cero, lo que indica un parámetro de tasa de aprendizaje significativamente mayor en HC que en los ensayos de LC (Fig. 8d; dos colas t prueba; t48 = 2.3 P = 0.026, media = 0.50, n = 49 para mono P; t85 = 2.2 P = 0.034, media = 0.25, n = 86 para mono S) mientras que el parámetro β no mostró diferencia (Fig. 8e; dos colas t prueba; t48 = 0.77 P = 0.44, media = 0.0097, n = 49 para mono P; t85 = 0.64 P = 0.52, media = 0.038, n = 86 para mono S). Aquí, estimamos los parámetros de la tasa de aprendizaje para cada condición de costo (αHC y αLC) por separado para explicar velocidades de aprendizaje más rápidas en la condición de HC. Sin embargo, si las tasas de aprendizaje son idénticas entre las condiciones de costo, la relación entre los parámetros estimados de la tasa de aprendizaje (αHC/αLC) puede considerarse como un valor de amplificación para los RPE en la condición HC. Por lo tanto, estos resultados sugieren que una amplificación de los RPE puede explicar velocidades de aprendizaje más rápidas en la condición de HC.

figure8

Prueba de velocidad de aprendizaje. a Proceso de aprendizaje medio de los monos P y S. La proporción de elecciones de R + se representa en función de la prueba. Los puntos verde y morado indican datos de pruebas de alto y bajo costo, respectivamente. Las líneas punteadas representan un proceso de aprendizaje suavizado. Las funciones exponenciales acumulativas se ajustaron a los puntos de datos y se representaron como líneas continuas. b La relación logarítmica entre los parámetros de ajuste a en las condiciones de alto y bajo costo cuando los datos se ajustaban a una función exponencial acumulativa (*P <0.05; prueba de rango con signo de Wilcoxon de dos colas). Los círculos negros y las barras de error indican la media y el SEM. c La relación logarítmica entre los parámetros de ajuste b en las condiciones de alto y bajo costo cuando los datos se ajustaron con una función exponencial acumulativa. d La relación logarítmica entre el parámetro de tasa de aprendizaje α en las condiciones de alto y bajo costo cuando los datos se ajustaron a un modelo de aprendizaje por refuerzo. e La relación logarítmica entre el parámetro de ajuste β en las condiciones de alto y bajo costo cuando los datos se ajustaban a un modelo de aprendizaje por refuerzo

También tratamos de explicar el proceso de aprendizaje con modelos alternativos de RL que tienen en cuenta la posibilidad de que los monos conozcan la anticorrelación entre estímulos y recompensas en cada ensayo. En esos modelos, el valor de la opción no elegida se actualiza junto con la opción elegida (Fig. Suplementaria. 12) Incluso al aplicar tales modelos alternativos a los datos, el parámetro de tasa de aprendizaje fue significativamente mayor en el HC en comparación con la condición de LC (Fig. Suplementaria. 12b, f) mientras que el parámetro β no mostró diferencia (Fig. suplementaria 12d, h). Por lo tanto, nuestro hallazgo sobre una amplificación de la señal de RPE en la condición de HC es robusto a la forma del modelo RL ajustado a los datos.

Discusión

Investigamos el efecto del costo pagado en el valor de las señales de predicción de recompensa y en las respuestas fásicas de las neuronas de dopamina del cerebro medio. Los monos mostraron una mayor valoración de las señales de predicción de recompensas después de la realización de una acción que incurrió en un costo mayor. Las neuronas de dopamina mostraron mayores respuestas tanto a la señal de predicción de recompensa como a la entrega de recompensa, después de que se haya incurrido en un costo más alto. Además, los monos mostraron velocidades de aprendizaje más rápidas cuando se requirió un costo más alto para obtener la recompensa.

Varios estudios han demostrado que un costo pagado mejora las preferencias para una señal de predicción de recompensas1,2,3. En el presente estudio, los monos mostraron RTs más rápidas a las señales de predicción de recompensa en la condición de HC en comparación con las de la condición de LC, lo que es consistente con la posibilidad de que el valor pagado de la recompensa sea mejorado por el costo pagado27. Una posibilidad alternativa es que el tiempo de fijación más largo asociado con una mayor atención al objetivo saccade en la condición de HC, por lo tanto, reduzca los RT después de una fijación más larga en el ensayo de HC. Sin embargo, no encontramos ninguna diferencia entre los RT y las claves R en los ensayos de HC y LC en la tarea incierta de HLC. Además, en la primera mitad de la sesión de exploración HLC. Las RT de las señales R no fueron significativamente diferentes entre los ensayos de HC y LC. Por lo tanto, estos resultados indican que una fijación más larga no es una explicación probable para los RT más cortos observados en las señales de predicción de recompensas. Además del efecto del costo pagado en las RT de las señales de recompensa, el costo también afectó las RT de las señales que no predicen recompensas, a pesar de que no se entregó ninguna recompensa después de las presentaciones de las señales. Un estudio anterior informó un fenómeno similar, ya que los sujetos de mono mostraron RT más cortos en ensayos sin recompensa cuando se emplearon recompensas más preferidas en los ensayos alternativos dentro de cada bloque30. Una posible interpretación del efecto en ese estudio es que una motivación general más alta para responder en el bloque con RT más afectados por recompensas preferidas también a la señal de no recompensa dentro del bloque. De manera similar, en el presente estudio, la expectativa de una recompensa más valiosa en los ensayos de HC podría haber modulado los RT a la señal de no recompensa en los ensayos de HC en nuestra tarea. Además, el efecto del costo pagado en los RT para las señales de recompensa fue menor que eso para las señales sin predicción de recompensa. Esto es probablemente un artefacto del hecho de que debido a que los monos hicieron una sacada más rápidamente a la RLC+ cue en primer lugar, hay un alcance reducido para detectar un acortamiento de RT a la RHC+ cue. Por lo tanto, la diferencia en RT entre las señales R + sería pequeña como consecuencia.

Los monos también realizaron pruebas de elección entre los RHC Y RLC señales en la tarea HLC. Sin embargo, mientras que el mono S mostró una preferencia por el RHC+ señal a la RLC+ señal, el mono P no mostró tal preferencia. Esta discrepancia podría explicarse por una diferencia contextual entre el saccade HLC y los ensayos de elección. En los ensayos de elección, se presentaron dos señales de predicción de recompensa en lugar de una señal de predicción de recompensa. Además, los monos no obtuvieron recompensa después de su elección, incluso si eligieron la señal de predicción de recompensa, por lo tanto, la prueba de elección se realizó en extinción. El procedimiento de extinción se implementó para garantizar que la elección del mono se basara en lo que se había aprendido en las pruebas de esfuerzo, en lugar de confundirse con un nuevo aprendizaje sobre las pruebas de elección. Sin embargo, este procedimiento puede tener el efecto secundario de que el mono podría aprender rápidamente a reconocer el procedimiento de extinción en el contexto de elección y que no hay razón para elegir los estímulos más preferidos. Sin embargo, uno de los monos mostró una preferencia por la señal de recompensa en la condición de HC.

En el momento de la presentación de una señal que predijo un requisito posterior para pagar un costo, la actividad de las neuronas de dopamina se redujo, de acuerdo con estudios previos.22,23. En nuestro estudio, no observamos una disminución general en la neurona de dopamina que responde a las señales de HC y LC en relación con la línea de base. Esto sugiere que no se produce una señal RPE negativa en ese punto de tiempo a pesar del siguiente costo. La ausencia de RPE negativo presumiblemente refleja la integración de una predicción de recompensa futura que se espera más adelante en el ensayo. Las neuronas de dopamina mostraron una activación significativa en el ensayo de LC y la actividad fue mayor en comparación con el ensayo de HC. Esto sugiere que la información de costos se incorpora a la señal de RPE transportada por las neuronas de dopamina. Por lo tanto, las neuronas de dopamina codifican información de recompensa y costo y la respuesta RPE refleja la suma de costo y recompensa.

Demostramos que la señal RPE representada por las neuronas de dopamina se ve reforzada por el costo pagado en el punto de presentación de la señal de recompensa (en la tarea de HLC saccade) y la entrega de recompensa (en la tarea incierta de HLC). La cantidad objetiva de recompensa entregada en los ensayos HC y LC fue igual; por lo tanto, la modificación de las señales de RPE debe ser causada por un proceso no sensorial. Esta posibilidad es respaldada por varios estudios que indican un efecto contextual sobre las señales de RPE de dopamina consistentes con el procesamiento del valor subjetivo y / o utilidad en las neuronas de dopamina11,19,20,21,31,32,33,34. Si la señal RPE es mayor, esto debería producir una actualización más rápida del valor de referencia, lo que en consecuencia impactaría en la velocidad de aprendizaje de las asociaciones de estímulo-recompensa. Estudios previos han demostrado una modificación de la velocidad de aprendizaje por factores no sensoriales.24,35. En línea con esto, los monos exhibieron velocidades de aprendizaje más rápidas en el HC en relación con la condición de LC. Descubrimos que la velocidad de aprendizaje mejorada por el costo pagado puede explicarse por un modelo RL con un RPE amplificado. Fue difícil separar los efectos del RPE amplificado y la mayor tasa de aprendizaje en nuestros experimentos; sin embargo, encontramos una señal de RPE dopaminérgica amplificada en la condición de HC. Además, un estudio previo de fMRI ha demostrado que el parámetro de velocidad de aprendizaje está representado en la corteza cingulada anterior y que la actividad del VTA no está relacionada con el parámetro de velocidad de aprendizaje en entornos volátiles.36. Por lo tanto, argumentamos que la señal RPE codificada por las neuronas de dopamina se amplifica por el costo pagado, y que el aumento de la señal RPE mejora la velocidad de aprendizaje.

Cuando se generó la señal RPE en el momento de la presentación de la señal de recompensa y la entrega de la recompensa, los monos ya habían pagado el costo. Por lo tanto, un posible mecanismo para la señal RPE mejorada es que una recompensa obtenida después de un HC podría ser más gratificante. Una mayor expectativa de una recompensa más valiosa después de la HC podría aumentar la motivación para terminar la prueba, acortando así la RT a las señales de recompensa en las pruebas de HC.

Otra posible interpretación de nuestros resultados es que el alivio experimentado por la finalización de la acción costosa puede actuar como una recompensa para los monos. Los estudios de resonancia magnética funcional (fMRI) han demostrado que el alivio del dolor puede ser una recompensa para los participantes humanos37,38; por lo tanto, el costo podría jugar un papel similar al de un estímulo aversivo al dolor. Si el alivio del costo es gratificante y esto se refleja en la actividad dopaminérgica, esperaríamos que las neuronas de dopamina respondan al final de la fijación larga, que es el momento de la presentación de la señal de recompensa. Sin embargo, no observamos ninguna diferencia en la actividad dopaminérgica en el momento de las presentaciones de señales de recompensa ni ninguna diferencia en RTs a las señales R entre los ensayos de HC y LC en la tarea incierta de HLC. Por lo tanto, sugerimos que el alivio del costo no proporciona una explicación adecuada del efecto que observamos en las neuronas de dopamina.

Además, las neuronas de dopamina mostraron respuestas cualitativamente diferentes al estímulo aversivo en comparación con la señal de predicción de costos. Una posible explicación para esto es que el costo del esfuerzo fue menos relevante que la bocanada de aire o la recompensa, porque el costo del esfuerzo se extendió temporalmente durante varios segundos a medida que los monos realizaban la fijación y no punteaban. Por lo tanto, las neuronas de dopamina pueden no haber sido activadas a las señales de menor costo. Otra posibilidad es que las neuronas de dopamina de tipo prominente respondan a eventos después de los cuales se indujeron algunos movimientos. Cuando la recompensa o el soplo de aire se entregó a los monos, hacen algunos movimientos como lamer o parpadear. Sin embargo, en la tarea saccade de HLC, los monos tuvieron que mantener su mirada en el objetivo de fijación sin ningún movimiento como costo. En realidad, un estudio reciente mostró que la liberación de dopamina en el núcleo accumbens siguiendo una señal de predicción de recompensa se atenúa a menos que el movimiento se inicie correctamente39. Debido a que el costo en nuestros experimentos no implicó el inicio del movimiento, esto podría resultar en una respuesta inconsistente de neuronas de dopamina de tipo prominente. De cualquier manera, podemos concluir que la información de costos se procesa de manera diferente a la información aversiva.

En conclusión, sugerimos que el costo pagado aumenta el valor de las señales de predicción de recompensa y que esto a su vez aumenta la señal de RPE codificada en las neuronas de dopamina del cerebro medio. Este efecto condujo a una predicción conductual de que la tasa de aprendizaje de los animales mejoraría para las señales de predicción de recompensas después de la experiencia de un HC. Esto es de hecho lo que observamos. Por lo tanto, nuestras observaciones sobre la actividad de las neuronas de dopamina nos llevaron a plantear la hipótesis de la existencia de un efecto conductual, así como un supuesto mecanismo computacional subyacente a este efecto, que posteriormente confirmamos. Por lo tanto, nuestros hallazgos representan un ejemplo de cómo puede ocurrir la triangulación entre las mediciones de datos neuronales, la teoría computacional y el comportamiento: desarrollar una comprensión más profunda del procesamiento neuronal en el cerebro puede proporcionar información sobre el comportamiento y su base computacional subyacente.

Métodos

Animales

Utilizamos dos monos japoneses machos (Macaca fuscata; peso corporal, 6.5 kg = Mono P; peso corporal, 9.0 kg = Mono S). Implantamos un poste en la cabeza en la parte superior del cráneo del mono para poder sujetarlo a una silla en una fecha posterior. También se implantó una cámara de grabación para permitir el montaje de un micromanipulador de electrodos. La cámara de grabación se inclinó 45 ° lateralmente en el plano coronal y se colocó en las coordenadas estereotáxicas: 15 mm anterior al canal externo. Después de un período de recuperación, los monos fueron entrenados para realizar la tarea saccade. Después de completar el entrenamiento, perforamos un agujero a través del cráneo dentro de la cámara de grabación para la inserción del electrodo. Todos los protocolos de cuidado de animales fueron aprobados por el Comité de Experimentación Animal de la Universidad de Tamagawa, y se conformaron con la Guía de los Institutos Nacionales de Salud para el Cuidado y Uso de Animales de Laboratorio.

Tarea de comportamiento

Los monos fueron entrenados para realizar la tarea saccade HLC (Fig. 1a), Tarea incierta HLC (Fig. 5a), y la tarea de exploración HLC (Fig. 7a). Todas las tareas se realizaron en una habitación oscura. Los monos estaban sentados en una silla frente a una de 22 pulgadas. Monitor LCD (S2232W, Eizo) con sus postes de cabeza implantados fijados a la silla. La distancia entre sus ojos y la pantalla era de 70 cm. Cuando se presentó una señal de inicio (círculo blanco, 0.3 ° de diámetro) en el centro de la pantalla, se requirió que el mono mantuviera la mirada fija en la señal. La señal de inicio desapareció después de 750 ms y luego se presentó una señal de costo (estrella y molino de viento para las pruebas HC y LC, respectivamente). Se requirió que los monos se inclinaran hacia la señal de costo durante los 750 ms de presentación de la señal. Si no se inclinaban hacia la señal, la prueba se cancelaba y la misma prueba comenzaba de nuevo. Durante las pruebas de HC, el objetivo de fijación (0.3 ° × 0.3 ° cuadrado blanco) se presentó justo después de la desaparición de la señal de costo durante 2000 ms (sacada de HLC y tareas inciertas de HLC) o 1500 ms (tarea de exploración de HLC) y se requirieron los monos. para inclinarse hacia él y mantener sus miradas en él. Si los monos movían su mirada más allá de una ventana de fijación de 4 ° × 4 °, la tarea se cancelaba. La ventana de fijación se activó 400 ms después de la presentación del punto de fijación porque los monos necesitaban tiempo para prepararse para la sacádica y para ajustar su fijación. Por lo tanto, los monos tuvieron que fijarse durante al menos 1600 ms (sacada de HLC y tareas inciertas de HLC) o 1100 ms (tarea de exploración de HLC) en las pruebas de HC. En las pruebas de LC, se mostró una pantalla en blanco durante 1500 ms (tareas sacádicas de HLC y HLC inciertas) o 1000 ms (tarea de exploración de HLC), y luego apareció el objetivo de fijación durante 500 ms. Debido a que la ventana de fijación se activó 400 ms después de la presentación del punto de fijación, se requirió que los monos se fijaran en el objetivo durante al menos 100 ms en las pruebas de CL. Los monos exhibieron más errores en el ensayo de HC; por lo tanto, se insertó aleatoriamente un aborto forzado 100 ms antes de la presentación de la señal de recompensa (400 ms después de la presentación del objetivo de fijación, que es el momento del inicio de la ventana de fijación) en la prueba de LC para igualar la tasa de éxito. Después de fijarse en el objetivo, se presentaron una o dos señales de recompensa y se pidió a los monos que se inclinaran hacia la señal. Si hicieron con éxito un movimiento sacádico a la señal de recompensa, se emitió un pitido 750 ms después de la presentación de la señal de recompensa. Cuando los monos hicieron un movimiento sacádico a la señal R +, se administraron 0.3 ml de agua al mismo tiempo que el pitido. No se entregó ninguna recompensa cuando hicieron una sacada al taco R−.

En la tarea saccade HLC, se usaron cuatro círculos de colores como señales de recompensa (RHC+: amarillo; RHC-: verde; RLC+: rosa; RLC-: azul; Higo. 1a). Una sesión experimental consistió en 80 ensayos sacádicos, 20 ensayos de recompensa impredecibles, 20 ensayos de bocanadas de aire impredecibles y 5 ensayos de elección. Los ensayos sacádicos, incluyeron 40 ensayos de HC y 40 ensayos de LC, los cuales incluyeron 20 ensayos de recompensa y 20 ensayos sin recompensa. En las pruebas de recompensa impredecible o de soplo de aire, se administraron 0.3 ml de recompensa de agua o 0.2 MPa de soplo de aire (150 ms para el mono P; 200 ms para el mono S) en la cara de los monos sin que se les indicara. Los ensayos de elección incluyeron un ensayo en el que los monos eligieron entre señales R + (RHC+ vs. RLC+) en el ensayo HC, entre pistas R (RHC- vs. RLC-) en el ensayo HC, entre R + (RHC+ vs. RLC+) señales en el ensayo LC, entre R− (RHC- vs. RLC-) señales en el ensayo de LC, y entre las señales de costo (Fig. Suplementaria. 1) En los ensayos con una opción entre las señales de recompensa, la estructura de la tarea era idéntica a la tarea saccade antes de la presentación de la señal de recompensa. Luego, en lugar de presentar una señal de recompensa, se presentaron dos señales de recompensa en los ensayos de elección y no se entregó ninguna recompensa después de la presentación de la señal de recompensa, incluso si los monos eligieron entre las señales de R +.

Para probar la respuesta de las neuronas de dopamina a la entrega de recompensa, los monos realizaron la tarea incierta de HLC (Fig. 5a) Esta tarea fue similar a la tarea saccade de HLC, excepto por las señales de recompensa. En esta tarea, utilizamos dos señales de recompensa (en lugar de las cuatro señales de recompensa utilizadas en la tarea saccade HLC), una para la prueba de HC y la otra para la prueba de LC. La recompensa se entregó en la mitad de los ensayos después de la presentación de la señal de recompensa. Una sesión experimental consistió en pruebas 80 saccade, pruebas de recompensa impredecibles 20 y pruebas de soplo de aire impredecibles 20. Los ensayos saccade incluyeron ensayos 40 HC y ensayos 40 LC, los cuales incluyeron ensayos de recompensa 20 y ensayos sin recompensa 20. En las pruebas impredecibles, se entregó una recompensa o un soplo de aire sin ninguna señal.

En la tarea de exploración HLC, dos señales de recompensa (RHC+, RHC- o RLC+, RLC-) se presentaron simultáneamente y se requirió que los monos se saccadeen a una de las señales de recompensa (Fig. 7a) Si eligieron la señal R +, se les proporcionó una recompensa de agua. Cuatro señales de recompensa (RHC +, RHC-, RLC +, RLC-) se generaron para cada sesión de exploración y se requirió que los monos aprendieran la asociación entre las señales y la recompensa ensayo por ensayo. Una sesión experimental consistió en ensayos 100 HC y ensayos 100 LC. Descubrimos que para la tarea de exploración, si establecemos que la duración de la fijación sea 2000 ms en la condición HC para que coincida con la duración de la condición HC en las otras tareas, los monos realizaron la tarea con una tasa de éxito muy baja, tal vez debido a la dificultad de la tarea y / o la consecuente baja tasa de recompensa. Por lo tanto, para reducir las dificultades de la tarea y aumentar la tasa de éxito, utilizamos una duración de fijación 1500 ms como el costo de la tarea de exploración HLC.

Las tareas se controlaron utilizando un paquete de software disponible comercialmente (TEMPO, Reflective Computing, St. Louis, MO, EE. UU.). Se usó un programa personalizado que usa una interfaz de programación de aplicaciones (OpenGL) para la presentación del estímulo visual. Los estímulos visuales para el costo y las señales de recompensa fueron creados por los autores.

Grabación y adquisición de datos.

La ubicación de la sustancia negra se estimó mediante imágenes de RM. Se insertó un electrodo de tungsteno recubierto de epoxi (diámetro del vástago, 0.25 mm, 0.5 – 1.5 MΩ medido a 1000 Hz, FHC) en la sustancia negra utilizando un micromanipulador (MO-972, Narishige, Tokio, Japón) montado en la cámara de grabación con Un tubo guía inoxidable. Las señales de voltaje se amplificaron (× 10,000) y se filtraron (0.5 – 2 kHz). Los potenciales de acción de una sola neurona se aislaron con un algoritmo de coincidencia de plantilla (OmniPlex, Plexon, Dallas, TX, EE. UU.). El movimiento de los ojos fue monitoreado por un sistema de cámara infrarroja a una frecuencia de muestreo de 500 Hz (iView X Hi-Speed ​​Primate, SMI, Teltow, Alemania). El tiempo de los potenciales de acción y los eventos de comportamiento se registraron con una resolución de tiempo de 1 kHz.

El análisis de datos

Para analizar el comportamiento de los monos, las RT se determinaron como el intervalo de tiempo entre el inicio del estímulo y el momento en que los monos iniciaron la sacada. El inicio de la sesión sacádica se determinó calculando el momento en que la posición de la mirada excedía las desviaciones estándar 5 de la posición media de la mirada antes de la presentación de la señal.

En la tarea de exploración HLC, el comportamiento de elección de los monos se cuantificó ajustando una función exponencial acumulativa. La función (P) describe la proporción de elección correcta de la siguiente manera:

P=12+(12-12exp(-at))b,
(1)

donde t significa juicio, a y b indicar la pendiente y la meseta de la curva, respectivamente. Esta función se ajustó independientemente a los datos para las dos condiciones de costo. Se buscaron los parámetros de la función para maximizar la probabilidad de observar los datos de una sola sesión y los datos promediados. Se aplicó un método bootstrap para estimar los intervalos de confianza al ajustar los datos promediados. También se usó un modelo RL estándar para cuantificar los datos de comportamiento. Los valores de estímulo Vj(t) para la elección seleccionada j (j = 1 para la condición de HC; j = 2 para la condición LC) se actualizaron de la siguiente manera:

Vj(t+1)=Vj(t)+αj(R(t)-Vj(t)),
(2)

donde αj indique las tasas de aprendizaje, que estaban restringidas a valores entre 0 y 1. R(t) indica el monto de la recompensa (1: recompensado, 0: sin recompensa) en el juicio t.

La probabilidad Pj(t) de elegir estímulo j fuera de los dos estímulos en el juicio t está dado por la regla softmax

Pj(t)=exp(Vj(t)βj)/2i=1exp(Vi(t)βi),
(3)

donde βj indica el alcance de la exploración.

Registramos la actividad neuronal durante la sacada de HLC y la tarea incierta de HLC, pero no la tarea de exploración de HLC. La tarea de exploración de HLC se implementó como un estudio puramente conductual. Se identificaron neuronas de dopamina si presentaban cada una de las siguientes propiedades: una tasa de descarga tónica baja (<6 Hz), una duración prolongada de la forma de onda de pico (> 300 μs) y una respuesta fásica a la recompensa impredecible (Fig. 2a) Analizamos ensayos en los que los monos podían completar el ensayo sin ningún error (fijación de frenado, sin saccade o aborto artificial). La tasa media de activación de neuronas se calculó con 1 ms bins y se suavizó con un núcleo gaussiano (σ = 30 ms, ancho = 4σ) para producir funciones de densidad de espigas. Las respuestas de las neuronas de dopamina a cada evento de tarea se calcularon como la velocidad de disparo normalizada en relación con la actividad espontánea (tasa de disparo media durante el 500 ms antes del inicio de la señal de inicio). Las tasas de disparo se calcularon dentro de las ventanas de tiempo determinadas para cada evento de tarea y tema. Estas ventanas de tiempo se determinaron a partir de la actividad promediada por la población. Definimos los puntos de inicio y final de las ventanas de tiempo determinados en función del tiempo de aumento y disminución de la respuesta promediada por la población utilizando estudios previos de dopamina de mono como referencias (Fig. Suplementaria. 3) La ventana de tiempo para la señal de inicio se definió como 200 – 400 ms después del inicio de la señal de inicio para las neuronas registradas de los monos P y S. La ventana de tiempo para la señal de condición se definió como 150 – 300 ms después del inicio de la señal de condición para el mono P y 200 – 400 ms para el mono S. La ventana de tiempo para la señal de recompensa se definió como 140 – 350 ms después del inicio de la señal de recompensa para el mono P y 220 – 420 ms para el mono S. La ventana de tiempo para la entrega de recompensa se definió como 225– 475 ms después del inicio del pitido para el mono P y 200 – 450 ms para el mono S. La ventana de tiempo para la entrega de recompensa impredecible se definió como 100 – 300 ms después de la entrega de la recompensa para el mono P y 150 – 300 ms para el mono S. La ventana de tiempo para el soplo de aire impredecible se definió como 30 – 230 ms después de la entrega del soplo de aire para el mono P y 50 – 200 ms para el mono S.

Clasificamos todas las neuronas de dopamina registradas en dos categorías distintas, valor motivacional y tipos de prominencia. Si la respuesta de una neurona a los estímulos del soplo de aire fue menor que la actividad espontánea, la neurona se clasificó como del tipo de valor motivacional (Fig. 3d, e) Por el contrario, si la respuesta de una neurona a los estímulos de hinchazón de aire era mayor que la actividad espontánea, la neurona se clasificaba como del tipo destacado (Fig. 3g, h).

Para cuantificar la actividad neuronal diferencial entre las condiciones de la tarea, se realizó un análisis ROC. Calculamos el auROC para cada neurona. El auROC menor o mayor que 0.5 indica una respuesta menor o mayor en el ensayo de HC, respectivamente. Debido a que el número de neuronas en algunos conjuntos de datos neuronales era pequeño, utilizamos la prueba de rango con signo de Wilcoxon para reducir el efecto de los valores atípicos para cuantificar la distribución sesgada de los auROC.

Se utilizó el software comercialmente disponible MATLAB (MathWorks, Natick, MA, EE. UU.) Para realizar todos los análisis de datos.

Examen histológico

Después del experimento de grabación, ambos monos fueron sacrificados y se realizó un análisis histológico para verificar la posición de grabación (Fig. Suplementaria. 2b) Los monos fueron sacrificados mediante la administración de una dosis letal de pentobarbital sódico (70 mg kg-1) y perfundido con 4% de formaldehído en tampón fosfato. Las secciones coronales seriales (espesor, 10 μm) se cortaron y se inmunotinaron con anticuerpo anti-tirosina hidroxilasa (TH) (cada sección 25; anticuerpo anti-TH, 1: 500; Merck, Darmstadt, Alemania) o tinción de Nissl (cada sección 25) .

Resumen de informes

Más información sobre el diseño de la investigación está disponible en el Resumen de informes de investigación de la naturaleza vinculado a este artículo.

Disponibilidad de datos

Los datos utilizados en el análisis de este estudio están disponibles del autor correspondiente a solicitud razonable. Un resumen de informes para este artículo está disponible como un archivo de información complementaria. Los datos fuente subyacentes a las Figs. 1, 38 y las Figs suplementarias. 1, 412 se proporcionan como un archivo de datos de origen.

Disponibilidad de código

Los códigos de Matlab utilizados en el análisis de este estudio están disponibles del autor correspondiente a solicitud razonable.

Referencias

  1. 1.

    Clement, TS, Feltus, JR, Kaiser, DH & Zentall, TR “Ética laboral” en palomas: el valor de la recompensa está directamente relacionado con el esfuerzo o tiempo necesario para obtener la recompensa. Psychon. Toro. Rdo. 7, 100 – 106 (2000).

  2. 2.

    Klein, ED, Bhatt, RS & Zentall, TR Contrast y la justificación del esfuerzo. Psychon. Toro. Rdo. 12, 335 – 339 (2005).

  3. 3.

    Zentall, TR & Singer, RA Contraste dentro del ensayo: las palomas prefieren reforzadores condicionados que siguen un evento relativamente más aversivo que uno menos. J. Exp. Anal. Behav. 88, 131 – 149 (2007).

  4. 4.

    Aronson, E. & Mills, J. El efecto de la severidad de la iniciación sobre el gusto por un grupo. J. Abnorm. Soc. Psychol. 59, 177 – 181 (1959).

  5. 5.

    Festinger, L. Una teoría de la disonancia cognitiva. (Stanford University Press, California, 1957).

  6. 6.

    Alessandri, J., Darcheville, JC, Delevoye-Turrell, Y. & Zentall, TR Preferencia por las recompensas que siguen a un mayor esfuerzo y una mayor demora. Aprende Behav. 36, 352 – 358 (2008).

  7. 7.

    Schultz, W., Carelli, RM & Wightman, RM Señales de dopamina fásica: desde el valor de recompensa subjetivo hasta la utilidad económica formal. Curr. Opin. Behav. Sci. 5, 147 – 154 (2015).

  8. 8.

    Schultz, W., Dayan, P. y Montague, PR Un sustrato neuronal de predicción y recompensa. Ciencias: 275, 1593 – 1599 (1997).

  9. 9.

    Bromberg-Martin, ES, Matsumoto, M. & Hikosaka, O. La dopamina en el control motivacional: gratificante, aversivo y alerta. Neurona 68, 815 – 834 (2010).

  10. 10.

    Bayer, HM & Glimcher, PW Las neuronas de dopamina del cerebro medio codifican una señal de error de predicción de recompensa cuantitativa. Neurona 47, 129 – 141 (2005).

  11. 11.

    Nakahara, H., Itoh, H., Kawagoe, R., Takikawa, Y. & Hikosaka, O.Las neuronas de dopamina pueden representar un error de predicción dependiente del contexto. Neurona 41, 269 – 280 (2004).

  12. 12.

    Tobler, PN, Fiorillo, CD y Schultz, W. Codificación adaptativa del valor de recompensa por neuronas de dopamina. Ciencias: 307, 1642 – 1645 (2005).

  13. 13.

    Nomoto, K., Schultz, W., Watanabe, T. y Sakagami, M. Respuestas de dopamina extendidas temporalmente a estímulos predictivos de recompensa perceptivamente exigentes. J. Neurosci. 30, 10692 – 10702 (2010).

  14. 14.

    Watabe-Uchida, M., Zhu, L., Ogawa, SK, Vamanrao, A. & Uchida, N.Mapeo de todo el cerebro de las entradas directas a las neuronas de dopamina del mesencéfalo. Neurona 74, 858 – 873 (2012).

  15. 15.

    Tanaka, SC y col. La predicción de recompensas inmediatas y futuras recluta diferencialmente a los ganglios corticobasales. Nat. Neurosci. 7, 887 – 893 (2004).

  16. 16.

    Haber, SN, Kim, KS, Mailly, P. & Calzavara, R. Las entradas corticales relacionadas con la recompensa definen una gran región estriatal en primates que interactúa con conexiones corticales asociativas, proporcionando un sustrato para el aprendizaje basado en incentivos. J. Neurosci. 26, 8368 – 8376 (2006).

  17. 17.

    Doya, K. Moduladores de la toma de decisiones. Nat. Neurosci. 11, 410 – 416 (2008).

  18. 18.

    Roesch, MR, Calu, DJ & Schoenbaum, G. Las neuronas de dopamina codifican la mejor opción en ratas que deciden entre recompensas de diferente tamaño o retardo. Nat. Neurosci. 10, 1615 – 1624 (2007).

  19. 19.

    Lak, A., Stauffer, WR & Schultz, W. Las respuestas de error de predicción de la dopamina integran el valor subjetivo de diferentes dimensiones de recompensa. Proc. Natl Acad. Sci. Estados Unidos 111, 2343 – 2348 (2014).

  20. 20.

    Stauffer, WR, Lak, A. y Schultz, W. Las respuestas de error de predicción de recompensa de dopamina reflejan la utilidad marginal. Curr. Biol. 24, 2491 – 2500 (2014).

  21. 21.

    Noritake, A., Ninomiya, T. & Isoda, M. Monitoreo y valoración de la recompensa social en el cerebro de los macacos. Nat. Neurosci. 21, 1452 – 1462 (2018).

  22. 22.

    Pasquereau, B. & Turner, RS Codificación limitada del esfuerzo de las neuronas de dopamina en una tarea de compensación de costos y beneficios. J. Neurosci. 33, 8288 – 8300 (2013).

  23. 23.

    Varazzani, C., San-Galli, A., Gilardeau, S. & Bouret, S. Neuronas de noradrenalina y dopamina en la compensación recompensa / esfuerzo: una comparación electrofisiológica directa en monos que se comportan. J. Neurosci. 20, 7866 – 7877 (2015).

  24. 24.

    Watanabe, N., Sakagami, M. y Haruno, M. La señal de error de predicción de recompensa mejorada por la interacción estriado-amígdala explica la aceleración del aprendizaje probabilístico de recompensa por emoción. J. Neurosci. 33, 4487 – 4493 (2013).

  25. 25.

    Di Ciano, P., Cardinal, RN, Cowell, RA, Little, SJ & Everitt, B. Participación diferencial de los receptores NMDA, AMPA / kainato y dopamina en el núcleo del núcleo accumbens en la adquisición y ejecución de la conducta de aproximación pavloviana. J. Neurosci. 21, 9471 – 9477 (2001).

  26. 26.

    Flagel, SB y col. Un papel selectivo para la dopamina en el aprendizaje de estímulo-recompensa. Naturaleza 469, 53 – 57 (2011).

  27. 27.

    Blough, DS Efectos de cebado, discriminabilidad y refuerzo en los componentes del tiempo de reacción de la búsqueda visual de palomas. J. Exp. Psychol. Anim Behav. Proceso. 26, 50 – 63 (2000).

  28. 28.

    Matsumoto, M. y Hikosaka, O. Dos tipos de neuronas dopaminérgicas transmiten señales motivacionales positivas y negativas. Naturaleza 459, 837 – 841 (2009).

  29. 29.

    Matsumoto, M. & Takada, M. Distintas representaciones de señales cognitivas y motivacionales en neuronas dopaminérgicas del mesencéfalo. Neurona 79, 1011 – 1024 (2013).

  30. 30.

    Watanabe, M. y col. Reacciones de comportamiento que reflejan expectativas de recompensa diferencial en monos. Exp. Brain Res. 140, 511 – 518 (2001).

  31. 31.

    Takikawa, Y., Kawagoe, R. & Hikosaka, O. Un posible papel de las neuronas dopaminérgicas del mesencéfalo en la adaptación a corto y largo plazo de los movimientos sacádicos al mapeo de posición-recompensa. J. Neurofisiol. 92, 2520 – 2529 (2004).

  32. 32.

    Kobayashi, S. y Schultz, W. Influencia de los retrasos en la recompensa en las respuestas de las neuronas de dopamina. J. Neurosci. 28, 7837 – 7846 (2008).

  33. 33.

    Enomoto, K. y col. Las neuronas de dopamina aprenden a codificar el valor a largo plazo de múltiples recompensas futuras. Proc. Natl Acad. Sci. Estados Unidos 108, 15462 – 15467 (2011).

  34. 34.

    Lak, A., Nomoto, K., Keramati, M., Sakagami, M. y Kepecs, A. Las neuronas de dopamina del cerebro medio señalan la creencia en la precisión de la elección durante una decisión perceptual. Curr. Biol. 27, 821 – 832 (2017).

  35. 35.

    Williams, BA & McDevitt, MA Inhibición y supercondicionamiento. Psychol. Sci. 13, 454 – 459 (2002).

  36. 36.

    Behrens, TE, Woolrich, MW, Walton, ME & Rushworth, MF Aprendiendo el valor de la información en un mundo incierto. Nat. Neurosci. 10, 1214 – 1221 (2007).

  37. 37.

    Seymour, B. y col. Los procesos neuronales opuestos aversivos y apetitos subyacen al aprendizaje predictivo del alivio del dolor. Nat. Neurosci. 8, 1234 – 1240 (2005).

  38. 38.

    Kim, H., Shimojo, S. y O'Doherty, JP ¿Es gratificante evitar un resultado aversivo? Sustratos neuronales del aprendizaje por evitación en el cerebro humano. PLoS Biol. 4, e233 (2006).

  39. 39.

    Syed, EC et al. La iniciación de acciones da forma a la codificación de dopamina mesolímbica de recompensas futuras. Nat. Neurosci. 19, 34 – 36 (2016).

Descargar referencias

Agradecimientos

Este trabajo fue apoyado por MEXT / JSPS Grants-in-Aid for Scientific Research (Kakenhi) Números de subvención JP16H06571 y JP18H03662 a MS Esta investigación fue parcialmente apoyada por el Programa de Investigación Estratégica para las Ciencias del Cerebro con el apoyo de la Agencia de Investigación y Desarrollo Médico de Japón (AMED ) y el Programa de Cooperación de Investigación Cerebral Japón-Estados Unidos. Esta investigación fue apoyada por el Proyecto Nacional de Bio-Recursos en el Instituto Nacional de Ciencias Fisiológicas (NBRP en NIPS) de la Agencia de Investigación y Desarrollo Médico de Japón, AMED. Agradecemos a Bernard W. Balleine y Andrew R. Delamater por su ayuda en la redacción del documento.

Información del autor

ST, JPO y MS diseñaron los experimentos. ST realizó los experimentos y analizó los datos. JPO y MS refinaron los experimentos y los análisis de datos. ST, JPO y MS escribieron el manuscrito.

Correspondencia a Masamichi Sakagami.