La incertidumbre de la dopamina y el aprendizaje de TD (2005)

COMENTARIOS: Incertidumbre significa novedad. Este complejo estudio confirma que la novedad aumenta la dopamina. También explica que cuanto más incierta es la recompensa, más fuerte es el aprendizaje. La pornografía en Internet es diferente de la pornografía del pasado debido a la novedad infinita, que significa chorros interminables de dopamina. La adicción en su esencia es el aprendizaje y la memoria. Cambiar a un género novedoso de pornografía activa la dopamina y el aprendizaje, debido a la incertidumbre de lo que está a punto de experimentar. La incertidumbre también ocurre cuando los usuarios de pornografía buscan pornografía. No sabes lo que estás a punto de ver y eso aumenta la dopamina.
La novedad, la incertidumbre y la búsqueda de todos activan la dopamina.

Estudio completo: la incertidumbre de la dopamina y el aprendizaje de TD

Comportamiento y funciones cerebrales 2005, 1:6doi:10.1186/1744-9081-1-6

Yael Niv1,2, Michael O Duff2 y Peter Dayan2
Centro Interdisciplinario 1 para Computación Neural, Universidad Hebrea, Jerusalén, Israel
2 Gatsby Unidad de Neurociencia Computacional, University College London, Londres, Reino Unido
La versión electrónica de este artículo es completa y se puede encontrar en línea en: http://www.behavioralandbrainfunctions.com/content/1/1/6
© 2005 Niv et al; licenciatario BioMed Central Ltd.

Resumen

Pruebas sustanciales sugieren que las actividades fásicas de las neuronas dopaminérgicas en el cerebro medio de los primates representan un error de diferencia temporal (DT) en las predicciones de recompensa futura, con aumentos por encima y por debajo del nivel de referencia como consecuencia de errores de predicción positivos y negativos, respectivamente. Sin embargo, las células de dopamina tienen una actividad inicial muy baja, lo que implica que la representación de estos dos tipos de error es asimétrica. Exploramos las implicaciones de esta asimetría aparentemente inocua para la interpretación de los patrones de disparo dopaminérgicos en experimentos con recompensas probabilísticas que producen errores de predicción persistentes. En particular, mostramos que cuando se promedian los errores de predicción no estacionarios en los ensayos, debe aparecer una rampa en la actividad de las neuronas de dopamina, cuya magnitud depende de la velocidad de aprendizaje. Este fenómeno exacto se observó en un experimento reciente, aunque se interpretó allí en términos antípodas como una codificación de incertidumbre dentro del ensayo.

Introducción

Existe una gran cantidad de datos fisiológicos, de imágenes y psicofarmacológicos relacionados con la actividad fásica de las células dopaminérgicas (DA) en los cerebros medios de monos, ratas y humanos en tareas de acondicionamiento clásico e instrumental que incluyen predicciones de recompensas futuras [1-5]. Estos datos se han tomado para sugerir [6,7] que la actividad de las neuronas DA representa errores de diferencia temporal (TD) en las predicciones de recompensa futura [8,9]. Esta teoría TD de la dopamina proporciona una base computacional precisa para comprender una gran cantidad de datos neuronales y de comportamiento. Además, sugiere que el DA proporciona una señal que es teóricamente apropiada para controlar el aprendizaje de las predicciones y las acciones de optimización de recompensa.

Algunas de las pruebas más convincentes a favor de la teoría de la TD provienen de estudios que investigan la activación fásica de las células de dopamina en respuesta a estímulos arbitrarios (como los patrones fractales en un monitor) que predicen la disponibilidad inmediata de recompensas (como las gotas de jugo) . En muchas variantes, estos han demostrado que con el entrenamiento, las señales DA fásicas se transfieren desde el momento de la recompensa inicialmente impredecible hasta el momento de la primera señal que predice una recompensa. Este es exactamente el resultado esperado para un error de predicción basado en la diferencia temporal (por ejemplo, [1,2,10-13]). El hallazgo básico [7] es que cuando una recompensa es inesperada (lo cual es inevitable en los primeros ensayos), las células de dopamina responden fuertemente a ella. Sin embargo, cuando se predice una recompensa, las celdas responden al predictor, y no a la recompensa ahora esperada.

Si una recompensa predicha se omite inesperadamente, entonces las células se inhiben fásicamente en el momento normal de la recompensa, una inhibición que revela el momento preciso de la predicción de la recompensa [10], y cuyas métricas temporales están actualmente bajo el foco de atención forense [14]. El cambio en la actividad del tiempo de la recompensa al tiempo del predictor se asemeja al cambio de la reacción conductual apetitiva del animal desde el momento de la recompensa (el estímulo incondicionado) al del estímulo condicionado en los experimentos de condicionamiento clásico [7,10] .

En un estudio reciente muy interesante, Fiorillo et al. [15] examinó el caso de refuerzo parcial, en el que hay un error de predicción persistente e ineludible en cada ensayo individual. Una interpretación directa de la hipótesis del error de predicción de TD sugeriría que en este caso (a) la actividad de la dopamina en el momento de los estímulos predictivos se escalaría con la probabilidad de recompensa, y (b) en promedio durante los ensayos, la respuesta dopaminérgica después del estímulo y todo el camino hasta el momento de la recompensa, debe ser cero. Aunque la primera hipótesis fue confirmada en los experimentos, la segunda no fue confirmada. Las respuestas promediadas entre los ensayos mostraron una clara rampa de actividad durante el retraso entre el inicio del estímulo y la recompensa que parecía inconsistente con la cuenta de TD. Fiorillo et al. la hipótesis de que esta actividad representa la incertidumbre en la entrega de recompensa, en lugar de un error de predicción.

En este documento, visitamos el tema del error de predicción persistente. Mostramos que una asimetría crucial en la codificación de los errores de predicción positivos y negativos lleva a esperar la rampa en la señal de dopamina promedio entre ensayos. y también da cuenta de dos características adicionales de la señal DA: actividad persistente aparente en el momento de la recompensa (potencial) y desaparición (o al menos debilitamiento) de la señal de rampa, pero no la señal en el momento de la recompensa. Ante la traza en lugar de retrasar el condicionamiento. Ambos fenómenos también se han observado en los experimentos de condicionamiento instrumental relacionados de Morris et al. [16]. Finalmente, interpretamos la señal de rampa como la mejor evidencia disponible en la actualidad sobre la naturaleza del mecanismo de aprendizaje mediante el cual se produce el cambio en la actividad de la dopamina al momento de los estímulos predictivos.

Incertidumbre en la ocurrencia de la recompensa: DA ramping

Fiorillo et al. [15] asoció la presentación de cinco estímulos visuales diferentes a los macacos con la entrega demorada, probabilística (pr = 0, 0.25, 0.5, 0.75, 1) de recompensas de jugo. Utilizaron un paradigma de condicionamiento de demora, en el que el estímulo persiste durante un intervalo fijo de 2 s, y la recompensa se entrega cuando el estímulo desaparece. Después del entrenamiento, el comportamiento de lamido anticipatorio de los monos indicó que eran conscientes de las diferentes probabilidades de recompensa asociadas con cada estímulo.

La Figura 1a muestra histogramas de población de actividad de células DA grabadas extracelularmente, para cada pr. La teoría de TD predice que la activación fásica de las células DA en el momento de los estímulos visuales debe corresponder a la recompensa promedio esperada, y por lo tanto debe aumentar con pr. La figura 1a muestra exactamente esto: de hecho, en toda la población, el aumento es bastante lineal. Morris et al. [16] informa un resultado similar en una tarea de condicionamiento instrumental (traza) que también implica un refuerzo probabilístico.

Figura 1. Errores de predicción promediados en una tarea de recompensa probabilística
(a) Respuesta de DA en ensayos con diferentes probabilidades de recompensa. Los histogramas de tiempo de peri-estímulo poblacional (PSTH) muestran la actividad de picos sumada de varias neuronas DA durante muchos ensayos, para cada pr, agrupados en ensayos recompensados ​​y no recompensados ​​con probabilidades intermedias. (b) Error de predicción de TD con escalado asimétrico. En la tarea simulada, en cada ensayo se eligió aleatoriamente uno de los cinco estímulos y se mostró en el momento t = 5. El estímulo se apagó en t = 25, momento en el que se dio una recompensa con una probabilidad de pr especificada por el estímulo. Usamos una representación de línea de retardo con tapping de los estímulos (ver texto), con cada estímulo representado por un conjunto diferente de unidades ('neuronas'). El error TD fue δ (t) = r (t) + w (t - 1) • x (t) - w (t - 1) • x (t - 1), siendo r (t) la recompensa en el tiempo t yx (t) yw (t) los vectores de estado y peso de la unidad. Se utilizó una regla de aprendizaje estándar de TD en línea con una tasa de aprendizaje fija α, w (t) = w (t - 1) + αδ (t) x (t - 1), por lo que cada peso representaba un valor de recompensa futuro esperado. Al igual que Fiorillo et al., Representamos el error de predicción δ (t) promediado en muchas pruebas, después de que se haya aprendido la tarea. La asimetría de representación surge cuando los valores negativos de δ (t) han sido escalados por d = 1/6 antes de la suma del PSTH simulado, aunque el aprendizaje procede de acuerdo con los errores sin escalar. Finalmente, para tener en cuenta las pequeñas respuestas positivas en el momento del estímulo para pr = 0 y en el momento de la recompensa (predicha) para pr = 1 observada en (a), asumimos una pequeña probabilidad (8%) de que el estímulo predictivo está mal identificado. (c) Respuesta de DA en pr = 0.5 ensayos, separados en ensayos recompensados ​​(izquierda) y no recompensados ​​(derecha). (d) Modelo TD de (c). (a, c) Reproducido con permiso de [15] © 2003 AAAS. Se requiere permiso de AAAS para todos los demás usos.

Por el contrario, en el momento de la entrega de recompensa potencial, la teoría de TD predice que en promedio no debería haber actividad, ya que, en promedio, no hay error de predicción en ese momento. Por supuesto, en el diseño de refuerzo probabilístico (al menos para pr ≠ 0, 1), de hecho, hay un error de predicción en el momento de la entrega o la no entrega de la recompensa en cada prueba individual. En los ensayos en los que se entrega una recompensa, el error de predicción debe ser positivo (ya que la recompensa obtenida es mayor que la recompensa promedio esperada). A la inversa, en los ensayos sin recompensa, debe ser negativo (consulte la Figura 1c). De manera crucial, bajo el TD, el promedio de estas diferencias, ponderado por sus probabilidades de ocurrir, debe ser cero. Si no es cero, entonces este error de predicción debería actuar como una señal de plasticidad, cambiando las predicciones hasta que no haya un error de predicción. En discrepancia con esta expectativa, los datos en la Figura 1a que se promedian tanto en los ensayos premiados como en los no recompensados, muestran que, de hecho, existe una actividad media positiva en este momento. Esto también es evidente en los datos de Morris et al. [16] (ver Figura 3c). Las respuestas positivas de la DA no muestran signos de desaparecer, incluso con una capacitación sustancial (en el transcurso de meses).

Peor que esto para el modelo TD, y de hecho el enfoque de Fiorillo et al. [15], es la rampa aparente de la actividad de DA hacia el tiempo esperado de la recompensa. Como la magnitud de la rampa es mayor para pr = 0.5, Fiorillo et al. sugirió que informa la incertidumbre en la entrega de recompensa, en lugar de un error de predicción, y especuló que esta señal podría explicar las propiedades aparentemente apetitivas de la incertidumbre (como se ve en el juego).

Tanto la actividad de rampa como la actividad en el tiempo esperado de recompensa plantean desafíos críticos para la teoría de TD. El aprendizaje de TD opera organizando la actividad de DA al mismo tiempo en una prueba para que no se vea afectada por las señales disponibles anteriormente en esa prueba. Por lo tanto, no está claro cómo una actividad aparentemente predecible, ya sea que en el momento de la recompensa o en la rampa anterior, puede persistir sin ser predicha por el inicio del estímulo visual. Después de todo, la actividad dependiente de pr en respuesta al estímulo confirma su estado como predictor válido. Además, un aspecto clave de TD [17] es que combina la predicción con la elección de acción utilizando el valor de un estado como una indicación de las recompensas futuras disponibles de ese estado y, por lo tanto, su atractivo como objetivo para la acción. Desde esta perspectiva, dado que la actividad de rampa no se predice explícitamente en la señal anterior, no puede influir en las acciones tempranas, como la decisión de apostar. Por ejemplo, considere una competencia entre dos acciones: una que finalmente conduce a un estado con una recompensa determinista y, por lo tanto, sin rampa, y la otra que conduce a un estado seguido de una recompensa probabilística con la misma media y una rampa. Dado que la rampa no afecta la actividad en el momento del estímulo condicionado, no se puede utilizar para evaluar o favorecer la segunda acción (juego) sobre la primera, a pesar de la incertidumbre adicional.

Sugerimos la hipótesis alternativa de que estos dos patrones de activación anómalos resultan directamente de las restricciones que implica la baja tasa de actividad de las neuronas DA (2 – 4 Hz) en la codificación del error de predicción con signo. Según lo señalado por Fiorillo et al. [15], los errores de predicción positivos están representados por tasas de activación de ~ 270% por encima de la línea de base, mientras que los errores negativos están representados por una disminución de solo ~ 55% por debajo de la línea de base (ver también [14,18]). Esta asimetría es una consecuencia directa de la codificación de una cantidad firmada por disparo que tiene una línea de base baja, aunque, obviamente, solo puede ser positiva. Las tasas de disparo por encima de la línea de base pueden codificar errores de predicción positivos utilizando un amplio rango dinámico, sin embargo, las tasas de disparo por debajo de la línea de base solo pueden bajar a cero, lo que impone una restricción en la codificación de los errores de predicción negativos.

En consecuencia, hay que tener cuidado al interpretar las sumas (o promedios) de los histogramas de tiempo-peri-estímulo (PSTH) de actividad en diferentes ensayos, como se hizo en la Figura 1a. Las señales de error positivas y negativas codificadas asimétricamente en el momento de la recepción o no recepción de la recompensa no deberían de hecho sumar cero, incluso si representan errores correctos de predicción de TD. Cuando se suman, el disparo bajo que representa los errores negativos en los ensayos sin recompensa no "anulará" el disparo rápido que codifica los errores positivos en los ensayos recompensados ​​y, en general, el promedio mostrará una respuesta positiva. En el cerebro, por supuesto, como las respuestas no se promedian sobre los ensayos (recompensados ​​y no recompensados), sino sobre las neuronas dentro de un ensayo, esto no tiene por qué suponer un problema.

Esto explica la actividad positiva persistente (en promedio) en el momento de la entrega o la no entrega de la recompensa. Pero ¿qué pasa con la rampa antes de este tiempo? Al menos en ciertas representaciones neuronales del tiempo entre el estímulo y la recompensa, cuando se promedian las pruebas, esta misma asimetría hace que el TD resulte exactamente en una rampa de actividad hacia el momento de la recompensa. El mecanismo de aprendizaje de TD tiene el efecto de propagar, prueba por prueba, los errores de predicción que surgen de una vez en una prueba (como en el momento de la recompensa) hacia los posibles predictores (como el CS) que surgen en tiempos anteriores dentro de cada prueba. Bajo la representación asimétrica de los errores de predicción positivos y negativos que acabamos de discutir, promediar estos errores de propagación en varios ensayos (como en la Figura 1a) dará lugar a medios positivos para las épocas dentro de un ensayo antes de una recompensa. La forma precisa de la rampa de actividad resultante depende de la forma en que se representan los estímulos a lo largo del tiempo, así como de la velocidad de aprendizaje, como se explicará más adelante.

La Figura 2 ilustra esta vista de la procedencia de la actividad de rampa. Aquí, una representación de línea de retardo pulsada del tiempo desde que se usa el estímulo. Para esto, cada unidad ('neurona') se activa (es decir, asume el valor 1) con un cierto retraso después de que se ha presentado el estímulo, de modo que cada paso de tiempo después del inicio del estímulo está representado consistentemente por el disparo de una unidad. El aprendizaje se basa en el error TD (informado dopaminérgicamente), formalizado como δ (t) = r (t) + V (t) - V (t - 1), con V (t) la entrada ponderada de la unidad activa en tiempo t, y r (t) la recompensa obtenida en el tiempo t. La actualización de los pesos de las unidades de acuerdo con la regla de actualización de TD estándar con una tasa de aprendizaje fija, permite que V (t), en promedio, represente las recompensas futuras esperadas (vea el título de la Figura 1). Como cada paso de tiempo subsiguiente se representa por separado, los errores de predicción de TD pueden surgir en cualquier momento dentro de la prueba. La Figura 2a muestra estos errores en seis ensayos simulados consecutivos en los que pr = 0.5. En cada ensayo, surge un nuevo error positivo o negativo en el momento de la recompensa, como consecuencia de la recepción o no recepción de la recompensa, y paso a paso los errores de ensayos anteriores se propagan hasta el momento del estímulo, a través de la actualización constante de los pesos (por ejemplo, el error resaltado en rojo). Al promediar (o, como en los PSTH, sumar) sobre las pruebas, estos errores se cancelan entre sí en promedio, lo que da como resultado un histograma plano general en el intervalo posterior al inicio del estímulo y que conduce al momento de la recompensa (línea negra en la Figura 2b, sumado a los 10 ensayos que se muestran en azul claro). Sin embargo, cuando se suman después de la escala asimétrica de los errores negativos por un factor de d = 1/6 (que simula la codificación asimétrica de los errores de predicción positivos y negativos de las neuronas DA), se produce una rampa positiva de actividad, como lo ilustra la línea negra en la Figura 2c. Tenga en cuenta que este cambio de escala es solo un problema de representación, resultante de las limitaciones de codificar un valor negativo sobre una tasa de disparo de línea de base baja, y no debería afectar el aprendizaje de los pesos, para no aprender valores incorrectos (ver discusión). Sin embargo, como los PSTH son directamente sumas de picos neuronales, esta cuestión de representación incide en el histograma resultante.

Figura 2. La propagación hacia atrás de los errores de predicción explica la actividad de rampa.
(a) El error de predicción de TD en cada uno de los seis intentos consecutivos (de arriba a abajo) de la simulación en la Figura 1b, con pr = 0.5. Destacado en rojo es el error en el momento de la recompensa en el primero de los ensayos y su progresiva propagación hacia atrás hacia el momento del estímulo en los ensayos posteriores. Las letras de bloque indican el resultado de cada prueba específica (R = recompensado; N = no recompensado). La secuencia de recompensas que preceden a estos ensayos se da en la parte superior derecha. (b) El error de TD de estos seis ensayos, y cuatro más después de ellos, superpuestos. Las líneas rojas y verdes ilustran el sobre de los errores en estos ensayos. Al sumar estos ensayos, no se obtiene una actividad de la línea de base superior a la media (línea negra), ya que los errores positivos y negativos ocurren al 50 al azar al% de las veces, por lo que se cancelan entre sí. (c) Sin embargo, cuando los errores de predicción se representan asimétricamente por encima y por debajo de la velocidad de disparo de referencia (en este caso, los errores negativos se escalaron asimétricamente mediante d = 1 / 6 para simular la codificación asimétrica de los errores de predicción por las neuronas DA), un aumento promedio de la actividad emerge al promediar sobre las pruebas, como lo ilustra la línea negra. Todos los parámetros de simulación son los mismos que en la Figura 1b, d.

Las figuras 1b, d muestran la rampa que surge de esta combinación de codificación asimétrica y promedios entre ensayos, para la comparación con los datos experimentales. La Figura 1b muestra el PSTH calculado a partir de nuestros datos simulados promediando la señal δ (t) representada asimétricamente en ~ ensayos de 50 para cada tipo de estímulo. La Figura 1d muestra los resultados para el caso pr = 0.5, divididos en ensayos con recompensa y sin recompensa para la comparación con la Figura 1c. Los resultados simulados se parecen mucho a los datos experimentales, ya que replican la respuesta neta positiva a las recompensas inciertas, así como el efecto de rampa, que es mayor en el caso pr = 0.5.

Es sencillo derivar la respuesta promedio en el momento de la recompensa (t = N) en la prueba T, es decir, el error promedio de TD δT(N), a partir de la regla de aprendizaje de TD con la representación de tiempo de línea de retardo tocada simplificada y un tasa de aprendizaje fija α. El valor en el penúltimo paso de tiempo en una prueba, en función del número de prueba (con los valores iniciales tomados como cero), es

donde r (t) es la recompensa al final de la prueba t. La señal de error en el último paso de tiempo de la prueba T es simplemente la diferencia entre la recompensa obtenida r (T) y el valor que predice esa recompensa VT - 1 (N - 1). Este error es positivo con probabilidad pr y negativo con probabilidad (1 - pr). Al escalar los errores negativos por un factor de d ∈ (0, 1], obtenemos

Para la codificación simétrica de errores positivos y negativos (d = 1), la respuesta promedio es 0. Para codificación asimétrica (0 Acondicionamiento de trazas: un caso de prueba.

Un caso de prueba importante para nuestra interpretación surge en una variante de la tarea de Fiorillo et al. [15], así como en la tarea instrumental análoga de Morris et al. [16], ambos implican acondicionamiento de trazas. En contraste con el condicionamiento de retraso (Figura 3a) en el que la recompensa coincide con la compensación del estímulo predictivo, aquí hay una brecha sustancial entre la compensación del estímulo predictivo y la entrega de la recompensa (Figura 3b). Claramente, en este caso, la incertidumbre sobre la recompensa solo podría aumentar, debido al ruido en el tiempo del intervalo entre el estímulo y la recompensa [19], por lo que bajo la cuenta de la incertidumbre, debería haber rampas comparables o incluso mayores. Sin embargo, los resultados experimentales muestran que la actividad de rampa es menor, o incluso insignificante (Figura 3c; d). Sin embargo, tenga en cuenta que la magnitud de la actividad promedio de prueba en el momento esperado de la recompensa se mantiene, lo que apunta a una disociación entre la altura de la rampa y la cantidad de actividad positiva en el momento esperado de la recompensa.

Figura 3. Acondicionamiento de trazas con recompensas probabilísticas.
(a) Una ilustración de un ensayo de la tarea de condicionamiento del retraso de Fiorillo et al. [15]. Una prueba consiste en un estímulo visual de 2 segundos, cuya compensación coincide con la entrega de la recompensa de jugo, si dicha recompensa está programada de acuerdo con la probabilidad asociada con la señal visual. En los ensayos sin recompensa, el estímulo terminó sin recompensa. En ambos casos, un intervalo entre ensayos de 9 segundos en promedio separa los ensayos. (b) Una ilustración de un ensayo de la tarea de acondicionamiento de trazas de Morris et al. [dieciséis]. La diferencia crucial es que ahora hay un retraso temporal sustancial entre la compensación del estímulo y el inicio de la recompensa (el período de "traza"), y ningún estímulo externo indica el tiempo esperado de recompensa. Esto confiere incertidumbre adicional ya que el momento preciso de la recompensa predicha debe resolverse internamente, especialmente en los ensayos sin recompensa. En esta tarea, como en [16], se presentó uno de varios estímulos visuales (no mostrados) en cada ensayo, y cada estímulo se asoció con una probabilidad de recompensa. Aquí, también, se solicitó al mono que realizara una respuesta instrumental (presionando la tecla correspondiente al lado en el que se presentaba el estímulo), cuyo fracaso dio por terminada la prueba sin recompensa. Los ensayos se separaron por intervalos variables entre ensayos. (c, d) Tasa de disparo de DA (suavizada) en relación con la línea de base, alrededor del tiempo esperado de la recompensa, en las pruebas recompensadas (c) y en las pruebas sin recompensa (d). (c, d) Reimpreso de [15] © 16 con permiso de Elsevier. Los rastros implican una respuesta general positiva en el momento esperado de la recompensa, pero con una rampa muy pequeña o sin rampa antes de esta. Se obtuvieron resultados similares en una tarea de condicionamiento clásica descrita brevemente en [2004], que empleó un procedimiento de condicionamiento de trazas, confirmando que el período de trazas, y no la naturaleza instrumental de la tarea descrita en (b), era la diferencia crucial con (a) .

El modelo TD de DA explica fácilmente estos datos desconcertantes. Como se muestra en la Figura 4, la forma de la rampa, aunque no la altura de su pico, se ve afectada por la velocidad de aprendizaje. El tamaño de los errores de predicción de propagación hacia atrás se determina, en parte, por la tasa de aprendizaje, ya que estos errores surgen como parte del aprendizaje en línea de nuevas predicciones. De hecho, hay una actualización continua de las predicciones, de modo que después de una prueba recompensada, hay una mayor expectativa de recompensa (y, por lo tanto, la próxima recompensa incurre en un error de predicción más pequeño), y por el contrario después de una prueba no recompensada [18] (ver Figura 2a). Esta actualización de las predicciones está directamente relacionada con la tasa de aprendizaje: cuanto mayor sea la tasa de aprendizaje, mayor será la actualización de las predicciones de acuerdo con el error de predicción actual y cuanto mayor sea la fracción del error de predicción que se propaga nuevamente. De esta manera, con tasas de aprendizaje más altas, la diferencia en las expectativas después de una prueba recompensada frente a una no recompensada será mayor y, por lo tanto, los errores de predicción cuando la próxima recompensa sea o no esté disponible serán mayores, por lo tanto, la rampa más grande y gradual.

Figura 4. Dependencia de la rampa en la tasa de aprendizaje.
La forma de la rampa, pero no la altura de su pico, depende de la velocidad de aprendizaje. La gráfica muestra la actividad simulada para el caso de pr = 0.5 cerca del momento de la recompensa esperada, para diferentes tasas de aprendizaje, promediadas tanto para los ensayos premiados como para los no recompensados. De acuerdo con el aprendizaje de TD con errores de predicción codificados asimétricamente persistentes, el promedio de la actividad en los ensayos con recompensa y sin recompensa resulta en una rampa hasta el momento de la recompensa. La altura del pico de la rampa está determinada por la proporción de ensayos recompensados ​​y no recompensados, sin embargo, la amplitud de la rampa está determinada por la tasa de propagación hacia atrás de estas señales de error desde el momento de la recompensa (esperada) hasta la Momento del estímulo predictivo. Una mayor velocidad de aprendizaje da como resultado una mayor fracción del error que se propaga hacia atrás y, por lo tanto, una rampa más alta. Con tasas de aprendizaje más bajas, la rampa se vuelve insignificante, aunque la actividad positiva (en promedio) en el momento de la recompensa aún se mantiene. Tenga en cuenta que aunque la velocidad de aprendizaje utilizada en las simulaciones representadas en la Figura 1b, d fue 0.8, no debe tomarse como la velocidad de aprendizaje sináptica literal del sustrato neural, dada nuestra representación esquemática del estímulo. En una representación más realista en la que una población de neuronas está activa en cada paso del tiempo, una tasa de aprendizaje mucho más baja produciría resultados similares.

De hecho, en comparación con el condicionamiento de retardo, el condicionamiento de rastreo es notoriamente lento, lo que sugiere que la tasa de aprendizaje es baja y, por lo tanto, que debería haber una rampa más baja, de acuerdo con los resultados experimentales. Un examen directo de la tasa de aprendizaje en los datos de Morris et al. [16], cuya tarea requería un entrenamiento excesivo, ya que no solo condicionaba el rastreo sino que también implicaba una acción instrumental, confirmó que era muy bajo (Genela Morris - comunicación personal, 2004).

Discusión

La codificación diferencial de los valores positivos y negativos por las neuronas DA es evidente en todos los estudios de la señal de DA fásica, y puede considerarse como una consecuencia inevitable de la baja actividad de base de estas neuronas. De hecho, este último ha inspirado directamente sugerencias de que un neurotransmisor oponente, supuestamente serotonina, participe en la representación y, por lo tanto, en el aprendizaje de los errores de predicción negativa [20], de modo que también tengan el cuarto completo. Aquí, sin embargo, nos hemos limitado a considerar los efectos de la asimetría en el análisis de prueba de la actividad de la dopamina, y hemos demostrado que la actividad de DA en rampa, así como una respuesta positiva promedio en el momento de la recompensa, resultan directamente de La codificación asimétrica de los errores de predicción.

Además de una visión más clara de la señal de error, la consecuencia más importante de la nueva interpretación es que las rampas pueden verse como una firma de un fenómeno de TD que hasta ahora ha sido extremadamente difícil de alcanzar. Esta es la propagación hacia atrás progresiva de la señal de error representada por la actividad DA, desde el momento de la recompensa hasta el momento del predictor (Figura 2a). La mayoría de los estudios previos de actividad dopaminérgica han utilizado pr = 1, por lo que esta propagación en retroceso en el mejor de los casos es un fenómeno transitorio que se manifiesta solo al comienzo del entrenamiento (cuando, por lo general, las grabaciones aún no han comenzado), y potencialmente difíciles de discernir en la lentitud. Disparando las neuronas DA. Además, como se mencionó, la propagación hacia atrás depende de la forma en que se representa el tiempo entre el estímulo predictivo y la recompensa; está presente para una representación de línea de retardo pulsada como en [6], pero no para las representaciones que abarcan todo el retraso, como en [21]. Tenga en cuenta que la forma de la rampa también depende del uso de las trazas de elegibilidad y la llamada regla de aprendizaje TD (λ) (simulación no mostrada), que proporciona un mecanismo adicional para unir el tiempo entre eventos durante el aprendizaje. Desafortunadamente, como las formas de las rampas en los datos son bastante variables (figura 1) y ruidosas, no pueden proporcionar fuertes restricciones en el mecanismo preciso de TD utilizado por el cerebro.
Los estudios más recientes que involucran errores de predicción persistentes también muestran una actividad que sugiere una propagación hacia atrás, especialmente la Figura 4 de [13]. En este estudio, los errores de predicción resultaron de cambios periódicos en la tarea, y las grabaciones de DA se realizaron desde el inicio del entrenamiento, por lo que la actividad similar a la propagación hacia atrás es directamente evidente, aunque esta actividad no se cuantificó.

Esperamos que las rampas persistan a lo largo del entrenamiento solo si la tasa de aprendizaje no disminuye a cero a medida que el aprendizaje avanza. La teoría de Pearce & Hall [22] sobre el control del aprendizaje por la incertidumbre sugiere exactamente esta persistencia del aprendizaje, y hay evidencia de programas de refuerzo parcial de que la tasa de aprendizaje puede ser mayor cuando hay más incertidumbre asociada con la recompensa. De hecho, desde un punto de vista estadístico "racional", el aprendizaje debe persistir cuando existe una incertidumbre sustancial sobre la relación entre predictores y resultados, como puede surgir de la posibilidad siempre presente de un cambio en las relaciones predictivas. Esta forma de incertidumbre persistente, junto con la incertidumbre debida a la ignorancia inicial con respecto a la tarea, se han utilizado para formalizar la teoría de Pearce & Hall sobre la forma en que la incertidumbre impulsa el aprendizaje [23]. Por lo tanto, nuestra afirmación de que la incertidumbre puede no estar representada directamente por las rampas, ciertamente no debe interpretarse en el sentido de que su representación y manipulación no sean importantes. Por el contrario, hemos sugerido que la incertidumbre influye en la inferencia cortical y el aprendizaje a través de otros sistemas neuromoduladores [24], y que también puede determinar aspectos de la selección de acciones [25].

Se deben observar otras características de la asimetría. Lo más crítico es el efecto de la asimetría en el aprendizaje dependiente de DA [26], si la actividad de DA por debajo de la línea de base es responsable por sí misma de disminuir las predicciones que son demasiado altas. Para garantizar que las predicciones aprendidas sigan siendo correctas, deberíamos suponer que la representación asimétrica no afecta al aprendizaje, es decir, que un mecanismo como la escala diferente para la potenciación y la depresión de las fuerzas sinápticas compensa la señal de error asimétrica. Por supuesto, esto se volvería discutible si un neurotransmisor oponente estuviera involucrado en aprender de los errores de predicción negativos. Este problema se complica con la sugerencia de Bayer [14] de que las tasas de activación de DA son en realidad similares para todos los errores de predicción por debajo de algún umbral negativo, tal vez debido al efecto mínimo de la baja tasa de activación. Dicha codificación con pérdida no afecta la imagen cualitativa de los efectos del promediado entre juicios en la aparición de rampas, pero refuerza la necesidad de una señal del oponente para el aprendizaje necesariamente simétrico.

Finalmente, la prueba más directa de nuestra interpretación sería una comparación del promedio intra e interensayo de la señal DA. Sería importante hacer esto de una manera temporalmente sofisticada, para evitar problemas de promediar señales no estacionarias. Para superar el ruido en el disparo neuronal y determinar si efectivamente hubo una rampa gradual dentro de una prueba o, como predeciríamos, errores de predicción intermitentes positivos y negativos, sería necesario promediar muchas neuronas registradas simultáneamente dentro de un ensayo y, además, neuronas asociadas con tasas de aprendizaje similares. Alternativamente, los rastros de neuronas individuales podrían retroceder contra la respuesta de retropropagación predicha por sus ensayos anteriores y el aprendizaje de TD. Una comparación de la cantidad de variabilidad explicada por dicho modelo, en comparación con la de una regresión contra una rampa monótona de actividad, podría apuntar al modelo más adecuado. Una predicción menos sencilla, pero más comprobable, es que la forma de la rampa debería depender de la velocidad de aprendizaje. Las tasas de aprendizaje se pueden evaluar a partir de la respuesta a las recompensas probabilísticas, independientemente de la forma de la rampa (Nakahara et al. [18] demostraron de tal manera que en su tarea de acondicionamiento de trazas de refuerzo parcial, la tasa de aprendizaje fue de 0.3), y potencialmente manipulado variando la cantidad de entrenamiento o la frecuencia con la que las contingencias de la tarea se cambian y se vuelven a aprender. De hecho, cuantificar la existencia y la forma de una rampa en la actividad DA registrada de Nakahara et al., Bien podría arrojar luz sobre la propuesta actual.

Conflicto de intereses
El autor (s) declara que no tienen intereses en conflicto.

Contribuciones de los autores
YN, MD y PD conjuntamente concibieron y ejecutaron este estudio, y ayudaron a redactar el manuscrito. Todos los autores leyeron y aprobaron el manuscrito final.

Agradecimientos
Estamos muy agradecidos con H. Bergman, C. Fiorillo, N. Daw, D. Joel, P. Tobler, P. Shizgal y W. Schultz por las discusiones y comentarios, en algunos casos a pesar de la interpretación variada de los datos. Estamos particularmente agradecidos con Genela Morris por analizar sus propios datos publicados y no publicados en relación con la rampa. Este trabajo fue financiado por la EC Thematic Network (YN), la Fundación Caritativa Gatsby y el proyecto BIBA de la UE.

Referencias

1. Ljungberg T, Apicella P, Schultz W: Respuestas de las neuronas de dopamina de mono durante el aprendizaje de las reacciones conductuales.
Revista Neurofisiol 1992, 67: 145-163.
Vuelta al texto
2. Schultz W: señal de recompensa predictiva de las neuronas de dopamina. [http://jn.physiology.org/cgi/content/full/80/1/1] sitio web
Revista de Neurofisiología 1998, 80: 1-27. Resumen de PubMed
Vuelta al texto
3. O'Doherty J, Dayan P, Friston K, Critchley H, Dolan R: modelos de diferencia temporal y aprendizaje relacionado con la recompensa en el cerebro humano.
Neuron 2003, 38: 329-337. Resumen de PubMed | Texto completo del editor
Vuelta al texto
4. Seymour B, O'Doherty J, Dayan P, Koltzenburg M, Jones A, Dolan R, Friston K, Frackowiak R: Los modelos de diferencia temporal describen el aprendizaje de orden superior en humanos.
Naturaleza 2004, 429: 664-667. Resumen de PubMed | Texto completo del editor
Vuelta al texto
5. Montague PR, Hyman SE, Cohan JD: roles computacionales para la dopamina en el control del comportamiento.
Naturaleza 2004, 431: 760-767. Resumen de PubMed | Texto completo del editor
Vuelta al texto
6. Montague PR, Dayan P, Sejnowski TJ: Un marco para los sistemas de dopamina mesencefálicos basados ​​en el aprendizaje hebbiano predictivo.
El Journal of Neuroscience 1996, 16: 1936-1947. Resumen de PubMed | Texto completo del editor
Vuelta al texto
7. Schultz W, Dayan P, Montague PR: Un sustrato neuronal de predicción y recompensa.
Ciencia 1997, 275: 1593-1599. Resumen de PubMed | Texto completo del editor
Vuelta al texto
8. Sutton RS: Aprendiendo a predecir por el método de la diferencia temporal.
Aprendizaje automático 1988, 3: 9-44.
Vuelta al texto
9. Sutton RS, Barto AG: [http://www.cs.ualberta.ca/~sutton/book/ebook/the-book.html] sitio web
Aprendizaje de refuerzo: una introducción. MIT Press; 1998.
Vuelta al texto
10. Hollerman J, Schultz W: Las neuronas de dopamina informan un error en la predicción temporal de la recompensa durante el aprendizaje.
Nature Neuroscience 1998, 1: 304-309. Resumen de PubMed | Texto completo del editor
Vuelta al texto
11. Schultz W, Apicella P, Ljungberg T: Respuestas de las neuronas de dopamina de mono a los estímulos condicionados y de recompensa durante los pasos sucesivos de aprendizaje de una tarea de respuesta retardada.
El Journal of Neuroscience 1993, 13: 900-913. Resumen de PubMed | Texto completo del editor
Vuelta al texto
12. Tobler P, Dickinson A, Schultz W: Codificación de la omisión de la recompensa prevista por las neuronas de dopamina en un paradigma de inhibición condicionada.
Diario de Neurociencia 2003, 23 (32): 10402-10410. Resumen de PubMed | Texto completo del editor
Vuelta al texto
13. Takikawa Y, Kawagoe R, Hikosaka O: Un posible papel de las neuronas dopaminérgicas del cerebro medio en la adaptación a corto y largo plazo de los movimientos sacádicos al mapeo de recompensa por posición.
Revista de Neurofisiología 2004, 92: 2520-2529. Resumen de PubMed | Texto completo del editor
Vuelta al texto
14. Bayer H: un papel para la sustancia negra en el aprendizaje y el control motor.
Tesis doctoral, Universidad de Nueva York 2004.
Vuelta al texto
15. Fiorillo C, Tobler P, Schultz W: Codificación discreta de probabilidad de recompensa e incertidumbre por neuronas de dopamina.
Science 2003, 299 (5614): 1898-1902. Resumen de PubMed | Texto completo del editor
Vuelta al texto
16. Morris G, Arkadir D, Nevet A, Vaadia E, Bergman H: Mensajes coincidentes pero distintos de la dopamina del cerebro medio y las neuronas tónicamente activas del cuerpo estriado.
Neuron 2004, 43: 133-143. Resumen de PubMed | Texto completo del editor
Vuelta al texto
17. Barto A, Sutton R, Watkins C: Aprendizaje y toma de decisiones secuenciales. En Aprendizaje y Neurociencia Computacional: Fundamentos de Redes Adaptativas. Editado por Gabriel M, Moore J. Cambridge, MA: MIT Press; 1990: 539-602.
Vuelta al texto
18. Nakahara H, Itoh H, Kawagoe R, Takikawa Y, Hikosaka O: Las neuronas de dopamina pueden representar un error de predicción dependiente del contexto.
Neuron 2004, 41: 269-280. Resumen de PubMed | Texto completo del editor
Vuelta al texto
19. Gallistel CR, Gibbon J: Tiempo, velocidad y condicionamiento.
Revisión psicológica 2000, 107: 289-344. Resumen de PubMed | Texto completo del editor
Vuelta al texto
20. Daw ND, Kakade S, Dayan P: Interacciones del oponente entre la serotonina y la dopamina.
Redes neuronales 2002, 15 (4 – 6): 603-616. Resumen de PubMed | Texto completo del editor
Vuelta al texto
21. Suri RE, Schultz W: Un modelo de red neuronal con una señal de refuerzo similar a la dopamina que aprende una tarea de respuesta retardada espacial.
Neurociencia 1999, 91: 871-890. Resumen de PubMed | Texto completo del editor
Vuelta al texto
22. Pearce JM, Hall G: Un modelo para el aprendizaje pavloviano: variaciones en la efectividad de los estímulos condicionados pero no incondicionados.
Revisión psicológica 1980, 87: 532-552. Resumen de PubMed | Texto completo del editor
Vuelta al texto
23. Dayan P, Kakade S, Montague PR: Aprendizaje y atención selectiva.
Nature Neuroscience 2000, 3: 1218-1223. Resumen de PubMed | Texto completo del editor
Vuelta al texto
24. Dayan P, Yu A: Incertidumbre esperada e inesperada: Ach y NE en el neocórtex. [http://books.nips.ce/papers/files/nips15/NS08.pdf] sitio web
In Advances in Neural Information Processing Sysytems, editado por Dietterich T, Becker S, Ghahramani Z. Cambridge, MA: MIT Press; 2002, 14: 189-196.
Vuelta al texto
25. Daw N, Niv Y, Dayan P: Acciones, políticas, valores y los ganglios basales. En Avances recientes en la investigación de los ganglios basales. Editado por Bezard E. Nueva York, EE. UU.: Nova Science Publishers, Inc; en prensa.
Vuelta al texto
26. Wickens J, Kötter R: Modelos celulares de refuerzo. En Modelos de Procesamiento de la Información en los Ganglios Basales. Editado por Houk JC, Davis JL, Beiser DG. Prensa del MIT; 1995: 187-214.
Vuelta al texto