La aparición de respuestas de salvedad y novedad a partir de los principios de aprendizaje reforzados (2008)

COMENTARIOS: Otro estudio que demuestra que la novedad es su propia recompensa. Uno de los aspectos adictivos de la pornografía en Internet es la infinita novedad y variedad, la capacidad de hacer clic rápidamente de una escena a otra y la búsqueda de la imagen / video adecuado. Todos estos aumentan la dopamina. Esto es lo que hace que la pornografía en Internet sea diferente de las revistas o los DVD alquilados.

Estudio completo: la aparición de respuestas de salvedad y novedad a partir de los principios de aprendizaje reforzados

Redes neuronales. 2008 diciembre; 21 (10): 1493 – 1499.

Publicado en línea 2008 Septiembre 25. doi: 10.1016 / j.neunet.2008.09.004

Patryk A. Laurent, Universidad de Pittsburgh;

Dirija toda la correspondencia a: Patryk Laurent, Universidad de Pittsburgh, 623 LRDC, 3939 O'Hara St., Pittsburgh, PA 15260 USA, Correo electrónico: [email protected], Oficina: (412) 624-3191, Fax: (412) 624-9149

Resumen

Los intentos recientes de mapear modelos de aprendizaje basados ​​en la recompensa, como el Aprendizaje de refuerzo [17], en el cerebro, se basan en la observación de que los aumentos y disminuciones fásicos en el aumento de las neuronas liberadoras de dopamina indican diferencias entre la recompensa prevista y la recibida [16,5]. Sin embargo, este error de predicción de recompensa es solo una de las varias señales comunicadas por esa actividad fásica; otra implica un aumento en el aumento dopaminérgico, que refleja la aparición de estímulos no recompensadores salientes pero no predecibles [4,6,13], especialmente cuando un organismo se orienta posteriormente hacia el estímulo [16]. Para explicar estos hallazgos, Kakade y Dayan [7] y otros han postulado que los estímulos inesperados y novedosos son intrínsecamente gratificantes. La simulación reportada en este artículo demuestra que esta suposición no es necesaria porque el efecto que se pretende captar surge de los mecanismos de aprendizaje de predicción de recompensa del aprendizaje por refuerzo. Por lo tanto, los Principios de aprendizaje de refuerzo pueden usarse para comprender no solo la actividad relacionada con la recompensa de las neuronas dopaminérgicas de los ganglios basales, sino también parte de su actividad aparentemente no relacionada con la recompensa.

El aprendizaje por refuerzo (RL) es cada vez más importante en el desarrollo de modelos computacionales de aprendizaje basado en recompensas en el cerebro. RL es una clase de algoritmos computacionales que especifica cómo un “agente” artificial (por ejemplo, un robot real o simulado) puede aprender a seleccionar acciones para maximizar la recompensa total esperada [17]. En estos algoritmos, un agente basa sus acciones en valores que aprende a asociar con varios estados (por ejemplo, las señales perceptivas asociadas con un estímulo). Estos valores pueden aprenderse gradualmente a través del aprendizaje de diferencia temporal, que ajusta los valores de estado en función de la diferencia entre la predicción de recompensa existente del agente para el estado y la recompensa real que se obtiene posteriormente del entorno. Se ha demostrado que esta diferencia calculada, denominada error de predicción de recompensa, se correlaciona muy bien con la actividad fásica de las neuronas liberadoras de dopamina que se proyectan desde la sustancia negra en primates no humanos [16]. Además, en los seres humanos, el cuerpo estriado, que es un objetivo importante de la dopamina, muestra una señal fMRI BOLD que parece reflejar un error de predicción de recompensa durante las tareas de aprendizaje de recompensa [10,12,18]. Este hallazgo de fMRI complementa los datos de fisiología porque se supone que el BOLD estriado refleja, al menos en parte, la actividad sináptica aferente [9] y las neuronas de dopamina se proyectan en gran medida hacia el estriado.

Aunque las respuestas fisiológicas mencionadas anteriormente parecen estar relacionadas con los cálculos de predicción de recompensa de RL, también hay un aumento en la actividad fásica dopaminérgica en respuesta a estímulos excitantes y / o nuevos que aparentemente no están relacionados con la recompensa [4,6,14,3]. Un fenómeno similar se ha observado recientemente en humanos usando fMRI [2]. Hay varias razones por las que se dice que esta respuesta de "novedad" o "saliente" no está relacionada con el error de predicción de recompensa: (1) aparece muy temprano, antes de que se haya evaluado la identidad del estímulo, por lo que no se puede realizar una predicción de recompensa precisa ser generado (2) corresponde a un aumento de la actividad neuronal (es decir, es positivo) para los estímulos tanto aversivos como apetitosos; y (3) habitua [13]. De hecho, estas respuestas de saliencia / novedad de las neuronas liberadoras de dopamina son más confiables cuando los estímulos son imprevisibles y dan como resultado un comportamiento de orientación y / o acercamiento [16] independientemente del resultado final, destacando el hecho de que son cualitativamente diferentes de la recompensa aprendida. predicción. El desafío, por lo tanto, ha sido explicar esta aparente paradoja (es decir, cómo la novedad afecta al error de recompensa-predicción) dentro del marco teórico de RL.

Kakade y Dayan [7] intentaron hacer exactamente esto; en su artículo, postulan dos formas en que las respuestas novedosas podrían incorporarse en los modelos de RL de la función dopaminérgica: ambas incluían la inclusión de nuevos supuestos teóricos. La primera suposición, conocida como bonos de novedad, implica la introducción de una recompensa adicional cuando están presentes estímulos novedosos, más allá de la recompensa habitual recibida por el agente. Esta recompensa adicional entra en el cómputo, de modo que el aprendizaje se basa en la diferencia entre la predicción de recompensa existente del agente y la suma de la recompensa habitual del entorno y el bono de novedad. Por lo tanto, la novedad se convierte en parte de la recompensa que el agente está tratando de maximizar. El segundo supuesto, denominado bonificación de configuración, puede implementarse aumentando artificialmente los valores de los estados asociados con estímulos novedosos. Debido a que la regla de aprendizaje de diferencia temporal utilizada en RL se basa en la diferencia en la predicción de recompensa entre estados sucesivos, la adición de una bonificación de configuración constante a los estados relacionados con los estímulos novedosos no tiene efecto en el comportamiento final del agente. Sin embargo, aún surge una respuesta de novedad cuando el agente ingresa a la parte del espacio de estado que se ha "formado" (es decir, que se asocia con la novedad).

Si bien la adición de cada uno de estos supuestos es suficiente para explicar muchos efectos observados de la novedad, los supuestos también interfieren con la progresión del aprendizaje. Como señalan Kakade y Dayan [7], los bonos de novedad pueden distorsionar la función de valor (es decir, los valores asociados con cada estado por el agente) y afectar lo que se aprende en última instancia porque se implementan como una recompensa adicional que está asociada intrínsecamente con la novela estados El problema es que el agente aprende a predecir los componentes primarios y novedosos de la recompensa. Aunque Kakade y Dayan señalan que las bonificaciones de configuración no causan este tipo de problema porque se incorporan a las predicciones de recompensa de los estados anteriores, su adición sigue siendo problemática porque las bonificaciones de configuración introducen sesgos en la forma en que un agente explorará su espacio estatal. Por lo tanto, aunque estas suposiciones adicionales pueden explicar cómo la novedad afecta el error de predicción de recompensa en RL, son problemáticas. Además, las explicaciones tienen el costo de reducir la parsimonia del trabajo de modelado que intenta utilizar RL para comprender el comportamiento de los organismos biológicos reales.

La simulación que se presenta a continuación se llevó a cabo para probar la hipótesis de que un agente de RL simple, sin suposiciones adicionales, desarrollaría una respuesta de error de recompensa-predicción que es similar a las respuestas de dopamina no relacionadas con la recompensa que se observan en organismos biológicos. . A un agente de RL se le asignó la tarea de interactuar con dos tipos de objetos, uno positivo y otro negativo, que aparecían en ubicaciones aleatorias de su entorno. Para maximizar su recompensa, el agente tuvo que aprender a acercarse y "consumir" el objeto positivo, y evitar (es decir, no "consumir") el objeto negativo. Hubo tres predicciones principales para la simulación.

La primera predicción fue simplemente que, para maximizar su recompensa, el agente, de hecho, aprendería a acercarse y "consumir" los objetos positivos y gratificantes, mientras que al mismo tiempo aprende a evitar los objetos negativos que castigan. La segunda predicción fue ligeramente menos obvia: que el agente exhibiría una respuesta de orientación (es decir, aprender a cambiar su orientación) hacia objetos tanto negativos como positivos. Esta predicción se realizó porque aunque el agente podía "percibir" la apariencia de un objeto y su ubicación, la identidad positiva o negativa del objeto (es decir, la indicación de que el agente eventualmente aprendería a asociarse con el valor de recompensa del objeto) el agente no pudo determinarlo hasta después de que el agente hubiera orientado realmente hacia el objeto. Finalmente, la tercera predicción (y la más importante) se relacionó con la respuesta fásica dopaminérgica simulada en el modelo; esta predicción fue que, cuando apareció el objeto, el agente exhibiría un error de predicción de recompensa que era computacionalmente análogo a la respuesta fásica de dopamina observada en organismos biológicos, siendo positiva tanto para objetos positivos como negativos. También se predijo que esta respuesta variaría en función de la distancia entre el agente y el estímulo, que en el contexto de la simulación era una medida aproximada de la "intensidad" o la importancia del estímulo. Como se demostrará más adelante, estas predicciones fueron confirmadas por los resultados de la simulación, lo que demuestra que las respuestas de dopamina aparentemente no relacionadas con la recompensa pueden, en principio, surgir de los principios básicos de RL. Las implicaciones teóricas de estos resultados para el uso de RL para comprender la actividad no relacionada con la recompensa en organismos biológicos se analizarán en la sección final de este artículo.

Método

Como ya se mencionó, los algoritmos de RL especifican cómo un agente puede usar las recompensas numéricas de momento a momento para saber qué acciones debe tomar para maximizar la cantidad total de recompensa que recibe. En la mayoría de las formulaciones, este aprendizaje se logra mediante el uso de errores de predicción de recompensa (es decir, la diferencia entre la predicción de recompensa actual de un agente y la recompensa real que se obtiene) para actualizar las predicciones de recompensa del agente. A medida que se aprenden las predicciones de recompensa, un agente también puede usarlas para seleccionar su siguiente acción. La política habitual (definida en la ecuación 2) es que el agente seleccione la acción que se predice que dará como resultado la mayor recompensa. La recompensa real que se proporciona al agente en un momento dado es la suma de la recompensa inmediata más una parte del valor del estado en el que el agente ingresa cuando se completa la acción. Por lo tanto, si el agente finalmente obtiene recompensas positivas después de haber estado en un estado particular, el agente seleccionará acciones en el futuro que probablemente resulten en esos estados recompensados; a la inversa, si el agente experimenta recompensas negativas (es decir, un castigo), evitará acciones en el futuro que conduzcan a esos estados "castigados".

El algoritmo específico que determina las predicciones de recompensa que se aprenden para los diversos estados (es decir, la función de valor V) se llama Iteración de valor [Nota 1] y se puede describir formalmente como:

Para todos los estados posibles s,

(Ecuación 1)

donde s corresponde al estado actual, V (s) es la predicción actual de recompensa para el estado s que ha aprendido el agente, maxaction∈M {} es un operador para el valor máximo de la cantidad entre corchetes en el conjunto de todas las acciones M disponible para el agente, V (s ′) es la predicción actual de recompensa del agente para el siguiente estado s ′, α es alguna tasa de aprendizaje (entre 0 y 1), y γ es un factor de descuento que refleja cómo se ponderarán las futuras recompensas en relación con las recompensas inmediatas. La función de valor inicial se estableció de manera que V (s) fuera 0 para todos los estados s.

La función de valor V (s) se implementó como una tabla de búsqueda, que es formalmente equivalente a la suposición de memoria perfecta. Aunque los aproximadores de funciones, como las redes neuronales, se han utilizado con cierto éxito para representar funciones de valor [1], se utilizó una tabla de búsqueda para garantizar que los resultados no dependieran de los tipos de mecanismo de generalización proporcionados por varios aproximadores de funciones. El agente fue capacitado para las iteraciones de aprendizaje 1,500 en su espacio de estado. Debido a la impredecibilidad de la identidad de los objetos, se usó un parámetro de actualización de la función de valor de menos de uno (α = 0.01) durante el aprendizaje para permitir el promedio de resultados diferentes. Finalmente, el factor de descuento se estableció en γ = 0.99 para alentar al agente a buscar la recompensa antes de retrasar su comportamiento de aproximación hasta el final de la prueba (aunque cambiarlo de un valor predeterminado de 1 no tuvo ningún efecto en los resultados informados aquí). ) Para determinar independientemente si las iteraciones de aprendizaje de 1,500 eran suficientes para completar el aprendizaje, se monitorizó la cantidad promedio de cambio en lo aprendido y se encontró que convergieron antes de esta cantidad de iteraciones.

Después del entrenamiento, el algoritmo específico que gobierna el comportamiento del agente (es decir, la política de acciones que toma de cada estado dado) es:

(Ecuación 2)

donde π (s) es la acción que el agente seleccionará del estado s, y el lado derecho de la ecuación devuelve la acción (por ejemplo, cambio de orientación, movimiento o no acción) que maximiza la suma de la recompensa y el valor descontado del estado resultante s ′.

En la simulación que se informa a continuación, todos los estados que fueron visitados por el agente se codificaron como vectores tridimensionales 7 que representaban información sobre el estado "físico" externo del agente y su estado de "conocimiento" interno. La información física incluía tanto la posición actual del agente en el espacio como su orientación. La información de conocimiento incluía la posición del objeto (si estaba presente) y la identidad de ese objeto (si el agente lo había determinado). Los tipos específicos de información que fueron representados por el agente se muestran en la Tabla 1.

Tabla 1

Las dimensiones utilizadas en las simulaciones RL y los valores posibles de esas dimensiones.

Hubo un total de estados 21,120 en la simulación [Nota a pie de página 2]. Sin embargo, desde el punto de vista del agente, los estados en los que hubo un objeto positivo no identificado y un objeto negativo no identificado son idénticos, por lo que solo hay estados distintos de 16,280. Por lo tanto, durante cada iteración del aprendizaje, fue necesario visitar algunos de esos estados "idénticos" dos veces para permitir el hecho de que la mitad del tiempo podrían seguirse con el descubrimiento de un objeto positivo y la mitad del tiempo que podrían seguir con el descubrimiento de un objeto negativo [Nota 3].

Al comienzo de cada prueba de prueba simulada, el agente se colocó en el centro de una pista de unidad 11 × 1 lineal simulada con cinco espacios al "este" (es decir, a la derecha) del agente y cinco espacios al "oeste". ”(Es decir, a la izquierda) del agente. Como muestra la Tabla 1, el vector de estado del agente incluyó un elemento que indica su ubicación actual en la pista (es decir, un número entero de 0 a 10), así como un elemento (es decir, un carácter “n”, “s”, “ e ”, o“ w ”) que representa su orientación actual (es decir, norte, sur, este u oeste, respectivamente). La orientación inicial del agente siempre se estableció en "norte", y ningún otro objeto estaba presente en el entorno (es decir, el valor de "OBJETO" en el vector de estado del agente se estableció en igual a "0").

Durante cada paso de tiempo de la simulación, el agente podría realizar una de las siguientes acciones: (1) no hacer nada, y permanecer en la ubicación y orientación actuales; (2) oriente hacia el norte, sur, este u oeste; o (3) mueva un espacio en el entorno (este u oeste). El resultado de cada acción tuvo lugar en el siguiente paso de tiempo simulado. Todos los cambios en la ubicación y / o orientación del agente en el espacio ocurrieron a través de la selección de acciones por parte del agente. Sin embargo, durante cada paso de tiempo de la simulación, incluso cuando se seleccionó una acción de "no hacer nada", 1 incrementó el tiempo hasta el final de la prueba (es decir, el paso de tiempo 20).

El entorno del agente se configuró de manera que la mitad de las veces, un objeto apareciera en una ubicación aleatoria (pero no en la misma ubicación que el agente) después de diez pasos de tiempo; El 50% de los objetos fue positivo (representado por un “+”; consulte la Tabla 1) y el 50% de los objetos fue negativo (representado por un “-”). El retraso antes de que apareciera el objeto se introdujo para permitir la observación de cualquier comportamiento que el agente pueda haber mostrado antes de la aparición del objeto. Si el agente no estaba orientado hacia el objeto cuando apareció, entonces el elemento que representa la identidad "OBJETO" en el vector de estado del agente se cambió de "0" a "?" Para reflejar el hecho de que la identidad del objeto que ahora estaba El presente era actualmente desconocido. Sin embargo, si el agente estaba orientado hacia el objeto, en el siguiente paso de tiempo el elemento "OBJETO" se estableció en igual a la identidad del objeto, de modo que "0" se convirtió en "+" o "-" para positivo y objetos negativos, respectivamente.

Si el agente se trasladó a la ubicación de un objeto, durante el siguiente paso del tiempo el objeto desapareció. Si el objeto ha sido positivo, entonces el indicador "CONSUMIDO" del agente se estableció como verdadero y el agente fue recompensado (recompensa = + 10); sin embargo, si el objeto ha sido negativo, entonces el indicador "SHOCKED" se estableció en verdadero y el agente fue castigado (recompensa = −10). (Tenga en cuenta que las banderas se establecieron de esta manera independientemente de si el agente había identificado o no el objeto; por ejemplo, el agente podría consumir un objeto sin orientarse nunca hacia él). En el siguiente paso de tiempo, el "SHOCKED" o Se borró la bandera de "CONSUMO". El agente también recibió una pequeña penalización (refuerzo = −1) por cada movimiento o acción de orientación, y no recibió ninguna recompensa o castigo (refuerzo = 0) si no realizó ninguna acción.

Tanto los comportamientos abiertos (es decir, la orientación y el movimiento) como una medida del error de predicción de recompensa se cuantificaron para el agente. El comportamiento manifiesto (es decir, la lista de acciones seleccionadas por el agente) se usó como una indicación de si la tarea se había aprendido. La medida del error de recompensa-predicción se utilizó para probar la hipótesis sobre la aparición de la señal fásica dopaminérgica no recompensa. El error de predicción de recompensa, δ, se midió en el momento t de la aparición de un objeto restando la predicción de recompensa en el paso de tiempo anterior, es decir, V (s) en el paso de tiempo t − 1, de la predicción de recompensa cuando el objeto apareció, es decir, V (s) en el tiempo t, produciendo la cantidad δ = V (st) - V (st − 1).

Resultados
Comportamiento simulado

El comportamiento manifiesto de los agentes se cuantificó por primera vez. Los resultados de este análisis mostraron que, después del entrenamiento, el agente se acercó y obtuvo un refuerzo positivo de todos los objetos positivos y nunca se acercó a ninguno de los objetos negativos. Juntos, estos resultados proporcionan una confirmación de comportamiento de que los agentes aprendieron a realizar la tarea correctamente. Esta conclusión se ve reforzada por la observación adicional de que, durante los ensayos, cuando no apareció ningún objeto, el agente permaneció inmóvil. Como se predijo, el agente orientado a objetos tanto positivos como negativos.

Error de simulación de recompensa simulada

La hipótesis central de este artículo es que la aparición de un estímulo impredecible generará constantemente un error positivo de predicción de recompensa, incluso si ese objeto resulta ser un objeto "negativo" que siempre está castigando. En apoyo de esta hipótesis, el agente mostró un error positivo de predicción de recompensa cada vez que apareció un objeto (no identificado), pero no cuando no apareció nada. También consistente con la hipótesis central es el hecho de que la magnitud de la respuesta fásica del agente (, medida como se describe en la sección Método) fue sensible a la "intensidad" simulada del estímulo, definido utilizando la distancia entre el agente y el objeto (ver Figura 1). Un análisis de regresión indicó que la magnitud de δ estaba inversamente relacionada con la distancia del objeto, por lo que los objetos más cercanos causaron una respuesta más fuerte (r = −0.999, p <0.001; β = 0.82). Esta correlación negativa fue causada por la pequeña penalización (refuerzo = -1) que se imponía por cada movimiento que el agente debía realizar para moverse hacia el objeto positivo, consumirlo y así obtener recompensa.

Figura 1 y XNUMX

Esta figura muestra el error de predicción de recompensa (es decir, δ) cuando el objeto apareció en función de la ubicación del objeto en relación con la ubicación del agente. Las respuestas son idénticas para los objetos positivos y negativos. Cuando no hay objeto (más ...)

Dado que los objetos positivos y negativos aparecieron en esta simulación con igual probabilidad (p = .25), surge la pregunta: ¿Por qué la señal de error de recompensa-predicción del agente fue positiva en el momento de la aparición del objeto? Razonando a lo largo de las líneas de Kakade y Dayan [7], uno podría predecir que la señal debería reflejar el promedio de todas las recompensas aprendidas de tales situaciones, y por lo tanto ser igual a cero. La clave para comprender este resultado es tener en cuenta que no solo RL hace que un agente tenga menos probabilidades de elegir acciones que resulten en un refuerzo negativo, sino que también hace que un agente tenga menos probabilidades de ingresar a estados que eventualmente conduzcan a un refuerzo negativo. Esto da como resultado una forma de aprendizaje de "orden superior" que se muestra en la Figura 2 y se describe a continuación.

Figura 2 y XNUMX

Ilustración que muestra cómo un agente de RL desarrolla un error positivo de predicción de recompensa cuando se entrena con estímulos tanto gratificantes como castigadores en su entorno y es capaz de elegir si acercarse a ellos y consumirlos. (A) La situación antes de aprender: (más…)

Al comienzo del aprendizaje (ver Figura 2A), el agente se orienta a los objetos "+" y "-", se acerca a ellos, y es recompensado y castigado al consumir cada tipo de objeto. Si los valores de estado aprendidos del agente no pudieron influir en las acciones del agente (consulte la Figura 2B), entonces el agente continuaría acercándose y consumiendo los objetos. La aparición de la señal predeciría una recompensa promedio de 0 y habría un aumento repentino en el error de predicción de recompensa. Sin embargo, el agente en esta simulación utiliza valores de estado aprendidos para influir en sus acciones (consulte la Figura 2C), y aunque el agente todavía tiene que orientarse hacia el objeto desconocido para determinar su identidad, ya no consumirá un objeto negativo si se aproxima (como podría ser si se entrena con un algoritmo de exploración aleatorio como el muestreo de trayectoria [Nota al pie 1]). Además, debido a que el aprendizaje por diferencia temporal permite que la predicción de la recompensa negativa se "propague" a los estados precedentes, y debido a que hay un pequeño costo por moverse en el espacio, el agente aprende a evitar acercarse por completo al objeto negativo. Por lo tanto, después de que se haya aprendido esta información, el valor del estado cuando aparece el objeto por primera vez (indicado como "V" en el primer círculo en cada secuencia) no se basa en el promedio de los valores de estado de resultado positivos y negativos, sino que en cambio, en función del promedio de resultados positivos y "neutrales" que se logran una vez que el agente aprende a evitar los objetos negativos. Esta es la razón por la cual el promedio de todas las recompensas realmente obtenidas por el agente entrenado fue mayor que cero, y explica por qué la predicción de recompensa del agente (y, por lo tanto, el error de predicción de recompensa cuando el objeto aparece repentinamente) fue neta positiva. Esto se ilustra en la Figura 3. De hecho, siempre que el agente pueda aprender a cambiar su comportamiento y evitar el objeto negativo, el valor del objeto negativo es, en última instancia, irrelevante para el comportamiento final del agente y la magnitud de la respuesta de novedad / saliencia.

Figura 3 y XNUMX

(A) Demuestra los cambios en la predicción de recompensa que habrían ocurrido si RL no hubiera resultado en un aprendizaje de orden superior (es decir, si el agente no pudiera tomar medidas para evitar el resultado negativo), de modo que el agente se vio obligado a consumir todo el objetos (más…)

Los resultados de la simulación dependen críticamente de tres supuestos. Primero, los estímulos tenían que ser "salientes", ya que la magnitud del refuerzo predicho por la señal inicial era suficientemente grande (por ejemplo, + 10) en relación con los costos de orientación y aproximación (por ejemplo, −1). Si la magnitud hubiera sido relativamente pequeña, el agente no habría aprendido a orientar ni habría generado la respuesta de error de predicción de recompensa positiva. En segundo lugar, también era necesario un retraso antes de reconocer los estímulos. (La demora es un proxy de la "novedad" bajo el razonamiento de que un estímulo familiar se reconocería rápidamente.) Sin demora, el agente simplemente habría generado el error de predicción de recompensa positivo o negativo apropiado para el objeto percibido real. Finalmente, el comportamiento del agente tenía que ser determinado por los valores que había aprendido. Si el agente no pudiera controlar su propio comportamiento (es decir, si acercarse a los estímulos), entonces su predicción de recompensa cuando aparecía un objeto habría igualado a 0, el promedio de los resultados positivos y negativos equiprobables.

Discusión General

La simulación reportada en este artículo demostró que se produce un error positivo de predicción de recompensa cuando aparece un estímulo impredecible, ya sea de recompensa o de castigo, pero no se puede identificar de inmediato. Además, la simulación indicó que el tamaño del error de recompensa-predicción aumenta con la proximidad del estímulo al agente, que en el contexto de la simulación es una medida proxy de la intensidad del estímulo y, por lo tanto, está relacionada con la prominencia. En el marco teórico de RL, normalmente se entiende que las predicciones de recompensa reflejan el valor aprendido de estímulos reconocidos, o de los estados físicos y / o cognitivos de un agente [15]. Sin embargo, el error de predicción de recompensa aquí reportado tiene una interpretación cualitativamente diferente porque se genera antes de que el agente haya reconocido el objeto. En conjunto, estos resultados apoyan la hipótesis de que los principios de RL son suficientes para producir una respuesta que aparentemente no tiene relación con la recompensa, sino que se relaciona con las propiedades de novedad y prominencia. Esta conclusión tiene varias ramificaciones importantes para nuestra comprensión general de RL y para nuestra interpretación de RL como una explicación del aprendizaje por recompensa en organismos biológicos reales.

Primero, la predicción de recompensa que genera un agente de RL cuando aparece un estímulo no identificado no es necesariamente un promedio estricto de las recompensas que se pueden obtener, como lo sugieren Kakade y Dayan [7], pero de hecho puede ser mayor en magnitud que ese promedio en particular. Kakade y Dayan predecirían que la predicción de la recompensa promedio debería ser igual a cero porque, debido a que los juicios fueron recompensados ​​y castigados con la misma frecuencia. Este resultado sorprendente surgió porque el agente aprendió de una manera “política”; es decir, el agente aprendió no solo sobre los resultados negativos, sino también sobre su capacidad para evitar esos resultados. Esta habilidad del sistema de recompensa para hacer que un agente evite resultados negativos debe considerarse cuidadosamente al traducir nuestra comprensión de RL a organismos reales. Este hecho es potencialmente aún más importante dada la aparente asimetría en la capacidad de la respuesta fásica dopaminérgica para representar un error de predicción de recompensa positiva mejor que un error de predicción de recompensa negativa [11]. Puede ser suficiente para indicar que una secuencia particular de eventos conduce a un resultado negativo, pero que para los propósitos de la selección de acciones, la magnitud de ese resultado no es importante.

Una segunda ramificación de la simulación actual es que la respuesta de novedad puede surgir de una interacción entre los sistemas de procesamiento perceptivo y los sistemas de predicción de recompensa. Específicamente, la respuesta de novedad puede deberse a una forma de similitud entre objetos nuevos y objetos que aún no han sido sometidos a un procesamiento perceptivo completo [Nota 4]. En esta simulación, la novedad se implementó al introducir un retraso antes de que la identidad del objeto (y, en consecuencia, su naturaleza gratificante o punitiva) se hiciera evidente para el agente. Esto se hizo bajo el supuesto de que los objetos nuevos tardan más en identificarse, pero este supuesto también dio lugar a que los objetos positivos y negativos se perciban de manera similar cuando aparecieron por primera vez (es decir, ambos estaban codificados como "?"). En contraste, Kakade y Dayan [7] sugieren que las respuestas de novedad y las respuestas de "generalización" son esencialmente diferentes a pesar de que se manifiestan de manera similar en los datos de neurofisiología.

Una tercera ramificación de los resultados de la simulación actual es que muestran que los supuestos adicionales de novedad y bonificaciones de configuración que fueron propuestos por Kakade y Dayan [7] no son necesarios. En cambio, las respuestas de tipo novedad pueden surgir de las limitaciones realistas del procesamiento perceptivo y del conocimiento de poder evitar resultados negativos. Esto es afortunado porque, como lo señalan Kakade y Dayan, los bonos de novedad distorsionan la función de valor que aprende un agente, y los bonos de configuración afectan la forma en que los agentes exploran sus espacios de estado. La inclusión de cualquiera de estos supuestos reduce así la parsimonia de los modelos basados ​​en la teoría de RL. Curiosamente, los resultados presentados aquí también ayudan a explicar por qué la respuesta de novedad biológica podría no ser perjudicial para el aprendizaje basado en la recompensa en organismos reales: la respuesta de novedad de hecho ya está predicha por RL. Es decir, la respuesta de novedad refleja comportamientos y recompensas predicciones que son inherentes a un agente que ya ha aprendido algo sobre su entorno.

Una interpretación alternativa (pero no mutuamente excluyente) de los resultados de la presente simulación es que, efectivamente, existe una recompensa abstracta (quizás cognitiva) que los agentes obtienen al orientarse e identificar los objetos. En estudios de actividad dopaminérgica, pueden darse respuestas fásicas positivas a señales no anticipadas que se sabe que predicen una recompensa. Sin embargo, esta simulación demuestra cómo este tipo de respuestas también pueden ocurrir en respuesta a una señal que podría, en última instancia, predecir una recompensa o un castigo. El único beneficio consistente que predice la señal es la ganancia en información obtenida cuando el agente determina la identidad del objeto. Por lo tanto, si hay una "predicción de recompensa" aprendida y válida cuando aparece el objeto no identificado, se satisface cuando el agente obtiene el conocimiento sobre si debe acercarse o evitar el estímulo. El valor de esta información no se basa en el promedio de los resultados que se pueden obtener, sino que se basa en el conocimiento de los resultados efectivos: que el agente puede consumir la recompensa positiva o evitar la recompensa negativa (consulte la Figura 2).

Finalmente, es importante tener en cuenta que las oportunidades para tomar acciones particulares (por ejemplo, para orientarse) pueden asumir propiedades gratificantes a través de una generalización o un mecanismo de aprendizaje no incluido en esta simulación. Por ejemplo, el mero hecho de orientar y determinar "lo que está ahí fuera" podría ser gratificante para un organismo basado en la asociación entre esa acción y el error emergente de recompensa-predicción siempre demostrado anteriormente, cuando aparecen nuevos estímulos. Redgrave y Gurney [13] adelantaron una idea similar, quienes plantean la hipótesis de que un objetivo importante de la respuesta de dopamina fásica es reforzar las acciones que ocurren antes de los eventos salientes no predichos. Los resultados aquí no son incompatibles con esa hipótesis, sin embargo, se debe tener en cuenta que la hipótesis de Redgrave y Gurney no se verifica directamente en esta simulación porque no se requirieron acciones (es decir, exploración) del agente para el evento destacado (la aparición de El objeto) a ocurrir. Sin embargo, la señal fásica simulada coincidió con el tiempo de la respuesta de orientación, lo que sugiere que los dos pueden estar fuertemente relacionados.

En conclusión, este artículo ha demostrado que los principios de RL se pueden usar para explicar un tipo de actividad aparentemente no relacionada con la recompensa de las neuronas dopaminérgicas. Este resultado surgió del hecho de que la regla de aprendizaje de diferencia temporal (como la utilizada por Kakade y Dayan [7]) se integró en una simulación en la que el agente podría seleccionar acciones que tuvieran un efecto en el resultado final. En la simulación, el agente aprendió que el resultado de la orientación hacia un objeto que apareció repentinamente siempre puede ser gratificante o neutral porque se podría evitar el resultado negativo. Por lo tanto, cuando el agente tuvo la oportunidad de orientarse, su error de predicción de recompensa fue siempre positivo, computacionalmente análogo a las respuestas de novedad y saliencia observadas en los organismos biológicos.

AGRADECIMIENTOS

El trabajo descrito en este artículo fue apoyado por NIH R01 HD053639 y por NSF Training Grant DGE-9987588. Me gustaría agradecer a Erik Reichle, Tessa Warren y un revisor anónimo por los comentarios útiles sobre una versión anterior de este artículo.

1 Otro algoritmo de aprendizaje de refuerzo, denominado muestreo de trayectoria [17], se usa con frecuencia en lugar de la iteración de valores cuando el espacio de estado es tan grande que no se puede iterar de forma exhaustiva ni se puede almacenar fácilmente en la memoria de una computadora. En lugar de iterar sobre cada estado en el espacio de estado y aplicar la ecuación de actualización de la función de valor en función de las acciones que parecen llevar a la mayor recompensa, el muestreo de trayectoria funciona siguiendo las rutas a través del espacio de estado. De manera similar a la Iteración de valor, las acciones que conducen a la mayor recompensa generalmente se seleccionan de cada estado, pero en ocasiones se elige una acción de exploración aleatoria con una pequeña probabilidad. Por lo tanto, el algoritmo es: Desde algún estado de inicio s, seleccione una acción que lleve a la mayor recompensa [por ejemplo, recompensa + γV (s ')] con probabilidad ε, o seleccione una acción de exploración aleatoria con probabilidad 1 - ε. Aplique V (s) → V (s) + α [recompensa + γV (s ′) - V (s)] durante las acciones no exploratorias del estado s.

Además de superar las limitaciones técnicas del tiempo y la memoria computacionales, el muestreo de trayectoria puede ser atractivo porque puede reflejar mejor la manera en que aprenden los organismos biológicos reales: explorando caminos en un espacio de estado. En la tarea descrita en este documento, el muestreo de trayectoria produce resultados que son cualitativamente idénticos a los obtenidos con la iteración del valor. Sin embargo, por concisión, estos resultados no se informan aquí en detalle. La iteración del valor fue seleccionada para la simulación en este documento por dos razones principales. Primero, debido a que el muestreo de la trayectoria implica la estocasticidad en la selección de las trayectorias, la gran cantidad de ramificaciones que se debe a las muchas secuencias posibles de acciones en esta tarea puede dar como resultado agentes que carezcan de experiencia con algunos estados, a menos que el parámetro de exploración-explotación (es decir, ε-greediness [17]) se selecciona cuidadosamente. Esta falta de experiencia con estados particulares puede ser perjudicial para el rendimiento de un agente cuando se utiliza una estructura de memoria de tabla de búsqueda debido a la falta de generalización de valor a estados similares (pero posiblemente no visitados). Por lo tanto, se prefirió aprovechar la exploración exhaustiva del espacio estatal que se garantiza con la iteración del valor. En segundo lugar, el uso de la Iteración del valor obvió la necesidad de especificar ese parámetro adicional de exploración-explotación, simplificando así la simulación. Tenga en cuenta que el muestreo de trayectoria puede, en última instancia, aproximar la iteración del valor a medida que el número de trayectorias se aproxima al infinito [17].

2El número de estados 21,120 se puede calcular de la siguiente manera: 11 posibles ubicaciones de agentes × 4 posibles orientaciones de agente × (10 pasos de tiempo antes de que aparezca un objeto + 10 pasos de tiempo donde no apareció ningún objeto + 10 pasos de tiempo donde el agente había estado refuerzos positivos + intervalos de tiempo 10 donde el objeto se reforzó negativamente + posibles ubicaciones de objetos 11 * (intervalos de tiempo 10 con un objeto identificado positivo + intervalos de tiempo 10 con un objeto identificado negativo + intervalos de tiempo 10 con un objeto positivo no identificado + 10 pasos de tiempo con un objeto negativo no identificado))].

3 La existencia de estos estados "ocultos" debe considerarse durante el entrenamiento porque la Iteración de valor solo se ve "un paso adelante" de cada estado en el espacio estatal. El hecho de que los estados con objetos negativos y positivos no identificados sean efectivamente idénticos evitaría conocer y promediar los valores en los dos estados posteriores diferentes en los que se identifica el objeto positivo o negativo. Un enfoque de muestreo de trayectoria, por otro lado, mantiene la información del estado oculto (es decir, la identidad del estímulo no identificado) a lo largo del ensayo y, por lo tanto, con esa variante de RL, los estados ocultos no son una preocupación.

4 Una posible objeción al presente trabajo es que la respuesta de orientación parece estar programada en el cerebro de los mamíferos, por ejemplo, en proyecciones del colículo superior [3,14]. En la presente simulación, los agentes no estaban programados para orientarse a los objetos, sino que aprendieron un comportamiento de orientación que permitía la selección final de una acción (por ejemplo, acercamiento o evitación) que maximizaba la recompensa. De manera similar a las respuestas programadas, estos comportamientos de orientación ocurrieron muy rápidamente, antes de que los objetos se identificaran y se dirigieran hacia todos los objetos. El objetivo de este trabajo no fue hacer la afirmación de que todas las respuestas se aprendieron, sino que pueden coexistir dentro del marco de RL. Sin embargo, sería interesante investigar si los mecanismos relacionados con la recompensa podrían participar en la configuración de la conectividad en las áreas del tronco cerebral para generar esta respuesta fásica de dopamina.

Este es un archivo PDF de un manuscrito sin editar que ha sido aceptado para publicación. Como servicio a nuestros clientes, proporcionamos esta primera versión del manuscrito. El manuscrito se someterá a revisión, composición y revisión de la prueba resultante antes de que se publique en su forma final. Tenga en cuenta que durante el proceso de producción se pueden descubrir errores que podrían afectar el contenido, y todas las exenciones de responsabilidad legales que se aplican a la revista pertenecen.

Referencias

1. Baird LC. Algoritmos residuales: aprendizaje reforzado con aproximación de funciones. En: Priedetis A, Russell S, editores. Aprendizaje de máquina: procedimientos de la duodécima conferencia internacional; 9 – 12 July.1995.

2. Bunzeck N, Düzel E. Codificación absoluta de la novedad del estímulo en la sustancia nigra humana / VTA. Neurona. 2006; 51 (3): 369 – 379. [PubMed]

3. Dommett E, Coizet V, Blaha CD, Martindale J, Lefebvre V, Walton N, Mayhew JEW, Overton PG, Redgrave P. ¿Cómo los estímulos visuales activan las neuronas dopaminérgicas en la latencia corta. Ciencia. 2005; 307 (5714): 1476 – 1479. [PubMed]

4. Doya K. Metalearning y neuromodulación. Redes neuronales. 2002 Jun – Jul; 15 (4 – 6): 495 – 506. [PubMed]

5. Gillies A, Arbuthnott G. Modelos computacionales de los ganglios basales. Trastornos del movimiento. 2000; 15 (5): 762 – 770. [PubMed]

6. Horvitz JC. Respuestas de dopamina mesolimbocortical y nigrostriatal a eventos salientes sin recompensa. Neurociencia 2000; 96 (4): 651 – 656. [PubMed]

7. Kakade S, Dayan P. Dopamina: generalización y bonificaciones. Redes neuronales. 2002; 15 (4 – 6): 549 – 559. [PubMed]

8. Knutson B, Cooper JC. El señuelo de lo desconocido. Neurona. 2006; 51 (3): 280 – 282. [PubMed]

9. Logothetis NK, Pauls J, Augath M, Trinath T, Oeltermann A. Investigación neurofisiológica de la base de la señal fMRI. Naturaleza. 2001; 412 (6843): 150 – 157. [PubMed]

10. McClure SM, Berns GS, Montague PR. Los errores de predicción temporal en una tarea de aprendizaje pasivo activan el cuerpo estriado humano. Neurona. 2003; 38 (2): 339 – 346. [PubMed]

11. Niv Y, Duff MO, Dayan P. Dopamina, incertidumbre y aprendizaje TD. Comportamiento y funciones cerebrales. 2005 puede 4; 1: 6. [Artículo libre de PMC] [PubMed]

12. O'Doherty JP, Dayan P, Friston K, Critchley H, Dolan RJ. Modelos de diferencia temporal y aprendizaje relacionado con la recompensa en el cerebro humano. Neurona. 2003; 38 (2): 329 – 337. [PubMed]

13. Redgrave P, Gurney K. La señal de dopamina de corta latencia: ¿un papel en el descubrimiento de acciones novedosas? Comentarios de la naturaleza Neurociencia. 2006 Dec; 7 (12): 967 – 975.

14. Redgrave P, Prescott TJ, Gurney K. ¿Es la respuesta de dopamina de latencia corta demasiado corta para indicar un error de recompensa? Tendencias en las neurociencias. 1999 Apr; 22 (4): 146 – 151. [PubMed]

15. Reichle ED, Laurent PA. Uso del aprendizaje por refuerzo para comprender la aparición de un comportamiento de movimiento ocular "inteligente" durante la lectura. Revisión psicológica. 2006; 113 (2): 390 – 408. [PubMed]

16. Schultz W. Señal de recompensa predictiva de las neuronas de dopamina. Revista de Neurofisiología. 1998; 80 (1): 1 – 27. [PubMed]

17. Sutton RS, Barto AG. Aprendizaje de refuerzo: una introducción. MIT Press; Cambridge: 1998.

18. Tanaka SC, Doya K, Okada G, Ueda K, Okamoto Y, Yamawaki S. La predicción de recompensas inmediatas y futuras recluta diferencialmente los lazos de los ganglios cortico-basales. Neurociencia de la naturaleza. 2004; 7 (8): 887 – 893.