Sensibilidad del núcleo accumbens a violaciones en espera de recompensa (2007)

Neuroimagen. 2007 enero 1; 34 (1): 455-61. Epub 2006 Oct 17.

Spicer j, Galvan A, Liebre TA, Voss H, Glover G, Casey b.

Fuente

El Instituto Sackler de Psicobiología del Desarrollo, Weill Cornell Medical College de la Universidad de Cornell, 1300 York Avenue, Box 140, Nueva York, NY 10021, EE. UU.

Resumen

Este estudio examinó si las regiones frontostriales ventrales codifican de manera diferencial los resultados de recompensa esperados e inesperados. Manipulamos paramétricamente la probabilidad de recompensa y examinamos la respuesta neural a recompensa y no recompensa para cada condición de probabilidad en el estriado ventral y la corteza orbitofrontal (OFC). En los últimos ensayos del experimento, los sujetos mostraron respuestas de comportamiento más lentas para la condición con la menor probabilidad de recompensa, en comparación con la condición con la mayor probabilidad de recompensa. En el nivel neural, tanto el núcleo accumbens (NAcc) como el OFC mostraron una mayor activación en comparación con los ensayos no premiados, pero los accumbens parecían ser más sensibles a las violaciones en los resultados de recompensa esperados. Estos datos sugieren roles distintos para los circuitos frontostriatales en la predicción de recompensas y en la respuesta a violaciones en las expectativas.

 

Introducción

Formar predicciones precisas y detectar violaciones en las expectativas sobre los próximos eventos gratificantes es un componente esencial del comportamiento dirigido a objetivos. Los estudios de imágenes de primates no humanos y humanos sugieren que las regiones frontoestriatales ricas en dopamina están involucradas en la formación de predicciones sobre los resultados de recompensa futuros y la optimización del comportamiento en consecuencia. Los mecanismos neuronales del error de predicción relacionado con la recompensa: una representación de la discrepancia entre la recompensa real y la esperada (Schultz et al, 1997) - se han estudiado en primates no humanos en términos de recompensas esperadas e inesperadas y / u omisiones de recompensa (Hollerman et al, 1998, Leon y shadlen, xnumx; Tremblay y Schultz, 1999). El estudio actual utilizó una tarea simple de retardo espacial de coincidencia a la muestra, similar a una utilizada anteriormente con primates no humanos (Fiorillo et al, 2003), que manipuló la probabilidad de obtener un resultado de recompensa, para examinar las respuestas neuronales a las recompensas esperadas e inesperadas.

La evidencia convergente implica que el sistema de dopamina es crítico para el procesamiento de la predicción y la recompensa (Olds y Milner, 1954; Montague et al, 2004, Schultz, 2002 para la revisión). Los estudios de primates no humanos han demostrado que las neuronas de dopamina responden a recompensas primarias inesperadas y, en última instancia, a los estímulos que predicen esas recompensas (Mirencowicz y Schultz, 1994, Tobler et al, 2005). Las neuronas de dopamina en el área tegmental ventral (VTA) del mono se activarán en respuesta a una recompensa primaria que es imprevisible (o predice con una probabilidad baja) más que a una recompensa que se predice completamente (Fiorillo et al, 2003;Tobler et al, 2005). Por el contrario, la actividad de las mismas neuronas se suprime cuando una recompensa esperada no se entrega en relación con una omisión de recompensa esperada (Fiorillo et al, 2003; Tobler et al, 2005). Por lo tanto, las neuronas de dopamina codifican el error de predicción al representar la discrepancia entre el resultado real y el previsto (Schultz et al, 1997; Tobler et al, 2005), de manera tal que la presentación inesperada de la recompensa resulta en una mayor actividad y las omisiones inesperadas de la recompensa resultan en una disminución de la actividad.

Los cambios en la activación de la dopamina en respuesta a los cambios en el resultado de la recompensa son paralelos a las alteraciones en el comportamiento. Los estudios de primates no humanos han encontrado que un mono aumentará su lamido anticipado en función de la probabilidad con la que un estímulo condicionado se asocia con un estímulo posterior no condicionado (suministro de jugo). Como tales, los estímulos que representan una alta probabilidad de entrega posterior de jugo provocan más lamidas anticipatorias (Fiorillo et al., 2003).

Existen conexiones anatómicas recíprocas entre las regiones asociadas con el comportamiento dirigido hacia el objetivo (por ejemplo, la corteza prefrontal) y las asociadas con los comportamientos de apetito más automáticos (por ejemplo, el estriado ventral) donde se pueden calcular las predicciones (Shultz et al., 1997; Haber et al., 2003). Estas regiones están muy inervadas con dopamina a través de las proyecciones de las neuronas de cerebro medio de dopamina y estas conexiones pueden formar un circuito neuroanatómico funcional que apoya la optimización del comportamiento al favorecer acciones que resultan en los mayores beneficios.

Recientemente, los estudios de imágenes de resonancia magnética funcional humana (fMRI) han implicado dos regiones de este circuito, el núcleo accumbens y la corteza orbitofrontal, en la representación del error de predicción. Por ejemplo, se ha demostrado que las secuencias impredecibles de la entrega de jugo y agua provocan una mayor actividad en el NAcc en relación con la administración predecible (Berns et al, 2001). Error de predicción basado en temporal (McClure et al, 2003) y estímulo (O'Doherty et al, 2003 O'Doherty et al, 2004) Las violaciones también activan el estriado ventral.

El papel de la OFC en la predicción de la recompensa ha sido menos claro. Si bien algunos estudios han reportado sensibilidad de la OFC en condiciones de error de predicción (Berns et al., 2001; O'Doherty et al., 2003; Ramnini et al., 2004; Dreher et al., 2005) otros no tienen (McClure et al., 2003; O'Doherty et al., 2004; Delgado et al., 2005). Los estudios con menos énfasis en el error de predicción muestran una mayor activación de la OFC que favorable a los resultados desfavorables (O'Doherty et al, 2001; Elliott et al, 2003; Galvan et al, 2005) en estudios de valor de recompensa (Gottfried et al, 2003), y valencia (Cox et al, 2005; O'Doherty, 2000 O'Doherty, 2003 O'Doherty, 2004). Recientemente, Kringelbach y Rollos (2004) integró la literatura de neuroimagen y neuropsicológica para explicar las funciones variadas de la corteza orbitofrontal. Sugieren una distinción medial-lateral y una distinción anterior-posterior. El córtex orbitofrontal medial y lateral monitorea el valor de recompensa y la evaluación de los castigos, respectivamente (por ejemplo, O'Doherty et al, 2001 ; Rolls et al, 2003). Se cree que la corteza orbitofrontal anterior está más involucrada en la representación de reforzadores abstractos (O'Doherty et al, 2001) sobre los más simples relacionados con el gusto (por ejemplo, De Araujo et al, 2003) y el dolor (por ejemplo, Craig et al, 2000).

Estas regiones frontostriatales ventrales han (Knutson y otros, 2005) se asoció con la representación del valor esperado (el producto de la probabilidad esperada y la magnitud del resultado) durante anticipación del resultado de la recompensa. Dado el diseño elegante, pero complejo, que incluía señales 18 que representan numerosas combinaciones de magnitud, probabilidad y / o valencia, la falta de poder estadístico impidió a los autores examinar la activación cerebral relacionada con el incentivo resultados. En el presente estudio, utilizamos tres señales distintas, cada una de las cuales se asoció con 33%, 66% o 100% de recompensa para los ensayos correctos. El énfasis de este estudio fue en recompensa el resultado en lugar de recompensar la anticipación, a fin de examinar la sensibilidad a nivel neuronal a las violaciones en las expectativas de recompensa, en lugar de anticipar la recompensa antes del resultado. Este análisis es fundamental para comprender la previsibilidad de las recompensas debido a los cambios en la activación de la dopamina que se producen en el resultado de la recompensa cuando se producen violaciones de las expectativas previstas (Fiorillo et al, 2003).Los a priori las predicciones sobre los accumbens y la respuesta de la OFC a la recompensa monetaria esperada e inesperada se basaron en el trabajo de imagen previo que implica a estas regiones en el procesamiento de la recompensa (Knutson y otros, 2001; 2005; O'Doherty et al, 2001; Galvan et al, 2005). Utilizamos una coincidencia retardada espacial simple para muestrear un paradigma similar al utilizado por Fiorillo et al (2003) en estudios electrofisiológicos de neuronas de dopamina en primates no humanos. Supusimos que la actividad en el cuerpo estriado ventral, en particular el NAcc, aumentaría cuando se entregara una recompensa inesperada y disminuiría cuando no se entregara una recompensa esperada. Se esperaba que el comportamiento fuera paralelo a estos cambios con tiempos de reacción medios más rápidos a las señales que predicen la recompensa con mayor frecuencia, pero los tiempos de reacción más lentos a la predicción de la recompensa con menor frecuencia. Además, planteamos la hipótesis de que la OFC sería sensible al resultado de la recompensa (recompensa o no), pero que los accumbens serían más sensibles a los cambios en las predicciones de recompensa. Estas hipótesis se basaron en informes de estudios de imágenes anteriores (Galvan et al 2005, en prensa) y el trabajo de primates no humanos que muestra una mayor participación del estriado en los parámetros de probabilidad de recompensa, en relación con la actividad de recompensa bloqueada de la OFC (Schultz, et al, 2000) y en la cantidad de recompensa fija en lugar de variar en las condiciones de probabilidad.

Métodos

Participantes

Doce adultos sanos diestros (7 hembra), edades 19 – 27 (edad media 24 años), fueron incluidos en el experimento fMRI. Los sujetos no tenían antecedentes de enfermedad neurológica o psiquiátrica y todos los sujetos fueron consentidos en el estudio aprobado por la Junta de Revisión Institucional antes de la participación.

Tarea Experimental

Los participantes fueron evaluados utilizando una versión modificada de una tarea de dos opciones de respuesta demorada descrita anteriormente (Galvan et al, 2005) en un estudio fMRI relacionado con el evento (Figura 1 y XNUMX). En esta tarea, tres señales se asociaron con una probabilidad distinta (33%, 66% y 100%) de obtener una cantidad fija de recompensa. Se instruyó a los sujetos para que presionaran el índice o el dedo medio para indicar el lado en el que aparecía una señal cuando se le pedía, y para responder lo más rápido posible sin cometer errores. Una de las tres imágenes de dibujos animados piratas se presentó en orden aleatorio en el lado izquierdo o derecho de una fijación centrada para 1000 msec (ver Figura 1 y XNUMX). Después de una demora de 2000 ms, a los sujetos se les presentó un aviso de respuesta de dos cofres del tesoro en ambos lados de la fijación (2000 msec) y se les indicó que presionaran un botón con su dedo índice derecho si el pirata estaba en el lado izquierdo de la fijación o su dedo medio derecho si el pirata estaba en el lado derecho de la fijación. Después de otro retraso de 2000 msec, se presentó en el centro de la pantalla (realimentación de recompensa (monedas de dibujos animados) o un cofre del tesoro vacío (1000 msec) según la probabilidad de recompensa de ese tipo de prueba. Hubo un intervalo entre ensayos (ITI) de 12 antes del inicio de la siguiente prueba.

Figura 1 y XNUMX  

Diseño de tareas

Hubo tres condiciones de probabilidad de recompensa: un 33%, 66% y 100% probabilidad de recompensa. En la condición de 33%, los sujetos fueron recompensados ​​en 33% de las pruebas y no hubo recompensa (un cofre del tesoro vacío) en el otro 66% de las pruebas en esa condición. En la condición de 66%, los sujetos fueron recompensados ​​en 66% de los ensayos y no se obtuvo recompensa para el otro 33% de los ensayos. En la condición 100%, los sujetos fueron recompensados ​​por todos los ensayos correctos.

A los sujetos se les garantizó $ 50 para participar en el estudio y se les dijo que podían ganar hasta $ 25 más, según el rendimiento (según el índice de tiempo de reacción y la precisión) de la tarea. Los estímulos se presentaron con el sistema de imagen funcional integrado (IFIS) (PST, Pittsburgh) utilizando una pantalla de video LCD en el orificio del escáner de RM y un dispositivo de recolección de respuesta de fibra óptica.

El experimento consistió en cinco ejecuciones de ensayos 18 (6 cada uno de los tipos de prueba de recompensa 33%, 66% y 100%), que duraron 6 min y 8 s cada uno. Cada ejecución tenía ensayos 6 de cada probabilidad de recompensa presentada en orden aleatorio. Al final de cada carrera, los sujetos se actualizaron sobre cuánto dinero habían ganado durante esa carrera. Antes de comenzar el experimento, los sujetos recibieron instrucciones detalladas que incluían la familiarización con los estímulos empleados y realizaron una práctica para asegurar la comprensión de la tarea. Se les dijo que existía una relación entre las claves y los resultados monetarios, pero no se reveló la naturaleza exacta de esa relación.

Adquisición de imágen

Las imágenes se realizaron utilizando un escáner de resonancia magnética General Electric 3T utilizando una bobina de cabeza en cuadratura. Las exploraciones funcionales se adquirieron mediante una secuencia en espiral de entrada y salida (Glover y Thomason, 2004). Los parámetros incluyeron un TR = 2000, TE = 30, matriz de 64 X 64, 29 cortes coronales de 5 mm, resolución en el plano de 3.125 X 3.125 mm, giro de 90 °) para 184 repeticiones, incluidas cuatro adquisiciones descartadas al comienzo de cada carrera. Se recolectaron exploraciones en plano anatómicas ponderadas en T1 (TR = 500, TE = min, 256 X 256, FOV = 200 mm, grosor de corte de 5 mm) en las mismas ubicaciones que las imágenes funcionales además de un conjunto de datos 3-D de imágenes SPGR de alta resolución (TR = 25, TE = 5, grosor de corte de 1.5 mm, 124 cortes).

Análisis de imagen

El paquete de software Brainvoyager QX (Brain Innovations, Maastricht, Países Bajos) se utilizó para realizar un análisis de efectos aleatorios de los datos de imágenes. Antes del análisis, se realizaron los siguientes procedimientos de preprocesamiento en las imágenes sin procesar: Corrección de movimiento 3D para detectar y corregir pequeños movimientos de la cabeza mediante la alineación espacial de todos los volúmenes hasta el primer volumen mediante la transformación del cuerpo rígido, corrección de tiempo de barrido de corte (mediante interpolación sinc). eliminación de tendencias lineales, filtrado temporal de paso alto para eliminar desviaciones no lineales de 3 o menos ciclos por tiempo, y suavizado de datos espaciales utilizando un kernel gaussiano con un FNMM de 4mm. Los movimientos de rotación y traslación estimados nunca superaron 2mm para los sujetos incluidos en este análisis.

Los datos funcionales se registraron conjuntamente en el volumen anatómico mediante la alineación de los puntos correspondientes y los ajustes manuales para obtener un ajuste óptimo mediante inspección visual y luego se transformaron en el espacio Talairach. Durante la transformación de Talairach, los voxels funcionales se interpolaron a una resolución de 1 mm.3 para fines de alineación, pero los umbrales estadísticos se basaron en el tamaño de vóxel de adquisición original. El núcleo accumbens y la corteza orbital frontal se definieron mediante un GLM de voxelwise de cerebro completo con la recompensa como predictor primario (ver a continuación) y luego se localizaron mediante coordenadas de Talairach en relación con el atlas cerebral de Duvernoy (Talairach y Tournoux, 1988; Duvernoy, 1991).

Los análisis estadísticos de los datos de imágenes se llevaron a cabo en todo el cerebro utilizando un modelo lineal general (GLM) compuesto por 60 (5 se ejecuta en X sujetos 12) en series funcionales z normalizadas. El principal predictor fue la recompensa (recompensa frente a los ensayos sin recompensa) en todas las probabilidades de recompensa en el resultado de la recompensa. El predictor se obtuvo por convolución de una respuesta ideal de boxcar (asumiendo un valor 1 para el volumen de presentación de tareas y un volumen de 0 para los puntos de tiempo restantes) con un modelo lineal de la respuesta hemodinámica (Boynton et al, 1996) y se utiliza para construir la matriz de diseño de cada curso de tiempo en el experimento. Solo se incluyeron los ensayos correctos y se crearon predictores separados para los ensayos de error. Los análisis de contraste post hoc en las regiones de interés se realizaron luego en base a las pruebas t sobre los pesos beta de los predictores. Las simulaciones de Monte Carlo se realizaron utilizando el programa AlphaSim dentro de AFNI (Cox, 1996) para determinar los umbrales apropiados para lograr un nivel alfa corregido de p <0.05 basado en volúmenes de búsqueda de aproximadamente 25,400 mm3 y 450 mm3 para la corteza frontal orbital y el núcleo accumbens, respectivamente. Los cambios porcentuales en la señal de RM en relación con la línea de base (intervalo inmediatamente anterior a la prueba de 20 segundos) en el núcleo accumbens y la corteza frontal orbital se calcularon utilizando promedios relacionados con eventos sobre vóxeles significativamente activos obtenidos de los análisis de contraste.

El GLM del cerebro completo se basó en los ensayos de recompensa de 50 por sujeto (n = 12) para un total de ensayos de 600 y en los ensayos de 30 sin recompensa por sujeto (n = 12) para un total de ensayos de 360 sin recompensa en todo el experimento. Los contrastes subsiguientes en las condiciones de probabilidad de recompensa consistieron en diferentes números de pruebas de recompensa y no de recompensa. Para la condición de probabilidad de recompensa de 100%, hubo pruebas de recompensa de 6 por corrida (5) por sujeto (12) para un total de pruebas de recompensa de 360 y sin pruebas no de recompensa. Para la condición de probabilidad de recompensa 66%, hubo ensayos de recompensa 4 por corrida (5) por sujeto (12) para un total de ensayos de recompensa 240 y ensayos sin recompensa 120. Para la condición de probabilidad de recompensa de 33%, hubo pruebas de recompensa de 2 por corrida (5) por sujeto (12) para un total de pruebas de recompensa de 120 y pruebas sin recompensa de 240.

Resultados

Datos de comportamiento

Los efectos de la probabilidad de recompensa y el tiempo en la tarea se probaron con un análisis de varianza (ANOVA) de 3 (33%, 66%, 100%) x 5 (se ejecuta 1-5) para las variables dependientes del tiempo de reacción (RT ) y la exactitud de la media.

No hubo efectos principales o interacciones de probabilidad de recompensa (F [2,22] =. 12, p <.85) tiempo en la tarea (F [4,44] = 2.02, p <.14) o probabilidad de recompensa X tiempo en la tarea (F [8, 88] = 1.02, p <.41) para la precisión media. Esto era de esperar ya que la precisión de los participantes alcanzó niveles cercanos al techo para todas las probabilidades del experimento (33% de condición = 97.2%; 66% de condición = 97.5%; 100% de condición = 97.7%).

Hubo una interacción significativa entre la probabilidad de recompensa y el tiempo dedicado a la tarea (F [8,88] = 3.5, p <.01) en la RT media, pero no hubo efectos principales del tiempo dedicado a la tarea (F [4,44] = .611 , p <0.59) o probabilidad de recompensa (F [2,22] = 2.84, p <0.08). Las pruebas t post-hoc de la interacción significativa mostraron que había una diferencia significativa entre las condiciones de probabilidad de recompensa del 33% y el 100% durante las últimas pruebas del experimento (ejecución 5) (t (11) = 3.712, p <.003), con un RT medio más rápido para la condición de probabilidad de recompensa del 100% (media = 498.30, dt = 206.23) en relación con la condición del 33% (media = 583.74, dt = 270.23).

La diferencia en el tiempo de reacción promedio entre las condiciones de 100% y 33% se multiplicó por dos desde los primeros ensayos hasta los ensayos más recientes (ver Figura 2a). Para seguir mostrando el aprendizaje, introdujimos una inversión, cambiando las probabilidades de recompensa para las condiciones 33% y 100% al final del experimento. El ANOVA de 2 (probabilidad) X 2 (reversión y no reversión) para los ensayos tardíos mostró una interacción significativa (F (1,11) = 18.97, p = 0.001), con una disminución de la RT a la condición en la que se encontraba el 33. la no reversión (media = 583.74, sd = 270.24) y 100% en la reversa (media = 519.89, sd = 180.46) (Figura 2b).

Figura 2 y XNUMX  

Resultados de comportamiento (RT)

Resultados de imágenes

Se modeló un GLM para los ensayos correctos que utilizan la probabilidad de recompensa como predictor primario en el punto en el que el sujeto recibió retroalimentación de recompensa o no (es decir, el resultado). Este análisis identificó las regiones de NAcc (x = 9, y = 6, z = −1 y x = −9, y = 9, z = −1) y OFC (x = 28, y = 39, z = - 6) (ver Figura 3a, b). Las pruebas t post-hoc entre los pesos beta de los ensayos recompensados ​​y no recompensados ​​mostraron una mayor activación en ambas regiones para recompensar (NAcc: t (11) = 3.48, p <0.01; OFC x = 28, y = 39, z = −6, t (11) = 3.30, p <0.02)1.

Figura 3 y XNUMX  

Mayor activación para resultados recompensados ​​versus no recompensados ​​en el a) núcleo accumbens (x = 9, y = 6, z = −1; x = −9, y = 9, z = −1) yb) o corteza frontal orbital (x = 28, y = 39, z = −6).

Hubo dos resultados posibles (recompensa o no recompensa) para los dos programas de recompensa intermitentes (33% y 66% de probabilidad) y solo un resultado para el programa de recompensa continuo (100% de probabilidad de recompensa), que se utilizó como condición de comparación. Mientras que hubo un efecto principal de recompensa (recompensa versus ensayos sin recompensa) en el OFC descrito anteriormente, la actividad de OFC no varió en función de la probabilidad de recompensa en el estudio actual [F (2,10) = 0.84, p = 0.46) . Por el contrario, el NAcc mostró distintos cambios en la actividad del resultado como una función de la manipulación de la probabilidad de recompensa [F (2,10) = 9.32, p <0.005]. Específicamente, la actividad de NAcc aumentó para recompensar los resultados, cuando la recompensa fue inesperada (condición de probabilidad de recompensa del 33%) en relación con la esperada (condición de referencia del 100%) [t (11) = 2.54, p <.03 ver Figura 4a]. En segundo lugar, hubo una disminución de la actividad NAcc o ninguna recompensa, cuando se esperaba una recompensa y no se recibió (condición de probabilidad de recompensa del 66%) en relación con la recompensa que no se esperaba o no se recibió (condición de probabilidad de recompensa del 33%; t (59) = 2.08, p <.04; ver Figura 4b). Tenga en cuenta que no hubo diferencias significativas en la activación entre el 33% y el 66% de las condiciones de probabilidad de recompensa [t (11) =. 510, p = .62] o entre el 66% y el 100% de las condiciones de probabilidad recompensada [t (11) = 1.20, p = .26] en resultados recompensados. La señal de RM en función del resultado de la recompensa y la probabilidad se muestran en Figura 4 y XNUMX.

Figura 4 y XNUMX  

El porcentaje de cambios en la señal de MR en función del resultado de la recompensa y la probabilidad en el núcleo accumbens para a) los resultados no recompensados ​​y a) recompensados.

Discusión

Este estudio examinó los efectos de las infracciones en los resultados de recompensa esperados sobre el comportamiento y la actividad neuronal en el accumbens y la corteza frontal orbital (OFC), que se mostró anteriormente como implicados en la anticipación de los resultados de recompensa (McClure et al 2004; Knutson y otros, 2005). Demostramos que tanto el núcleo accumbens como la OFC fueron reclutados durante los ensayos recompensados ​​en relación con los ensayos no premiados, pero solo el núcleo accumbens mostró sensibilidad a las violaciones en el resultado de recompensa predicho en este estudio. La mayor sensibilidad de los accumbens al valor de recompensa (p. Ej., Magnitud) en relación con la OFC se ha demostrado en trabajos anteriores (Galvan et al 2005), y en conjunto, estos hallazgos sugieren que esta región puede estar involucrada en el cálculo de la magnitud y la probabilidad de recompensa. La falta de sensibilidad en la OFC a estas manipulaciones puede reflejar una representación más absoluta de recompensa o ambigüedad en el resultado (Hsu et al., 2005). Alternativamente, como la señal de RM fue más variable en esta región, estos efectos pueden haberse debilitado en el estudio actual.

En estudios electrofisiológicos en animales, se ha demostrado que las neuronas de dopamina en el mesencéfalo (que se proyectan al núcleo accumbens) tienen poca o ninguna respuesta a los resultados de recompensa previstos (probabilidad = 1.0), pero muestran disparos fásicos cuando la recompensa se entrega con menos de 100 % de probabilidad, incluso después de un entrenamiento extenso (Fiorillo et al, 2003). En el estudio actual, mostramos una mayor actividad de accumbens para recompensar cuando la recompensa fue inesperada (condición 33%) en relación con cuando se esperaba (condición 100%) consistente con estos hallazgos. Además, los estudios electrofisiológicos de las neuronas de dopamina en animales (por ejemplo, Fiorillo et al, 2003) han demostrado que para los ensayos en los que se predijo la recompensa, pero no ocurrió, la actividad neuronal disminuyó. El estudio actual mostró un patrón similar en los accumbens, con una disminución de la actividad en esta región en los ensayos no recompensados ​​para la condición de probabilidad de recompensa del 66% en relación con la condición del% de 33.2

Las neuronas de la dopamina se han implicado en el aprendizaje de dos maneras. Primero, codifican contingencias entre estímulos (o respuesta) y resultados a través de señales de error de predicción que detectan violaciones en las expectativas (Schultz et al, 1997; Mirencowicz y Schultz, 1998; Fiorillo et al, 2003). Así, el error de predicción parece proporcionar una señal de enseñanza que corresponde a los principios de aprendizaje descritos inicialmente por Rescorla y Wagner (1972). En segundo lugar, sirven para alterar las respuestas de comportamiento (Schultz et al, 1997; McClure et al, 2004) de modo que las acciones estén sesgadas hacia las señales que son más predictivas. En el estudio actual, demostramos que en las últimas pruebas del experimento, el rendimiento más óptimo es para la condición con la mayor probabilidad de recompensa (100% de probabilidad de recompensa) y el menos óptimo para la condición de probabilidad más baja (33% de probabilidad de recompensa). Este hallazgo de comportamiento es consistente con el trabajo de probabilidad anterior que muestra el rendimiento menos óptimo con la probabilidad de resultado de recompensa más baja, lo que sugiere que las contingencias de recompensa se aprendieron con el tiempo (Delgado et al, 2005). Para seguir mostrando el aprendizaje, introdujimos una inversión, cambiando las probabilidades de recompensa para las condiciones 33% y 100% al final del experimento. Esta manipulación resultó en la atenuación de las diferencias entre estas condiciones, lo que corroboró aún más los efectos de aprendizaje.

Un objetivo importante de los estudios relacionados con la recompensa es determinar cómo influyen las recompensas y el comportamiento de sesgo (por ejemplo, Robbins y Everitt, 1996; Schultz, 2004) además de caracterizar el procesamiento neural subyacente. Numerosos factores contribuyen a la rapidez y robustez de las recompensas que influyen en el comportamiento, incluidos los programas de refuerzo (Desollador, 1958), valor de recompensa (Galvan et al, 2005), y recompensa la previsibilidad (Fiorillo et al, 2003; Delgado et al, 2005). El valor esperado, que es el producto de la magnitud y la probabilidad de una recompensa (Pascal, ca 1600s), influye en las elecciones de comportamiento (de Frisch, 1967; Montague et al, 1995; Montague y Berns, 2002). Al utilizar una tarea muy similar en la que solo el resultado (magnitud en lugar de probabilidad) difería del estudio actual, demostramos que el núcleo accumbens era sensible a valores de recompensa discretos (Galvan et al, 2005). Tomado junto con la evidencia presentada aquí y en otros lugares (Tobler et al, 2005), sugerimos que el estriado ventral probablemente contribuya al cálculo del valor de recompensa esperado, dada su sensibilidad para recompensar la probabilidad y la magnitud.

El papel de la corteza frontal orbital en la predicción de recompensa es consistente con las subdivisiones funcionales de esta región por Kringelbach y Rollos (2004). Sugieren que más porciones anteriores y mediales de OFC son sensibles a manipulaciones abstractas de recompensa. La activación de OFC en este estudio se observó en esta ubicación general. Los estudios electrofisiológicos implican a la OFC en la codificación del valor subjetivo de un estímulo de recompensa (para revisión, O'Doherty, 2004). Por ejemplo, las neuronas OFC disparan un sabor particular cuando un animal tiene hambre, pero disminuyen su velocidad de disparo una vez que el animal está saciado y el valor de recompensa de la comida ha disminuido (Critchley y Rollos, 1996). Como tal, otros han sugerido que la OFC es más sensible a las recompensas relativas (Tremblay y Schultz, 1999) y la preferencia de recompensa (Schultz et al, 2000). Los estudios de neuroimagen han mostrado un patrón análogo en humanos con una variedad de estímulos, incluido el gusto (O'Doherty et al, 2001; Kringelbach et al, 2003), olfato (Anderson et al, 2003; Rolls et al, 2003), y dinero (Elliott et al, 2003; Galvan et al, 2005), con cada activación variando en la ubicación de la actividad de anterior a posterior y de media a lateral OFC. La OFC ha sido implicada en la anticipación de la recompensa (O'Doherty et al 2002), pero solo en la medida en que el valor predictivo de la respuesta esté vinculado a la propuesta de de la recompensa asociada, más que en la probabilidad de que se produzca esa recompensa (O'Doherty, 2004 ). En el estudio actual, no observamos sensibilidad a las infracciones en la predicción de recompensa en la OFC. Knutson y sus colegas (2005) han reportado correlaciones entre las estimaciones de probabilidad y la activación cerebral en anticipación de la recompensa en la corteza prefrontal mesial (Knutson et al 2005), pero no específicamente en la corteza frontal orbital. A diferencia de, Ramnani y otros (2004 ) informó la sensibilidad de la OFC al error de predicción positiva en la corteza orbital frontal media utilizando una tarea de visualización pasiva y Dreher et al. (2005) informó la predicción de error OFC en una tarea que manipuló tanto la probabilidad como la magnitud de las señales predictivas, pero estas contingencias se aprendieron antes de la exploración. Por lo tanto, aún es posible que la OFC pueda calcular las recompensas previstas, pero tal vez estos cálculos sean más toscos (es decir, sumados en un rango de probabilidades) o más lentos para formarse en relación con los cálculos precisos que parecen ocurrir en el NAcc. Alternativamente, esta región puede ser más sensible para detectar estímulos de valor incierto y / o ambiguo, según lo propuesto por Hsu et al (2005), que al detectar infracciones en la predicción de recompensas. Hsu et al (2005) muestran que el nivel de ambigüedad en las elecciones (elecciones inciertas hechas debido a la información faltante) se correlaciona positivamente con la activación en la OFC. Finalmente, la mayor variabilidad en la señal de RM en esta región puede haber disminuido nuestra capacidad para detectar estos efectos también.

La pregunta fundamental del estudio actual fue cómo los accumbens y la OFC codifican diferencialmente los resultados de recompensa pronosticados en relación con los resultados imprevistos (es decir, violaciones de expectativas). Manipulamos paramétricamente la probabilidad de recompensa y examinamos la respuesta neuronal a la recompensa y los ensayos sin recompensa para cada condición de recompensa de probabilidad. Nuestros datos son consistentes con las imágenes humanas anteriores y los estudios electrofisiológicos no humanos (Fiorillo et al, 2003; Schultz, 2002) y sugiera que los accumbens y la OFC son sensibles para recompensar el resultado (recompensa o no). Sin embargo, la actividad en estas regiones, especialmente los accumbens, parece estar modulada por predicciones sobre la probabilidad de resultados de recompensa que se forman con el aprendizaje a lo largo del tiempo. Este patrón dinámico de activación podría representar modificaciones en la actividad de la dopamina dentro de estas regiones o proyectarlas a medida que la información sobre la recompensa prevista se aprende y se actualiza.

Notas a pie de página

1El NAcc [t (11) = 3.2, p <0.04] y OFC [t (11) = 3.5, p <0.02] mostraron una mayor actividad en anticipación de la recompensa por la condición de recompensa intermitente pero no continua

2La omisión del resultado de recompensa en la condición 33% resultó en un ligero aumento en la actividad de NAcc en lugar de una disminución, similar a la observada por Knutson y otros, 2001. Una posible interpretación de este resultado es que los sujetos fueron motivados o recompensados ​​intrínsecamente si predijeron que no habría recompensa por ese ensayo, y ninguno lo hizo. Alternativamente, dado que los resultados de recompensa para estos ensayos fueron los menos en número en todo el experimento, la actividad puede reflejar el aprendizaje continuo para esta condición.

Descargo de responsabilidad del editor: Este es un archivo PDF de un manuscrito sin editar que ha sido aceptado para publicación. Como servicio a nuestros clientes, proporcionamos esta primera versión del manuscrito. El manuscrito se someterá a revisión, composición y revisión de la prueba resultante antes de que se publique en su forma final. Tenga en cuenta que durante el proceso de producción se pueden descubrir errores que podrían afectar el contenido, y todas las exenciones de responsabilidad legales que se aplican a la revista pertenecen.

Referencias

  • Anderson A, Christoff K, Stappen I, Panitz D, Ghahremani D, Glover G, Gabrieli JD, Sobel N. Representaciones neurales disociadas de intensidad y valencia en el olfato humano. Neurociencia de la naturaleza. 2003;6: 196-202.
  • Berns GS, McClure SM, Pagnoni G, Montague PR. La predictibilidad modula la respuesta del cerebro humano a la recompensa. Journal of Neuroscience. 2001;21: 2793-2798. [PubMed]
  • Boynton GM, Engel SA, Glover GH, Heeger DJ. Análisis de sistemas lineales de imágenes de resonancia magnética funcional en V1 humano. Journal of Neuroscience. 1996;16: 4207-4221. [PubMed]
  • Cox RW. AFNI: Software para análisis y visualización de neuroimágenes de resonancia magnética funcional. Cálculos en la investigación biomédica. 1996;29: 162-173.
  • Cox SM, Andrade A, Johnsrude ES. Aprender a gustar: Un papel para la corteza orbitofrontal humana en la recompensa condicionada. Journal of Neuroscience. 2005;25: 2733-2740. [PubMed]
  • Craig AD, Chen K, Bandy D, Reiman EM. Activación termosensorial de la corteza insular. Neurociencia de la naturaleza. 2000;3: 184-190.
  • Critchley HD, Rolls ET. El hambre y la saciedad modifican las respuestas de las neuronas olfativas y visuales en la corteza orbitofrontal de los primates. Revista de Neurofisiología. 1996;75: 1673-1686. [PubMed]
  • De Araujo IET, Kringelbach ML, Rolls ET, McGlone F. Respuestas corticales humanas al agua en la boca y los efectos de la sed. Revista de Neurofisiología. 2003;90: 1865-1876. [PubMed]
  • Delgado MR, Miller M, Inati S, Phelps EA. Un estudio fMRI del aprendizaje de probabilidad relacionado con la recompensa. Neuroimagen. 2005;24: 862-873. [PubMed]
  • Dreher JC, Kohn P, Berman KF. Codificación neuronal de distintas propiedades estadísticas de la información de recompensa en humanos. Corteza cerebral. 2005 Epub delante de la impresión.
  • Elliott R, Newman JL, Longe OA, Deakin JFW. Patrones de respuesta diferencial en el estriado y la corteza orbitofrontal a la recompensa financiera en humanos: un estudio de imágenes de resonancia magnética paramétrica funcional. Journal of Neuroscience. 2003;23: 303-307. [PubMed]
  • Fiorillo CD, Tobler PN, Schultz W. Codificación discreta de la probabilidad de recompensa e incertidumbre de las neuronas de dopamina. Ciencia. 2003;299: 1898-1902. [PubMed]
  • Galvan A, Hare TA, Davidson M, Spicer J, Glover G, Casey BJ. El papel de los circuitos frontostriatales ventrales en el aprendizaje basado en la recompensa en humanos. The Journal of Neuroscience. 2005;25: 8650-8656. [PubMed]
  • Galvan A, Hare TA, Parra C, Penn J, Voss H, Glover G, Casey BJ. El desarrollo temprano de los accumbens en relación con la corteza orbitofrontal puede subyacer a las conductas de riesgo en los adolescentes. The Journal of Neuroscience. 2006;26: 6885-6892. [PubMed]
  • Gottfried JA, O'Doherty J, Dolan RJ. Codificación del valor de la recompensa predictiva en la amígdala humana y la corteza orbitofrontal. Ciencia. 2003;301: 1104-1107. [PubMed]
  • Haber SN. Los ganglios basales primates: redes paralelas e integradoras. Diario de la neuroanatomía química. 2003;26: 317-330. [PubMed]
  • Las neuronas de Hollerman J, Schultz W. Dopamine informan un error en la predicción temporal de la recompensa durante el aprendizaje. Neurociencia de la naturaleza. 1998;1: 304-309.
  • Hsu M, Bhatt M, Adolphs R, Tranel D, Camerer CF. Sistemas neuronales que responden a grados de incertidumbre en la toma de decisiones humanas. Ciencia. 2005;310: 1680-1683. [PubMed]
  • Knutson B, Adams CM, Fong GW, Hommer D. La anticipación del aumento de la recompensa monetaria recluta selectivamente el núcleo accumbens. Journal of Neuroscience. 2001;21: 1-5.
  • Knutson B, Taylor J, Kaufman M, Peterson R, Glover G. Representación neural de Distrbuted del valor esperado. The Journal of Neuroscience. 2005;25: 4806-4812. [PubMed]
  • Kringelbach ML, O'Doherty J, Rolls ET, Andrews C. La activación de la corteza orbitofrontal humana a un estímulo alimentario líquido se correlaciona con su agrado subjetivo. Corteza cerebral. 2003;13: 1064-1071. [PubMed]
  • Kringelbach ML, Rolls ET. La neuroanatomía funcional de la corteza orbitofrontal humana: evidencia de neuroimagen y neuropsicología. Avances en neurobiología. 2004;72: 341-372. [PubMed]
  • Leon MI, Shadlen MN. Efecto de la magnitud de recompensa esperada sobre la respuesta de las neuronas en la corteza prefrontal dorsolateral del macaco. Neuron. 1999;24: 415-425. [PubMed]
  • McClure SM, Berns GS, Montague PR. Los errores de predicción temporal en una tarea de aprendizaje pasivo activan el cuerpo estriado humano. Neuron. 2003;38: 339-346. [PubMed]
  • McClure SM, Laibson DI, Loewenstein G, Cohen JD. Los sistemas neuronales separados valoran las recompensas monetarias inmediatas y retrasadas. Ciencia. 2004;306: 503-507. [PubMed]
  • Mirenowicz J, Schultz W. Importancia de la imprevisibilidad para las respuestas de recompensa en las neuronas de dopamina de primates. Revista de Neurofisiología. 1994;72: 1024-1027. [PubMed]
  • Montague PR, Berns GS. La economía neural y los sustratos biológicos de valoración. Neuron. 2002;36: 265-284. [PubMed]
  • Montague PR, Hyman SE, Cohen JD. Roles computacionales de la dopamina en el control conductual. Naturaleza. 2004;431: 379-387.
  • O'Doherty JP. Recompensas representaciones y aprendizaje relacionado con recompensas en el cerebro humano: conocimientos de neuroimagen. Opinión actual en neurobiología. 2004;14: 769-776. [PubMed]
  • O'Doherty JP, Dayan P, Friston K, Critchley H, Dolan RJ. Modelos de diferencias temporales y aprendizaje relacionado con la recompensa en el cerebro humano. Neuron. 2003;38: 329-337. [PubMed]
  • O'Doherty JP, Deichmann R, Critchley HD, Dolan RJ. Respuestas neuronales durante la anticipación de una recompensa gustativa primaria. Neuron. 2002;33: 815-826. [PubMed]
  • O'Doherty J, Kringelbach M, Rolls ET, Hornak J, Andrews C.Representaciones abstractas de recompensa y castigo en la corteza orbitofrontal humana. Neurociencia de la naturaleza. 2001;4: 95-102.
  • O'Doherty J, Rolls ET, Francis S, Bowtell R, McGlone F, Kobal G, Renner B, Ahne G. Activación olfativa sensorial específica relacionada con la saciedad de la corteza orbitofrontal humana. Neuroreport. 2000;11: 893-897. [PubMed]
  • Olds J, Milner P. Refuerzo positivo producido por la estimulación eléctrica del área septal y otras regiones del cerebro de rata. Revista de fisiología comparada y psicología. 1954;47: 419-427.
  • Ramnani N, Elliott R, Athwal B, Passingham R. Error de predicción para obtener una recompensa monetaria gratuita en la corteza prefrontal humana. Neuroimagen. 2004;23: 777-786. [PubMed]
  • Rescorla R, Wagner A. En: Acondicionamiento Clásico 2: Investigación y Teoría actuales. Negro A, Prokasy W, editores. Appleton Century-Crofts; Nueva York: 1972. pp. 64 – 69.
  • Robbins TW, Everitt BJ. Mecanismos neuroconductuales de recompensa y motivación. Opiniones actuales en neurobiología. 1996;6: 228-235.
  • Rolls E, Kringelbach M, DeAraujo I. Diferentes representaciones de olores agradables y desagradables en el cerebro humano. Revista Europea de Neurociencia. 2003;18: 695-703. [PubMed]
  • Schultz W, Dayan P, Montague PR. Un sustrato neural de la predicción y la recompensa. Ciencia. 1997;275: 1593-1599. [PubMed]
  • Schultz W, Tremblay L, Hollerman JR. Procesamiento de recompensa en la corteza orbitofrontal de los primates y en los ganglios basales. Cereb Cortex. 2000;10: 272-284. [PubMed]
  • Schultz W. Se formaliza con dopamina y recompensa. Neuron. 2002;36: 241-263. [PubMed]
  • Schultz W. Codificación neuronal de los términos básicos de recompensa de la teoría del aprendizaje animal, la teoría de juegos, la microeconomía y la ecología del comportamiento. Opinión actual en neurobiología. 2004;14: 139-147. [PubMed]
  • Skinner BF. Diagramación de horarios de refuerzo. Revista de Análisis Experimental del Comportamiento. 1958;1: 103-107.
  • Sutton RS, Barto AG. Aprendizaje de refuerzo: una introducción. MIT Press; Cambridge, MA: 1998.
  • Schultz W, Tremblay L, Hollerman J. Recompensa el procesamiento en la corteza orbitofrontal de los primates y los ganglios basales. Corteza cerebral. 2000;10: 272-284. [PubMed]
  • Talairach J, Tournoux P. Atlas estereotáxico co-planar del cerebro humano. Thieme; Nueva York: 1988.
  • Tobler PN, Fiorillo CD, Schultz W. Codificación adaptativa del valor de recompensa por las neuronas de dopamina. Ciencia. 2005;307: 1642-1645. [PubMed]
  • Tremblay L, Schultz W. La preferencia de recompensa relativa en la corteza orbitofrontal de los primates. Naturaleza. 1999;398: 704-708. [PubMed]
  • von Frisch K. El lenguaje de la danza y la orientación de las abejas. Harvard University Press; Cambridge, Massachusetts: 1967.