Estudio completo: la novedad contextual cambia las representaciones de recompensa en el estriado
Marc Guitart-Masip,*,1,2 Nico Bunzeck,*,1 Klaas E Stephan,2,3 Raymond J Dolan,2 y Emrah Düzel1,4
La versión final editada del editor de este artículo está disponible de forma gratuita en J Neurosci
Ver otros artículos en PMC que citar El artículo publicado.
Resumen
La representación de la recompensa en el estriado ventral se ve impulsada por la novedad perceptiva, aunque el mecanismo de este efecto sigue siendo difícil de alcanzar. Los estudios en animales indican un bucle funcional (Lisman y Grace, 2005) que incluye el hipocampo, el estriado ventral y el mesencéfalo como importantes para regular la atribución de saliencia en el contexto de estímulos novedosos. De acuerdo con este modelo, las respuestas de recompensa en el estriado ventral o mesencéfalo deben mejorarse en el contexto de la novedad, incluso si la recompensa y la novedad constituyen eventos independientes no relacionados. Usando la RMf, mostramos que los ensayos con señales de recompensa predictiva y resultados subsiguientes provocan respuestas más altas en el estriado si van precedidos por una imagen no relacionada no relacionada que indica que la representación de la recompensa se mejora en el contexto de la novedad. En particular, este efecto se observó únicamente cuando la ocurrencia de la recompensa, y por lo tanto la importancia relacionada con la recompensa, fue baja. Estos hallazgos apoyan una visión de que la novedad contextual mejora las respuestas neuronales que subyacen a la representación de la recompensa en el estriado y coincide con los efectos del procesamiento de la novedad según lo predicho por el modelo de Lisman y Grace (2005).
Introducción
Los ganglios basales, junto con sus aferentes dopaminérgicos, proporcionan un mecanismo para aprender sobre el valor de recompensa de diferentes opciones de comportamiento (Berridge y Robinson, 2003; Frank et al., 2004; Pessiglione et al., 2006). En línea con esta visión, los estudios de resonancia magnética funcional muestran que recompensar, y recompensar las señales predictivas, provocan la actividad cerebral en el cuerpo estriado (por ejemplo,Delgado et al., 2000; Knutson y otros, 2000; O'Doherty et al., 2003; O'Doherty et al., 2004) y el cerebro medio (Aron et al., 2004; Wittmann y otros, 2005). Sin embargo, el sistema dopaminérgico del cerebro medio también responde a estímulos novedosos no gratificantes en monos (Ljungberg et al., 1992) y los humanos (Bunzeck y Duzel, 2006; Wittmann y otros, 2007). Desde una perspectiva computacional, se ha sugerido que la novedad en sí misma puede actuar como una señal motivacional que aumenta la representación de la recompensa e impulsa la exploración de una opción de elección desconocida y novedosa (Kakade y Dayan, 2002).
Aunque el procesamiento de la novedad y la recompensa comparten mecanismos neuronales comunes, el sustrato neural que soporta una interacción entre la novedad y la recompensa sigue siendo poco conocido. La investigación en animales revela que las señales de novedad del hipocampo regulan la capacidad de las neuronas de dopamina para mostrar la actividad de disparo de ráfaga. Dado que el disparo de ráfaga es el principal patrón de respuesta dopaminérgica que codifica recompensas, y posiblemente otros eventos destacados, hay buenas razones para sospechar que las señales de novedad del hipocampo tienen el potencial de regular el procesamiento de recompensas y la atribución de saliencia (Lisman y Grace, 2005). Las señales de novedad del hipocampo se transmiten a VTA a través del subículo, el estriado ventral y el pálido ventral, donde causan la desinhibición de las neuronas de dopamina silenciosas para inducir un modo de actividad tónica (Lisman y Grace, 2005; Grace y Bunney, 1983). Es importante destacar que solo las neuronas de dopamina tónicamente activas pero no silenciosas se transfieren al modo de disparo de ráfaga y muestran respuestas fásicas (Floresco et al., 2003). De esta manera, las señales de novedad del hipocampo tienen el potencial de aumentar las señales de dopamina fásicas y facilitar la codificación de nueva información en la memoria a largo plazo.
Aunque investigaciones recientes han demostrado que la novedad del estímulo mejora el error de predicción de recompensa estriatal (Wittmann y otros, 2008), este hallazgo no aborda una hipótesis fisiológica de que la novedad contextual ejerce un efecto de mejora sobre las señales de recompensa posteriores (Lisman y Grace, 2005). Para probar esto se requiere una manipulación independiente del nivel de novedad y recompensa, de modo que la novedad (y la familiaridad) actúen como contextos temporalmente extendidos que preceden a las recompensas. Investigamos la expresión de la modulación estriatal del procesamiento de recompensas en el contexto de la novedad presentando un estímulo novedoso que precede a la presentación de señales que predicen recompensas. Además, manipulamos ambos factores (novedad y recompensa) de forma independiente; Esto nos permitió distinguir sus correspondientes representaciones neurales. Presentamos a los sujetos una de tres imágenes fractales diferentes que indicaban la entrega de recompensa con una probabilidad determinada (sin recompensa (p = 0), baja (p = 0.4) y alta probabilidad de recompensa (p = 0.8)). De esta manera, nuestro diseño también nos permitió investigar si las influencias de la novedad contextual en las respuestas de recompensa se vieron afectadas por la probabilidad de que se produjera la recompensa. Un efecto dependiente de la probabilidad de la novedad en el procesamiento de recompensas brindaría un fuerte apoyo para la predicción de que la novedad y el procesamiento de recompensas interactúan funcionalmente. En contraste, un efecto de la novedad en la actividad cerebral relacionada con la recompensa que es independiente de la probabilidad y la magnitud de la recompensa indicaría que la novedad y la recompensa comparten regiones cerebrales y producen actividad neural aditiva sin una interacción funcional.
Material y Métodos
Materias
Los adultos de 16 participaron en el experimento (9 hembra y 7 macho; rango de edad 19-32 años; media 23.8, SD = 3.84 años). Todos los sujetos eran sanos, diestros y tenían agudeza normal o corregida a normal. Ninguno de los participantes informó un historial de trastornos neurológicos, psiquiátricos o médicos, ni ningún problema médico actual. Todos los experimentos se realizaron con el consentimiento informado por escrito de cada sujeto y de acuerdo con la autorización de ética local (University College London, Reino Unido).
Diseño experimental y tarea.
La tarea se dividió en fases 3. En la fase 1, los sujetos se familiarizaron con un conjunto de imágenes 10 (5 interior, 5 exterior). Cada imagen se presentó 10 veces para 1000ms con un intervalo de estímulo (ISI) de 1750 ± 500ms. Los sujetos indicaron el estado interior / exterior utilizando su índice derecho y el dedo medio. En la fase 2, las imágenes fractales de 3 se emparejaron, bajo diferentes probabilidades (0, 0.4 y 0.8), con una recompensa monetaria de peniques de 10 en una sesión de acondicionamiento. Cada imagen fractal fue presentada 40 veces. En cada prueba, una de las imágenes fractales de 3 se presentó en la pantalla para 750ms y los sujetos indicaron la detección de la presentación del estímulo con solo presionar un botón. El resultado probabilístico (10 o 0 pence) se presentó como un número en la pantalla. 750ms más tarde para otros 750ms y los sujetos indicaron si ganaron dinero o no utilizando su índice y su dedo medio. El intervalo entre ensayos (ITI) fue 1750 ± 500ms. Finalmente, en una fase de prueba (fase 3), se determinó el efecto de la novedad contextual en las respuestas relacionadas con la recompensa en cuatro sesiones de once minutos (Figura 1 y XNUMX). Aquí, se presentó una imagen para 1000ms y los sujetos indicaron el estado interior / exterior utilizando su índice derecho y sus dedos medios. Se pudieron hacer respuestas mientras la imagen de la escena y la imagen fractal subsiguiente se mostraban en la pantalla (1750 ms en total). La imagen fue del conjunto familiarizado de imágenes de la fase 1 (denominada "imágenes familiares") o de otro conjunto de imágenes que nunca se había presentado (denominada "imágenes nuevas"). En total se presentaron imágenes de la novela 240 a cada sujeto. A partir de entonces, una de las imágenes fractales de 3 de la fase 2 (denominada señal predictiva de recompensa) se presentó para los 750ms (en este caso, se indicó a los sujetos que no respondieran). Al igual que en la segunda fase, el resultado probabilístico (10 o 0 pence) se presentó 750ms más tarde para otros 750ms y los sujetos indicaron si ganaron dinero o no con su dedo índice y medio. Las respuestas se pudieron hacer mientras el resultado se mostraba en la pantalla y durante el intervalo intertrial posterior (2500 ± 500 ms en total). El ITI fue 1750 ± 500ms. Durante cada sesión, cada imagen fractal se presentó 20 veces después de una imagen novedosa y 20 veces después de una imagen familiar, lo que resultó en pruebas de 120 por sesión. El orden de presentación de los seis tipos de ensayos fue completamente aleatorio. Las tres fases experimentales se realizaron dentro del escáner de IRM, pero los datos BOLD solo se adquirieron durante la fase de prueba (fase 3). Se instruyó a los sujetos para que respondieran de la manera más rápida y correcta posible y que les pagaran sus ganancias hasta £ 20. Se les dijo a los participantes que se restarían los peniques de 10 por cada respuesta incorrecta; estos ensayos se excluyeron del análisis. Los ingresos totales se mostraron en la pantalla solo al final del bloque 4th.
Todas las imágenes fueron en escala de grises y normalizadas a un valor medio de 127 y una desviación estándar de 75. Ninguna de las escenas representó seres humanos o partes del cuerpo humano (incluidas las caras) en el primer plano. Los estímulos se proyectaron en el centro de una pantalla y los sujetos los observaron a través de un sistema de espejo montado en la bobina de la cabeza del escáner fMRI.
adquisición de datos fMRI
fMRI se realizó en un escáner de resonancia magnética 3-Tesla Siemens Allegra (Siemens, Erlangen, Alemania) con imágenes planas de eco (EPI). En la sesión funcional 48 T2 * se obtuvieron imágenes ponderadas por volumen (que cubren la cabeza entera) con contraste dependiente del nivel de oxigenación (BOLD) (matriz: 64 × 64; cortes axiales oblicuos de 48 por volumen en ángulo en −30 ° en el anteroposterior eje; resolución espacial: 3 × 3 × 3 mm; TR = 2880 ms; TE = 30 ms). El protocolo de adquisición fMRI se optimizó para reducir las pérdidas de sensibilidad BOLD inducidas por la susceptibilidad en las regiones inferiores del lóbulo frontal y temporal (Weiskopf et al., 2006). Para cada sujeto, los datos funcionales se adquirieron en cuatro sesiones de escaneo que contenían volúmenes 224 por sesión. Se adquirieron seis volúmenes adicionales al comienzo de cada serie para permitir la magnetización en estado estacionario y posteriormente se descartaron. Las imágenes anatómicas del cerebro de cada sujeto se recolectaron utilizando el flash 3D de eco múltiple para mapear la densidad de protones (PD), T1 y la transferencia de magnetización (MT) en 1mm3 resolución (Weiskopf y Helms, 2008) y por T1 recuperación de inversión ponderada preparó secuencias EPI (IR-EPI) (resolución espacial: 1 × 1 × 1 mm). Además, los mapas de campo individuales se registraron utilizando una secuencia FLASH de doble eco (tamaño de matriz = 64 × 64; cortes de 64; resolución espacial = 3 × 3 × 3 mm; espacio = 1 mm; corto TE = 10 ms; ms largo ; TR = 12.46 ms) para la corrección de distorsión de las imágenes EPI adquiridas (Weiskopf et al., 2006). Usando la 'caja de herramientas FieldMap' (Hutton et al., 2002) los mapas de campo se estimaron a partir de la diferencia de fase entre las imágenes adquiridas en el TE corto y largo.
análisis de datos fMRI
El preprocesamiento incluía la realineación, la desactivación del uso de mapas de campo individuales, la normalización espacial del espacio del Instituto de Neurología de Montreal (MNI) y, finalmente, la suavización con un kernel gaussiano 4mm. Los datos de la serie temporal de fMRI se filtraron con un paso alto (corte = 128 s) y se blanquearon utilizando un modelo AR (1). Para cada sujeto, se calculó un modelo estadístico aplicando una función de respuesta hemodinámica canónica (HRF) combinada con derivados de tiempo y dispersión (Friston et al., 1998).
Nuestro diseño factorial 2 × 3 incluía condiciones de interés de 6 que se modelaron como regresores separados: imagen familiar con probabilidad de recompensa 0, imagen familiar con recompensa de probabilidad 0.4, imagen familiar con recompensa de probabilidad 0.8, imagen de novela con recompensa -probabilidad 0, imagen nueva con probabilidad de recompensa 0.4, imagen nueva con probabilidad de recompensa 0.8. La proximidad temporal de las señales predictivas de recompensa (es decir, la imagen fractal) y el resultado de la recompensa en sí plantean problemas para la separación de señales BOLD que surgen de estos dos eventos. Por lo tanto, modelamos cada prueba como un evento compuesto, usando un mini-boxcar que incluía la presentación de la clave y el resultado. Esta limitación técnica no fue problemática para nuestro análisis factorial que se concentró en la interacción entre el procesamiento de la novedad y la recompensa y la coincidencia de los efectos de la recompensa y la novedad. Las pruebas de error se modelaron como un regresor sin interés. Para capturar artefactos residuales relacionados con el movimiento, se incluyeron seis covariables (las tres traslaciones de cuerpo rígido y las tres rotaciones resultantes de la realineación) como regresores sin interés. Los efectos de las condiciones específicas de la región se probaron empleando contrastes lineales para cada sujeto y cada condición (análisis de primer nivel). Las imágenes de contraste resultantes se ingresaron en un análisis de efectos aleatorios de segundo nivel. Aquí, los efectos hemodinámicos de cada condición se evaluaron utilizando un análisis de varianza (ANOVA) 2 x 3 con los factores "novedad" (novela, familiar) y probabilidad de recompensa (0, 0.4, 0.8).
Nuestro análisis se centró en las regiones de interés definidas anatómicamente en 3 (estriado, cerebro medio e hipocampo) donde se plantearon hipótesis sobre las interacciones entre el procesamiento de la novedad y la recompensa según los estudios anteriores (Lisman y Grace, 2005; Wittmann y otros, 2005; Bunzeck y Duzel, 2006). Para completar, también informamos resultados completos del cerebro en el material complementario. Las regiones de interés del estriado y del hipocampo (ROI) se definieron en función de la caja de herramientas Elegir Atlas (Maldjian et al., 2003; Maldjian et al., 2004). Mientras que el ROI estriatal incluía la cabeza de caudado, cuerpo caudado y putamen, el ROI del hipocampo excluía a la amígdala y la corteza rinal circundante. Finalmente, se definió manualmente el ROI de SN / VTA, utilizando el software MRIcro y la imagen MT media para el grupo. En las imágenes MT, el SN / VTA se puede distinguir de las estructuras circundantes como una franja brillante (Bunzeck y Duzel, 2006). Cabe señalar que en los primates, la recompensa de las neuronas dopaminérgicas se distribuye a través del complejo SN / VTA y, por lo tanto, es apropiado considerar la activación de todo el complejo SN / VTA en lugar de centrarse en sus subcompartimientos (Duzel et al., 2009). Para este fin, una resolución de 3mm.3, como se usa en el presente experimento, permite muestrear vóxeles 20-25 del complejo SN / VTA, que tiene un volumen de 350 a 400 mm3.
Resultados
Desde el punto de vista del comportamiento, los sujetos mostraron una gran precisión en el desempeño de las tareas durante la tarea de discriminación en interiores / exteriores (tasa de aciertos media 97.1%, SD = 2.8% para imágenes familiares; tasa de aciertos media 96.8%, SD = 2.1% para imágenes nuevas; t15= 0.38, ns), así como para la discriminación de ganar / no ganar en el tiempo de resultado (tasa de aciertos media 97.8%, SD = 2.3% para eventos ganadores; tasa de aciertos media 97.7%, SD = 2.2% para eventos sin victorias; t15= 0.03, ns). Los sujetos discriminaron el estado interior y exterior más rápido para imágenes familiares en comparación con las imágenes nuevas (tiempo de reacción promedio (RT) RT = 628.2 ms, SD = 77.3ms para imágenes familiares; media RT = 673.8 ms, SD = 111 ms para imágenes nuevas; t15= 4.43, P = 0.0005). No hubo diferencia de RT para la discriminación de ganar / no ganar en el tiempo de resultado (media RT = 542ms, SD = 82.2 ms para las pruebas ganadoras; media RT = 551 ms, SD = 69 ms para las pruebas no ganadas; t15= 0.82, ns). Del mismo modo, durante el acondicionamiento no hubo diferencias de RT para las diferentes imágenes fractales de 3 (probabilidad 0.8: RT = 370.1 ms, SD = 79 ms; probabilidad 0.4: RT = 354.4, SD = 73.8ms; probabilidad 0: RT = 372.2ms, SD = 79.3ms; F (1,12) = 0.045, ns). El último análisis de RT excluyó tres temas debido a problemas técnicos durante la adquisición de datos.
En el análisis de los datos fMRI, un ANOVA 2 × 3 con factores de "novedad" (novedosa, familiar) y probabilidad de recompensa (p = 0, p = 0.4, p = 0.8) mostró un efecto principal de la novedad bilateralmente en el hipocampo (Figura 2A) y el cuerpo estriado derecho, corregido por FDR para el volumen de búsqueda de las ROI. Se observó un efecto principal simple de recompensa ('p = 0.8> p = 0') dentro del complejo SN / VTA izquierdo (Figura 2B) y dentro del estriado bilateral (Figura 2C). Ver Tabla 1 para todas las regiones cerebrales activadas.
No observamos una interacción de probabilidad de recompensa x novedad al corregir múltiples pruebas en todo el volumen de búsqueda de nuestro ROI. Sin embargo, al realizar un análisis post hoc (prueba t) de los tres voxeles máximos que muestran un efecto principal de la recompensa en el estriado, encontramos efectos (ortogonales) de la novedad y su interacción con la recompensa: un vóxel también mostró un efecto principal de Novedad y una interacción de novedad x recompensa, mientras que otro voxel también mostró un efecto principal de la novedad.
Como se muestra en figura 2C (centro), en el primer vóxel ([8 10 0]; efecto principal de la recompensa F (2,30) = 8.12, P = 0.002; efecto principal de la novedad F (1,15) = 7.03, P = 0.02; novedad × interacción de recompensa F (2,30) = 3.29, P = 0.05) este efecto fue impulsado por respuestas BOLD más altas a los ensayos con probabilidad de recompensa 0.4 y precedido por una imagen novedosa (prueba t post-hoc: t (15) = 3.48 , P = 0.003). En el segundo vóxel (2C derecha) ([−10 14 2] efecto principal de la recompensa F (2,30) = 13.13, P <0.001; efecto principal de la novedad F (1,15) = 9.19, P = 0.008; no interacción significativa F (2,30) = 1.85, ns) las pruebas t post-hoc nuevamente demostraron que el efecto principal de la novedad fue impulsado por las diferencias entre las imágenes nuevas y familiares en las dos probabilidades bajas de entrega de recompensa (t (15) = 2.79, P = 0.014; y t (15) = 2.19, P = 0.045, para probabilidad p = 0 yp = 0.4, respectivamente), (ver figura 2C). Por el contrario, el tercer efecto principal de recompensa del voxel (2C izquierda [−22 4 0], F (2,30) = 9.1, P = 0.001) no mostró un efecto principal de la novedad (F (1,15) = 2.33, ns) ni una interacción (F (2,30) = 1.54, ns).
En el mesencéfalo, el vóxel con respuestas máximas relacionadas con la recompensa ([−8 −14 −8], F (2,30) = 12.19, P <0.001), también mostró una tendencia hacia un efecto principal de novedad (F (1,15 , 4.18) = 0.059, P = 2,30) en ausencia de una interacción significativa (F (0.048) = XNUMX, ns).
Discusión
Las imágenes nuevas de escenas mejoraron las respuestas de recompensa estriatal provocadas por eventos de recompensa subsiguientes y no relacionados (predicción de señales abstractas y entrega de recompensa). Como era de esperar, las imágenes novedosas también activaron el hipocampo. Según nuestros conocimientos, estos hallazgos proporcionan una primera evidencia de una predicción fisiológica de que la activación del hipocampo relacionada con la novedad debería ejercer un efecto de mejora contextual en el procesamiento de recompensas en el estriado ventral (Lisman y Grace, 2005; Bunzeck y Duzel, 2006).
Debido a las propiedades de la señal BOLD, la proximidad temporal de la señal predictiva de recompensa y la entrega de resultados impidieron una estimación de los efectos de la novedad en estos eventos por separado. Más bien, consideramos la secuencia cue-resultado como un evento compuesto y encontramos que el efecto de la novedad en el procesamiento de la recompensa variaba en función de la probabilidad de ocurrencia de la recompensa. Se observó una mejora únicamente cuando la probabilidad de recompensa predicha era baja (0 o 0.4) y estaba ausente para la probabilidad de recompensa alta (0.8) (Figura 2C). Es importante tener en cuenta que este patrón de resultados no puede explicarse por los efectos independientes de la novedad y la recompensa en la misma región. Los efectos BOLD causados por dos poblaciones neuronales funcionalmente distintas pero que se superponen espacialmente serían aditivos independientemente de la probabilidad de recompensa y, por lo tanto, conducirían a un efecto de novedad también en la condición de probabilidad 0.8. Por lo tanto, estos efectos dependientes de la probabilidad de novedad en el procesamiento de la recompensa argumentan en contra de la posibilidad de que reflejen una contaminación por respuestas BOLD provocadas por los estímulos novedosos en sí mismos. Más bien, los hallazgos indican que la novedad contextual incrementó el procesamiento de recompensa per se, aunque solo en la condición de baja probabilidad.
Como se explicó anteriormente, no pudimos desambiguar las respuestas en NEGRA entre la anticipación de recompensa (claves) y la entrega de recompensa (resultados). La novedad puede haber aumentado de forma selectiva el procesamiento de resultados no gratificantes (sin pruebas ganadoras). Esto sería coherente con el hecho de que no observamos ningún efecto significativo de novedad en los ensayos con alta probabilidad de recompensa porque el 80% de estos ensayos resultó en la entrega de la recompensa. Alternativamente, la novedad puede haber influido en la anticipación de recompensa para señales que predijeron la entrega de recompensas con baja probabilidad (es decir, 0 y 0.4). En cualquier caso, la novedad contextual mejoró la representación cerebral para aquellos eventos que fueron objetivamente menos gratificantes. Además, es poco probable que la falta de modulación novedosa de las señales de recompensa en la condición de alta probabilidad se deba a un efecto techo en el procesamiento de la recompensa. Trabajos anteriores han demostrado que las respuestas relacionadas con la recompensa en el cuerpo estriado humano se escalan de manera adaptativa en diferentes contextos, lo que da como resultado una señal que representa si un resultado es favorable o desfavorable en un entorno particular (Nieuwenhuis et al 2004). Por lo tanto, se puede esperar que las respuestas de recompensa también sean capaces de acomodar un bono de novedad en condiciones de alta probabilidad de recompensa.
Está bien establecido que el cerebro de los primates aprende sobre el valor de diferentes estímulos emparejados con recompensa en experimentos de condicionamiento clásico, medido por una mayor anticipación del resultado (por ejemplo, mayor lamido). En el presente experimento medimos los tiempos de reacción durante la fase de acondicionamiento, pero no encontramos diferencias entre los diferentes niveles de fuerza de las señales predictivas. Teniendo en cuenta la simplicidad de la tarea y la velocidad a la que respondieron los sujetos (<375 ms para todas las condiciones), esta falta de respuesta diferencial puede deberse a un efecto techo. A pesar de la falta de una medida conductual objetiva para el condicionamiento, el uso exitoso de este tipo de señales en estudios previos (p. Ej. O'Doherty et al., 2003) sugiere que los sujetos aún formaban una asociación entre las señales y las diferentes probabilidades de entrega de recompensa.
En trabajos anteriores, las señales de recompensa en el estriado se han vinculado a una variedad de propiedades relacionadas con la recompensa tanto en humanos como en primates no humanos, incluida la probabilidad (Preuschoff et al., 2006; Tobler et al., 2008), magnitud (Knutson y otros, 2005), incertidumbre (Preuschoff et al., 2006) y valor de acción (Samejima et al., 2005). Esta diversidad de variables relacionadas con la recompensa expresada en el estriado encaja bien con su papel como una interfaz límbica / sensoriomotora con un papel crítico en la organización de conductas dirigidas a objetivos (Wickens et al., 2007). Tanto el SN / VTA como el cuerpo estriado, uno de los principales sitios de proyección del sistema de dopamina del cerebro medio, también responden para recompensar y recompensar las señales predictivas en los paradigmas de condicionamiento clásico (por ejemplo,Delgado et al., 2000; Knutson y otros, 2000; Fiorillo et al., 2003; Knutson y otros, 2005; Tobler et al., 2005; Wittmann y otros, 2005; D'Ardenne et al., 2008). Según varias perspectivas computacionales, la transmisión de dopamina originada en el SN / VTA enseña al estriado acerca del valor de los estímulos condicionados a través de una señal de error de predicción (Schultz et al., 1997).
Aunque en los estudios de condicionamiento clásico, las representaciones de recompensa y no recompensa expresadas en el estriado no siempre tienen consecuencias obvias en el comportamiento (O'Doherty et al., 2003; den Ouden et al., 2009), los estudios fMRI han demostrado sistemáticamente que los cambios en la actividad BOLD estriatal se correlacionan con los errores de predicción relacionados con el valor de las opciones de elección según se caracterizan por los modelos computacionales que se ajustan a los datos de comportamiento (O'Doherty et al., 2004; Pessiglione et al., 2006). Las representaciones de valores de estado estriado no vinculadas a una acción pueden estar relacionadas con señales de disponibilidad de recompensa que se traducen en respuestas preparatorias, por ejemplo, efectos de estimulación o estimulación como se ve en la transferencia instrumental-pavloviana (PIT) (Cardinal et al., 2002; Talmi et al., 2008). Nuestros datos sugieren que la novedad modula tales representaciones de valor de estado al aumentar la expectativa de recompensa o la respuesta a resultados no gratificantes. La consecuencia de esta interacción entre la novedad y la recompensa podría ser la generación de respuestas preparatorias no condicionadas. En el mundo real, tales respuestas conducirían a un enfoque mejorado cuando la novedad se identifica con una señal (Wittmann y otros, 2008) o exploración aleatoria del entorno cuando se detecta una novedad pero no se asocia con una señal específica como se observa en la literatura animal (Ganchos y Kalivas, 1994). Esta visión también es consistente con los modelos computacionales influyentes (Kakade y Dayan, 2002).
Una estructura crítica que probablemente esté involucrada en las respuestas de recompensa mejoradas contextualmente en el estriado es el hipocampo. Como en estudios anteriores (Tulving et al., 1996; Strange et al., 1999; Bunzeck y Duzel, 2006; Wittmann y otros, 2007) Demostramos que la novedad contextual activó el hipocampo más fuertemente que la familiaridad. Dadas sus fuertes proyecciones (indirectas) al SN / VTA, sugerimos que esta estructura es la fuente probable de una señal de novedad para el sistema dopaminérgico del cerebro medio (Lisman y Grace, 2005; Bunzeck y Duzel, 2006). El cerebro medio dopaminérgico también recibe información de otras áreas del cerebro, como la corteza prefrontal, que también podría haberle transmitido señales de novedad (Fields et al., 2007). Sin embargo, dada la evidencia hasta la fecha, consideramos que el hipocampo es el candidato más probable para conducir una desinhibición relacionada con la novedad de las neuronas de dopamina del cerebro medio que explicaría una amplificación de las señales de recompensa estriatal en el contexto de la novedad. Por otro lado, la moderación dependiente de la probabilidad del efecto de novedad contextual, a su vez, puede haberse originado en la corteza prefrontal (PFC). Los estudios fisiológicos muestran que el aumento de la transmisión de PFC a las neuronas SN / VTA mejora la modulación dopaminérgica de las regiones PFC solo pero no la entrada dopaminérgica al estriado ventral (Margolis et al., 2006). A través de tal mecanismo, PFC podría regular los efectos contextuales dependientes de la probabilidad de la novedad en SN / VTA y la representación de recompensa del estriado ventral.
Para concluir, los resultados actuales demuestran que la novedad contextual aumenta el procesamiento de recompensa en el estriado en respuesta a señales y resultados no relacionados. Estos hallazgos son compatibles con las predicciones de un modelo de ruta polisináptica (Lisman y Grace, 2005) en el que las señales de novedad del hipocampo proporcionan un mecanismo para la regulación contextual de la atribución de prominencia a eventos no relacionados.
Agradecimientos
Este trabajo fue apoyado por un Wellcome Trust Project Grant (para ED y RJD 81259; www.wellcome.ac.uk; RD es apoyado por una beca de programa de Wellcome trust. MG tiene una beca Marie Curie (www.mariecurie.org.uk). KES agradece el apoyo del proyecto SystemsX.chh NEUROCHOICE.
Lista de referencia
- Aron AR, Shohamy D, Clark J, Myers C, Gluck MA, Poldrack RA. Sensibilidad del cerebro medio humano a la retroalimentación cognitiva e incertidumbre durante el aprendizaje de clasificación. J. Neurofisiol. 2004; 92: 1144 – 1152. ElPubMed]
- Berridge KC, Robinson TE. Recompensa de análisis Tendencias Neurosci. 2003; 26: 507 – 513. ElPubMed]
- Bunzeck N, Duzel E. Codificación absoluta de la novedad del estímulo en la sustancia nigra humana / VTA. Neurona. 2006; 51: 369 – 379. ElPubMed]
- Cardenal RN, Parkinson JA, Hall J, Everitt BJ. Emoción y motivación: el papel de la amígdala, el estriado ventral y la corteza prefrontal. Neurosci Biobehav Rev. 2002; 26: 321 – 352. ElPubMed]
- D'Ardenne K, McClure SM, Nystrom LE, Cohen JD. Respuestas BOLD que reflejan señales dopaminérgicas en el área tegmental ventral humana. Ciencia. 2008; 319: 1264 – 1267. ElPubMed]
- Delgado MR, Nystrom LE, Fissell C, Noll DC, Fiez JA. Seguimiento de las respuestas hemodinámicas a la recompensa y el castigo en el cuerpo estriado. J. Neurofisiol. 2000; 84: 3072 – 3077. ElPubMed]
- den Ouden HE, Friston KJ, Daw ND, McIntosh AR, Stephan KE. Un doble papel para el error de predicción en el aprendizaje asociativo. Corteza Cereb. 2009; 19: 1175 – 1185. ElArtículo gratuito de PMC] [PubMed]
- Duzel E, Bunzeck N, Guitart-Masip M, Wittmann B, Schott BH, Tobler PN. Imagen funcional del cerebro medio dopaminérgico humano. Neurosci de las tendencias. 2009 [PubMed]
- Campos HL, Hjelmstad GO, Margolis EB, Nicola SM. Neuronas del área tegmental ventral en el comportamiento apetitivo aprendido y refuerzo positivo. Annu Rev Neurosci. 2007; 30: 289 – 316. ElPubMed]
- Fiorillo CD, Tobler PN, Schultz W. Codificación discreta de la probabilidad de recompensa e incertidumbre por las neuronas de dopamina. Ciencia. 2003; 299: 1898 – 1902. ElPubMed]
- Floresco SB, West AR, Ash B, Moore H, Grace AA. La modulación aferente de la activación de la neurona de la dopamina regula de manera diferencial la transmisión tónica y fásica de dopamina. Nat Neurosci. 2003; 6: 968 – 973. ElPubMed]
- Frank MJ, Seeberger LC, O'Reilly RC. Por zanahoria o por palo: refuerzo cognitivo que se aprende en el parkinsonismo. Ciencia. 2004; 306: 1940 – 1943. ElPubMed]
- Friston KJ, Fletcher P, Josephs O, Holmes A, Rugg MD, Turner R. fMRI relacionada con eventos: caracterizando respuestas diferenciales. Neuroimagen. 1998; 7: 30 – 40. ElPubMed]
- Grace AA, Bunney BS. Electrofisiología intracelular y extracelular de neuronas dopaminérgicas nigrales – 1. Identificación y caracterización. Neurociencia. 1983; 10: 301–315. [PubMed]
- Ganchos MS, Kalivas PW. Participación de la dopamina y la transmisión de aminoácidos excitadores en la actividad motora inducida por la novedad. J Pharmacol Exp Ther. 1994; 269: 976 – 988. ElPubMed]
- Hutton C, Bork A, Josephs O, Deichmann R, Ashburner J, Turner R. Corrección de la distorsión de la imagen en fMRI: una evaluación cuantitativa. Neuroimagen. 2002; 16: 217 – 240. ElPubMed]
- Kakade S, Dayan P. Dopamina: generalización y bonificaciones. Redes neuronales. 2002; 15: 549 – 559. ElPubMed]
- Knutson B, Westdorp A, Kaiser E, visualización de Hommer D. FMRI de la actividad cerebral durante una tarea de demora de incentivo monetario. Neuroimagen. 2000; 12: 20 – 27. ElPubMed]
- Knutson B, Taylor J, Kaufman M, Peterson R, Glover G. Representación neuronal distribuida del valor esperado. J Neurosci. 2005; 25: 4806 – 4812. ElPubMed]
- Lisman JE, Gracia AA. El bucle hipocampo-VTA: controla la entrada de información en la memoria a largo plazo. Neurona. 2005; 46: 703 – 713. ElPubMed]
- Ljungberg T, Apicella P, Schultz W. Respuestas de neuronas de dopamina de mono durante el aprendizaje de las reacciones de comportamiento. J. Neurofisiol. 1992; 67: 145 – 163. ElPubMed]
- Maldjian JA, Laurienti PJ, Burdette JH. Discrepancia de giro precentral en versiones electrónicas del atlas de Talairach. Neuroimagen. 2004; 21: 450 – 455. ElPubMed]
- Maldjian JA, Laurienti PJ, Kraft RA, Burdette JH. Un método automatizado para la interrogación basada en atlas neuroanatómica y citoarquitectónica de conjuntos de datos fMRI. Neuroimagen. 2003; 19: 1233 – 1239. ElPubMed]
- Margolis EB, Bloqueo H, Chefer VI, Shippenberg TS, Hjelmstad GO, Fields HL. Los opioides kappa controlan selectivamente las neuronas dopaminérgicas que se proyectan a la corteza prefrontal. Proc Natl Acad Sci US A. 2006; 103: 2938 – 2942. ElArtículo gratuito de PMC] [PubMed]
- O'Doherty J, Dayan P, Schultz J, Deichmann R, Friston K, Dolan RJ. Roles disociables del estriado ventral y dorsal en el condicionamiento instrumental. Ciencia. 2004; 304: 452 – 454. ElPubMed]
- O'Doherty JP, Dayan P, Friston K, Critchley H, Dolan RJ. Modelos de diferencia temporal y aprendizaje relacionado con la recompensa en el cerebro humano. Neurona. 2003; 38: 329 – 337. ElPubMed]
- Pessiglione M, Seymour B, Flandin G, Dolan RJ, Frith CD. Los errores de predicción dependientes de la dopamina sustentan el comportamiento de búsqueda de recompensa en los humanos. Naturaleza. 2006; 442: 1042 – 1045. ElArtículo gratuito de PMC] [PubMed]
- Preuschoff K, Bossaerts P, Cuarzo SR. Diferenciación neuronal de la recompensa esperada y el riesgo en las estructuras subcorticales humanas. Neurona. 2006; 51: 381 – 390. ElPubMed]
- Samejima K, Ueda Y, Doya K, Kimura M. Representación de los valores de recompensa específicos de la acción en el cuerpo estriado. Ciencia. 2005; 310: 1337 – 1340. ElPubMed]
- Schultz W, Dayan P, Montague PR. Un sustrato neural de la predicción y la recompensa. Ciencia. 1997; 275: 1593 – 1599. ElPubMed]
- Extraño BA, PC de Fletcher, Henson RN, Friston KJ, Dolan RJ. Segregando las funciones del hipocampo humano. Proc Natl Acad Sci US A. 1999; 96: 4034 – 4039. ElArtículo gratuito de PMC] [PubMed]
- Talmi D, Seymour B, Dayan P, Dolan RJ. Transferencia pavloviana-instrumental humana. J Neurosci. 2008; 28: 360 – 368. ElArtículo gratuito de PMC] [PubMed]
- Tobler PN, Fiorillo CD, Schultz W. Codificación adaptativa del valor de recompensa por las neuronas de dopamina. Ciencia. 2005; 307: 1642 – 1645. ElPubMed]
- Tobler PN, Christopoulos GI, O'Doherty JP, Dolan RJ, Schultz W. Neuronal distorsiones de la probabilidad de recompensa sin elección. J Neurosci. 2008; 28: 11703 – 11711. ElArtículo gratuito de PMC] [PubMed]
- Tulving E, Markowitsch HJ, Craik FE, Habib R, Houle S. Novedad y activaciones de familiaridad en estudios PET de codificación y recuperación de memoria. Corteza Cereb. 1996; 6: 71 – 79. ElPubMed]
- Weiskopf N, Helms G. Mapeo multiparamétrico del cerebro humano en resolución 1mm en menos de 20 minutos; ISMRM 16; Toronto Canada. 2008.
- Weiskopf N, Hutton C, Josephs O, Deichmann R. Parámetros EPI óptimos para la reducción de las pérdidas de sensibilidad BOLD inducidas por susceptibilidad: un análisis de todo el cerebro en 3 T y 1.5 T. Neuroimage. 2006; 33: 493 – 504. ElPubMed]
- Wickens JR, Horvitz JC, Costa RM, Killcross S. Mecanismos dopaminérgicos en acciones y hábitos. J Neurosci. 2007; 27: 8181 – 8183. ElPubMed]
- Wittmann BC, Bunzeck N, Dolan RJ, Duzel E. Anticipación del sistema de recompensas de la novedad de los reclutas y el hipocampo al tiempo que promueve el recuerdo. Neuroimagen. 2007; 38: 194 – 202. ElArtículo gratuito de PMC] [PubMed]
- Wittmann BC, Daw ND, Seymour B, Dolan RJ. La actividad estriatal subyace en la elección basada en la novedad en humanos. Neurona. 2008; 58: 967 – 973. ElArtículo gratuito de PMC] [PubMed]
- Wittmann BC, Schott BH, Guderian S, Frey JU, Heinze HJ, Duzel E. La activación FMRI relacionada con la recompensa del cerebro medio dopaminérgico se asocia con una mayor formación de la memoria a largo plazo dependiente del hipocampo. Neurona. 2005; 45: 459 – 467. ElPubMed]