COMENTARIOS: las recompensas impredecibles conducen a picos más grandes de dopamina. Esto es lo que hace que el porno de Internet de alta velocidad sea diferente del porno del pasado.
Fuente
Departamento de Psiquiatría y Ciencias del Comportamiento, Emory University School of Medicine, Atlanta, Georgia 30322, EE. UU. [email protected]
Resumen
Ciertas clases de estímulos, como los alimentos y las drogas, son muy eficaces para activar las regiones de recompensa. Mostramos en humanos que la actividad en estas regiones puede ser modulada por la previsibilidad de la entrega secuenciada de dos estímulos levemente placenteros, el jugo de fruta administrado por vía oral y el agua. Usando imágenes de resonancia magnética funcional, la actividad para recompensar los estímulos tanto en el núcleo accumbens como en la corteza orbitofrontal medial fue mayor cuando los estímulos eran impredecibles. Además, la preferencia declarada por los sujetos por el jugo o el agua no se correlacionó directamente con la actividad en las regiones de recompensa, sino que se correlacionó con la actividad en la corteza sensoriomotora. Para estímulos placenteros, estos hallazgos sugieren que la predictibilidad modula la respuesta de las regiones humanas de recompensa, y la preferencia subjetiva puede disociarse de esta respuesta.
Introducción
La búsqueda de recompensas naturales como la comida, la bebida y el sexo es una influencia externa importante en el comportamiento humano. Sin embargo, la cuestión de cómo las recompensas afectan el comportamiento humano permanece principalmente sin resolver. Hay muchos factores que contribuyen a esta brecha en nuestro conocimiento; sin embargo, un obstáculo ha sido la dificultad de definir y medir los efectos aislados de las recompensas en el comportamiento humano o la activación cerebral. En animales, la recompensa se define como un concepto operacional: un estímulo se considera gratificante si refuerza positivamente un comportamiento (Casco, xnumx; Rescorla y Wagner, 1972; Robbins y Everitt, 1996), es decir, aumenta de forma fiable la probabilidad del comportamiento. El mismo concepto se aplica a los humanos; sin embargo, los seres humanos tienen la capacidad de ejercer todo tipo de control ejecutivo sobre sus acciones, por lo que los ensayos de comportamiento por sí solos son una forma incompleta de sondear el procesamiento de recompensas. De manera similar, los informes explícitos de gustos y disgustos, es decir, preferencias, se ven confundidos por la percepción subjetiva de un individuo de lo que les gusta y lo que eligen informar. Para superar estas dificultades experimentales, a uno le gustaría monitorear simultáneamente el rendimiento conductual, la preferencia subjetiva y la respuesta cerebral durante una tarea bien definida. Tomando este enfoque, informamos aquí que la actividad en las regiones de recompensa humana está más estrechamente correlacionada con la previsibilidad de una secuencia de estímulos placenteros que con las preferencias expresadas explícitamente.
En los seres humanos, la activación de áreas de recompensa puede visualizarse con imágenes de resonancia magnética funcional (fMRI) después de la administración de drogas, como la cocaína (Breiter et al., 1997); sin embargo, tales infusiones pueden no ser representativas del procesamiento normal de recompensa debido a los efectos farmacológicos directos e indirectos de la cocaína. Además, las drogas como la cocaína pueden actuar en diferentes partes del sistema de recompensa que las llamadas recompensas naturales, como los alimentos y el agua (Bradberry et al., 2000; Carelli et al., 2000). Las recompensas condicionadas, por ejemplo, el dinero, también pueden actuar en diferentes partes del sistema de recompensas (Thut et al., 1997; Elliott et al., 2000; Knutson y otros, 2000) y puede no ser una sonda apropiada de circuitos de recompensa primaria en humanos. Un enfoque alternativo es sugerido por experimentos que demuestran que la previsibilidad de un estímulo principalmente gratificante es un parámetro crítico para la activación de las vías de recompensa (Schultz et al., 1992, 1997; Schultz, 1998; Garris et al., 1999). Los registros fisiológicos en primates no humanos han demostrado que las neuronas en regiones como el área tegmental ventral (VTA), el núcleo accumbens y el estriado ventral responden de manera adaptativa a estímulos gratificantes como el jugo de frutas o el agua (Shidara et al., 1998). Por lo tanto, la previsibilidad de una secuencia de estímulos puede reclutar estructuras neuronales relacionadas con la recompensa de una manera detectable con la IRMf. Además, los modelos teóricos de liberación de dopamina sugieren que las recompensas impredecibles deberían provocar una mayor actividad en estas regiones (Schultz et al., 1997). Intentamos probar esta hipótesis mediante el uso de fMRI para medir el efecto de la predictibilidad en las respuestas del cerebro humano a las secuencias de estímulos puntiformes y placenteros.
MATERIALES Y MÉTODOS
Asignaturas. Veinticinco adultos normales se sometieron a una exploración por RMN mientras se les administraba pequeñas cantidades de jugo de fruta oral o agua. Los sujetos tenían edades comprendidas entre 18 y 43, y todos los sujetos dieron su consentimiento informado para un protocolo aprobado por el Comité de Investigaciones Humanas de la Universidad de Emory.
Tarea experimental. Mientras se encontraban en el escáner, los sujetos recibieron pequeñas cantidades de jugo de fruta y agua administrados por vía oral de manera predecible o impredecible. Elegimos una distribución secuencial de jugo de frutas y agua por tres razones: (1) los humanos consideran que el jugo y el agua son subjetivamente agradables; (2) ambos estímulos se usan de manera rutinaria como estímulos de refuerzo mientras se entrena a primates no humanos en tareas de comportamiento; y las neuronas dopaminérgicas del cerebro medio (3), y presumiblemente las neuronas a las que se proyectan, muestran cambios fásicos en la velocidad de disparo en función de la previsibilidad temporal de los estímulos secuenciales (Schultz et al., 1992). Los participantes recibieron tanto el jugo como el agua de una manera predecible o impredecible en dos tandas de escaneo (la Fig. 1). Durante la ejecución predecible, se alternaron bolos de jugo y agua en un intervalo fijo de 10 seg. Durante la ejecución impredecible, el orden del jugo y el agua se aleatorizó, y el intervalo de estímulo también se aleatorizó muestreando una distribución del intervalo de Poisson con una media de 10 seg. Cada ejecución duró 5 min, y el orden de las dos ejecuciones (predecible o impredecible) fue aleatorio entre los sujetos. Debido a que el tiempo para adaptarse a la previsibilidad o imprevisibilidad era desconocido y debido a que el cambio frecuente de las condiciones podría causar una interacción entre sí, es decir, la "previsibilidad de la previsibilidad", elegimos separar las condiciones en las ejecuciones de exploración en lugar de utilizar bloques de condición más pequeños. dentro de la exploración se ejecuta. Debido a que todos los aspectos del experimento dependían de la manipulación de la previsibilidad, decidimos no repetir las condiciones dentro de los sujetos y, en cambio, centrarnos en estudiar un mayor número de sujetos.
Diseño del experimento fMRI. Se utilizó un diseño factorial 2 × 2, con factores de preferencia (jugo o agua) y previsibilidad (predecible o impredecible). Los sujetos recibieron 0.8 ml de bolos de jugo y agua en una secuencia predecible o impredecible. Mediante el uso de fMRI relacionado con eventos, la activación cerebral se analizó en términos de preferencia y previsibilidad, así como la interacción entre ellos.
Los sujetos recibieron 0.8 ml de bolos orales tanto de jugo de fruta como de agua a través de dos tubos de plástico. Una boquilla mantuvo los extremos del tubo en su lugar sobre la lengua, con el jugo de fruta infundido desde el lado izquierdo de la boquilla y el agua desde la derecha. Los tubos tenían una longitud de ∼10 m y se conectaron a una bomba de jeringa doble controlada por computadora (Harvard Apparatus, Holliston, MA) fuera de la sala del escáner. Los sujetos no realizaron ninguna otra tarea durante la exploración y se les indicó que simplemente tragaran el líquido cada vez que se administraba. Después de la sesión de exploración, los sujetos fueron interrogados por su preferencia fluida.
Adquisición de datos de resonancia magnética. El escaneo se realizó en un escáner 1.5 Tesla Philips NT. Después de la adquisición de un escaneo anatómico ponderado por T1 de alta resolución, los sujetos se sometieron a dos corridas funcionales de cerebro completo de 150 cada uno (imagen eco planar, eco de gradiente recordado; tiempo de repetición, 2000 msec; tiempo de eco, 40 ms; ángulo de giro 90 °; 64 × matriz 64, 24 5 mm cortes axiales adquiridos paralelos a la línea comisaria anteroposterior) para medir el efecto dependiente del nivel de oxigenación (BOLD) (Kwong et al., 1992; Ogawa et al., 1992). El movimiento de la cabeza se minimizó mediante el relleno y las restricciones.
Análisis. Los datos se analizaron utilizando el mapeo paramétrico estadístico (SPM99; Wellcome Department of Cognitive Neurology, Londres, Reino Unido) (Friston et al., 1995b). La corrección de movimiento al primer escaneo funcional se realizó en sujetos utilizando una transformación de cuerpo rígido de seis parámetros. Debido a que la deglución provoca inevitablemente un movimiento significativo de la cabeza, los parámetros de corrección del movimiento también se utilizaron para determinar si el movimiento de la cabeza difería significativamente entre las condiciones. La media de las imágenes con corrección de movimiento se registró luego en la resonancia magnética estructural de 24 cortes del individuo utilizando una transformación afín de 12 parámetros. Luego, las imágenes se normalizaron espacialmente a la plantilla del Instituto Neurológico de Montreal (MNI) (Talairach y Tournoux, 1988) aplicando una transformación afín de parámetro 12, seguida de una distorsión no lineal utilizando funciones de base (Cenicero y Friston, 1999). Las imágenes se suavizaron posteriormente con un kernel gaussiano isotrópico 8 mm y un paso de banda filtrado en el dominio temporal. Se realizó un análisis estadístico de efectos aleatorios, relacionado con eventos, con SPM99 (Friston et al., 1995a, 1999). El experimento se analizó como un diseño factorial 2 × 2. Primero, se especificó un modelo lineal general separado (GLM) para cada sujeto, con cuatro condiciones que representan los cuatro tipos de eventos posibles: fluido predecible-preferido, fluido predecible-no preferido, fluido impredecible-preferido y fluido impredecible-no preferido. Se crearon cuatro vectores de funciones delta con tiempos correspondientes a cada evento para cada una de las cuatro condiciones. Estos se combinaron con una función de respuesta hemodinámica genérica y se ingresaron en una matriz de diseño de cuatro columnas. La media de cada ejecución de escaneo se eliminó en una base voxelwise. Calculamos tres imágenes de contraste de dos caras que correspondían a los efectos principales de preferencia [vector de contraste (1-11-1)], previsibilidad [vector de contraste (11-1-1)], y el término de interacción [vector de contraste (1 -1-11)]. La interacción describe cómo la predictibilidad modula el efecto de la preferencia. Estas imágenes de contraste individuales se ingresaron en un análisis de segundo nivel, usando una muestra separada t Prueba (df = 24) para cada lado de cada término en el GLM (un total de seis contrastes). Hemos umbralizado estos mapas estadísticos de resumen en p <0.001 (sin corregir para comparaciones múltiples). Estos mapas se superpusieron a una imagen estructural de alta resolución en orientación MNI.
Modelo teórico. Como herramienta para diseñar e interpretar el experimento fMRI, utilizamos un modelo de red neuronal existente de liberación de dopamina para simular la respuesta del cerebro a diferentes patrones temporales de estímulos gratificantes (Fig.2). Este modelo se basó en el método de las diferencias temporales (DT), que postula que una sustancia que refuerza sinápticamente, por ejemplo, la dopamina, se libera en respuesta a los errores en la predicción de la recompensa (Schultz et al., 1997). Este modelo se ha utilizado en una amplia variedad de aplicaciones, incluidas tareas de aprendizaje complejas como el backgammon (Sutton, 1988; Tesauro y Sejnowski, 1989), así como predecir con éxito la actividad de las neuronas de dopamina en numerosos paradigmas de condicionamiento (Houk et al., 1995; Montague et al., 1995) y tareas de secuenciación motora (Berns y Sejnowski, 1998).
Modelo de red neuronal del experimento y las regiones del cerebro asociadas con el procesamiento de la información. A, El diagrama indica nuestra hipótesis de cómo la secuencia de estímulos podría influir en el rendimiento dopaminérgico. En esta hipótesis, hemos indicado que los cambios en la producción dopaminérgica podrían influir en las estructuras neuronales objetivo de una manera detectable en una medición FMRI BOLD. El jugo y el agua tienen ambos efectos sensoriales (proyección de tiempo finito).jardinera) y recompensa (la r vías) Representaciones en su influencia sobre la actividad dopaminérgica. Para generar una respuesta hemodinámica esperada de esta hipótesis, creamos una ventana de tiempo finita (cajas pequeñas para jugo y agua), que determinó el valor de la recompensa inmediatar(t) (1 si ocurrió jugo, 0.5 si ocurrió agua y 0 si no ocurrió ningún estímulo). Esta maniobra establece arbitrariamente el jugo al doble del valor del agua. Esto no es importante para la expectativa principal generada por el modelo.B, Efecto predicho de dopamina para secuencias predecibles e impredecibles de entrega de jugo y agua. Eje horizontal es el número de escaneo. Eje vertical Es la respuesta hemodinámica esperada predicha por un modelo de diferencia temporal. La escala en el eje vertical es arbitrario El punto importante a tener en cuenta es que la ejecución predecible avanza a 0, mientras que la ejecución impredecible sigue siendo de gran amplitud. Las trazas se generaron mediante la convolución de un kernel de respuesta hemodinámica con la salida de un modelo de diferencia temporal. Esto sugirió que la respuesta BOLD promedio sería mayor cuando los estímulos eran impredecibles.
Brevemente, el aprendizaje de TD depende de dos suposiciones primarias. Primero, la adaptación a corto plazo en un circuito neuronal dado ocurre con el objetivo de predecir una suma descontada de todas las recompensas futuras. La definición de una recompensa depende del contexto en el que se recibe. Si una recompensa putativa aumenta la ocurrencia de un comportamiento particular, entonces se considera un reforzador positivo. Dependiendo del estado interno del animal, la misma recompensa puede no reforzar un comportamiento, por ejemplo, cuando el animal está saciado. En el contexto de un experimento de fMRI, que generalmente no es natural, una sustancia apetitiva familiar, como el agua o el jugo de fruta, se experimenta subjetivamente como agradable y, por lo tanto, gratificante. Segundo, las predicciones de recompensa dependen solo de la representación actual de un conjunto de estímulos. La representación del estímulo es algo arbitraria en el modelo, e incluye alguna representación hacia atrás a través del tiempo, es decir, una traza de estímulo. Para sustancias como el agua o el jugo de frutas, existen ambas dimensiones sensoriales (p. Ej., Temperatura y sensación táctil en la lengua) y la recompensa real, que se experimenta subjetivamente como placer. Por lo tanto, es razonable considerar que las dimensiones táctiles del suministro de fluidos son neutrales y distintas de la dimensión gratificante. De manera similar, se presume que estas distintas dimensiones son procesadas por diferentes circuitos cerebrales, que se pueden tomar imágenes con fMRI. Para mapear la salida del modelo en una dimensión análoga a la medición obtenida con fMRI, sumamos las salidas de las vías neutral y gratificante, que asumimos convergían en el estriado ventral y el núcleo accumbens. Reconocemos que no hay evidencia directa de esto, y dependiendo del receptor específico, la dopamina puede tener efectos variables sobre la actividad neuronal. El diseño experimental exacto se introdujo en el modelo, que se simuló con Matlab 5.3 (MathWorks, Natick, MA). Las salidas correspondientes a las neuronas de dopamina putativas y sus sitios de proyección se calcularon para las ejecuciones predecibles e impredecibles (Fig. 2).
Debemos tener cuidado de señalar a los lectores que nuestro uso del modelo de diferencia temporal para explicar nuestro diseño y su posterior interpretación (a continuación) se basa en su éxito anterior en la descripción de los cambios en la producción de picos en las neuronas dopaminérgicas en primates que realizan tareas relacionadas con el comportamiento. Hay otras descripciones computacionales plausibles que también podrían ser suficientes.
MAS FUERTES
Después de las exploraciones, los sujetos fueron consultados acerca de su preferencia por los dos estímulos. Dieciocho de los sujetos de 25 (72%) prefirieron jugo, y el resto prefirió el agua. La mayoría de los sujetos tenían una clara preferencia por uno u otro, aunque no les pedimos que cuantificaran esto. Aunque hubo un movimiento importante de la cabeza durante las exploraciones, todas las traslaciones y rotaciones alrededor de cada estímulo fueron generalmente pequeñas y no fueron significativamente diferentes entre ninguna de las condiciones. Por ejemplo, la media ± traducción SD asociada con cada estímulo fue 0.041 ± 0.069 mm en la condición predecible y 0.044 ± 0.069 mm en la condición impredecible (pareada t prueba;p = 0.853).
La respuesta del cerebro al fluido preferido mostró una actividad diferencial sorprendentemente pequeña en relación con el fluido no preferido (Tabla1). No observamos ninguna diferencia de actividad significativa en las regiones de recompensa clásicas como el núcleo accumbens, el hipocampo o la corteza prefrontal medial. El cambio de actividad principal de preferido> no preferido ocurrió en la corteza somatosensorial en un área cerca de la boca y la región de la lengua (t = 4.19, coordenadas MNI, −60, −12, 16).
Regiones del cerebro que muestran cambios significativos en la actividad medida (p <0.001 sin corregir; tamaño de grupo> 10 vóxeles, excepto donde se indique)
El principal efecto de la previsibilidad fue sustancialmente mayor que el principal efecto de la preferencia (Fig. 3). Para la ejecución impredecible en relación con la ejecución predecible, se observó una activación bilateral en una gran extensión de la corteza orbitofrontal medial que incluía el núcleo accumbens (Tabla 1). Las áreas adicionales de activación incluían una gran área de la corteza parietal bilateral y paracentralmente y pequeñas activaciones focales tanto en el núcleo mediodorsal izquierdo del tálamo como en el cerebelo derecho. Como ninguna de estas regiones se superpuso con el efecto principal de la preferencia, se activaron al máximo mediante estímulos impredecibles, independientemente de la preferencia. Para la carrera predecible en relación con la carrera impredecible, se activó un área del giro temporal superior derecho, así como activaciones focales en el giro precentral izquierdo y la corteza orbitofrontal lateral derecha.
El principal efecto de la previsibilidad mostró que las regiones relacionadas con la recompensa tuvieron una respuesta BOLD mayor a los estímulos impredecibles. ALos planos centrados en (0, 4, −4) muestran que el núcleo accumbens bilateral / estriado ventral (ACNC) y la corteza parietal superior bilateral fueron más activas en la condición predecible. B, Una pequeña región en el giro temporal superior derecho estaba relativamente más activada por los estímulos predecibles. La significancia fue umbral enp <0.001 y una extensión> 10 vóxeles contiguos.
La interacción entre la preferencia y la previsibilidad identificó áreas en las que un efecto moduló al otro independientemente de los dos efectos principales. La ínsula derecha, el cingulado posterior izquierdo y el cerebelo derecho mostraron una interacción significativa para el contraste (preferido-no preferido) × (predecible-impredecible). El contraste opuesto, (preferido-no preferido) × (impredecible-predecible), no reveló ninguna activación significativa en el p <0.001 nivel; sin embargo, una pequeña región en la circunvolución temporal superior izquierda (coordenadas MNI, -48, -4, -16) fue significativa en el p <0.01 nivel (t = 3.15).
La simulación por computadora sugirió que las recompensas impredecibles deberían provocar más liberación de dopamina que las predecibles (Fig.2 B). Cuando las recompensas son predecibles, cada estímulo predice perfectamente el siguiente, y la señal de error, que se presume está mediada por la dopamina, disminuye gradualmente. Cuando las recompensas son impredecibles, el sistema no tiene oportunidad de aprender y la respuesta a cada estímulo es mayor.
DISCUSIÓN
Nuestros resultados demostraron una separación interesante en la respuesta del cerebro a la previsibilidad y a los informes subjetivos de preferencia. La respuesta del cerebro a la preferencia fue exclusivamente cortical, pero la respuesta a la previsibilidad mostró una activación específica de los sistemas de recompensa que también se sabe que son el objetivo de las neuronas dopaminérgicas del cerebro medio. Si suponemos que la activación de estas áreas de recompensa es placentera para los humanos, entonces este hallazgo sugiere que el informe subjetivo de preferencia puede disociarse de los circuitos neuronales que se sabe que son determinantes poderosos de los comportamientos condicionados.
Tanto el agua como el jugo de frutas causaron activaciones significativas en todo el cerebro, y aunque parte de esta respuesta fue atribuible a los aspectos motores de la tarea, los subconjuntos específicos de estas regiones se descomponían en dimensiones de preferencia y previsibilidad. El efecto de la preferencia se restringió a las regiones corticales asociadas con el procesamiento sensorial, y el estímulo preferido resultó en una mayor activación en estas regiones. Estas regiones se encuentran cerca de la corteza sensoriomotora que se sabe que se activa durante los movimientos de la lengua (Corfield et al., 1999) y tragar (Hamdy et al., 1999). En trabajos anteriores sobre la respuesta del cerebro al movimiento de la lengua, hubo una activación sustancial del cerebelo, un hallazgo notablemente ausente en el efecto principal de la preferencia. La respuesta cerebral diferencial, es decir, preferido-no preferido, elimina regiones comunes de activación; por lo tanto, la ausencia de activación cerebelosa sugiere que los movimientos diferenciales de la lengua probablemente no sean la causa del patrón de activación cortical para la preferencia subjetiva. El hecho de que una región somatosensorial se correlacionara con la preferencia declarada sugirió que se produjo algún procesamiento neural diferencial para los dos estímulos. Fue sorprendente que esto se manifestara en un área de procesamiento sensorial primario y no en áreas de recompensa clásica. Aunque los sujetos fueron obligados a designar una sustancia sobre la otra como su preferencia, ambos fluidos fueron elegidos deliberadamente para ser placenteros, en contraste con uno que era aversivo. Debido a que ambos fluidos fueron generalmente placenteros, el efecto de la preferencia podría no haber sido lo suficientemente fuerte como para resultar en una diferencia de actividad significativa en las regiones de recompensa. Esto sería coherente con los hallazgos de que las neuronas de la dopamina del cerebro medio se activan preferentemente mediante estímulos apetitivos en lugar de aversivos (Mirenowicz y Schultz, 1996). Sin embargo, nuestros hallazgos sugieren una diferenciación del sistema de la preferencia subjetiva de la recompensa simple, que apoya las hipótesis anteriores de que "querer" no es lo mismo que "gustar" (Robinson y Berridge, 1993).
A diferencia del efecto de la preferencia, la imprevisibilidad se correlacionó como un efecto principal significativo con la actividad en el núcleo accumbens, el tálamo y la corteza orbitofrontal medial. mientras que la predictibilidad se correlacionó predominantemente con la actividad en el giro temporal superior derecho. Las regiones anteriores se corresponden estrechamente con los sitios de proyección de dopamina conocidos (Koob, 1992; Cooper et al., 1996). Fue algo sorprendente que la imprevisibilidad, y no la preferencia, se correlacionara con la actividad en estas áreas de recompensa. Si el aumento de la actividad en estas regiones se asociara con el placer, entonces se podría concluir que las recompensas impredecibles fueron más placenteras que las predecibles. Sin embargo, la mayoría de los sujetos no distinguieron ninguna diferencia entre las condiciones predecibles e impredecibles. Si las recompensas impredecibles fueron más placenteras que las predecibles, o viceversa, entonces esto debe estar ocurriendo a un nivel subconsciente. Una explicación alternativa supone que la dopamina se libera en cantidades mayores a recompensas inesperadas (Montague et al., 1996; Schultz et al., 1997;Schultz, 1998). La dopamina puede disminuir la excitabilidad neuronal (Cooper et al., 1996) y también puede constreñir directamente la microvasculatura (Krimer et al., 1998), pero la mayor actividad de accumbens también se ha asociado con el placer subjetivo de la cocaína (Breiter et al., 1997). Estos hallazgos sugieren que nuestro aumento observado en la activación con la imprevisibilidad podría estar relacionado con el aumento de la liberación de dopamina, ya sea porque el accumbens se proyecta al VTA o porque recibe una proyección del VTA, cualquiera de los cuales sería consistente con los resultados del modelo. Esta interpretación debe ser atenuada por dos hechos importantes: (1) los mecanismos que acoplarían el aumento de la transmisión dopaminérgica a los cambios en la señal BOLD son desconocidos, y (2) no tenemos una medida independiente de la transmisión dopaminérgica, solo cambios en la respuesta BOLD. La posibilidad de que estemos observando indirectamente cambios en la actividad dopaminérgica es emocionante, pero no se puede decidir de manera inequívoca en un experimento de resonancia magnética funcional. Sin embargo, es consistente con los hallazgos previos que utilizan la tomografía por emisión de positrones que la dopamina se libera en el cuerpo estriado ventral en condiciones de incentivo monetario (Koepp et al., 1998). Junto con el efecto amplificador de la imprevisibilidad, también es consistente con los efectos hipotéticos de la dopamina en la "ganancia" neuronal (Cohen y Servan-Schreiber, 1992), con el resultado final de que algunas regiones aumentarán y otras disminuirán.
Las regiones específicas activadas relativamente por la impredecibilidad correspondieron a regiones cerebrales asociadas con funciones apetitivas. Además del núcleo accumbens, la corteza orbitofrontal medial mostró un efecto principal para la impredecibilidad. En primates se ha demostrado que esta región integra los aspectos gratificantes y neutrales de las sensaciones del gusto y se piensa que refleja principalmente los valores motivacionales de estos estímulos (Rollos, 2000). Esta región también contiene neuronas que discriminan la preferencia relativa por la recompensa (Tremblay y Schultz, 1999). La corteza orbitofrontal suele ser difícil de visualizar con la RMf debido a los artefactos de susceptibilidad de los senos nasales (Ojemann et al., 1997). Sin embargo, la región que identificamos es generalmente superior y caudal a la ubicación habitual de los artefactos. Esta región ha sido encontrada en respuesta a gustos agradables (Francis et al., 1999). Una segunda región, en el lóbulo parietal superior, probablemente no estaba relacionada con los aspectos gratificantes de la tarea, sino con el resultado de cambios en la atención. Esta región se ha implicado previamente en la atención visuoespacial, especialmente durante las violaciones de expectativas (Nobre et al., 1999). Otra región, en la corteza temporal izquierda, mostró una modulación significativa en el límite por imprevisibilidad. En los últimos experimentos con RMf, el lóbulo temporal izquierdo se ha asociado con el procesamiento de la previsibilidad de los estímulos secuenciales (Bischoff-Grethe y otros, 2000). Aquí, extendemos estos hallazgos previos de estímulos neutros a estímulos placenteros, lo que sugiere que esta región puede realizar un monitoreo genérico de la predictibilidad independientemente de la valencia del estímulo.
Las regiones cerebrales que identificamos como respuesta a la imprevisibilidad de forma directa o modulatoria se han relacionado con varios experimentos sobre recompensa financiera. El dinero puede ser gratificante para los humanos, pero se refuerza solo porque ha adquirido estas propiedades a través de un condicionamiento complejo. Similar al hallazgo de que la cocaína actúa sobre diferentes neuronas que los refuerzos naturales (Carelli et al., 2000), es posible que los reforzadores condicionados, como el dinero, actúen en diferentes sistemas neuronales que los reforzadores naturales, como los alimentos y el agua. La actividad tanto en el estriado ventral como en el cerebro medio se ha correlacionado con niveles absolutos de recompensa financiera (Thut et al., 1997;Delgado et al., 2000; Elliott et al., 2000; Knutson y otros, 2000), un hallazgo notablemente ausente en nuestros resultados. Como se señaló anteriormente, tanto el jugo como el agua eran levemente placenteros, por lo que puede que no haya habido una diferencia sustancial en la recompensa absoluta, aunque asumimos una ligera diferencia en el modelo teórico. Además, no utilizamos ningún estímulo aversivo ni nada que pudiera interpretarse como una recompensa negativa, lo que también puede explicar esta diferencia. Curiosamente, las regiones que identificamos como directamente afectadas o amplificadas por la imprevisibilidad correspondieron a las regiones que se consideraron previamente sensibles a la dependencia del contexto de la recompensa financiera (Rogers et al., 1999; Elliott et al., 2000). En particular, tanto el cingulado subgenual como el tálamo medial se correlacionaron con la imprevisibilidad en nuestro estudio y se encontró que dependían del contexto según Elliott et al. (2000).
Debido a que la predictibilidad moduló el efecto de la preferencia, es importante distinguir las fuentes potenciales de predicción. En un experimento de condicionamiento clásico, un estímulo neutral precede a la recompensa. Después del entrenamiento, el estímulo previamente neutral se convierte en el predictor, o estímulo condicionado. Debido a que existen comparativamente pocos datos sobre el uso de estímulos orales en la IRMf, elegimos simplificar el experimento y el control de los aspectos motores de la tarea mediante el uso de dos estímulos orales diferentes, agua y jugo de frutas. Por lo tanto, la fuente de predicción en nuestro experimento provino necesariamente de la secuencia de estímulos en sí mismos. De alguna manera, esto es más simple que introducir otra modalidad de estímulo, como una señal visual, pero dado que ambos estímulos fueron gratificantes, no podemos sacar conclusiones con respecto al proceso de condicionamiento. Tanto el modelo teórico (Schultz et al., 1997) y datos neurofisiológicos (Schultz et al., 1992, 1993) sugieren que las predicciones de recompensa se calculan durante el intervalo que precede a la entrega de recompensa. Debido a que no conocemos la escala de tiempo en la que se calculan dichas predicciones, optamos por analizar el experimento simplemente como dos condiciones, predecibles e impredecibles. Al mantener un intervalo psicológicamente razonable entre los estímulos, 10 sec, no hubo tiempo suficiente para resolver las diferencias en el procesamiento de los estímulos intersumulus. Presumiblemente, tal procesamiento ocurre, y esto podría resolverse con un experimento diseñado de manera diferente.
En resumen, la actividad en regiones de recompensa humana puede ser modulada por la previsibilidad temporal de recompensas primarias, como el agua y el jugo. Estos resultados proporcionan un apoyo importante para los modelos computacionales que postulan que los errores en la predicción de recompensa pueden impulsar la modificación sináptica y extender estas conclusiones de los primates no humanos a los humanos. La especificidad regional de esta modulación también sugiere que la información, como se incorpora en la previsibilidad relativa de una corriente de estímulo, puede ser una forma de moneda neuronal que puede detectarse con la RMF.
Notas a pie de página
- Recibieron 11 de noviembre de 2000
- Revisión recibida Enero 17, 2001.
- Aceptados Enero 26, 2001.
-
Este trabajo fue apoyado por el Instituto Nacional de Subvenciones para el Abuso de Drogas K08 DA00367 (a GSB) y RO1 DA11723 (a PRM), la Alianza Nacional para la Investigación en Esquizofrenia y Depresión (GSB), y la Fundación de la Familia Kane (PRM). Agradecemos a H. Mao, R. King y M. Martin por su ayuda con la recopilación de datos.
La correspondencia puede dirigirse a Gregory S. Berns, Departamento de Psiquiatría y Ciencias del Comportamiento, Escuela de Medicina de la Universidad de Emory, 1639 Pierce Drive, Suite 4000, Atlanta, GA 30322, correo electrónico:[email protected], o P. Lea Montague, División de Neurociencias, Baylor College of Medicine, 1 Baylor Plaza, Houston, TX 77030, Correo electrónico:[email protected].
- Copyright © 2001 Society for Neuroscience
Artículos que citan este artículo


