Wolfram Schultz 1
Behav Brain Funct. 2010; 6: 24.
Publicado en línea 2010 Abril 23. doi: 10.1186 / 1744-9081-6-24.
ESTUDIO COMPLETO: Señales de dopamina para valor de recompensa y riesgo Datos básicos y recientes
1Departamento de Fisiología, Desarrollo y Neurociencias, Universidad de Cambridge, Downing Street, Cambridge CB2 3DY, Reino Unido
Autor correspondiente.
Wolfram Schultz: [email protected]
Resumen
Antecedentes
Los estudios previos de lesiones, autoestimulación eléctrica y adicción a las drogas sugieren que los sistemas de dopamina del cerebro medio son partes del sistema de recompensa del cerebro. Esta revisión proporciona una descripción actualizada sobre las señales básicas de las neuronas de dopamina a los estímulos ambientales.
Métodos
Los experimentos descritos utilizaron métodos conductuales y neurofisiológicos estándar para registrar la actividad de las neuronas de dopamina en monos despiertos durante tareas conductuales específicas.
Resultados
Las neuronas de la dopamina muestran activaciones fásicas a estímulos externos. La señal refleja recompensa, prominencia física, riesgo y castigo, en orden descendente de las fracciones de las neuronas que responden. El valor de recompensa esperado es una variable de decisión clave para las opciones económicas. Los códigos de respuesta de recompensa recompensan el valor, la probabilidad y su producto sumado, el valor esperado. El valor de la recompensa del código de las neuronas difiere de la predicción, cumpliendo así el requisito básico para una señal de enseñanza de error de predicción bidireccional postulada por la teoría del aprendizaje. Esta respuesta se escala en unidades de desviación estándar. En contraste, relativamente pocas neuronas de dopamina muestran la activación fásica después de los castigadores y los estímulos aversivos condicionados, lo que sugiere una falta de relación entre la respuesta de recompensa y la atención general y la excitación. Grandes proporciones de neuronas de dopamina también son activadas por estímulos intensos y físicamente salientes. Esta respuesta se potencia cuando los estímulos son nuevos; parece ser distinto de la señal del valor de recompensa. Las neuronas de la dopamina también muestran activaciones inespecíficas a los estímulos no gratificantes que posiblemente se deban a la generalización por estímulos similares y al seudo condicionamiento por recompensas primarias. Estas activaciones son más cortas que las respuestas de recompensa y a menudo son seguidas por la depresión de la actividad. Una señal de dopamina separada y más lenta informa sobre el riesgo, otra variable de decisión importante. La respuesta de error de predicción ocurre solo con la recompensa; Se escala por el riesgo de recompensa prevista.
Conclusiones
Los estudios neurofisiológicos revelan señales fásicas de dopamina que transmiten información relacionada predominantemente, pero no exclusivamente, con la recompensa. Aunque no es completamente homogénea, la señal de dopamina es más restringida y estereotipada que la actividad neuronal en la mayoría de las otras estructuras cerebrales involucradas en el comportamiento dirigido hacia el objetivo.
Antecedentes
Los resultados de las lesiones y los estudios psicofarmacológicos sugieren una amplia gama de funciones conductuales para los sistemas de dopamina del cerebro medio. La pregunta clave es, ¿cuál de estas muchas funciones está codificada de forma activa por una señal de dopamina fásica compatible con mecanismos neuronales rápidos? Los buenos indicios provienen de la adicción a las drogas y la autoestimulación eléctrica, lo que sugiere que la actividad de la dopamina tiene efectos gratificantes y generadores del enfoque [1,2].
Podemos definir las recompensas como objetos o eventos que generan acercamiento y comportamiento consumatorio, producen aprendizaje de tal comportamiento, representan resultados positivos de decisiones económicas e involucran emociones positivas y sentimientos hedónicos. Las recompensas son cruciales para la supervivencia individual y genética y apoyan procesos elementales como beber, comer y reproducir. Esta definición de comportamiento atribuye la función de recompensa también a ciertas entidades no alimentarias y no sexuales, incluyendo dinero, artefactos técnicos, atributos de estímulo estético y eventos mentales. Las recompensas involucran a los agentes en comportamientos tan diversos como forrajeo y comercio en mercados bursátiles.
Conceptos básicos
Las recompensas tienen magnitudes específicas y ocurren con probabilidades específicas. Los agentes tienen como objetivo optimizar las elecciones entre opciones cuyos valores están determinados por el tipo de objeto de elección y su magnitud y probabilidad [3]. Por lo tanto, las recompensas pueden describirse adecuadamente mediante distribuciones de probabilidad de valores de recompensa. En un mundo ideal, estas distribuciones siguen una función gaussiana, con recompensas extremas que ocurren con menos frecuencia que los resultados intermedios. Las pruebas experimentales a menudo utilizan distribuciones de probabilidad binarias con valores equiprobables (cada valor de recompensa ocurre en p = 0.5). Las distribuciones de probabilidad gaussiana y binaria están completamente descritas por el valor matemático esperado (primer momento de distribución de probabilidad) y las dispersiones o desviaciones de los valores de la media, es decir, la varianza (esperada) (segundo momento) o la desviación estándar (esperada) (raíz cuadrada). de varianza). La varianza y la desviación estándar a menudo se consideran medidas de riesgo. En la economía del comportamiento, el término "riesgo" se refiere a una forma de incertidumbre en la que se conoce la distribución de probabilidad, mientras que "ambigüedad" indica un conocimiento incompleto de las probabilidades y, a menudo, se denomina simplemente "incertidumbre". El riesgo se refiere a la posibilidad de ganar o perder, en lugar de la asociación más estrecha y de sentido común con la pérdida.
Las predicciones son de importancia fundamental para tomar decisiones informadas al proporcionar información anticipada sobre las opciones de elección disponibles, a diferencia de las conjeturas que se producen cuando se desconocen los resultados. Como la recompensa se puede cuantificar por distribuciones de valor de probabilidad, las predicciones de recompensa especifican el valor esperado y la varianza (esperada) o la desviación estándar de la distribución.
La presión evolutiva favorece el procesamiento eficiente de energía de la información. Una solución potencial es almacenar predicciones sobre eventos futuros en centros cerebrales superiores y calcular en centros cerebrales inferiores la diferencia entre la nueva información ambiental y la predicción almacenada. La discrepancia entre el evento real y su predicción se denomina error de predicción de evento. Mantenerse al día con la cambiante situación ambiental por parte de centros cerebrales superiores simplemente implicaría actualizar las predicciones con menos errores de predicción que contengan menos energía y que consuman toda la información, en lugar de procesar la información periférica completa cada vez que algo cambie [4]. De esta manera, los centros cerebrales superiores tienen acceso a la información completa sobre el mundo externo para las percepciones, decisiones y reacciones de comportamiento a un costo energético mucho menor. Esta propiedad fundamental de las predicciones conduce al fenómeno observable del aprendizaje, tal como lo definen los cambios en el comportamiento basados en predicciones actualizadas.
La teoría del aprendizaje animal y los modelos de refuerzo de la diferencia temporal eficiente postulan que los errores de predicción de resultados son cruciales para el condicionamiento pavloviano y operante [5,6, 7]. Los puntos de vista actuales conceptualizan el aprendizaje pavloviano como cualquier forma de adquisición de predicción que conduce a reacciones vegetativas alteradas o contracciones de los músculos estriados, siempre que el resultado no esté condicionado a la reacción conductual. Así, las predicciones de recompensa pavlovianas transmiten información no solo sobre el valor de recompensa (valor esperado) sino también sobre el riesgo (varianza) de recompensas futuras, lo que constituye una importante extensión del concepto propuesto por Pavlov hace cien años. La importancia de los errores de predicción se basa en el efecto de bloqueo de Kamin [XNUMX] que demuestra que el aprendizaje y la extinción avanzan sólo en la medida en que un reforzador es mejor o peor de lo previsto; el aprendizaje se ralentiza progresivamente a medida que la predicción se aproxima asintóticamente al valor del reforzador.
Respuesta de la dopamina para recompensar la recepción.
La mayoría de las neuronas de dopamina del mesencéfalo (75-80%) muestran activaciones fásicas bastante estereotipadas con latencias de <100 ms y duraciones de <200 ms después de recompensas de alimentos y líquidos temporalmente impredecibles (Figura (Figura1A) .1A). Esta respuesta de estallido depende de la activación y plasticidad de los receptores glutamatérgicos NMDA y AMPA ubicados en las neuronas de dopamina [8-12]. El estallido es fundamental para el aprendizaje conductual de las tareas apetitivas como la preferencia de lugar condicionada y las opciones de laberinto en T para la recompensa de comida o cocaína y para las respuestas de miedo condicionadas [9].
Figura 1 y XNUMX
Activaciones fásicas de la actividad de impulso neurofisiológico de las neuronas de dopamina. R: Activaciones fásicas después de las recompensas primarias. B: Activaciones fásicas después de estímulos condicionados, predictores de recompensa. C: Arriba: Falta de activación fásica después de primaria (más…)
Codificación de error de predicción de recompensa
La respuesta de la dopamina para recompensar la entrega parece codificar un error de predicción; una recompensa que es mejor que la pronosticada provoca una activación (error de predicción positiva), una recompensa totalmente pronosticada no obtiene respuesta, y una recompensa que es peor que la predicha induce una depresión (error negativo) [13-24]. Por lo tanto, la respuesta a la dopamina implementa completamente el término crucial del modelo de aprendizaje de Rescorla-Wagner y se asemeja mucho a la señal de enseñanza de los modelos de aprendizaje de refuerzo de la diferencia temporal eficiente [6,23].
La respuesta de error varía cuantitativamente con la diferencia entre el valor de recompensa recibido y el valor de recompensa esperado [18-23]. La respuesta de error de predicción es sensible al momento de la recompensa; una recompensa retrasada induce una depresión en su momento original y una activación en su nuevo momento [24,25]. La codificación de errores cuantitativos es evidente para activaciones que reflejan errores de predicción positivos. Por el contrario, la depresión que se produce con errores de predicción negativa muestra naturalmente un rango dinámico más estrecho, ya que la actividad neuronal no puede caer por debajo de cero, y la evaluación cuantitativa apropiada requiere tener en cuenta el período completo de depresión [26].
Por lo tanto, las neuronas de la dopamina responden a la recompensa solo en la medida en que difiere de la predicción. Como la predicción se origina a partir de una recompensa previamente experimentada, las neuronas de dopamina se activan solo cuando la recompensa actual es mejor que la recompensa anterior. La misma recompensa de nuevo no activará las neuronas de dopamina. Si la activación de las neuronas de dopamina tiene un efecto de refuerzo positivo en el comportamiento, solo las recompensas en aumento proporcionarán un refuerzo continuo a través de mecanismos dopaminérgicos. Esta puede ser una de las razones por las que las recompensas constantes e inmutables parecen perder su influencia estimulante, y porque siempre necesitamos más recompensas.
Pruebas estrictas para la codificación de error de predicción de recompensa
La teoría del aprendizaje animal ha desarrollado paradigmas formales para probar errores de predicción de recompensa. En la prueba de bloqueo [7], un estímulo que se empareja con una recompensa totalmente predicha no puede aprenderse y, por lo tanto, no se convierte en un predictor de recompensa válido. La ausencia de una recompensa después del estímulo bloqueado no constituye un error de predicción y no conduce a una respuesta en las neuronas de dopamina, incluso después de un extenso emparejamiento estímulo-recompensa [27]. Por el contrario, la entrega de una recompensa después de un estímulo bloqueado constituye un error de predicción positiva y, en consecuencia, provoca una activación de dopamina.
El paradigma de inhibición condicionada [28] ofrece una prueba adicional para los errores de predicción. En la tarea empleada en nuestros experimentos, un estímulo de prueba se presenta simultáneamente con una recompensa establecida que predice el estímulo pero no se otorga ninguna recompensa después del compuesto, lo que hace que el estímulo de prueba sea un factor predictivo de la ausencia de recompensa. La omisión de la recompensa después de que un inhibidor condicionado no constituye un error de predicción negativo y, en consecuencia, no induce una depresión en las neuronas de la dopamina [29]. Por el contrario, la entrega de una recompensa después del inhibidor produce un fuerte error de predicción positiva y, en consecuencia, una fuerte activación de la dopamina.
Los resultados de estas dos pruebas formales confirman que las neuronas de dopamina muestran codificación bidireccional de errores de predicción de recompensa.
Codificación de error de predicción de recompensa adaptativa
En un sentido general, un estímulo que predice la recompensa especifica el valor de las recompensas futuras informando sobre la distribución de probabilidad de los valores de recompensa. Por lo tanto, el estímulo indica el valor esperado (primer momento) y (esperado) la varianza (segundo momento) o la desviación estándar de la distribución.
La respuesta de error de la predicción del valor de la dopamina es sensible tanto al primer como al segundo momento de la distribución de recompensa prevista a los dos segundos después del estímulo. En un experimento, diferentes estímulos visuales pueden predecir distribuciones de probabilidad binarias específicas de magnitudes de recompensa equiprobable con diferentes valores esperados y variaciones. Como la respuesta de error de predicción refleja la diferencia entre el valor de recompensa obtenido y el esperado, la magnitud idéntica de la recompensa recibida produce un aumento o una disminución de la actividad de la dopamina dependiendo de si esa recompensa es mayor o menor que su predicción, respectivamente [23]. Este resultado sugiere que la codificación de error de predicción de valor proporciona información relativa a una referencia o valor de anclaje.
El error de predicción del valor de recompensa de la codificación de dopamina se adapta a la varianza o desviación estándar de la distribución. En una distribución binaria de recompensas equiprobables, la entrega de recompensa con la mayor magnitud dentro de cada distribución provoca la misma activación de dopamina con cada distribución, a pesar de las diferencias de pliegue 10 entre las magnitudes de recompensa obtenidas (y los errores de predicción de valor resultantes) [23]. Los cálculos numéricos revelan que la respuesta de la dopamina codifica el error de predicción del valor dividido por la desviación estándar de la distribución predicha. Esto equivalía a una normalización o escala efectiva de la respuesta de error de predicción de valor en términos de desviación estándar, que indica en qué medida el valor de recompensa obtenido difiere del valor esperado en unidades de desviación estándar. Las consideraciones teóricas sugieren que las señales de enseñanza de errores que se escalan por varianza o desviación estándar en lugar de la media pueden mediar en un aprendizaje estable que sea resistente al riesgo de resultados previsto [30].
Respuesta de la dopamina para recompensar los estímulos predictivos.
Las neuronas de dopamina muestran activaciones ("excitaciones") después de la recompensa que predice estímulos visuales, auditivos y somatosensoriales (Figura (Figura 1B) 1B) [31-33]. Las respuestas ocurren independientemente de las modalidades sensoriales y las posiciones espaciales de los estímulos, e independientemente de que los efectores sean los movimientos del brazo, la boca o los ojos.
Las activaciones aumentan monótonamente con la probabilidad de recompensa [18] y la magnitud de la recompensa, como el volumen de líquido [23]. Sin embargo, las respuestas de dopamina no distinguen entre probabilidad de recompensa y magnitud siempre que el valor esperado sea idéntico [23]. Por lo tanto, las activaciones parecen codificar el valor esperado de las distribuciones de probabilidad de recompensa pronosticadas. El valor esperado es la explicación más parsimoniosa, y el ruido en las respuestas neuronales impide una caracterización en términos de la utilidad esperada (subjetiva). Tenga en cuenta que el descuento temporal que se describe a continuación revela una codificación subjetiva y podría proporcionar alguna luz sobre el problema.
La magnitud de la respuesta aumenta con la disminución del tiempo de reacción conductual, lo que indica que la respuesta a la dopamina es sensible a la motivación del animal [19]. En las elecciones entre diferentes valores de recompensa o retrasos, las respuestas de la dopamina a la presentación de opciones de elección reflejan la futura recompensa elegida por el animal [34] o la recompensa más alta posible de dos opciones de elección disponibles [35].
Durante el curso del aprendizaje, la activación de la dopamina a la recompensa disminuye gradualmente a lo largo de sucesivas pruebas de aprendizaje, y se desarrolla al mismo tiempo una activación para la recompensa que predice el estímulo [36,37]. La adquisición de respuestas condicionadas es sensible al bloqueo, lo que indica que los errores de predicción desempeñan un papel en la adquisición de respuestas de dopamina a estímulos condicionados [27]. La transferencia de respuesta para recompensar los estímulos de predicción cumple con las características principales de las señales de enseñanza de los modelos eficientes de refuerzo de la diferencia temporal [38]. El cambio de respuesta no implica la propagación hacia atrás de los errores de predicción en el intervalo de estímulo-recompensa de los modelos anteriores de diferencias temporales [27,38], pero se reproduce en el modelo original de diferencias temporales y en las implementaciones de diferencias temporales originales y más recientes [6,37,39].
Codificación del valor de la recompensa subjetiva mostrada por descuento temporal
La medición objetiva del valor de recompensa subjetiva por preferencias de elección revela que las recompensas pierden parte de su valor cuando se retrasan. De hecho, las ratas, las palomas, los monos y los humanos a menudo prefieren recompensas más pequeñas que las recompensas posteriores más grandes [40-42]. Por lo tanto, el valor subjetivo de la recompensa parece decaer con el aumento de los retrasos, aunque la recompensa física y, por lo tanto, el valor objetivo de la recompensa, es el mismo.
Las medidas psicométricas de las elecciones de comportamiento intertemporal entre las recompensas anteriores y posteriores ajustan la magnitud de la recompensa temprana hasta la aparición de indiferencia de la elección, definida como la probabilidad de elegir cada opción con p = 0.5. Por lo tanto, una recompensa temprana más baja en la indiferencia de elección indica un valor subjetivo más bajo de la recompensa posterior. En nuestro experimento reciente con monos, los valores de indiferencia de elección para las recompensas retrasadas por 4, 8 y 16 s disminuyeron monótonamente en aproximadamente 25%, 50% y 75%, respectivamente, en comparación con una recompensa después de 2 s [43]. La disminución se ajusta a una función de descuento hiperbólico.
Las respuestas de la dopamina para recompensar los estímulos que predicen disminuyen monótonamente a través de los retrasos de recompensa de 2 a 16 s [25,43], a pesar de la misma cantidad física de recompensa que se entrega después de cada retraso. Estos datos sugieren que los retrasos temporales afectan las respuestas de la dopamina para recompensar los estímulos de predicción de una manera similar a como afectan el valor de la recompensa subjetiva evaluado por las opciones intertemporales. Curiosamente, la disminución de la respuesta de la dopamina con el retraso de la recompensa es indistinguible de la disminución de la respuesta con la menor magnitud de la recompensa. Esta similitud sugiere que los retrasos temporales afectan las respuestas de dopamina a través de cambios en el valor de recompensa. Por lo tanto, para las neuronas de dopamina, las recompensas retrasadas aparecen como si fueran más pequeñas.
Por lo tanto, las neuronas de dopamina parecen codificar el valor subjetivo en lugar del físico, objetivo de recompensas retrasadas. Dado que la utilidad es una medida del valor subjetivo en lugar del objetivo de la recompensa, la disminución de la respuesta con el descuento temporal podría sugerir que las neuronas de la dopamina codifican la recompensa como utilidad (subjetiva) y no como valor (objetivo). Otros experimentos podrían ayudar a probar la codificación de utilidad más directamente.
Respuesta de la dopamina a estímulos aversivos.
Los estímulos aversivos como bocanadas de aire, solución salina hipertónica y descargas eléctricas inducen respuestas de activación ("excitadoras") en una pequeña proporción de neuronas de dopamina en animales despiertos (14% [33]; 18-29% [44]; 23% [45] ; 11% [46]), y la mayoría de las neuronas de dopamina están deprimidas en su actividad o no están influenciadas por eventos aversivos (Figura (Figura1C1C arriba). A diferencia de las recompensas, las bocanadas de aire no inducen respuestas de error de predicción bidireccionales típicas de recompensa , la predicción sólo modula activaciones aversivas [45,46, XNUMX].
La estimulación aversiva en animales anestesiados produce grados variables, pero a menudo bajos, de respuestas activadoras en su mayoría más lentas (50% [47]; 18% [48]; 17% [49]; 14% [50]) ya menudo depresiones de actividad. Las reinvestigaciones neurofisiológicas con una mejor identificación de las neuronas de dopamina confirmaron la baja incidencia general de activaciones de dopamina aversivas en animales anestesiados [51] y ubicaron a las neuronas de dopamina de respuesta adversa en el área tegmental ventromedial del cerebro medio [52].
Los estímulos condicionados y predispuestos en los monos despiertos provocan activaciones en la minoría de neuronas de dopamina y depresiones en una fracción mayor de neuronas de dopamina (11% [33]; 13% [45]; 37% [46]). Las respuestas de los depresores anulan las pocas activaciones en las respuestas de la población promediadas de las neuronas de dopamina a los estímulos aversivos [33] (consulte la Figura Figura 1C1C inferior, negro). En un estudio, el estímulo aversivo condicionado activó más neuronas que el soplo de aire (37% vs. 11% [46]), aunque un estímulo condicionado es menos aversivo que el evento aversivo primario que predice, como un soplo de aire. El mayor número de activaciones al estímulo condicionado en comparación con la bocanada de aire sugiere una relación inversa entre aversión y activación (cuanto más aversivo es el estímulo, menos frecuente es la activación) o un componente de estímulo adicional no aversivo responsable del aumento de la proporción de activados. Las neuronas de 11% a 37%. Aunque las activaciones de estímulo se correlacionaron positivamente con la probabilidad de soplo de aire en la población, no se evaluaron en neuronas individuales [46]. Una correlación poblacional puede surgir de un número relativamente pequeño de neuronas correlacionadas positivamente dentro de esa población, y las activaciones de estímulo verdaderamente aversivas podrían estar más cerca del 11% que del 37%. En otro estudio, grandes proporciones de neuronas de dopamina mostraron activaciones fásicas a los estímulos aversivos condicionados cuando se presentaron en alternancia aleatoria con estímulos que predicen la recompensa de la misma modalidad sensorial (Figura (Figura 1C1C inferior, gris) (65% [33]); las activaciones fueron mucho menos frecuentes cuando los dos tipos de estímulos condicionados tenían diferentes modalidades sensoriales (Figura (Figura 1C1C inferior, negro) (11%). El siguiente capítulo discutirá los factores que posiblemente subyacen estas activaciones inexplicables a estímulos aversivos y otros, no recompensados.
Aunque algunas neuronas de dopamina son activadas por eventos aversivos, la activación de dopamina más grande está relacionada con la recompensa. Los datos obtenidos con otros métodos conducen a conclusiones similares. La voltametría de barrido rápido en ratas en comportamiento muestra la liberación de dopamina estriatal inducida por la recompensa y un cambio para recompensar los estímulos predictivos después del acondicionamiento [53], lo que sugiere que las respuestas de impulso de las neuronas de dopamina conducen a la correspondiente liberación de dopamina de las varices estriadas. El aumento de la dopamina dura solo unos segundos y, por lo tanto, tiene el curso de tiempo más corto de todos los métodos neuroquímicos, más cercanos a la activación electrofisiológica. La liberación de dopamina es diferencial para la recompensa (sacarosa) y no ocurre con el castigo (quinina) [54]. A medida que la voltametría evalúa los promedios locales de la concentración de dopamina, la ausencia de liberación medible con quinina podría ocultar algunas activaciones canceladas por depresiones en la respuesta de la población de dopamina [33]. Los estudios que utilizan microdiálisis in vivo muy sensible detectan la liberación de dopamina después de estímulos aversivos [55].
Esta respuesta puede reflejar un cambio de dopamina inducido por las pocas neuronas activadas por estímulos aversivos, aunque el curso temporal de las mediciones de microdiálisis es aproximadamente 300-500 veces más lento que la respuesta al impulso y podría ser suficiente para permitir que las interacciones presinápticas influyan en la liberación de dopamina [56] . La interrupción de la activación por ráfaga de las neuronas de dopamina interrumpe varias tareas de aprendizaje apetitoso, pero también teme el acondicionamiento [9]. El resultado podría sugerir una función de aprendizaje de las respuestas de dopamina aversivas si se descarta el efecto inespecífico y generalmente incapacitante de una concentración de dopamina más baja, lo que queda por demostrar. La estimulación específica de las neuronas de dopamina por métodos optogenéticos a través de la canalrodopsina insertada genéticamente induce el condicionamiento de preferencia de lugar pavloviano en ratones [57]. Por el contrario, un efecto aversivo neto de la estimulación con dopamina habría producido posiblemente el aprendizaje de la evitación del lugar. Estos resultados confirman la noción de una función de refuerzo positivo global de los sistemas de dopamina derivada de un trabajo anterior de lesión, autoestimulación eléctrica y adicción a las drogas [1,2]. Sin embargo, estos argumentos no postulan que la recompensa sea la única función de los sistemas de dopamina ni que todas las funciones de recompensa involucren a las neuronas de la dopamina.
Activaciones fásicas de dopamina que no codifican la recompensa
Los estímulos pueden inducir reacciones de alerta y atención cuando son físicamente importantes (prominencia física) o cuando están relacionados con reforzadores (prominencia "motivacional" o "afectiva"). Las reacciones de comportamiento a los estímulos sobresalientes se clasifican por la intensidad física de los estímulos y el valor del reforzador, respectivamente. La prominencia física no depende en absoluto del refuerzo, y la prominencia motivacional no depende de la valencia de los reforzadores (recompensa y castigo).
Respuestas a estímulos físicamente salientes.
Los estímulos visuales y auditivos físicamente intensos inducen activaciones en las neuronas de dopamina (Figura (Figura 1D) .1D). Estas respuestas se ven reforzadas por la novedad del estímulo [58-60] pero persisten en un nivel más bajo durante varios meses siempre que los estímulos sean lo suficientemente intensos físicamente. Las respuestas se clasifican según el tamaño de los estímulos (Figura 4 en [15]). La prominencia física también podría explicar en parte las respuestas a los castigos primarios con una intensidad física sustancial [45]. Estas respuestas pueden constituir un tipo separado de respuesta de dopamina relacionada con la prominencia física de los estímulos ambientales que inducen la atención, o pueden relacionarse con los atributos positivamente motivadores y reforzadores de los estímulos intensos y novedosos.
Las activaciones a estímulos salientes físicamente no parecen reflejar una tendencia general de las neuronas de dopamina a activarse por ningún evento que genere atención. En particular, otros eventos fuertes que generan atención, como la omisión de la recompensa, los inhibidores condicionados y los estímulos aversivos inducen predominantemente depresiones y, rara vez, activaciones genuinas de dopamina [14,29]. Por lo tanto, la activación de la dopamina por estímulos físicamente salientes puede no constituir una respuesta general de alerta. Es probable que la respuesta de recompensa constituya una respuesta separada que puede no reflejar la atención generada por la prominencia motivacional de la recompensa.
Otras activaciones de codificación sin recompensa
Otros estímulos inducen activaciones en las neuronas de dopamina sin una codificación aparente del valor de recompensa. Estas activaciones son más pequeñas y más cortas que las respuestas para recompensar los estímulos de predicción y, a menudo, están seguidas de depresión cuando los estímulos no son recompensados (Figura (Figura 1E1E).
Las neuronas de dopamina muestran activaciones después de los estímulos de control que se presentan en alternancia pseudoaleatoria con estímulos recompensados [27,29,32]. La incidencia de activaciones depende de la cantidad de estímulos alternativos y recompensados en la tarea conductual; las activaciones son frecuentes cuando tres de los cuatro estímulos de tareas son recompensados (25% -63% [27]) y se vuelven raros cuando solo uno de los cuatro estímulos de tareas no recibe recompensa (1% [29]). Esta dependencia argumenta en contra de una naturaleza puramente sensorial de la respuesta.
Las neuronas de la dopamina muestran un componente de activación inicial más bien estereotipado a los estímulos que predicen las recompensas que se producen después de diferentes retrasos [43]. La activación inicial varía muy poco con el retraso de recompensa, y por lo tanto no parece codificar el valor de recompensa. Por el contrario, el componente de respuesta subsiguiente disminuye con los retrasos crecientes y, por lo tanto, los códigos (subjetivos) recompensan el valor (ver arriba).
Las neuronas de dopamina muestran activaciones frecuentes después de estímulos aversivos condicionados presentados en alternancia aleatoria con estímulos de predicción de recompensa; las activaciones desaparecen en gran medida cuando se utilizan diferentes modalidades sensoriales (65% vs. 11% de neuronas [33]), lo que sugiere la codificación de los componentes del estímulo no aversivo. Incluso cuando los estímulos aversivos y los apetitivos se separan en diferentes bloques de prueba, las neuronas de dopamina se activan considerablemente mediante estímulos aversivos condicionados. Sin embargo, las activaciones más frecuentes a los estímulos condicionados en comparación con la bocanada de aire primaria más aversiva (37% vs. 11% [46]) sugieren una relación inversa con la aversión a los estímulos y, posiblemente, los componentes de respuesta no aversiva.
Las razones de estas diferentes activaciones de la dopamina pueden estar en la generalización, la pseudo condicionamiento o la importancia del estímulo motivacional. La generalización surge de las similitudes entre estímulos. Podría explicar las activaciones de dopamina en una serie de situaciones, a saber, las activaciones a estímulos visuales no recompensados cuando estos alternan con estímulos visuales alternativos de recompensa (Figura (Figura 1E1E izquierda) [27,29,32] y el componente de activación inicial, pobremente calificado para compensar los estímulos de predicción retrasados (Figura (Figura 1E1E derecha) [43]. La generalización puede jugar un papel cuando los estímulos con diferentes modalidades sensoriales producen menos activaciones de dopamina a los estímulos no recompensados que los estímulos con las mismas modalidades, como se ve con los estímulos visuales aversivos y auditivos del apetito (Figura 1C1C) .
El pseudocondicionamiento puede surgir cuando un reforzador primario establece un fondo contextual y provoca respuestas de comportamiento no específicas a cualquier evento dentro de este contexto [61]. Como las neuronas de la dopamina son muy sensibles a la recompensa, un contexto gratificante podría inducir la pseudocondición a los estímulos establecidos en este contexto y, por lo tanto, a una activación neuronal. Este mecanismo puede subyacer a las activaciones neuronales a estímulos no gratificantes que ocurren en un contexto gratificante, como el laboratorio en el que un animal recibe recompensas diarias, independientemente de que los estímulos se presenten en alternancia aleatoria con estímulos recompensados o en bloques de prueba separados [46]. El pseudo condicionamiento puede explicar las activaciones a estímulos de control no recompensados [27,29,32], la mayoría de las activaciones después de estímulos aversivos [33,45,46] y el componente de activación inicial, poco calificado para recompensar los estímulos de predicción de retardo [43]. Por lo tanto, el pseudocondicionamiento puede surgir de la recompensa primaria en lugar de un estímulo condicionado y afectar las activaciones de dopamina a los estímulos condicionados y a los refuerzos primarios que ocurren en un contexto gratificante.
Aunque los estímulos con saliencia física sustancial parecen impulsar las neuronas de la dopamina [15,58-60] (ver arriba), los estímulos que inducen activaciones de dopamina que codifican sin recompensa son a menudo pequeños y no son físicamente muy salientes. La prominencia motivacional es, por definición, común a las recompensas y los castigadores, y por sí sola puede explicar las activaciones tanto para la recompensa como para el castigo en 10-20% de las neuronas de dopamina. Los estímulos que no refuerzan pueden llegar a ser sobresalientes de manera motivadora a través de su proximidad a la recompensa y el castigo a través del pseudo condicionamiento. Sin embargo, las activaciones de dopamina parecen ser mucho más sensibles a la recompensa que al castigo. Dado que la prominencia motivacional implica sensibilidad para ambos reforzadores, la prominencia motivacional adquirida a través del pseudo condicionamiento puede no explicar bien las codificaciones de las activaciones de dopamina que no generan recompensas.
En conjunto, muchas de las activaciones de dopamina que codifican sin recompensa pueden deberse a la generalización del estímulo o, en particular, al pseudocondicionamiento. Sin embargo, parece que siguen existiendo verdaderas activaciones a los estímulos de control no recompensados y a los estímulos aversivos primarios y condicionados en una proporción limitada de neuronas de dopamina cuando se descartan estos factores. Los experimentos adicionales que evalúen tales respuestas deberían utilizar mejores controles y eliminar completamente todas las asociaciones de recompensas contextuales con estímulos en el laboratorio.
Dada la ocurrencia de activaciones de codificación sin recompensa, es razonable preguntar cómo un animal distinguiría la recompensa de los estímulos no recompensados en base a una respuesta de dopamina. El componente de respuesta muy rápido, inicial, pseudo condicionado y poco discriminativo podría proporcionar una ventaja temporal para facilitar reacciones de comportamiento predeterminadas y rápidas que ayudan al animal a detectar muy rápidamente una posible recompensa [62]. Por el contrario, el componente de respuesta inmediatamente siguiente detecta la verdadera naturaleza del evento a través de su activación gradual con valor de recompensa [43] y su depresión frecuente con estímulos no recompensados y aversivos [27,29,32,33] (Figura (Figura 1E) .1E). Además, el sistema de dopamina no es la única recompensa de codificación de la estructura del cerebro, y otros sistemas neuronales como la corteza orbitofrontal, el estriado y la amígdala pueden proporcionar información discriminatoria adicional.
Dopamina señal de riesgo de recompensa
Si una señal de recompensa refleja el error de predicción de recompensa media escalada por la desviación estándar de las distribuciones de probabilidad de recompensa, y si vemos la desviación estándar como una medida de riesgo, ¿podría haber una señal neuronal directa de riesgo? Cuando las probabilidades de recompensa varían de 0 a 1 y la magnitud de la recompensa se mantiene constante, el valor de la recompensa media aumenta monótonamente con la probabilidad, mientras que la cantidad de riesgo sigue una función de U invertida que alcanza p = 0.5 (Figura (Figura 2,2, recuadro). En p = 0.5, hay exactamente tantas posibilidades de obtener una recompensa como perder una recompensa, mientras que las probabilidades más altas y más bajas que p = 0.5 hacen que las ganancias y pérdidas sean más seguras, respectivamente, y por lo tanto están asociadas con un menor riesgo.
Figura 2 y XNUMX
Activaciones sostenidas relacionadas con el riesgo. La respuesta al riesgo se produce durante el intervalo estímulo-recompensa (flecha) posteriormente a la activación fásica relacionada con el valor del estímulo (triángulo). El recuadro, arriba a la derecha, muestra que el riesgo (ordenadas) varía según (más…)
Alrededor de un tercio de las neuronas de dopamina muestran una activación relativamente lenta, moderada y estadísticamente significativa que aumenta gradualmente durante el intervalo entre la recompensa que predice el estímulo y la recompensa; esta respuesta varía monótonamente con el riesgo (Figura (Figura 2) 2) [18]. La activación se produce en pruebas individuales y no parece constituir una respuesta de error de predicción que se propague de vuelta de la recompensa a la recompensa que predice el estímulo. La activación aumenta de forma monótona también con desviación estándar o varianza cuando se utilizan distribuciones binarias de diferentes magnitudes de recompensa no nulas equiprobables. Por lo tanto, la desviación estándar o la varianza parecen ser medidas viables para el riesgo como lo codifican las neuronas de dopamina. Las activaciones relacionadas con el riesgo tienen latencias más largas (sobre 1), cursos de tiempo más lentos y picos más bajos en comparación con las respuestas de valor de recompensa a estímulos y recompensa.
Debido a su menor magnitud, es probable que la señal de riesgo induzca una menor liberación de dopamina en las varicosidades de la dopamina en comparación con las activaciones más fásicas que codifican el valor de recompensa. La concentración relativamente baja de dopamina posiblemente inducida por la señal de riesgo podría activar los receptores D2, que en su mayoría se encuentran en un estado de alta afinidad, pero no los receptores D1 de baja afinidad [63]. Por el contrario, la respuesta de mayor valor de recompensa fásica podría conducir a más concentraciones de dopamina suficientes para activar brevemente los receptores D1 en su estado de afinidad mayormente baja. Por lo tanto, las dos señales podrían diferenciarse por las neuronas postsinápticas sobre la base de los diferentes receptores de dopamina activados. Además, el valor de la dopamina y las señales de riesgo juntas conducirían a una activación casi simultánea de los receptores D1 y D2, que en muchas situaciones normales y clínicas es esencial para las funciones dependientes de la dopamina adecuadas.
Una señal de riesgo de dopamina puede tener varias funciones. Primero, podría influir en la escala de la respuesta de error de predicción que sigue inmediatamente por la desviación estándar inmediatamente después de la recompensa [23]. En segundo lugar, podría mejorar la liberación de dopamina inducida por la respuesta de error de predicción inmediatamente posterior. Dado que el riesgo induce atención, la mejora de una posible señal de enseñanza por riesgo sería compatible con el papel de la atención en el aprendizaje de acuerdo con las teorías de aprendizaje de asociabilidad [64,65]. En tercer lugar, podría proporcionar una entrada a las estructuras cerebrales involucradas en la evaluación del riesgo de recompensa per se. En cuarto lugar, podría combinarse con una señal de valor económico esperado para representar una información considerable sobre la utilidad esperada en individuos sensibles al riesgo de acuerdo con el enfoque de varianza media en la teoría de la decisión financiera [66]. Sin embargo, la latencia de aproximadamente 1 s es demasiado larga para que la señal juegue un papel instantáneo en las elecciones bajo incertidumbre.
Conflicto de intereses
El autor declara que no tiene intereses en competencia.
Contribuciones de los autores
WS escribió el papel.
Agradecimientos
Esta revisión se escribió con motivo del Simposio sobre el Trastorno por Déficit de Atención e Hiperactividad (TDAH) en Oslo, Noruega, febrero 2010. Nuestro trabajo fue apoyado por Wellcome Trust, Swiss National Science Foundation, Human Frontiers Science Program y otras agencias de becas y becas.
Referencias
1. Sabio RA, Rompre PP. Dopamina cerebral y recompensa. Ann Rev Psychol. 1989; 40: 191 – 225. doi: 10.1146 / annurev.ps.40.020189.001203.
2. Everitt BJ, Robbins TW. Sistemas neuronales de refuerzo para la adicción a las drogas: de las acciones a los hábitos, a la compulsión. Nat Neurosci. 2005; 8: 1481 – 1489. doi: 10.1038 / nn1579. [PubMed] [Referencia cruzada]
3. Bernoulli D. Espécimen theoriae novae de mensura sortis. Comentarii Academiae Scientiarum Imperialis Petropolitanae (Papers Imp. Acad. Sci. St. Petersburg) 1738; 5: 175 – 192. Traducido como: Exposición de una nueva teoría sobre la medición del riesgo. Econometrica 1954, 22: 23-36.
4. Rao RPN, Ballard DH. Codificación predictiva en la corteza visual: una interpretación funcional de algunos efectos de campo receptivo extra-clásicos. Nat Neurosci. 1999; 2: 79 – 87. doi: 10.1038 / 4580. [PubMed] [Cross Ref]
5. Rescorla RA, Wagner AR. En: Condicionamiento clásico II: Investigación actual y teoría. Black AH, Prokasy WF, editor. Nueva York: Appleton Century Crofts; 1972. Una teoría del condicionamiento pavloviano: variaciones en la efectividad del refuerzo y el no reforzamiento; pp. 64 – 99.
6. Sutton RS, Barto AG. Hacia una teoría moderna de redes adaptativas: expectativa y predicción. Psychol Rev. 1981; 88: 135 – 170. doi: 10.1037 / 0033-295X.88.2.135. [PubMed] [Referencia Cruzada]
7. Kamin LJ. En: Temas Fundamentales en el Aprendizaje Instrumental. Mackintosh NJ, Honig WK, editor. Halifax: Dalhousie University Press; 1969. Asociación selectiva y condicionamiento; pp. 42 – 64.
8. Blythe SN, Atherton JF, Bevan MD. La activación sináptica de los receptores dendríticos AMPA y NMDA genera un disparo transitorio de alta frecuencia en las neuronas de dopamina de sustancia negra in vitro. J. Neurofisiol. 2007; 97: 2837 – 2850. doi: 10.1152 / jn.01157.2006. [PubMed] [Referencia cruzada]
9. Zweifel LS, Parker JG, Lobb CJ, Rainwater A, Wall VZ, Fadok JP, Darvas M, Kim MJ, Mizumori SJ, Paladini CA, Phillips PEM, Palmiter RD. La interrupción de los disparos en ráfaga dependientes de NMDAR por las neuronas de dopamina proporciona una evaluación selectiva del comportamiento dependiente de la dopamina fásica. Proc Natl Acad Sci. 2009; 106: 7281 – 7288. doi: 10.1073 / pnas.0813415106. [Artículo libre de PMC] [PubMed] [Referencia cruzada]
10. Harnett MT, Bernier BE, Ahn KC, Morikawa H. Plasticidad dependiente de la ráfaga de la transmisión mediada por el receptor NMDA en neuronas de dopamina de cerebro medio. Neurona. 2009; 62: 826 – 838. doi: 10.1016 / j.neuron.2009.05.011. [Artículo libre de PMC] [PubMed] [Referencia cruzada]
11. Jones S, Bonci A. Plasticidad sináptica y adicción a las drogas. Curr Opin Pharmacol. 2005; 5: 20 – 25. doi: 10.1016 / j.coph.2004.08.011. [PubMed] [Cross Ref]
12. Kauer JA, Malenka RC. Plasticidad sináptica y adicción. Nat Rev Neurosci. 2007; 8: 844 – 858. doi: 10.1038 / nrn2234. [PubMed] [Referencia cruzada]
13. Ljungberg T, Apicella P, Schultz W. Respuestas de las neuronas de dopamina del cerebro medio de los monos durante el rendimiento de la alternancia retrasada. Brain Res. 1991; 586: 337 – 341. doi: 10.1016 / 0006-8993 (91) 90816-E.
14. Schultz W, Apicella P, Ljungberg T. Respuestas de neuronas de dopamina de mono para recompensar y condicionar estímulos durante pasos sucesivos de aprendizaje de una tarea de respuesta tardía. J Neurosci. 1993; 13: 900 – 913. [PubMed]
15. Schultz W. Señal de recompensa predictiva de las neuronas dopaminérgicas. J. Neurofisiol. 1998; 80: 1 – 27. [PubMed]
16. Schultz W, Dayan P, Montague RR. Un sustrato neural de la predicción y la recompensa. Ciencia. 1997; 275: 1593 – 1599. doi: 10.1126 / science.275.5306.1593. [PubMed] [Cross Ref]
17. Las neuronas de Hollerman JR y Schultz W. Dopamine informan un error en la predicción temporal de la recompensa durante el aprendizaje. Neurosci de la naturaleza. 1998; 1: 304 – 309. doi: 10.1038 / 1124. [PubMed] [Cross Ref]
18. Fiorillo CD, Tobler PN, Schultz W. Codificación discreta de la probabilidad de recompensa e incertidumbre por las neuronas de dopamina. Ciencia. 2003; 299: 1898 – 1902. doi: 10.1126 / science.1077349. [PubMed] [Cross Ref]
19. Satoh T, Nakai S, Sato T, Kimura M. Codificación correlacionada de la motivación y el resultado de la decisión de las neuronas de dopamina. J Neurosci. 2003; 23: 9913 – 9923. [PubMed]
20. Morris G, Arkadir D, Nevet A, Vaadia E, Bergman H. Coincidentes pero distintos mensajes de la dopamina del cerebro medio y las neuronas tónicamente activas del cuerpo estriado. Neurona. 2004; 43: 133 – 143. doi: 10.1016 / j.neuron.2004.06.012. [PubMed] [Cross Ref]
21. Nakahara H, Itoh H, Kawagoe R, Takikawa Y, Hikosaka O. Las neuronas de dopamina pueden representar un error de predicción dependiente del contexto. Neurona. 2004; 41: 269 – 280. Doi: 10.1016 / S0896-6273 (03) 00869-9. [PubMed] [Referencia cruzada]
22. Bayer HM, Glimcher PW. Las neuronas de dopamina del cerebro medio codifican una señal de error de predicción de recompensa cuantitativa. Neurona. 2005; 47: 129 – 141. doi: 10.1016 / j.neuron.2005.05.020. [Artículo libre de PMC] [PubMed] [Referencia cruzada]
23. Tobler PN, Fiorillo CD, Schultz W. Codificación adaptativa del valor de recompensa por las neuronas de dopamina. Ciencia. 2005; 307: 1642 – 1645. doi: 10.1126 / science.1105370. [PubMed] [Cross Ref]
24. Zaghloul KA, Blanco JA, Weidemann CT, McGill K, Jaggi JL, Baltuch GH, Kahana MJ. Las neuronas de la sustancia humana nigra codifican recompensas financieras inesperadas. Ciencia. 2009; 323: 1496 – 1499. doi: 10.1126 / science.1167342. [Artículo libre de PMC] [PubMed] [Referencia cruzada]
25. Fiorillo CD, Newsome WT, Schultz W. La precisión temporal de la predicción de recompensa en las neuronas de dopamina. Nat Neurosci. 2008; 11: 966 – 973. doi: 10.1038 / nn.2159.
26. Bayer HM, Lau B, Glimcher PW. Estadísticas de picos de neuronas de dopamina en el primate despierto. J. Neurofisiol. 2007; 98: 1428 – 1439. doi: 10.1152 / jn.01140.2006. [PubMed] [Referencia cruzada]
27. Waelti P, Dickinson A, Schultz W. Las respuestas a la dopamina cumplen con los supuestos básicos de la teoría del aprendizaje formal. Naturaleza. 2001; 412: 43 – 48. doi: 10.1038 / 35083500. [PubMed] [Cross Ref]
28. Rescorla RA. Inhibición condicionada pavloviana. Psychol Bull. 1969; 72: 77 – 94. doi: 10.1037 / h0027760.
29. Tobler PN, Dickinson A, Schultz W. Codificación de la omisión de recompensa predicha por las neuronas de dopamina en un paradigma de inhibición condicionada. J Neurosci. 2003; 23: 10402 – 10410. [PubMed]
30. Preuschoff, Bossaerts P. Agregando riesgo de predicción a la teoría del aprendizaje por recompensa. Ann NY Acad Sci. 2007; 1104: 135 – 146. doi: 10.1196 / annals.1390.005. [PubMed] [Cross Ref]
31. Romo R, neuronas de Schultz W. Dopamine del mesencéfalo del mono: contingencias de respuestas al contacto activo durante los movimientos del brazo autoiniciados. J. Neurofisiol. 1990; 63: 592 – 606. [PubMed]
32. Schultz W, Romo R. Neuronas de dopamina del mesencéfalo del mono: contingencias de respuestas a estímulos que provocan reacciones de comportamiento inmediatas. J. Neurofisiol. 1990; 63: 607 – 624. [PubMed]
33. Mirenowicz J, Schultz W. Activación preferencial de las neuronas de dopamina del cerebro medio por estímulos apetitivos en lugar de aversivos. Naturaleza. 1996; 379: 449 – 451. doi: 10.1038 / 379449a0. [PubMed] [Referencia cruzada]
34. Morris G, Nevet A, Arkadir D, Vaadia E, Bergman H. Las neuronas de dopamina del cerebro medio codifican decisiones para acciones futuras. Nat Neurosci. 2006; 9: 1057 – 1063. doi: 10.1038 / nn1743. [PubMed] [Referencia cruzada]
35. Roesch MR, Calu DJ, Schoenbaum G. Las neuronas de dopamina codifican la mejor opción en ratas que deciden entre recompensas con retraso o tamaño diferentes. Nat Neurosci. 2007; 10: 1615 – 1624. doi: 10.1038 / nn2013. [Artículo libre de PMC] [PubMed] [Referencia cruzada]
36. Takikawa Y, Kawagoe R, Hikosaka O. Un posible papel de las neuronas de dopamina del cerebro medio en la adaptación de las sacadas a corto y largo plazo a la asignación de posición y recompensa. J. Neurofisiol. 2004; 92: 2520 – 2529. doi: 10.1152 / jn.00238.2004. [PubMed] [Referencia cruzada]
37. Pan WX, Schmidt R, Wickens JR, Hyland BI. Las células de dopamina responden a eventos predichos durante el condicionamiento clásico: evidencia de los rastros de elegibilidad en la red de aprendizaje de recompensa. J Neurosci. 2005; 25: 6235 – 6242. doi: 10.1523 / JNEUROSCI.1478-05.2005. [PubMed] [Cross Ref]
38. Montague PR, Dayan P, Sejnowski TJ. Un marco para los sistemas de dopamina mesencefálicos basados en el aprendizaje predictivo de Hebbian. J Neurosci. 1996; 16: 1936 – 1947. [PubMed]
39. Suri R, Schultz W. Una red neuronal con señal de refuerzo similar a la dopamina que aprende una tarea de respuesta espacial retardada. Neurociencia 1999; 91: 871 – 890. Doi: 10.1016 / S0306-4522 (98) 00697-6. [PubMed] [Referencia cruzada]
40. Ainslie G. Recompensas especiosas: una teoría conductual de la impulsividad y el control de los impulsos. Psych Bull. 1975; 82: 463 – 496. doi: 10.1037 / h0076860.
41. Rodriguez ML, Logue AW. Ajuste del retardo al refuerzo: comparando la elección en palomas y humanos. J Exp Psychol Anim Behav Proceso. 1988; 14: 105 – 117. doi: 10.1037 / 0097-7403.14.1.105. [PubMed] [Referencia cruzada]
42. Richards JB, Mitchell SH, de Wit H, Seiden LS. Determinación de funciones de descuento en ratas con un procedimiento de monto de ajuste. J Exp Anal Behav. 1997; 67: 353 – 366. doi: 10.1901 / jeab.1997.67-353. [Artículo libre de PMC] [PubMed] [Referencia cruzada]
43. Kobayashi S, Schultz W. Influencia de los retrasos en la recompensa en las respuestas de las neuronas de dopamina. J Neurosci. 2008; 28: 7837 – 7846. doi: 10.1523 / JNEUROSCI.1600-08.2008. [PubMed] [Cross Ref]
44. Guarraci FA, Kapp BS. Una caracterización electrofisiológica de las neuronas dopaminérgicas del área tegmental ventral durante el condicionamiento de miedo pavloviano diferencial en el conejo despierto. Behav Brain Res. 1999; 99: 169 – 179. Doi: 10.1016 / S0166-4328 (98) 00102-8. [PubMed] [Referencia cruzada]
45. Joshua M, Adler A, Mitelman R, Vaadia E, Bergman H. Las neuronas dopaminérgicas del cerebro medio y las interneuronas colinérgicas estriatales codifican la diferencia entre la recompensa y los eventos aversivos en diferentes épocas de ensayos probabilísticos de condicionamiento clásico. J Neurosci. 2008; 28: 1673 – 11684. doi: 10.1523 / JNEUROSCI.3839-08.2008.
46. Matsumoto M, Hikosaka O. Dos tipos de neuronas dopaminérgicas transmiten de manera distintiva señales motivacionales positivas y negativas. Naturaleza. 2009; 459: 837 – 841. doi: 10.1038 / nature08028. [Artículo libre de PMC] [PubMed] [Referencia cruzada]
47. Chiodo LA, Antelman SM, Caggiula AR, Lineberry CG. Los estímulos sensoriales alteran la tasa de descarga de las neuronas de dopamina (DA): evidencia de dos tipos funcionales de células DA en la sustancia negra. Brain Res. 1980; 189: 544 – 549. Doi: 10.1016 / 0006-8993 (80) 90366-2. [PubMed] [Referencia cruzada]
48. Mantz J, Thierry AM, Glowinski J. Efecto del pinzamiento nocivo de la cola en la tasa de descarga de las neuronas de dopamina mesocórticas y mesolímbicas: activación selectiva del sistema mesocortical. Brain Res. 1989; 476: 377 – 381. Doi: 10.1016 / 0006-8993 (89) 91263-8. [PubMed] [Referencia cruzada]
49. Schultz W, Romo R. Respuestas de las neuronas de dopamina nigrostriatal a la estimulación somatosensorial de alta intensidad en el mono anestesiado. J. Neurofisiol. 1987; 57: 201 – 217. [PubMed]
50. Coizet V, Dommett EJ, Redgrave P, Overton PG. Las respuestas nociceptivas de las neuronas dopaminérgicas del cerebro medio son moduladas por el colículo superior en la rata. Neurociencia 2006; 139: 1479 – 1493. doi: 10.1016 / j.neuroscience.2006.01.030. [PubMed] [Cross Ref]
51. Brown MTC, Henny P, Bolam JP, Magill PJ. Actividad de neuronas dopaminérgicas neuroquímicamente heterogéneas en la sustancia negra durante cambios espontáneos e impulsados en el estado cerebral. J Neurosci. 2009; 29: 2915 – 2925. doi: 10.1523 / JNEUROSCI.4423-08.2009. [PubMed] [Cross Ref]
52. Brischoux F, Chakraborty S, Brierley DI, Ungless MA. Excitación fásica de neuronas de dopamina en VTA ventral por estímulos nocivos. Proc Natl Acad Sci USA. 2009; 106: 4894 – 4899. doi: 10.1073 / pnas.0811507106. [Artículo libre de PMC] [PubMed] [Referencia cruzada]
53. Día JJ, Roitman MF, Wightman RM, Carelli RM. El aprendizaje asociativo media cambios dinámicos en la señalización de dopamina en el núcleo accumbens. Nat Neurosci. 2007; 10: 1020 – 1028. doi: 10.1038 / nn1923. [PubMed] [Referencia cruzada]
54. Roitman MF, Wheeler RA, Wightman RM, Carelli RM. Las respuestas químicas en tiempo real en el núcleo accumbens diferencian los estímulos gratificantes y aversivos. Nat Neurosci. 2008; 11: 1376 – 1377. doi: 10.1038 / nn.2219. [PubMed] [Referencia cruzada]
55. Joven AMJ. Incremento de la dopamina extracelular en el núcleo accumbens en respuesta a estímulos aversivos condicionados y no condicionados: estudios con microdiálisis de 1 min en ratas. J Neurosci Meth. 2004; 138: 57 – 63. doi: 10.1016 / j.jneumeth.2004.03.003.
56. Schultz W. Múltiples funciones de dopamina en diferentes cursos de tiempo. Ann Rev Neurosci. 2007; 30: 259 – 288. doi: 10.1146 / annurev.neuro.28.061604.135722. [PubMed] [Cross Ref]
57. Tsai HC, Zhang F, Adamantidis A, Stuber GD, Bonci A, de Lecea L, Deisseroth K. El disparo por fases en las neuronas dopaminérgicas es suficiente para el condicionamiento conductual. Ciencia. 2009; 324: 1080 – 1084. doi: 10.1126 / science.1168878. [PubMed] [Cross Ref]
58. Strecker RE, Jacobs BL. Actividad de la unidad dopaminérgica de Substantia nigra en gatos portadores: efecto de la excitación en la descarga espontánea y la actividad sensorial evocada. Brain Res. 1985; 361: 339 – 350. Doi: 10.1016 / 0006-8993 (85) 91304-6. [PubMed] [Referencia cruzada]
59. Ljungberg T, Apicella P, Schultz W. Respuestas de neuronas de dopamina de mono durante el aprendizaje de las reacciones de comportamiento. J. Neurofisiol. 1992; 67: 145 – 163. [PubMed]
60. Horvitz JC, Stewart T, Jacobs BL. La actividad de estallido de las neuronas de dopamina tegmental ventral es provocada por estímulos sensoriales en el gato despierto. Brain Res. 1997; 759: 251 – 258. Doi: 10.1016 / S0006-8993 (97) 00265-5. [PubMed] [Referencia cruzada]
61. Sheafor PJ. Los movimientos mandibulares pseudocondicionados del conejo reflejan asociaciones condicionadas a señales de fondo contextuales. J Exp Psychol: Anim Behav Proc. 1975; 104: 245 – 260. doi: 10.1037 / 0097-7403.1.3.245.
62. Kakade S, Dayan P. Dopamina: generalización y bonificaciones. Redes neuronales. 2002; 15: 549 – 559. Doi: 10.1016 / S0893-6080 (02) 00048-5. [PubMed] [Referencia cruzada]
63. Richfield EK, Pennney JB, joven AB. Comparaciones anatómicas y de estado de afinidad entre los receptores de dopamina D1 y D2 en el sistema nervioso central de rata. Neurociencia 1989; 30: 767 – 777. Doi: 10.1016 / 0306-4522 (89) 90168-1. [PubMed] [Referencia cruzada]
64. Mackintosh NJ. Una teoría de la atención: variaciones en la asociatividad del estímulo con el refuerzo. Psychol Rev. 1975; 82: 276 – 298. doi: 10.1037 / h0076778.
65. Pearce JM, Hall G. Un modelo para el condicionamiento pavloviano: variaciones en la efectividad de los estímulos condicionados pero no de los condicionados no condicionados. Psychol Rev. 1980; 87: 532 – 552. doi: 10.1037 / 0033-295X.87.6.532. [PubMed] [Referencia Cruzada]
66. Levy H, Markowitz HM. Aproximando la utilidad esperada por una función de media y varianza. Am Econ Rev. 1979; 69: 308 – 317.