Señal de recompensa predictiva de las neuronas dopaminérgicas (1998)

J Neurophysiol. 1998 Jul;80(1):1-27.

Schultz W1.

Resumen

Los efectos de las lesiones, el bloqueo de receptores, la autoestimulación eléctrica y las drogas de abuso sugieren que los sistemas de dopamina del cerebro medio están involucrados en el procesamiento de la información de recompensa y en el comportamiento de aproximación de aprendizaje. La mayoría de las neuronas de la dopamina muestran activaciones fásicas después de recompensas primarias de líquidos y alimentos y estímulos visuales y auditivos condicionados que predicen la recompensa. Muestran respuestas bifásicas de activación-depresión después de estímulos que se asemejan a estímulos que predicen la recompensa o que son novedosos o particularmente destacados. Sin embargo, solo unas pocas activaciones fásicas siguen a los estímulos aversivos. Así, las neuronas de la dopamina etiquetan los estímulos ambientales con un valor apetitivo, predicen y detectan recompensas y señalan eventos de alerta y motivación. Al no discriminar entre diferentes recompensas, las neuronas de dopamina parecen emitir un mensaje de alerta sobre la sorprendente presencia o ausencia de recompensas. Todas las respuestas a las recompensas y los estímulos que predicen la recompensa dependen de la previsibilidad del evento. Las neuronas de la dopamina se activan mediante eventos de recompensa que son mejores de lo predicho, permanecen sin influencia por eventos que son tan buenos como se predijeron, y se deprimen por eventos que son peores de lo predicho. Al señalar las recompensas de acuerdo con un error de predicción, las respuestas de dopamina tienen las características formales de una señal de enseñanza postulada por las teorías de aprendizaje de refuerzo. Las respuestas de dopamina se transfieren durante el aprendizaje de recompensas primarias a estímulos que predicen la recompensa. Esto puede contribuir a los mecanismos neuronales subyacentes a la acción retrógrada de las recompensas, uno de los principales enigmas en el aprendizaje por refuerzo. La respuesta al impulso libera un breve impulso de dopamina en muchas dendritas, transmitiendo así una señal de refuerzo bastante global a las neuronas postsinápticas. Esta señal puede mejorar el comportamiento del enfoque al proporcionar información de recompensa anticipada antes de que ocurra el comportamiento, y puede contribuir al aprendizaje modificando la transmisión sináptica. La señal de recompensa de dopamina se complementa con la actividad en las neuronas del cuerpo estriado, la corteza frontal y la amígdala, que procesan información específica de recompensa pero no emiten una señal de error de predicción de recompensa global. Una cooperación entre las diferentes señales de recompensa puede asegurar el uso de recompensas específicas para reforzar comportamientos selectivamente. Entre los otros sistemas de proyección, las neuronas de noradrenalina sirven predominantemente a los mecanismos de atención y las neuronas del núcleo basalis codifican recompensas de forma heterogénea. Las fibras trepadoras cerebelosas señalan errores en el rendimiento motor o errores en la predicción de eventos aversivos a células de Purkinje cerebelosas. La mayoría de los déficits que siguen a las lesiones que agotan la dopamina no se explican fácilmente por una señal de recompensa defectuosa, pero pueden reflejar la ausencia de una función habilitadora general de los niveles tónicos de dopamina extracelular. Por lo tanto, los sistemas de dopamina pueden tener dos funciones, la transmisión fásica de la información de recompensa y la habilitación tónica de las neuronas postsinápticas.

INTRODUCCIÓN

Cuando los organismos multicelulares surgieron a través de la evolución de moléculas que se reproducían a sí mismos, desarrollaron mecanismos autoreguladores endógenos que aseguraban que se satisfacían sus necesidades de bienestar y supervivencia. Los sujetos se involucran en diversas formas de comportamiento de aproximación para obtener recursos para mantener el equilibrio homeostático y reproducirse. Una clase de recursos se llama recompensa, que provoca y refuerza el comportamiento de acercamiento. Las funciones de las recompensas se desarrollaron aún más durante la evolución de los mamíferos superiores para apoyar formas más sofisticadas de comportamiento individual y social. Así, las necesidades biológicas y cognitivas definen la naturaleza de las recompensas, y la disponibilidad de recompensas determina algunos de los parámetros básicos de las condiciones de vida del sujeto.

Las recompensas vienen en varias formas físicas, son muy variables en el tiempo y dependen del entorno particular del sujeto. A pesar de su importancia, las recompensas no influyen en el cerebro a través de receptores periféricos dedicados sintonizados a un rango limitado de modalidades físicas como es el caso de los sistemas sensoriales primarios. Más bien, la información de recompensa es extraída por el cerebro de una gran variedad de estímulos polisensoriales, no homogéneos e inconstantes mediante el uso de mecanismos neuronales particulares. La naturaleza altamente variable de las recompensas requiere altos grados de adaptación en los sistemas neuronales que las procesan.

Uno de los principales sistemas neuronales involucrados en el procesamiento de la información de recompensa parece ser el sistema de dopamina. Los estudios de comportamiento muestran que las proyecciones de dopamina al estriado y la corteza frontal desempeñan un papel central en la mediación de los efectos de las recompensas en el comportamiento y el aprendizaje de aproximación. Estos resultados se derivan de lesiones selectivas de diferentes componentes de los sistemas de dopamina, administración sistémica e intracerebral de fármacos antagonistas y agonistas directos e indirectos del receptor de dopamina, autoestimulación eléctrica y autoadministración de las principales drogas de abuso, como la cocaína, la anfetamina, opiáceos, alcohol y nicotina (Beninger y Hahn 1983; Di Chiara 1995; Fibiger y Phillips 1986; Robbins y Everitt 1992; Robinson y Berridge 1993; Sabio xnumx; Wise y Hoffman 1992; Wise et al. 1978).

El presente artículo resume la investigación reciente relacionada con la señalización de estímulos motivadores ambientales por las neuronas de dopamina y evalúa las funciones potenciales de estas señales para modificar las reacciones de comportamiento en referencia a la organización anatómica, las teorías de aprendizaje, los modelos neuronales artificiales, otros sistemas neuronales y los déficits después de las lesiones. Se describirán todas las características de respuesta conocidas de las neuronas de dopamina, pero predominantemente se conceptualizarán las respuestas a los estímulos relacionados con la recompensa porque son las mejor comprendidas actualmente. Debido a la gran cantidad de datos disponibles en la literatura, el sistema principal discutido será la proyección de dopamina nigrostriatal, pero las proyecciones de neuronas de dopamina del cerebro medio al estriado ventral y la corteza frontal también se considerarán en la medida en que el conocimiento actual lo permita.

RECOMPENSAS Y PREDICCIONES

Funciones de recompensas.

Ciertos objetos y eventos en el medio ambiente tienen una importancia motivacional particular por sus efectos sobre el bienestar, la supervivencia y la reproducción. De acuerdo con las reacciones de comportamiento provocadas, el valor motivacional de los objetos ambientales puede ser apetitivo (gratificante) o aversivo (castigo). (Tenga en cuenta que "appetitive" se usa como sinónimo de "recompensar" pero no para "preparatorio".) Los objetos apetitosos tienen tres funciones básicas separables. En su primera función, premia el enfoque provocado y el comportamiento consumatorio. Esto se debe a que los objetos se etiquetan con valor apetitivo a través de mecanismos innatos o, en la mayoría de los casos, de aprendizaje. En su segunda función, las recompensas aumentan la frecuencia e intensidad del comportamiento que conduce a tales objetos (aprendizaje), y mantienen el comportamiento aprendido al prevenir la extinción. Las recompensas sirven como refuerzos positivos del comportamiento en los procedimientos de condicionamiento clásico e instrumental. En general, el aprendizaje de incentivos, los estímulos ambientales adquieren un valor apetitivo después de asociaciones de estímulo-recompensa condicionadas clásicamente e inducen un comportamiento de acercamiento (Bindra 1968). En el condicionamiento instrumental, las recompensas "refuerzan" las conductas al fortalecer las asociaciones entre los estímulos y las respuestas de conducta (Ley de Efecto: Thorndike 1911). Esta es la esencia de "volver por más" y está relacionada con la noción común de recompensas que se obtienen por haber hecho algo bien. En una forma instrumental de aprendizaje de incentivos, las recompensas son "incentivos" y sirven como objetivos de comportamiento después de las asociaciones entre respuestas de comportamiento y resultados (Dickinson y Balleine 1994). En su tercera función, las recompensas inducen sentimientos subjetivos de placer (hedonia) y estados emocionales positivos. Los estímulos aversivos funcionan en direcciones opuestas. Inducen respuestas de abstinencia y actúan como reforzadores negativos al aumentar y mantener el comportamiento de evitación en presentaciones repetidas, reduciendo así el impacto de eventos dañinos. Además, inducen estados emocionales internos de ira, miedo y pánico.

Funciones de las predicciones.

Las predicciones proporcionan información anticipada sobre futuros estímulos, eventos o estados del sistema. Proporcionan la ventaja básica de ganar tiempo para las reacciones de comportamiento. Algunas formas de predicción atribuyen los valores motivacionales a los estímulos ambientales mediante la asociación con resultados particulares, identificando así objetos de importancia vital y discriminándolos de objetos menos valiosos. Otras formas codifican los parámetros físicos de los objetos predichos, como la posición espacial, la velocidad y el peso. Las predicciones permiten que un organismo evalúe eventos futuros antes de que realmente ocurran, permiten la selección y preparación de reacciones de comportamiento, y aumentan la probabilidad de acercarse o evitar objetos etiquetados con valores motivacionales. Por ejemplo, los movimientos repetidos de objetos en la misma secuencia permiten predecir las próximas posiciones y ya preparar el siguiente movimiento mientras se persigue el objeto presente. Esto reduce el tiempo de reacción entre objetivos individuales, acelera el rendimiento general y da como resultado un resultado anterior. Los movimientos oculares predictivos mejoran el rendimiento del comportamiento mediante un enfoque avanzado (1978 Flores y Plumas).

A un nivel más avanzado, la información avanzada proporcionada por las predicciones permite tomar decisiones entre alternativas para alcanzar estados particulares del sistema, acercarse a los objetivos que ocurren con poca frecuencia o evitar efectos adversos irreparables. Las aplicaciones industriales utilizan el control interno del modelo para predecir y reaccionar a los estados del sistema antes de que realmente ocurran (Garcia et al. 1989). Por ejemplo, la técnica de "vuelo por cable" en la aviación moderna calcula los próximos estados predecibles de los aviones. Las decisiones para las maniobras de vuelo toman en cuenta esta información y ayudan a evitar una tensión excesiva en los componentes mecánicos del avión, lo que reduce el peso y aumenta el rango de operación.

El uso de información predictiva depende de la naturaleza de los eventos futuros representados o estados del sistema. Las representaciones simples se relacionan directamente con la posición de los próximos objetivos y la reacción del comportamiento resultante, lo que reduce el tiempo de reacción de manera bastante automática. Las formas más altas de predicciones se basan en representaciones que permiten la inferencia lógica, a las que se puede acceder y tratar con diversos grados de intencionalidad y elección. A menudo se procesan conscientemente en los seres humanos. Antes de que ocurran los eventos o estados del sistema predichos y se lleven a cabo reacciones de comportamiento, tales predicciones permiten evaluar mentalmente varias estrategias integrando el conocimiento de diferentes fuentes, diseñando varias formas de reacción y comparando las ganancias y pérdidas de cada reacción posible.

Condicionamiento conductual

El aprendizaje apetitivo asociativo involucra la pareja repetida y contingente entre un estímulo arbitrario y una recompensa primaria (Fig. 1). Esto resulta en un comportamiento de acercamiento cada vez más frecuente inducido por el estímulo ahora "condicionado", que se asemeja en parte al comportamiento de acercamiento provocado por la recompensa primaria y también está influenciado por la naturaleza del estímulo condicionado. Parece que el estímulo condicionado sirve como predictor de recompensa y, a menudo sobre la base de un impulso apropiado, establece un estado motivacional interno que conduce a la reacción conductual. La similitud de las reacciones de aproximación sugiere que algunos de los componentes generales y preparatorios de la respuesta conductual se transfieren de la recompensa primaria al estímulo condicionado y predecible de recompensa más temprano. Por lo tanto, el estímulo condicionado actúa en parte como un sustituto motivacional del estímulo primario, probablemente a través del aprendizaje pavloviano (Dickinson 1980).

Higo. 1. 

Procesamiento de estímulos apetitivos durante el aprendizaje. Un estímulo arbitrario se asocia con un alimento primario o recompensa líquida a través de pares repetidos y contingentes. Este estímulo condicionado que predice la recompensa induce un estado motivacional interno al evocar una expectativa de la recompensa, a menudo sobre la base de un impulso de hambre o sed correspondiente, y provoca la reacción de comportamiento. Este esquema replica nociones básicas de la teoría de la motivación de incentivos desarrollada por Bindra (1968) y Bolles (1972). Se aplica al condicionamiento clásico, donde la recompensa se entrega automáticamente después del estímulo condicionado, y al condicionamiento instrumental (operante), donde la entrega de la recompensa requiere una reacción del sujeto al estímulo condicionado. Este esquema se aplica también al condicionamiento aversivo que no se elabora más por razones de brevedad.

Muchas de las llamadas recompensas de alimentos y líquidos "no condicionadas" probablemente se aprenden a través de la experiencia, como lo pueden confirmar todos los visitantes a países extranjeros. La recompensa primaria entonces podría consistir en el sabor experimentado cuando el objeto activa los receptores gustativos, pero eso también puede aprenderse. El efecto de recompensa final de los objetos de nutrientes probablemente consiste en sus influencias específicas sobre variables biológicas básicas, como las concentraciones de electrolitos, glucosa o aminoácidos en plasma y cerebro. Estas variables están definidas por las necesidades vegetativas del organismo y surgen a través de la evolución. Los animales evitan los nutrientes que no logran influir en importantes variables vegetativas, por ejemplo, los alimentos que carecen de aminoácidos esenciales como la histidina (Rogers y Harper 1970), treonina (Hrupka et al. 1997; Wang et al. 1996), o metionina (Delaney y Gelperin 1986). Unas cuantas recompensas primarias pueden ser determinadas por instintos innatos y apoyan el comportamiento y la ingestión iniciales en la vida temprana, mientras que la mayoría de las recompensas se aprenderían durante la experiencia de vida posterior del sujeto. La apariencia física de las recompensas podría utilizarse para predecir los efectos vegetativos mucho más lentos. Esto aceleraría dramáticamente la detección de recompensas y constituiría una ventaja importante para la supervivencia. El aprendizaje de recompensas también permite a los sujetos usar una variedad mucho más grande de nutrientes como recompensas efectivas y, por lo tanto, aumentan sus posibilidades de supervivencia en zonas de escasos recursos.

RESPUESTAS ADAPTATIVAS A ESTIMULOS APETITIVOS

Los cuerpos celulares de las neuronas de dopamina se localizan principalmente en los grupos del cerebro medio A8 (dorsal a la sustancia negra lateral), A9 (pars compacta de la sustancia negra) y A10 (área ventral tegmental medial a la sustancia negra). Estas neuronas liberan el neurotransmisor dopamina con los impulsos nerviosos de las varices axónicas en el estriado (núcleo caudado, putamen y estriado ventral, incluido el núcleo accumbens) y la corteza frontal, para nombrar los sitios más importantes. Registramos la actividad de impulso de cuerpos celulares de neuronas de dopamina individuales durante los períodos de 20-60 min con microelectrodos movibles desde posiciones extracelulares, mientras que los monos aprenden o realizan tareas de comportamiento. Los polifásicos característicos, los impulsos relativamente largos descargados a bajas frecuencias hacen que las neuronas de dopamina sean fácilmente distinguibles de otras neuronas del cerebro medio. Los paradigmas conductuales empleados incluyen tareas de tiempo de reacción, tareas directas y retardadas de ida y vuelta, tareas espaciales de respuesta retardada y alternancia, tareas de evitación activa de aire comprimido y solución salina, tareas de discriminación visual operantes y condicionadas clásicamente, movimientos autoiniciados y entrega imprevisible de recompensa en ausencia de cualquier tarea formal. Acerca de 100-250 las neuronas de dopamina se estudian en cada situación de comportamiento, y las fracciones de las neuronas moduladas en tareas se refieren a estas muestras.

Los estudios de registro inicial buscaron correlatos de deficiencias cognitivas y motor parkinsonianas en las neuronas de dopamina, pero no pudieron encontrar covariaciones claras con los movimientos de los brazos y los ojosDeLong et al. 1983; Schultz y Romo 1990; Schultz et al. 1983) o con componentes mnemónicos o espaciales de tareas de respuesta retardada (Schultz et al. 1993). Por el contrario, se encontró que las neuronas de dopamina se activaban de una manera muy distintiva por las características gratificantes de una amplia gama de estímulos somatosensoriales, visuales y auditivos.

Activación por estímulos primarios del apetito.

Alrededor del 75% de neuronas de dopamina muestran activaciones fásicas cuando los animales tocan un pequeño bocado de alimento oculto durante los movimientos de exploración en ausencia de otros estímulos fásicos, sin ser activados por el movimiento en sí (Romo y Schultz 1990). Las neuronas de dopamina restantes no responden a ninguno de los estímulos ambientales probados. Las neuronas de dopamina también son activadas por una gota de líquido administrado en la boca fuera de cualquier tarea conductual o al aprender paradigmas tan diferentes como las tareas de tiempo de reacción visual o auditiva, respuesta o alternancia espacial retardada y discriminación visual, a menudo en el mismo animal (Fig. . 2 parte superior) (Hollerman y Schultz 1996; Ljungberg et al. 1991, 1992; Mirenowicz y Schultz 1994; Schultz et al. 1993). Las respuestas de recompensa ocurren independientemente de un contexto de aprendizaje. Por lo tanto, las neuronas de dopamina no parecen discriminar entre diferentes objetos de alimentos y recompensas de líquidos. Sin embargo, sus respuestas distinguen las recompensas de los objetos no recompensados ​​(Romo y Schultz 1990). Solo el 14% de las neuronas de dopamina muestran las activaciones fásicas cuando se presentan estímulos aversivos primarios, como una bocanada de aire en la mano o solución salina hipertónica en la boca, y la mayoría de las neuronas activadas responden también a recompensas (Mirenowicz y Schultz 1996). Aunque no son desagradables, estos estímulos son aversivos porque interrumpen el comportamiento e inducen reacciones de evitación activa. Sin embargo, las neuronas de dopamina no son totalmente insensibles a los estímulos aversivos, como lo demuestran las depresiones lentas o las activaciones ocasionales lentas después del dolor, los estímulos de pellizco en monos anestesiados (Schultz y Romo 1987) y por el aumento de la liberación de dopamina estriatal después de una descarga eléctrica y una pizca de la cola en ratas despiertas (Abercrombie et al. 1989; Doherty y Gratton 1992; Louilot et al. 1986; Young et al. 1993). Esto sugiere que las respuestas fásicas de las neuronas de dopamina informan preferentemente de estímulos ambientales con valor apetitivo primario, mientras que los eventos adversos pueden señalarse con un curso de tiempo considerablemente más lento.

Higo. 2. 

Las neuronas de la dopamina reportan recompensas de acuerdo con un error en la predicción de la recompensa. Top: se produce una caída de líquido aunque no se prevé una recompensa en este momento. La ocurrencia de la recompensa constituye un error positivo en la predicción de la recompensa. La neurona de la dopamina se activa por la aparición imprevista del líquido. Segundo Nombre: el estímulo condicionado predice una recompensa, y la recompensa se produce de acuerdo con la predicción, por lo tanto, no hay error en la predicción de la recompensa. La neurona de la dopamina no se activa por la recompensa prevista (Correcto). También muestra una activación después del estímulo que predice la recompensa, que ocurre independientemente de un error en la predicción de la recompensa posterior. (izquierda). Fondo: el estímulo condicionado predice una recompensa, pero la recompensa no se produce debido a la falta de reacción del animal. La actividad de la neurona dopaminérgica se deprime exactamente en el momento en que se habría producido la recompensa. Tenga en cuenta la depresión que ocurre> 1 s después del estímulo condicionado sin ningún estímulo intermedio, revelando un proceso interno de expectativa de recompensa. La actividad neuronal en los 3 gráficos sigue la ecuación: respuesta de dopamina (Recompensa) = recompensa ocurrida - recompensa predicha. CS, estímulo condicionado; R, recompensa principal. Reimpreso de Schultz et al. (1997) con permiso de la Asociación Americana para el Avance de la Ciencia.

Imprevisibilidad de la recompensa

Una característica importante de las respuestas de dopamina es su dependencia de la imprevisibilidad de los eventos. Las activaciones que siguen a las recompensas no se producen cuando las recompensas de alimentos y líquidos están precedidas por estímulos fásicos que han sido condicionados para predecir tales recompensas (la Fig. 2, medio) (Ljungberg et al. 1992; Mirenowicz y Schultz 1994; Romo y Schultz 1990). Una diferencia crucial entre el aprendizaje y el comportamiento totalmente adquirido es el grado de impredecibilidad de la recompensa. Las neuronas de dopamina se activan mediante recompensas durante la fase de aprendizaje, pero dejan de responder después de la adquisición completa de las tareas de tiempo de reacción visual y auditivaLjungberg et al. 1992; Mirenowicz y Schultz 1994), tareas de respuesta demorada espacial (Schultz et al. 1993), y discriminaciones visuales simultáneas (Hollerman y Schultz 1996). La pérdida de respuesta no se debe a una insensibilidad general en desarrollo a las recompensas, ya que las activaciones posteriores a las recompensas otorgadas fuera de las tareas no disminuyen durante varios meses de experimentación (Mirenowicz y Schultz 1994). La importancia de la imprevisibilidad incluye el momento de la recompensa, como lo demuestran las activaciones transitorias que siguen a las recompensas que se entregan repentinamente antes o después de lo previsto (Hollerman y Schultz 1996). En conjunto, la aparición de la recompensa, incluido su tiempo, debe ser impredecible para activar las neuronas de dopamina.

Depresión por omisión de la recompensa prevista.

Las neuronas de la dopamina están deprimidas exactamente en el momento de la aparición habitual de la recompensa cuando no se produce una recompensa completamente predicha, incluso en ausencia de un estímulo inmediatamente anterior (Fig. 2, fondo). Esto se observa cuando los animales no obtienen una recompensa debido a un comportamiento erróneo, cuando el experimentador detiene el flujo de líquido a pesar del comportamiento correcto, o cuando una válvula se abre de forma audible sin suministrar líquido (Hollerman y Schultz 1996; Ljungberg et al. 1991; Schultz et al. 1993). Cuando la entrega de la recompensa se retrasa para 0.5 o 1.0 s, se produce una depresión de la actividad neuronal en el momento regular de la recompensa, y una activación sigue a la recompensa en el nuevo momento (Hollerman y Schultz 1996). Ambas respuestas ocurren solo durante unas pocas repeticiones hasta que el nuevo momento de entrega de recompensa se predice nuevamente. Por el contrario, entregar la recompensa antes de lo habitual resulta en una activación en el nuevo momento de la recompensa, pero no logra inducir una depresión en el momento habitual. Esto sugiere que la entrega de recompensas inusualmente temprana cancela la predicción de recompensa por el tiempo habitual. Así, las neuronas de dopamina monitorean tanto la ocurrencia como el tiempo de recompensa. En ausencia de estímulos inmediatamente anteriores a la recompensa omitida, las depresiones no constituyen una respuesta neuronal simple sino que reflejan un proceso de expectativa basado en un reloj interno que rastrea el tiempo preciso de la recompensa predicha.

Activación por estímulos condicionados, predictores de recompensa.

Acerca de 55-70 El% de las neuronas de dopamina se activan mediante estímulos visuales y auditivos condicionados en las diversas tareas condicionadas de forma clásica o instrumental descritas anteriormente (Fig. 2, medio y fondo) (Hollerman y Schultz 1996; Ljungberg et al. 1991, 1992; Mirenowicz y Schultz 1994; Schultz 1986; Schultz y Romo 1990; P. Waelti, J. Mirenowicz y W. Schultz, datos no publicados). Las primeras respuestas de dopamina a la luz condicionada fueron reportadas por Miller et al. (1981) en ratas tratadas con haloperidol, lo que aumentó la incidencia y la actividad espontánea de las neuronas de dopamina, pero dio lugar a respuestas más sostenidas que en los animales no ingeridos. Aunque las respuestas ocurren cerca de las reacciones de comportamiento (Nishino et al. 1987), no están relacionados con los movimientos de los brazos y los ojos, ya que se producen también ipsolaterales al brazo en movimiento y en las pruebas sin movimientos de los brazos o los ojos (Schultz y Romo 1990). Los estímulos condicionados son algo menos efectivos que las recompensas primarias en términos de magnitud de respuesta y fracciones de neuronas activadas. Las neuronas de dopamina responden solo a la aparición de estímulos condicionados y no a su compensación, incluso si la compensación de estímulo predice la recompensa (Schultz y Romo 1990). Las neuronas de dopamina no distinguen entre las modalidades visuales y auditivas de los estímulos del apetito condicionados. Sin embargo, discriminan entre estímulos apetitosos y neutros o aversivos, siempre que sean físicamente lo suficientemente diferentes (Ljungberg et al. 1992; P. Waelti, J. Mirenowicz y W. Schultz, datos no publicados). Solo el 11% de las neuronas de dopamina, la mayoría con respuestas apetitivas, muestran las activaciones fásicas típicas también en respuesta a estímulos visuales o auditivos aversivos condicionados en tareas de evitación activa en las que los animales liberan una clave para evitar una bocanada de aire o una gota de solución salina hipertónica (Mirenowicz y Schultz 1996), aunque tal evitación puede verse como "gratificante". Estas pocas activaciones no son lo suficientemente fuertes como para inducir una respuesta promedio de la población. Por lo tanto, las respuestas fásicas de las neuronas de dopamina informan de manera preferente los estímulos ambientales con un valor motivacional apetitivo, pero sin discriminar entre diferentes modalidades sensoriales.

Transferencia de activación

Durante el curso del aprendizaje, las neuronas de la dopamina se activan gradualmente por estímulos condicionados que predicen la recompensa y pierden progresivamente sus respuestas a los alimentos primarios o recompensas líquidas que se pronostican (Hollerman y Schultz 1996; Ljungberg et al. 1992; Mirenowicz y Schultz 1994) (Figs. 2 y 3). Durante un período de aprendizaje transitorio, tanto las recompensas como los estímulos condicionados provocan activaciones de dopamina. Esta transferencia de la recompensa primaria al estímulo condicionado ocurre instantáneamente en las neuronas de dopamina individuales probadas en dos tareas bien aprendidas que emplean, respectivamente, recompensas imprevistas y predichas (Romo y Schultz 1990).

Higo. 3. 

Transferencia de la respuesta de la dopamina al estímulo predictivo más temprano. Las respuestas a la transferencia de recompensa primaria imprevista a estímulos progresivamente anteriores de predicción de recompensa. Todas las pantallas muestran los histogramas de población obtenidos al promediar los histogramas de tiempo perieventes normalizados de todas las neuronas de dopamina registradas en las situaciones de comportamiento indicadas, independientemente de la presencia o ausencia de una respuesta. Top: fuera de cualquier tarea de comportamiento, no hay respuesta de la población en las neuronas 44 probadas con una luz pequeña (datos de Ljungberg et al. 1992), pero se produce una respuesta promedio en 35 neuronas a una gota de líquido entregada en un pico frente a la boca del animal (Mirenowicz y Schultz 1994). Segundo Nombre: respuesta a un estímulo desencadenante de predicción de recompensa en una tarea de alcance espacial de elección 2, pero ausencia de respuesta a la recompensa entregada durante el desempeño de la tarea establecida en las mismas neuronas 23 (Schultz et al. 1993). Fondo: respuesta a una indicación de instrucción que precede al estímulo de activación de predicción de recompensa por un intervalo fijo de 1 s en una tarea de alcance espacial instruida (neuronas 19) (Schultz et al. 1993). La base de tiempo se divide debido a los intervalos variables entre los estímulos condicionados y la recompensa. Reimpreso de Schultz et al. (1995b) con permiso de MIT Press.

Impredecibilidad de estímulos condicionados.

Las activaciones después de los estímulos condicionados, que predicen la recompensa, no ocurren cuando estos estímulos son precedidos en un intervalo fijo por estímulos condicionados por fases en situaciones de comportamiento completamente establecidas. Así, con los estímulos condicionados en serie, las neuronas de la dopamina se activan por el estímulo más temprano que predice la recompensa, mientras que todos los estímulos y recompensas que siguen en los momentos predecibles después son ineficaces (la Fig. 3) (Schultz et al. 1993). Sólo los estímulos secuenciales espaciados aleatoriamente provocan respuestas individuales. Además, el sobreentrenamiento extenso con el desempeño de tareas altamente estereotipado atenúa las respuestas a los estímulos condicionados, probablemente debido a que los estímulos se predicen por los eventos en el ensayo anterior (Ljungberg et al. 1992). Esto sugiere que la imprevisibilidad del estímulo es un requisito común para todos los estímulos que activan las neuronas de dopamina.

Depresión por omisión de estímulos condicionados predichos.

Datos preliminares de un experimento anterior (Schultz et al. 1993) sugieren que las neuronas de la dopamina también están deprimidas cuando un estímulo precedente predice un estímulo condicionado que predice la recompensa en un momento determinado, pero no se produce debido a un error del animal. Al igual que con las recompensas primarias, las depresiones se producen en el momento de la aparición habitual del estímulo condicionado, sin ser provocadas directamente por un estímulo precedente. Por lo tanto, la depresión inducida por la omisión puede generalizarse a todos los eventos apetitivos.

Activación-depresión con generalización de respuesta.

Las neuronas de la dopamina también responden a estímulos que no predicen recompensas pero se parecen mucho a estímulos que predicen recompensas que ocurren en el mismo contexto. Estas respuestas consisten principalmente en una activación seguida de una depresión inmediata, pero en ocasiones pueden consistir en activación pura o depresión pura. Las activaciones son más pequeñas y menos frecuentes que las que siguen los estímulos que predicen la recompensa, y las depresiones se observan en 30 – 60% de las neuronas. Las neuronas de la dopamina responden a estímulos visuales que no son seguidos por una recompensa, pero se parecen mucho a estímulos que predicen la recompensa, a pesar de la correcta discriminación de comportamiento (Schultz y Romo 1990). La apertura de una caja vacía no activa las neuronas de dopamina, pero se hace efectiva en cada prueba tan pronto como la caja contenga ocasionalmente alimentos (Ljungberg et al. 1992; Schultz 1986; Schultz y Romo 1990) o cuando se abre una caja adyacente, idéntica, que siempre contiene alimentos, en alternancia aleatoria (Schultz y Romo 1990). La caja vacía provoca activaciones más débiles que la caja cebada. Los animales realizan reacciones de orientación ocular indiscriminadas a cada caja, pero solo se acercan a la caja cebada con su mano. Durante el aprendizaje, las neuronas de dopamina continúan respondiendo a estímulos condicionados previamente que pierden su predicción de recompensa cuando cambian las contingencias de recompensa (Schultz et al. 1993) o responder a nuevos estímulos que se parecen a estímulos previamente condicionados (Hollerman y Schultz 1996). Las respuestas se producen incluso ante estímulos aversivos presentados en alternancia aleatoria con estímulos apetitivos condicionados, similares a los físicos, de la misma modalidad sensorial, siendo la respuesta aversiva más débil que la apetitiva (Mirenowicz y Schultz 1996). Las respuestas se generalizan incluso a estímulos apetitivos extinguidos conductualmente. Aparentemente, las respuestas neuronales se generalizan a los estímulos no apetitosos debido a su parecido físico con los estímulos apetitivos.

Respuestas novedosas

Los nuevos estímulos provocan activaciones en las neuronas dopaminérgicas que a menudo van seguidas de depresiones y persisten mientras ocurren reacciones de orientación conductual (p. Ej., Movimientos sacádicos oculares). Las activaciones disminuyen junto con las reacciones de orientación después de varias repeticiones de estímulos, dependiendo del impacto físico de los estímulos. Mientras que los pequeños diodos emisores de luz apenas provocan respuestas novedosas, los destellos de luz y la rápida apertura visual y auditiva de una pequeña caja provocan activaciones que decaen gradualmente hasta la línea de base durante <100 ensayos (Ljungberg et al. 1992). Los clics fuertes o las imágenes grandes inmediatamente delante de un animal provocan fuertes respuestas novedosas que se deterioran pero aún inducen activaciones mensurables con> 1,000 ensayos (Hollerman y Schultz 1996; Horvitz et al. 1997; Steinfels et al. 1983). Figura 4 Muestra esquemáticamente las diferentes magnitudes de respuesta con estímulos novedosos de diferente prominencia física. Las respuestas decaen gradualmente con la exposición repetida, pero pueden persistir en magnitudes reducidas con estímulos muy salientes. Las magnitudes de respuesta aumentan nuevamente cuando los mismos estímulos están condicionados apetitosamente. Por el contrario, las respuestas a estímulos nuevos, incluso grandes, disminuyen rápidamente cuando los estímulos se utilizan para condicionar el comportamiento de evitación activa (Mirenowicz y Schultz 1996). Muy pocas neuronas (<5%) responden durante más de unos pocos intentos a estímulos visibles pero físicamente débiles, como el desmoronamiento del papel o los movimientos bruscos de la mano del experimentador.

Higo. 4. 

Cursos de tiempo de activaciones de las neuronas de dopamina a estímulos nuevos, de alerta y condicionados. Las activaciones después de estímulos nuevos disminuyen con la exposición repetida en ensayos consecutivos. Su magnitud depende de la prominencia física de los estímulos, ya que los estímulos más fuertes inducen activaciones más altas que ocasionalmente superan las de los estímulos condicionados. Los estímulos particularmente salientes continúan activando las neuronas de dopamina con una magnitud limitada incluso después de perder su novedad sin estar emparejados con recompensas primarias. Las activaciones consistentes aparecen nuevamente cuando los estímulos se asocian con recompensas primarias. Este esquema fue aportado por José Contreras-Vidal.

Carácter homogéneo de las respuestas.

Los experimentos realizados hasta ahora han revelado que la mayoría de las neuronas en los grupos de células de dopamina del cerebro medio A8, A9 y A10 muestran activaciones y depresiones muy similares en una situación conductual dada, mientras que las neuronas de dopamina restantes no responden en absoluto. Existe una tendencia a que las fracciones más altas de neuronas respondan en más regiones mediales del mesencéfalo, como el área tegmental ventral y la sustancia negra medial, en comparación con regiones más laterales, que ocasionalmente alcanzan significación estadística (Schultz 1986; Schultz et al. 1993). Las latencias de respuesta (50 a 110 ms) y las duraciones (<200 ms) son similares entre las recompensas primarias, los estímulos condicionados y los estímulos nuevos. Por tanto, la respuesta a la dopamina constituye una señal de población escalar relativamente homogénea. Se clasifica en magnitud por la capacidad de respuesta de las neuronas individuales y por la fracción de neuronas que responden dentro de la población.

Resumen 1: respuestas adaptativas durante los episodios de aprendizaje

Las características de las respuestas de dopamina a los estímulos relacionados con la recompensa se ilustran mejor en los episodios de aprendizaje durante los cuales las recompensas son particularmente importantes para adquirir respuestas de comportamiento. La señal de recompensa de dopamina experimenta cambios sistemáticos durante el progreso del aprendizaje y se produce hasta el estímulo relacionado con la recompensa fásica más temprana, ya sea una recompensa primaria o un estímulo que predice la recompensa (Ljungberg et al. 1992; Mirenowicz y Schultz 1994). Durante el aprendizaje, los estímulos novedosos e intrínsecamente neutros inducen transitoriamente respuestas que se debilitan pronto y desaparecen (Fig. 4). Las recompensas primarias se producen de forma impredecible durante el emparejamiento inicial con tales estímulos y provocan activaciones neuronales. Con el emparejamiento repetido, los estímulos condicionados predicen las recompensas. Las activaciones después de la recompensa disminuyen gradualmente y se transfieren al estímulo condicionado que predice la recompensa. Sin embargo, si una recompensa predicha no se produce debido a un error del animal, las neuronas de dopamina se deprimen en el momento en que se habría producido la recompensa. Durante el aprendizaje repetido de tareas (Schultz et al. 1993) o componentes de tareas (Hollerman y Schultz 1996), los estímulos condicionados más tempranos activan las neuronas de dopamina durante todas las fases de aprendizaje debido a la generalización de estímulos similares aprendidos previamente, mientras que los estímulos condicionados subsiguientes y las recompensas primarias activan las neuronas de dopamina solo de forma transitoria, mientras que son inciertos y se establecen nuevas contingencias.

Resumen 2: estímulos efectivos para las neuronas dopaminérgicas

Las respuestas a la dopamina son provocadas por tres categorías de estímulos. La primera categoría comprende recompensas primarias y estímulos que se han convertido en predictores de recompensa válidos a través de un emparejamiento repetido y contingente con recompensas. Estos estímulos forman una clase común de estímulos explícitos que predicen la recompensa, ya que las recompensas primarias sirven como predictores de los efectos de recompensa vegetativa. Los estímulos efectivos aparentemente tienen un componente de alerta, ya que solo los estímulos con un inicio claro son efectivos. Las neuronas de dopamina muestran activaciones puras siguiendo estímulos explícitos de predicción de recompensa y se deprimen cuando no se produce una recompensa predicha pero omitida (Fig. 5, parte superior).

Higo. 5. 

Visualización esquemática de las respuestas de las neuronas de dopamina a los tipos de estímulos condicionados de 2. Top: la presentación de un estímulo explícito de predicción de recompensa conduce a la activación después del estímulo, no responde a la recompensa predicha, y la depresión cuando no se produce una recompensa predicha. Fondo: la presentación de un estímulo que se parece mucho a un estímulo condicionado que predice la recompensa conduce a la activación seguida de depresión, activación después de la recompensa, y no hay respuesta cuando no se produce la recompensa. La activación después del estímulo probablemente refleja la generalización de la respuesta debido a la similitud física. Este estímulo no predice explícitamente una recompensa, sino que está relacionado con la recompensa a través de su similitud con el estímulo que predice la recompensa. En comparación con los estímulos explícitos de predicción de recompensa, las activaciones son más bajas y, a menudo, están seguidas de depresiones, lo que discrimina entre estímulos condicionados recompensados ​​(CS +) y no recompensados ​​(CS-). Este esquema resume los resultados de experimentos anteriores y actuales (Hollerman y Schultz 1996; Ljungberg et al. 1992; Mirenowicz y Schultz 1996; Schultz y Romo 1990; Schultz et al. 1993; P. Waelti y W. Schultz, resultados no publicados).

La segunda categoría comprende estímulos que provocan respuestas generalizadoras. Estos estímulos no predicen explícitamente las recompensas, pero son efectivos debido a su similitud física con los estímulos que se han convertido en predictores explícitos de recompensa a través del condicionamiento. Estos estímulos inducen activaciones de menor magnitud y enganchan menos neuronas, en comparación con los estímulos explícitos que predicen la recompensa (Fig. 5, fondo). Suelen ser seguidas por depresiones inmediatas. Mientras que la activación inicial puede constituir una respuesta apetitiva generalizada que señala una posible recompensa, la depresión posterior puede reflejar la predicción de no recompensa en un contexto general de predicción de recompensa y cancelar el supuesto erróneo de recompensa. La falta de predicción explícita de recompensa se sugiere aún más por la presencia de activación después de la recompensa primaria y la ausencia de depresión sin recompensa. Junto con las respuestas a los estímulos que predicen la recompensa, parece que las activaciones de la dopamina informan una "etiqueta" apetitiva adherida a los estímulos relacionados con las recompensas.

La tercera categoría comprende estímulos nuevos o particularmente destacados que no están necesariamente relacionados con recompensas específicas. Al provocar reacciones de orientación conductual, estos estímulos alertan y llaman la atención. Sin embargo, también tienen funciones motivadoras y pueden ser gratificantes (Fujita 1987). Los estímulos nuevos son potencialmente apetitosos. Los estímulos nuevos o particularmente salientes inducen activaciones que son seguidas con frecuencia por depresiones, similares a las respuestas a estímulos generalizadores.

Por lo tanto, las respuestas fásicas de las neuronas de dopamina informan eventos con efectos motivadores positivos y potencialmente positivos, como recompensas primarias, estímulos que predicen recompensas, eventos parecidos a recompensas y estímulos de alerta. Sin embargo, no detectan en gran medida eventos con efectos motivadores negativos, como los estímulos aversivos.

Resumen 3: la señal de error de predicción de la recompensa de dopamina

Las respuestas de la dopamina a eventos explícitos relacionados con la recompensa se pueden conceptualizar y comprender mejor en términos de teorías formales de aprendizaje. Las neuronas de dopamina reportan recompensas relativas a su predicción en lugar de señalar las recompensas primarias incondicionalmente (Fig. 2). La respuesta de la dopamina es positiva (activación) cuando se producen recompensas primarias sin ser predicho. La respuesta es nula cuando las recompensas se producen según lo previsto. La respuesta es negativa (depresión) cuando se omiten las recompensas previstas. Por lo tanto, las neuronas de dopamina reportan recompensas primarias de acuerdo con la diferencia entre la ocurrencia y la predicción de recompensa, lo que puede denominarse un error en la predicción de recompensa (Schultz et al. 1995b, 1997) y se formaliza provisionalmente como

DopamineResponse (Gana dinero)=RecompensaOcurrida-RewardPredicted

Ecuación 1T. Esta sugerencia se puede extender a eventos de apetito condicionados que también son reportados por las neuronas de dopamina en relación con la predicción. Así, las neuronas de la dopamina pueden reportar un error en la predicción de todos los eventos del apetito, y Ec. 1 Se puede afirmar en la forma más general.

DopamineResponse (ApEvento)=ApEventOccurred-ApEventPredicted

Ecuación 2Esta generalización es compatible con la idea de que la mayoría de las recompensas son en realidad estímulos condicionados. Con varios eventos consecutivos y bien establecidos que predicen la recompensa, solo el primer evento es impredecible y provoca la activación de la dopamina.

CONECTIVIDAD DE LAS NEURONAS DE DOPAMINA

Origen de la respuesta a la dopamina.

¿Qué aportaciones anatómicas podrían ser responsables de la selectividad y la naturaleza polisensorial de las respuestas de dopamina? ¿Qué actividad de entrada podría llevar a la codificación de los errores de predicción, inducir la transferencia de respuesta adaptativa al primer evento de apetito impredecible y estimar el tiempo de recompensa?

Estratón dorsal y ventral.

Las neuronas GABAérgicas en los estriosomas (parches) del estriado se proyectan de forma ampliamente topográfica y parcialmente superpuesta a las neuronas de dopamina en casi todo el compacta compacta de la sustancia negra, mientras que las neuronas de la matriz estriatal mucho más grande predominan principalmente las neuronas que no contienen vitamina. pars reticulata de substantia nigra, además de su proyección al globo pálido (Gerfen 1984; Hedreen y DeLong 1991; Holstein et al. 1986; Jiménez-Castellanos y Graybiel 1989; Selemon y Goldman-Rakic ​​1990; Smith y Bolam 1991). Las neuronas en el cuerpo estriado ventral se proyectan de forma no topográfica tanto a pars compacta como a pars reticulata de la sustancia negra medial y al área ventral tegmental (Berendse et al. 1992; Haber et al. 1990; Lynd-Balta y Haber 1994; Somogyi et al. 1981). La proyección estriatonigral GABAergic puede ejercer dos influencias distintivamente diferentes sobre las neuronas de dopamina, una inhibición directa y una activación indirecta (Grace y Bunney 1985; Smith y Grace 1992; Tepper et al. 1995). Este último está mediado por la inhibición estriatal de las neuronas pars reticulata y la subsiguiente inhibición de GABAergic de colaterales de axones locales de pars reticulata neuronas de salida en neuronas de dopamina. Esto constituye un doble enlace inhibitorio y da como resultado la activación neta de las neuronas de dopamina por el cuerpo estriado. Por lo tanto, los estriosomas y el estriado ventral pueden inhibir monosinápticamente y la matriz puede activar indirectamente las neuronas dopaminérgicas.

Las neuronas del estriado dorsal y ventral muestran una serie de activaciones que podrían contribuir a las respuestas de recompensa de la dopamina, a saber, las respuestas a las recompensas primarias (Apicella et al. 1991a; Williams et al. 1993), respuestas a estímulos que predicen la recompensa (Hollerman et al. 1994; Romo et al. 1992) y activaciones sostenidas durante la expectativa de estímulos que predicen la recompensa y recompensas primarias (Apicella et al. 1992; Schultz et al. 1992). Sin embargo, las posiciones de estas neuronas en relación con los estriosomas y la matriz son desconocidas, y las activaciones del estriado que reflejan el tiempo de recompensa esperado aún no se han informado.

Las respuestas de recompensa polisensoriales podrían ser el resultado de la extracción de características en áreas de asociación cortical. Latencias de respuesta de 30 – 75 ms en la corteza visual primaria y asociativa (Maunsell y Gibson 1992; Miller et al. 1993) podría combinarse con una conducción rápida al cuerpo estriado y una doble inhibición de la sustancia negra para inducir latencias de respuesta de dopamina cortas de <100 ms. Mientras que no se ha informado actividad relacionada con la recompensa para la corteza de asociación posterior, las neuronas en la corteza prefrontal dorsolateral y orbital responden a las recompensas primarias y a los estímulos que predicen la recompensa y muestran activaciones sostenidas durante la expectativa de recompensa (Rolls et al. 1996; Thorpe et al. 1983; Tremblay y Schultz 1995; Watanabe 1996). Algunas respuestas de recompensa en la corteza frontal dependen de la impredecibilidad de la recompensa (Matsumoto et al. 1995; L. Tremblay y W. Schultz, resultados no publicados) o reflejan errores de comportamiento o recompensas omitidas (Niki y Watanabe 1979; Watanabe 1989). La influencia cortical sobre las neuronas de dopamina sería incluso más rápida a través de una proyección directa, originada desde la corteza prefrontal en ratas (Gariano y Groves 1988; Sesack y Pickel 1992; Tong et al. 1996) pero siendo débil en monos (Künzle 1978).

PEDUNCULOPONTINUS NUCLEO.

Las latencias cortas de las respuestas de recompensa pueden derivarse de mecanismos adaptativos de procesamiento de características en el tronco cerebral. Nucleus pedunculopontinus es un precursor evolutivo de la sustancia negra. En vertebrados no mamíferos, contiene neuronas de dopamina y se proyecta al paleostriatum (Lohman y Van Woerden-Verkley 1978). En los mamíferos, este núcleo envía fuertes influencias excitadoras, colinérgicas y glutamatérgicas a una alta fracción de neuronas de dopamina con latencias de ∼7 ms (Bolam et al. 1991; Clarke et al. 1987; Futami et al. 1995; Scarnati et al. 1986). La activación de proyecciones pedunculopontinas-dopamina induce un comportamiento en circuito (Niijima y Yoshida 1988), sugiriendo una influencia funcional sobre las neuronas de dopamina.

AMÍGDALA.

Una entrada masiva, probablemente excitadora, a las neuronas de dopamina surge de diferentes núcleos de la amígdala (Gonzalez y Chesselet 1990; Precio y Amaral 1981). Las neuronas de la amígdala responden a recompensas primarias y estimulan los estímulos visuales y auditivos. Las respuestas neuronales conocidas hasta ahora son independientes de la imprevisibilidad del estímulo y no discriminan bien entre los eventos apetitivos y aversivos (Nakamura et al. 1992; Nishijo et al. 1988). La mayoría de las respuestas muestran latencias de 140 – 310 ms, que son más largas que en las neuronas de dopamina, aunque algunas respuestas ocurren en latencias de 60 – 100 ms.

DORSAL RAPHÉ.

La proyección monosináptica del dorsal raphé (Corvaja et al. 1993; Nedergaard et al. 1988) tiene una influencia depresora sobre las neuronas de dopamina (Fibiger et al. 1977; Trent y Tepper 1991). Las neuronas de Raphé muestran activaciones de corta latencia después de estímulos ambientales de alta intensidad (Heym et al. 1982), permitiéndoles contribuir a las respuestas de dopamina después de estímulos nuevos o particularmente destacados.

SÍNTESIS.

Unas pocas y bien conocidas estructuras de entrada son los candidatos más probables para mediar en las respuestas de dopamina, aunque también pueden existir entradas adicionales. Las activaciones de las neuronas de dopamina por recompensas primarias y estímulos que predicen la recompensa podrían estar mediadas por una doble entrada inhibitoria y activadora neta de la matriz del estriado (para un diagrama simplificado, ver Fig. 6). Las activaciones también podrían surgir del núcleo pedunculopontino o posiblemente de la actividad relacionada con la expectativa de recompensa en las neuronas del núcleo subtalámico que se proyectan a las neuronas de dopaminaHammond et al. 1983; Matsumura et al. 1992; Smith et al. 1990). La ausencia de activación con recompensas totalmente predichas podría ser el resultado de la inhibición monosináptica de los estriosomas, cancelando simultáneamente la activación de la entrada de la matriz. Las depresiones en el momento de la recompensa omitida podrían estar mediadas por entradas inhibitorias de las neuronas en los estriosomas del cuerpo estriado (Houk et al. 1995) o globus pallidus (Haber et al. 1993; Hattori et al. 1975; Y. Smith y Bolam 1990, 1991). La convergencia entre diferentes entradas antes o al nivel de las neuronas de dopamina podría dar lugar a una codificación bastante compleja de los errores de predicción de recompensa y la transferencia de respuesta adaptativa de recompensas primarias a estímulos de predicción de recompensa.

Higo. 6. 

Diagrama simplificado de entradas a las neuronas de dopamina del cerebro medio que pueden mediar en las respuestas de dopamina. Sólo se muestran las entradas de caudate a substantia nigra (SN) pars compacta y reticulata por razones de simplicidad. Las activaciones pueden surgir por una doble influencia inhibitoria y neta de las neuronas de la matriz GABAérgica en el caudado y el putamen a través de las neuronas GABAérgicas del pars reticulata de SN a las neuronas de dopamina del pars compacta del SN. Las activaciones también pueden estar mediadas por proyecciones colinérgicas o que contienen aminoácidos del núcleo pedunculopontinus. Las depresiones podrían deberse a proyecciones monosinápticas GABAérgicas de los estriosomas (parches) en el caudado y el putamen a las neuronas de dopamina. Existen proyecciones similares desde el estriado ventral hasta las neuronas de dopamina en el SN pars compacta medial y el grupo A10 en el área tegmental ventral y desde el estriado dorsal hasta el grupo A8 neuronas de dopamina dorsolateral a SN (Lynd-Balta y Haber 1994). Círculo pesado representa las neuronas de la dopamina. Estas proyecciones representan los insumos más probables que subyacen a las respuestas de dopamina, sin descartar los insumos del globo pálido y el núcleo subtalámico.

Influencia de la dopamina fásica en las estructuras diana

NATURALEZA GLOBAL DE LA SEÑAL DE DOPAMINA.

Proyecciones divergentes. Hay neuronas de dopamina ∼8,000 en cada sustancia negra de ratas (Oorschot 1996) y 80,000 – 116,000 en monos macacos (German et al. 1988; Percheron et al. 1989). Cada estriado contiene ∼2.8 millones de neuronas en ratas y 31 millones en macacos, lo que resulta en un factor de divergencia nigrostriatal de 300-400. Cada axón de dopamina se ramifica abundantemente en un área terminal limitada en el cuerpo estriado y tiene ∼500,000 varicosidades del cuerpo estriado desde las cuales se libera la dopamina (Andén et al. 1966). Esto da lugar a la entrada de dopamina a casi todas las neuronas del estriado (Groves et al. 1995) y una proyección nigrostriatal moderadamente topográfica (Lynd-Balta y Haber 1994). La inervación de dopamina cortical en monos es más alta en las áreas 4 y 6, aún es considerable en los lóbulos frontal, parietal y temporal, y es más baja en el lóbulo occipital (Berger et al. 1988; Williams y Goldman-Rakic ​​1993). Las sinapsis de dopamina cortical se encuentran predominantemente en las capas I y V – VI, y ponen en contacto una gran proporción de neuronas corticales allí. Junto con la naturaleza de respuesta más bien homogénea, estos datos sugieren que la respuesta de la dopamina avanza como una onda de actividad simultánea y paralela desde el cerebro medio hasta el cuerpo estriado y la corteza frontal (Fig. 7).

Higo. 7. 

La señal global de dopamina avanza hacia el estriado y la corteza. La respuesta de la población relativamente homogénea de la mayoría de las neuronas de dopamina a los estímulos apetitosos y de alerta y su progresión desde la sustancia negra a las estructuras postsinápticas se puede ver esquemáticamente como una ola de actividad sincrónica y paralela que avanza a una velocidad de 1-2 m / s (Schultz y Romo 1987) a lo largo de las proyecciones divergentes desde el cerebro medio hasta el estriado (caudado y putamen) y la corteza. Las respuestas son cualitativamente indistinguibles entre las neuronas de la sustancia negra (SN) y el área tegmental ventral (VTA). La inervación de todas las neuronas en el cuerpo estriado y muchas neuronas en la corteza frontal permitiría que la señal de refuerzo de la dopamina ejerza un efecto bastante global. Ola se ha comprimido para enfatizar la naturaleza paralela.

Liberación de dopamina. Los impulsos de las neuronas de dopamina a intervalos de 20 – 100 ms conducen a una concentración de dopamina mucho mayor en el cuerpo estriado que el mismo número de impulsos a intervalos de 200 ms (Garris y Wightman 1994; Gonon 1988). Esta no linealidad se debe principalmente a la rápida saturación del transportador de recaptación de dopamina, que elimina la dopamina liberada de la región extrasináptica (Chergui et al. 1994). El mismo efecto se observa en el núcleo accumbens (Wightman y Zimmerman 1990) y ocurre incluso con intervalos de impulso más largos debido a los sitios de recaptación más dispersos (Garris et al. 1994b; Marshall et al. 1990; Stamford et al. 1988). La liberación de dopamina después de una ráfaga de impulso de <300 ms es demasiado corta para activar la reducción de liberación mediada por autorreceptores (Chergui et al. 1994) o la degradación enzimática incluso más lenta (Michael et al. 1985). Por lo tanto, una respuesta de dopamina explosiva es particularmente eficaz para liberar dopamina.

Las estimaciones basadas en la voltametría in vivo sugieren que un solo impulso libera d1,000 moléculas de dopamina en las sinapsis en el cuerpo estriado y el núcleo accumbens. Esto conduce a concentraciones de dopamina sinápticas inmediatas de 0.5 – 3.0 μM (Garris et al. 1994a; Kawagoe et al. 1992). A los 40 μs después del inicio de la liberación,> 90% de la dopamina ha abandonado la sinapsis, y parte del resto se elimina más tarde por recaptación sináptica (la mitad del tiempo de inicio de 30 a 37 ms). De 3 a 9 ms después del inicio de la liberación, las concentraciones de dopamina alcanzan un pico de ~ 250 nM cuando todas las várices vecinas liberan dopamina simultáneamente. Las concentraciones son homogéneas dentro de una esfera de 4 μm de diámetro (Gonon 1997), que es la distancia media entre varicosidades (Doucet et al. 1986; Groves et al. 1995). La difusión máxima está restringida a 12 μm por el transportador de recaptación y se alcanza en 75 ms después del inicio de la liberación (tiempo de inicio de la mitad del transportador de 30 a 37 ms). Las concentraciones serían ligeramente más bajas y menos homogéneas en regiones con menos varices o cuando se activan <100% de las neuronas de dopamina, pero son dos o tres veces más altas con ráfagas de impulsos. Por tanto, las activaciones explosivas inducidas por recompensa, levemente sincrónicas, en aproximadamente el 75% de las neuronas de dopamina pueden producir picos de concentración bastante homogéneos del orden de 150 a 400 nM. Los aumentos totales de dopamina extracelular duran 200 ms después de un solo impulso y 500 a 600 ms después de múltiples impulsos de intervalos de 20 a 100 ms aplicados durante 100 a 200 ms (Chergui et al. 1994; Dugast et al. 1994). El transportador de recaptación extrasináptico (Nirenberg et al. 1996) posteriormente lleva las concentraciones de dopamina a su línea de base de 5 – 10 nM (Herrera-Marschitz et al. 1996). Por lo tanto, a diferencia de la neurotransmisión clásica, estrictamente sináptica, la dopamina liberada sinápticamente se difunde rápidamente hacia el área yuxtasináptica inmediata y alcanza picos cortos de concentraciones extracelulares homogéneas por regiones.

Receptores. De los dos tipos principales de receptores de dopamina, los receptores de tipo D1 activadores de adenilato ciclasa constituyen el ∼80% de receptores de dopamina en el cuerpo estriado. De estos 80% están en el estado de baja afinidad de 2 – 4 μM y 20% en el estado de alta afinidad de 9 – 74 nM (Richfield et al. 1989). El 20 restante de receptores de dopamina estriatal pertenece al tipo D2 inhibidor de la adenilasa ciclasa, del cual 10 – 0% está en el estado de baja afinidad y 80 – 90 en el estado de alta afinidad, con afinidades similares a los receptores D1. Por lo tanto, los receptores D1 en general tienen una afinidad ∼100 veces menor que los receptores D2. Los receptores estriatales D1 se encuentran predominantemente en las neuronas que se proyectan hacia el pálido interno y la sustancia negra pars reticulata, mientras que los receptores estriatales D2 se ubican principalmente en las neuronas que se proyectan hacia el pálido externo (Bergson et al. 1995; Gerfen et al. 1990; Hersch et al. 1995; Levey et al. 1993). Sin embargo, las diferencias en la sensibilidad del receptor pueden no jugar un papel más allá de la transducción de señales, reduciendo así las diferencias en la sensibilidad a la dopamina entre los dos tipos de neuronas de salida del estriado.

La dopamina se libera a 30 – 40% desde synaptic y a 60 – 70% desde varicosidades extrasinápticas (Descarries et al. 1996). La dopamina liberada sinápticamente actúa sobre los receptores postsinápticos de dopamina en cuatro sitios anatómicamente distintos en el cuerpo estriado, es decir, dentro de las sinapsis de dopamina, inmediatamente adyacentes a las sinapsis de dopamina, dentro de las sinapsis de glutamato corticostriatal, y en sitios extrasinápticos alejados de los sitios de liberación (Fig. 8) (Levey et al. 1993; Sesack et al. 1994; Yung et al. 1995). Los receptores D1 se localizan principalmente fuera de las sinapsis de dopamina (Caillé et al. 1996). Las altas concentraciones transitorias de dopamina después de las explosiones de impulsos fásicos activarán los receptores D1 en las inmediaciones de los sitios de liberación activa y activarán e incluso saturarán los receptores D2 en todas partes. Los receptores D2 permanecerían parcialmente activados cuando la concentración de dopamina en el ambiente vuelva a la línea de base después de los incrementos fásicos.

Higo. 8. 

Influencias de la liberación de dopamina en neuronas espinosas medianas típicas en el cuerpo estriado dorsal y ventral. La dopamina liberada por impulsos de las varices sinápticas activa algunos receptores sinápticos (probablemente de tipo D2 en el estado de baja afinidad) y se difunde rápidamente fuera de la sinapsis para alcanzar receptores de tipo D1 de baja afinidad (D1?) Que se encuentran cerca, dentro de las sinapsis corticostriatal , oa una distancia limitada. La dopamina aumentada de forma fásica activa los receptores de tipo D2 de alta afinidad cercanos a la saturación (D2?). Los receptores D2 permanecen parcialmente activados por las concentraciones de dopamina en el ambiente después del aumento fásico. La dopamina liberada por ultrasonido puede diluirse por difusión y activar los receptores D2 de alta afinidad. Cabe señalar que, en desacuerdo con este diagrama esquemático, la mayoría de los receptores D1 y D2 se encuentran en diferentes neuronas. El glutamato liberado de las terminales corticostriatales alcanza los receptores postsinápticos ubicados en las mismas espinas dendríticas que las varicosidades de dopamina. El glutamato también alcanza las varicosidades presinápticas de dopamina donde controla la liberación de dopamina. Las influencias de la dopamina en las neuronas espinosas en la corteza frontal son comparables en muchos aspectos.

Resumen. La respuesta observada, de estallido moderado, de corta duración, casi sincrónica, de la mayoría de las neuronas de dopamina conduce a una liberación óptima y simultánea de dopamina de la mayoría de las varicosidades estriatales estrechamente espaciadas. La respuesta neuronal induce una pequeña bocanada de dopamina que se libera de los sitios extrasinápticos o se difunde rápidamente de las sinapsis al área yuxtasináptica. La dopamina alcanza rápidamente concentraciones regionales homogéneas que probablemente influyan en las dendritas de probablemente todas las neuronas del estriado y muchas de las neuronas corticales. De esta manera, el mensaje de recompensa en 60 – 80% de las neuronas de dopamina se transmite como una señal de refuerzo divergente y bastante global al estriado, el núcleo accumbens y la corteza frontal, asegurando una influencia fásica en el número máximo de sinapsis involucradas en el procesamiento. de estímulos y acciones que conducen a la recompensa (fig. 7). La dopamina liberada por las activaciones neuronales después de las recompensas y los estímulos que predicen la recompensa afectaría los receptores juxtasinápticos D1 en las neuronas del estriado que se proyectan hacia el pálido interno y la sustancia negra pars reticulata y todos los receptores D2 en las neuronas que se proyectan hacia el pálido externo. La reducción de la liberación de dopamina inducida por depresiones con recompensas omitidas y estímulos que predicen la recompensa reduciría la estimulación tónica de los receptores D2 por la dopamina ambiental. Por lo tanto, los errores de predicción de la recompensa positiva influirían en todos los tipos de neuronas de salida del estriado, mientras que el error de predicción negativa podría influir predominantemente en las neuronas que se proyectan hacia el pálido externo.

Posibles mecanismos de cocaína. El bloqueo del transportador de recaptación de dopamina por drogas como la cocaína o la anfetamina aumenta y prolonga los aumentos fásicos en las concentraciones de dopamina (Iglesia et al. 1987a; Giros et al. 1996; Suaud-Chagny et al. 1995). La mejora sería particularmente pronunciada cuando los aumentos rápidos en la concentración de dopamina inducidos por el estallido alcancen un pico antes de que la regulación por retroalimentación sea efectiva. Este mecanismo llevaría a una señal de dopamina mejorada masivamente después de las recompensas primarias y los estímulos que predicen la recompensa. También aumentaría la señal de dopamina algo más débil después de que los estímulos se asemejan a recompensas, estímulos novedosos y estímulos particularmente destacados que pueden ser frecuentes en la vida cotidiana. El aumento de la cocaína haría que estos estímulos no recompensados ​​parecieran tan fuertes o incluso más fuertes que las recompensas naturales sin cocaína. Las neuronas postsinápticas podrían malinterpretar esta señal como un evento particularmente importante relacionado con la recompensa y sufrir cambios a largo plazo en la transmisión sináptica.

DOPAMINA ACCIONES DE MEMBRANA.

Las acciones de la dopamina en las neuronas del cuerpo estriado dependen del tipo de receptor activado, se relacionan con los estados despolarizados versus los estados hiperpolarizados de los potenciales de membrana y con frecuencia involucran receptores de glutamato. La activación de los receptores de dopamina D1 mejora la excitación provocada por la activación de Nde los receptores de metil-d-aspartato (NMDA) después de las entradas corticales a través de Ca de tipo L2+ canales cuando el potencial de membrana está en el estado despolarizado (Cepeda et al. 1993, 1998; Hernández-López et al. 1997; Kawaguchi et al. 1989). Por el contrario, la activación de D1 parece reducir las excitaciones provocadas cuando el potencial de membrana está en el estado hiperpolarizado (Hernández-López et al. 1997). La iontoforesis de dopamina in vivo y la estimulación axonal inducen excitaciones mediadas por D1 que duran 100 – 500 ms después de la liberación de dopamina (Gonon 1997; Williams y Millar 1991). La activación de los receptores de dopamina D2 reduce el Na+ y tipo N Ca2+ corrientes y atenuaciones excitaciones provocadas por la activación de los receptores de NMDA o α-amino-3-hidroxi-5-metil-4-ácido isoxazolepropiónico (AMPA) en cualquier estado de membrana (Cepeda et al. 1995; Yan et al. 1997). En el nivel de los sistemas, la dopamina ejerce un efecto de enfoque por el cual solo las entradas más fuertes pasan del estriado al pálido externo e interno, mientras que la actividad más débil se pierde (Brown y Arbuthnott 1983; Filion et al. 1988; Toan y Schultz 1985; Yim y Mogenson 1982). Por lo tanto, la dopamina liberada por la respuesta de la dopamina puede llevar a una reducción general inmediata de la actividad estriatal, aunque un efecto facilitador en las excitaciones provocadas corticalmente puede estar mediado a través de los receptores D1. La siguiente discusión mostrará que los efectos de la neurotransmisión de dopamina pueden no estar limitados a cambios en la polarización de la membrana.

La plasticidad dependiente de la dopamina.

La estimulación eléctrica tetánica de las entradas corticales o límbicas al estriado y el núcleo accumbens induce depresiones posttánicas que duran varias decenas de minutos en cortes (Calabresi et al. 1992a; Lovinger et al. 1993; Pennartz et al. 1993; Walsh 1993; Wickens et al. 1996). Esta manipulación también mejora la excitabilidad de los terminales corticostriatales (García-Muñoz et al. 1992). Se observa una potenciación postetánica de duraciones similares en el estriado y el núcleo accumbens cuando la despolarización postsináptica se facilita mediante la eliminación de magnesio o la aplicación de antagonistas del ácido γ-aminobutírico (GABA) (Boeijinga et al. 1993; Calabresi et al. 1992b; Pennartz et al. 1993). Los antagonistas de los receptores de dopamina D1 o D2 o el knockout del receptor D2 eliminan la depresión corticostriatal posttánica (Calabresi et al. 1992a; Calabresi et al. 1997; García-Muñoz et al. 1992) pero no afectan la potenciación en el núcleo accumbens (Pennartz et al. 1993). La aplicación de dopamina restaura la depresión posttánica estriatal en cortes de ratas lesionadas con dopamina (Calabresi et al. 1992a) pero no modifica la potenciación postetánica (Pennartz et al. 1993). Los pulsos cortos de dopamina (5 – 20 ms) inducen una potenciación a largo plazo en los cortes del cuerpo estriado cuando se aplican simultáneamente con la estimulación corticostriatal tetánica y la despolarización postsináptica, cumpliendo con una regla de aprendizaje de refuerzo de tres factores (Wickens et al. 1996).

Otra evidencia de la plasticidad sináptica relacionada con la dopamina se encuentra en otras estructuras cerebrales o con diferentes métodos. En el hipocampo, la potenciación posttánica se incrementa mediante la aplicación en baño de agonistas D1 (Otmakhova y Lisman 1996) y deteriorado por el bloqueo del receptor D1 y D2 (Frey et al. 1990). El estallido contingente, pero no el estallido, las aplicaciones locales no condicionales de la dopamina y los agonistas de la dopamina aumentan el estallido neuronal en cortes de hipocampo (Stein et al. 1994). En la retina de los peces, la activación de los receptores de dopamina D2 induce movimientos de fotorreceptores dentro o fuera del pigmento epitelio (Rogawski 1987). Las inyecciones postriales de anfetamina y agonistas de la dopamina en el núcleo caudado de rata mejoran el rendimiento en las tareas de memoria (Packard y 1991 Blanco). Las denervaciones de dopamina en el cuerpo estriado reducen el número de espinas dendríticas (Arbuthnott e Ingham 1993; Anglade et al. 1996; Ingham et al. 1993), sugiriendo que la inervación de la dopamina tiene efectos persistentes en las sinapsis corticostriatales.

PROCESAMIENTO EN NEURONAS ESTRATALES.

Se estima que los terminales corticales 10,000 y las varicosidades de dopamina 1,000 contactan con las espinas dendríticas de cada neurona estriatal (Doucet et al. 1986; Groves et al. 1995; Wilson 1995). La densa inervación de la dopamina se hace visible como canastas que describen el perikarya individual en la paloma paleostriatum (Wynne y Güntürkün 1995). Las varicosidades de la dopamina forman sinapsis en las mismas espinas dendríticas de las neuronas del estriado que se ponen en contacto con las aferentes de glutamato cortical (Fig. 8) (Bouyer et al. 1984; Freund et al. 1984; Pickel et al. 1981; Smith et al. 1994), y algunos receptores de dopamina se encuentran dentro de las sinapsis corticostriatales (Levey et al. 1993; Yung et al. 1995). El alto número de entradas corticales a las neuronas del cuerpo estriado, la convergencia entre las entradas de dopamina y glutamato en las espinas de las neuronas del cuerpo estriado, y la señal de dopamina en gran parte homogénea que alcanza probablemente todas las neuronas del cuerpo estriado son sustratos ideales para los cambios sinápticos dependientes de la dopamina en las espinas de las neuronas estriadas . Esto también puede valer para la corteza donde las espinas dendríticas son contactadas por entradas sinápticas tanto de la dopamina como de las neuronas corticales (Goldman-Rakic ​​et al. 1989), aunque la dopamina probablemente no influye en cada neurona cortical.

Los ganglios basales están conectados por bucles abiertos y cerrados con la corteza y con estructuras límbicas subcorticales. El cuerpo estriado recibe en diversos grados entradas de todas las áreas corticales. Las salidas de los ganglios basales se dirigen predominantemente hacia las áreas corticales frontales, pero también llegan al lóbulo temporal (Middleton y Strick 1996). Muchas entradas desde áreas corticales funcionalmente heterogéneas al estriado se organizan en canales paralelos y segregados, al igual que las salidas del pálido interno dirigidas a diferentes áreas corticales motoras (Alexander et al. 1986; Hoover y Strick 1993). Sin embargo, aferentes de áreas corticales funcionalmente relacionadas pero anatómicamente diferentes pueden converger en neuronas del estriado. Por ejemplo, las proyecciones de áreas somatotópicamente relacionadas de la corteza motora y somatosensitiva primaria se proyectan a regiones estriatales comunes (Flaherty y Graybiel 1993, 1994). Las proyecciones corticostriatales se dividen en “matrisomas” estriatales separados y vuelven a converger en el pálido, aumentando así la “superficie” sináptica para las interacciones y asociaciones moduladoras (Graybiel et al. 1994). Esta disposición anatómica permitiría que la señal de dopamina determinara la eficacia de las entradas corticales altamente estructuradas y específicas de la tarea para las neuronas del estriado y ejerciera una influencia generalizada en los centros del cerebro anterior que participan en el control de la acción conductual.

USO DE LA SEÑAL DE ERROR DE PREDICCIÓN DE PREMIO DE DOPAMINA

Las neuronas de dopamina parecen reportar eventos de apetito de acuerdo con un error de predicción (Ecs. 1 y 2 ). Las teorías de aprendizaje actuales y los modelos neuronales demuestran la importancia crucial de los errores de predicción para el aprendizaje.

Teorias de aprendizaje

MODELO RESCORLA-WAGNER.

Las teorías de aprendizaje conductual formalizan la adquisición de asociaciones entre estímulos arbitrarios y eventos motivadores primarios en los paradigmas de condicionamiento clásico. Los estímulos ganan fuerza asociativa en ensayos consecutivos al ser emparejados repetidamente con un evento motivador primario

ΔV=αβ(λ-V)

Ecuación 3where V es la fuerza asociativa actual del estímulo, λ es la fuerza asociativa máxima posiblemente sostenida por el evento motivador primario, α y β son constantes que reflejan la importancia de los estímulos condicionados y no condicionados, respectivamente (Dickinson 1980; Mackintosh 1975; Pearce y Hall 1980; Rescorla y Wagner 1972). El (λ-V) término indica el grado en que el evento motivador primario ocurre de manera impredecible y representa un error en la predicción de refuerzo. Determina la tasa de aprendizaje, ya que la fuerza asociativa aumenta cuando el término de error es positivo y el estímulo condicionado no predice completamente el refuerzo. Cuando V = λ, el estímulo condicionado predice completamente el reforzador, y V no va a aumentar más Por lo tanto, el aprendizaje ocurre solo cuando el estímulo condicionado no predice completamente el evento motivador primario. Esta interpretación es sugerida por el fenómeno del bloqueo, según el cual un estímulo no logra ganar fuerza asociativa cuando se presenta junto con otro estímulo que por sí solo predice el reforzador (Kamin 1969). El (λ-V) el término de error se convierte en negativo cuando un reforzador predicho no se produce, lo que lleva a una pérdida de fuerza asociativa del estímulo condicionado (extinción). Tenga en cuenta que estos modelos utilizan el término "refuerzo" en el sentido amplio de aumentar la frecuencia e intensidad de un comportamiento específico y no se refieren a ningún tipo particular de aprendizaje.

REGLA DEL DELTA.

El modelo de Rescorla-Wagner se relaciona con el principio general de aprendizaje impulsado por errores entre la salida deseada y la real, como el procedimiento de error cuadrático medio (Kalman 1960; Widrow y Sterns 1985). Este principio se ha aplicado a los modelos de redes neuronales en la regla delta, según la cual los pesos sinápticos (ω) se ajustan mediante

Δω=η(t-a)x

Ecuación 4where t Se desea (destino) la salida de la red, a es la salida real, y η y x son la velocidad de aprendizaje y la activación de entrada, respectivamente (Rumelhart et al. 1986; Widrow y Hoff 1960). La salida deseada (t) es análogo al resultado (λ), la salida real (a) es análogo a la predicción modificada durante el aprendizaje (V), y el término de error delta (δ = t - a) es equivalente al término de error de refuerzo (λ-V) de la regla de Rescorla-Wagner (Ec. 3) (Sutton y Barto 1981).

La dependencia general de la imprevisibilidad del resultado se relaciona intuitivamente con la esencia misma del aprendizaje. Si el aprendizaje implica la adquisición o el cambio de las predicciones del resultado, no habrá cambios en las predicciones y, por lo tanto, no se producirá ningún aprendizaje cuando el resultado esté perfectamente predicho. Esto restringe el aprendizaje a estímulos y reacciones de comportamiento que conducen a resultados sorprendentes o alterados, y los estímulos redundantes que preceden a los resultados ya predichos por otros eventos no se aprenden. Además de su papel en el aprendizaje, los reforzadores tienen una segunda función distintivamente diferente. Cuando se completa el aprendizaje, los reforzadores predichos son cruciales para mantener el comportamiento aprendido y prevenir la extinción.

Muchas formas de aprendizaje pueden implicar la reducción de errores de predicción. En un sentido general, estos sistemas procesan un evento externo, generan predicciones de este evento, calculan el error entre el evento y su predicción, y modifican el rendimiento y la predicción de acuerdo con el error de predicción. Es posible que esto no se limite a los sistemas de aprendizaje que se ocupan de reforzadores biológicos, sino a una variedad mucho mayor de operaciones neuronales, como el reconocimiento visual en la corteza cerebral (Rao y Ballard 1997).

Algoritmos de refuerzo

REFUERZO INCONDICIONAL.

Los modelos de redes neuronales se pueden entrenar con señales de refuerzo directas que emiten una señal independiente de la predicción cuando una reacción de comportamiento se ejecuta correctamente pero no hay señal con una reacción errónea. El aprendizaje en estos modelos de aprendizaje en gran parte instrumental consiste en cambiar los pesos sinápticos (ω) de las neuronas modelo de acuerdo con

Δω=ɛrxy

Ecuación 5where ɛ es la tasa de aprendizaje, r es refuerzo, y x y y Las activaciones de las neuronas pre y postsinápticas, respectivamente, aseguran que solo se modifiquen las sinapsis que participan en el comportamiento reforzado. Un ejemplo popular es el modelo de penalización de recompensa asociativa (Barto y Anandan 1985). Estos modelos adquieren respuestas esqueléticas u oculomotoras, aprenden secuencias y realizan la prueba de clasificación de tarjetas de Wisconsin (Arbib y Dominey 1995; Dehaene y Changeux 1991; Dominey et al. 1995; Fagg y Arbib 1992). Las unidades de procesamiento en estos modelos adquieren propiedades similares a las neuronas en el córtex de asociación parietal (Mazzoni et al. 1991).

Sin embargo, la persistencia de la señal de enseñanza después del aprendizaje requiere algoritmos adicionales para prevenir las fuerzas sinápticas de huida (Montague y Sejnowski 1994) y para evitar la adquisición de estímulos redundantes presentados junto con estímulos que predicen el reforzador. El comportamiento previamente aprendido persevera cuando las contingencias cambian, ya que el refuerzo omitido no induce una señal negativa. La velocidad de aprendizaje se puede aumentar agregando información externa de un maestro (Ballard 1997) e incorporando información sobre el desempeño pasado (McCallum 1995).

APRENDIZAJE DE LA DIFERENCIA TEMPORAL.

En una clase particularmente eficiente de algoritmos de refuerzo (Sutton 1988; Sutton y Barto 1981), los pesos sinápticos se modifican de acuerdo con el error en la predicción de refuerzo calculada en pasos de tiempo consecutivos (t) en cada prueba

rˆ(t)=r(t)+P(t)-P(t-l)

Ecuación 6where r es refuerzo y P Es la predicción del refuerzo. P (t) generalmente se multiplica por un factor de descuento γ con 0 ≤ γ <1 para dar cuenta de la influencia decreciente de recompensas cada vez más remotas. Por razones de simplicidad, γ se establece en 1 aquí. En el caso de un solo estímulo que predice un solo reforzador, la predicción P(t - 1) existe antes de la hora. t de refuerzo pero termina en el momento del refuerzo [P (t) = 0]. Esto conduce a una señal de refuerzo efectiva en el momento (T) de refuerzo

rˆ (t)=r(t)-P(t-l)

Ecuación 6aEl (t) el término indica la diferencia entre el refuerzo real y el previsto. Durante el aprendizaje, el refuerzo se predice de forma incompleta, el término de error es positivo cuando se produce el refuerzo y aumentan los pesos sinápticos. Después de aprender, el refuerzo es completamente predicho por un estímulo precedente [P(t - 1) = r(t)], el término de error es nulo en el comportamiento correcto y los pesos sinápticos permanecen sin cambios. Cuando se omite el refuerzo debido a un rendimiento inadecuado o un cambio en las contingencias, el error es negativo y se reducen las ponderaciones sinápticas. los (t) término es análogo al (λ-V) término de error del modelo de Rescorla-Wagner (Ec. 4 ). Sin embargo, se trata de pasos de tiempo individuales (t) dentro de cada prueba en lugar de predicciones que evolucionan sobre pruebas consecutivas. Estos modelos temporales de refuerzo aprovechan el hecho de que las predicciones adquiridas incluyen el tiempo exacto de refuerzo (Dickinson et al. 1976; Gallistel 1990; Smith 1968).

Los algoritmos de diferencia temporal (TD) también emplean predicciones adquiridas para cambiar los pesos sinápticos. En el caso de un estímulo condicionado e imprevisible que predice un reforzador único, la predicción P (t) comienza a la hora (t) no hay predicción precedente [P(t - 1) = 0], y el refuerzo aún no ha ocurrido [r(t) = 0]. De acuerdo a Ec. 6, el modelo emite una señal de refuerzo efectiva puramente predictiva en el momento (t) de la predicción

rˆ=P(t)

Ecuación 6b En el caso de estímulos predictivos múltiples y consecutivos, nuevamente con refuerzos ausentes en el momento de las predicciones, la señal de refuerzo efectiva en el momento (T) La predicción refleja la diferencia entre la predicción actual. P (t) y la predicción anterior P(t - 1)

rˆ=P(t)-P(t-l)

Ecuación 6cEsto constituye un término de error de refuerzo de orden superior. Al igual que los reforzadores predichos, todos los estímulos predictivos que se pronostican completamente se anulan [P(t - 1) = P(t)], Resultando en = 0 en los momentos (T) de estos estímulos. Solo el estímulo predictivo más antiguo contribuye a la señal de refuerzo efectivo, ya que este estímulo P (t) No es predicho por otro estímulo [P(t - 1) = 0]. Esto resulta en el mismo = P (t) en el momento (T) de la primera predicción como en el caso de una sola predicción (Ec. 6b).

Higo. 9. 

Arquitecturas básicas de los modelos de redes neuronales que implementan algoritmos de diferencia temporal en comparación con la conectividad de los ganglios basales. A: en la implementación original la señal de enseñanza efectiva yȳ Se calcula en el modelo de neurona. A y enviado a terminales presinápticos de entradas. x a la neurona B, influyendo así xB Procesando y cambiando pesos sinápticos en el xB sinapsis Neurona B influye en la salida de comportamiento a través de axón y y al mismo tiempo contribuye a las propiedades adaptativas de las neuronas. A, Es decir, su respuesta a los estímulos que predicen los refuerzos Implementaciones más recientes de esta arquitectura simple utilizan neuronas. A en lugar de neurona B para emitir una salida O del modelo (Montague et al. 1996; Schultz et al. 1997). Reimpreso de Sutton y Barto (1981) con permiso de la Asociación Americana de Psicología. B: reciente implementación separa el componente docente A, llamado el crítico (A la derecha), a partir de un componente de salida compuesto por varias unidades de procesamiento B, llamado el actor (izquierda). La señal de refuerzo efectiva. (t) se calcula restando la diferencia temporal en la predicción del reforzador ponderado γP(t) - P(t - 1) del refuerzo primario r(t) recibido del entorno (γ es el factor de descuento que reduce el valor de refuerzos más distantes). La predicción del reforzador se calcula en una unidad de predicción separada C, que forma parte de la crítica y forma un circuito cerrado con el elemento de enseñanza. A, mientras que el refuerzo primario entra en la crítica a través de una entrada separada rt. La señal de refuerzo efectiva influye en los pesos sinápticos en los axones entrantes en el actor, que media la salida y en la unidad de predicción adaptativa de la crítica. Reimpreso de Barto (1995) con permiso de MIT Press. C: la conectividad básica de los ganglios basales revela sorprendentes similitudes con la arquitectura actor-crítica. La proyección de dopamina emite la señal de refuerzo al estriado y es comparable con la unidad A en partes A y B, el estriado límbico (o parche de striosoma) toma la posición de la unidad de predicción C en la crítica, y el estriatum sensoriomotor (o matriz) se asemeja a las unidades de actor B. En el modelo original (UNA), La única desviación mayor de la anatomía de los ganglios basales establecida consiste en la influencia de las neuronas. A dirigidas a terminales presinápticas, mientras que las sinapsis de dopamina se localizan en dendritas postsinápticas de neuronas del estriado (Freund et al. 1984). Reimpreso de Smith y Bolam (1990) con permiso de Elsevier Press.

En conjunto, la señal de refuerzo efectiva (Ec. 6 ) está compuesto por el refuerzo primario, que disminuye con las predicciones emergentes (Ec. 6a) y es reemplazado gradualmente por las predicciones adquiridas (Ecs. 6b y 6c). Con estímulos predictivos consecutivos, la señal de refuerzo efectivo se mueve hacia atrás en el tiempo desde el refuerzo primario hasta el estímulo de predicción de refuerzo más antiguo. La transferencia retrógrada da como resultado una asignación más específica de crédito a las sinapsis involucradas, ya que las predicciones se producen más cercanas en el tiempo a los estímulos y las reacciones conductuales a condicionar, en comparación con el refuerzo al final del ensayo (Sutton y Barto 1981).

Las implementaciones de los algoritmos de aprendizaje de refuerzo emplean el error de predicción de dos maneras, para cambiar los pesos sinápticos de la salida de comportamiento y para adquirir las predicciones mismas para calcular de forma continua el error de predicción (la Fig. 9 A) (McLaren 1989; Sutton y Barto 1981). Estas dos funciones se separan en implementaciones recientes, en las que el error de predicción se calcula en el componente crítico adaptativo y cambia los pesos sinápticos en el componente de actor que media la salida del comportamiento (Fig. 9 B) (Barto 1995). Un error positivo aumenta la predicción de refuerzo de la crítica, mientras que un error negativo de refuerzo omitido reduce la predicción. Esto hace que la señal de refuerzo efectiva sea altamente adaptable.

Implementaciones neurobiológicas del aprendizaje de la diferencia temporal.

COMPARACIÓN DE LA RESPUESTA DE LA DOPAMINA CON LOS MODELOS DE REFUERZO.

La respuesta de la dopamina codifica un error en la predicción de la recompensa (Ec. 1 ) se asemeja mucho al término de error efectivo de las reglas de aprendizaje animal (λ-V; Ec. 4 ) y la señal de refuerzo efectiva de los algoritmos TD en el momento (t) de refuerzo [r(t) - P(t - 1); Ec. 6a], como se señaló antes (Montague et al. 1996). Del mismo modo, el error de predicción del evento de apetito de dopamina (Ec. 2 ) se parece al error de refuerzo TD de orden superior [P(t) - P(t - 1); Ec. 6c]. La naturaleza de las proyecciones generalizadas y divergentes de las neuronas de dopamina a probablemente todas las neuronas en el estriado y muchas neuronas en la corteza frontal es compatible con la noción de una señal de refuerzo global TD, emitida por la crítica por influir en todas las neuronas modelo del actor. (compare la Fig. 7 con la fig. 9 B). La arquitectura crítico-actor es particularmente atractiva para la neurobiología debido a sus módulos de enseñanza y rendimiento separados. En particular, se parece mucho a la conectividad de los ganglios basales, incluida la reciprocidad de las proyecciones estriatonigrales (Fig. 9 C), como lo señaló primero Houk et al. (1995). El crítico simula las neuronas de dopamina, la predicción de la recompensa entra desde proyecciones estriatonigrales estriosomales, y el actor se parece a las neuronas de matriz estriatal con plasticidad dependiente de dopamina. Curiosamente, tanto la respuesta a la dopamina como los términos de error teóricos dependen de los signos. Difieren de los términos de error con valores absolutos que no discriminan entre adquisición y extinción y deberían tener efectos predominantemente atencionales.

APLICACIONES PARA PROBLEMAS NEUROBIOLOGICOS.

Aunque se desarrollaron originalmente sobre la base del modelo de condicionamiento clásico de Rescorla-Wagner, los modelos que utilizan algoritmos de TD aprenden una amplia variedad de tareas de comportamiento a través de formas de condicionamiento básicamente instrumentales. Estas tareas abarcan desde el equilibrio de un palo en una rueda de carro (Barto et al. 1983) a jugar backgammon de clase mundial (Tesauro 1994). Los robots que utilizan algoritmos de TD aprenden a moverse sobre el espacio bidimensional y evitar obstáculos, alcanzar y agarrar (Fagg 1993) o inserte una clavija en un agujero (Gullapalli et al. 1994). Uso de la señal de refuerzo TD para influir directamente y seleccionar el comportamiento (Fig. 9 A), Los modelos TD replican el comportamiento de forrajeo de las abejas (Montague et al. 1995) y simular la toma de decisiones humanas (Montague et al. 1996). Los modelos TD con una arquitectura explícita de actor crítico constituyen modelos muy poderosos que aprenden de manera eficiente los movimientos oculares (Friston et al. 1994; Montague et al. 1993), movimientos secuenciales (fig. 10), y orientando reacciones (Contreras-Vidal y Schultz 1996). Un modelo reciente agregó señales de novedad activadora-deprimente para mejorar la señal de enseñanza, utilizó estímulos y rastros de acción en el crítico y el actor, y empleó reglas de ganador para llevar la señal de enseñanza y para seleccionar las neuronas de actor con la activación más grande. Esto reproduce con gran detalle tanto las respuestas de las neuronas de dopamina como el comportamiento de aprendizaje de los animales en las tareas de respuesta tardía (Suri y Schultz 1996). Es particularmente interesante ver que las señales de enseñanza que utilizan errores de predicción dan como resultado un aprendizaje más rápido y más completo en comparación con las señales de refuerzo incondicionales (Fig. 10) (Friston et al. 1994).

Higo. 10. 

Ventaja de las señales de refuerzo predictivo para el aprendizaje. Un modelo de diferencia temporal con una arquitectura de actor crítico y un rastro de elegibilidad en el actor se entrenó en una tarea de elección secuencial paso 2 3 (recuadro superior izquierdo). El aprendizaje avanzó más rápido y alcanzó un mayor rendimiento cuando se usó una señal de refuerzo predictivo como señal de enseñanza (crítico de adaptación, parte superior) en comparación con el uso de una señal de refuerzo incondicional al final del juicio (fondo). Este efecto se hace cada vez más pronunciado con secuencias más largas. El rendimiento comparable con la señal de refuerzo incondicional requeriría un seguimiento de elegibilidad mucho más largo. Los datos se obtuvieron de las simulaciones de 10 (R. Suri y W. Schultz, observaciones no publicadas). Una mejora similar en el aprendizaje con refuerzo predictivo se encontró en un modelo de comportamiento oculomotor (Friston et al. 1994).

Posibles mecanismos de aprendizaje utilizando la señal de dopamina.

La sección anterior ha demostrado que la señal de error de predicción formal emitida por la respuesta de dopamina puede constituir una señal de enseñanza particularmente adecuada para el aprendizaje modelo. Las siguientes secciones describen cómo la respuesta biológica a la dopamina podría usarse potencialmente para el aprendizaje de las estructuras de los ganglios basales y sugieren hipótesis comprobables.

PLASTICIDAD POSTSINAPTICA MEDIADA POR LA SEÑAL DE PREDICCION DE PREMIOS.

El aprendizaje procedería en dos pasos. El primer paso consiste en la adquisición de una respuesta que predice la recompensa de dopamina. En ensayos posteriores, la señal predictiva de dopamina fortalecería específicamente los pesos sinápticos (ω) de las sinapsis corticostriatal de tipo Hebbian que están activas en el momento del estímulo que predice la recompensa, mientras que las sinapsis corticostriatal inactivas no se modifican. Esto resulta en la regla de aprendizaje de tres factores

Δω=ɛ rˆ i o

Ecuación 8where es la señal de refuerzo de dopamina, i es la actividad de entrada, o es la actividad de salida, y ɛ es la tasa de aprendizaje.

En un modelo simplificado, cuatro entradas corticales (i1 – i4) contactan las espinas dendríticas de tres neuronas estriadas espinosas de tamaño mediano (o1 – o3; Fig. 11). Las entradas corticales convergen en las neuronas del estriado, cada entrada en contacto con una espina diferente. Las mismas espinas se ponen en contacto de forma no selectiva con una entrada de dopamina común R. La activación de la entrada de dopamina R indica que se produjo un estímulo de predicción de recompensa no predecible en el entorno, sin proporcionar más detalles (señal de bondad). Supongamos que la entrada cortical i2 se activa simultáneamente con las neuronas de dopamina y codifica uno de varios parámetros específicos del mismo estímulo que predice la recompensa, como su modalidad sensorial, lado del cuerpo, color, textura y posición, o un parámetro específico de un movimiento Desencadenado por el estímulo. Un conjunto de parámetros de este evento se codificaría mediante un conjunto de entradas corticales i2. Las entradas corticales i1, i3 e i4 no relacionadas con los estímulos actuales y los movimientos están inactivos. La respuesta de la dopamina conduce a una liberación no selectiva de dopamina en todas las varices, pero fortalecería selectivamente solo las sinapsis corticostriatal activas i2 – o1 e i2 – o2, siempre que las entradas corticales sean lo suficientemente fuertes para activar las neuronas estriadas o1 y o2.

Higo. 11. 

Influencias diferenciales de una señal global de refuerzo de dopamina en la actividad corticostriatal selectiva. Las espinas dendríticas de las neuronas del estriado espinoso de tamaño mediano 3 o1, o2 y o3 se contactan mediante las entradas corticales de 4 i1, i2, i3 y i4, y por varices axónicas de las personas de la misma categoría. ). Cada neurona estriatal recibe inputs10,000 cortical y 1,000 dopamina. En espinas dendríticas simples, diferentes entradas corticales convergen con la entrada de dopamina. En la versión 1 del modelo, la señal de dopamina mejora simultáneamente la transmisión corticostriatal activa en relación con la transmisión no activa. Por ejemplo, la entrada de dopamina R está activa al mismo tiempo que la entrada cortical i2, mientras que i1, i3, i4 están inactivos. Esto conduce a una modificación de la transmisión i2 → o1 e i2 → o2, pero deja i1 → o1, i3 → o2, i3 → o3, y i4 → o3 sin modificaciones. En una versión del modelo que emplea plasticidad, los pesos sinápticos de las sinapsis corticostriatales son modificados a largo plazo por la señal de dopamina de acuerdo con la misma regla. Esto puede ocurrir cuando las respuestas de la dopamina a un estímulo condicionado actúan sobre las sinapsis corticostriatales que también son activadas por este estímulo. En otra versión que emplea plasticidad, las respuestas de la dopamina a una recompensa primaria pueden actuar hacia atrás en el tiempo en las sinapsis corticostriatales que antes estaban activas. Estas sinapsis serían elegibles para ser modificadas por una traza neuronal postsináptica hipotética dejada de esa actividad. Al comparar la estructura de los ganglios basales con el modelo reciente de TD de la Fig. 9 B, La entrada de dopamina R replica la crítica con una neurona. A, el estriado con neuronas o1 – o3 replica al actor con neuronas B, entradas corticales i1 – i4 replica la entrada del actor, y la proyección divergente de las neuronas de dopamina R en múltiples espinas de múltiples neuronas del estriado o1 – o3 replica la influencia global de la crítica sobre el actor. Una comparación similar fue hecha por Houk et al. (1995). Este dibujo está basado en datos anatómicos por Freund et al. (1984), Smith y Bolam (1990), Flaherty y Graybiel (1993)y Smith et al. (1994).

Este mecanismo de aprendizaje emplea la respuesta de dopamina adquirida en el momento del estímulo que predice la recompensa como una señal de enseñanza para inducir cambios sinápticos de larga duración (Fig. 12 A). El aprendizaje del estímulo predictivo o del movimiento desencadenado se basa en la adquisición demostrada de la respuesta de la dopamina al estímulo que predice la recompensa, junto con la plasticidad dependiente de la dopamina en el estriado. Alternativamente, pueden ocurrir cambios en la plasticidad en estructuras corticales o subcorticales aguas abajo del estriado después de un aumento a corto plazo mediado por la dopamina de la transmisión sináptica en el estriado. Los efectos retroactivos de la recompensa sobre los estímulos y movimientos que preceden a la recompensa están mediados por la transferencia de la respuesta al estímulo más antiguo que predice la recompensa. La respuesta de la dopamina a la recompensa primaria predicha u omitida no se usa para los cambios de plasticidad en el cuerpo estriado, ya que no ocurre simultáneamente con los eventos a condicionar, aunque podría estar involucrada en el cálculo de la respuesta de la dopamina al estímulo que predice la recompensa en analogía La arquitectura y el mecanismo de los modelos TD.

Higo. 12. 

Influencias de la señal de refuerzo de dopamina en los posibles mecanismos de aprendizaje en el estriado. A: la respuesta de recompensa de dopamina predictiva a un estímulo condicionado (CS) tiene un efecto de aumento directo o de plasticidad en la neurotransmisión del estriado relacionada con ese estímulo. B: la respuesta de la dopamina a la recompensa primaria tiene un efecto de plasticidad retrógrada en la neurotransmisión del estriado relacionada con el estímulo condicionado anterior. Este mecanismo está mediado por un rastro de elegibilidad que dura más que la actividad estriatal. Las flechas sólidas indican los efectos directos de la señal de dopamina en la neurotransmisión del estriado (A) o el rastro de elegibilidad (SEGUNDO), pequeña flecha en B indica un efecto indirecto sobre la neurotransmisión del cuerpo estriado a través del registro de elegibilidad.

PLASTICIDAD POSTSINAPTICA JUNTO CON RASTREO DE ELEGIBILIDAD SINAPTICA.

El aprendizaje puede ocurrir en un solo paso si la señal de recompensa de dopamina tiene una acción retroactiva en las sinapsis del estriado. Esto requiere trazos hipotéticos de actividad sináptica que duran hasta que se produce el refuerzo y hace que esas sinapsis sean elegibles para ser modificadas por una señal de enseñanza que estaba activa antes del refuerzo (Casco 1943; Klopf 1982; Sutton y Barto 19811). Los pesos sinápticos (ω) se cambian de acuerdo con

Δω=ɛ rˆ h (i,o)

Ecuación 9where es la señal de refuerzo de dopamina, h (i, o) es la traza de elegibilidad de la actividad de entrada y salida conjunta, y ɛ es la tasa de aprendizaje. Los posibles sustratos fisiológicos de los rastros de elegibilidad consisten en cambios prolongados en la concentración de calcio (Wickens y Kötter 1995), formación de proteína kinasa II dependiente de calmodulina (Houk et al. 1995), o actividad neuronal sostenida que se encuentra con frecuencia en el estriado (Schultz et al. 1995a) y la corteza.

La plasticidad dependiente de la dopamina que involucra trazas de elegibilidad constituye un elegante mecanismo para aprender secuencias hacia atrás en el tiempoSutton y Barto 1981). Para comenzar, la respuesta de la dopamina a la recompensa primaria no predicha media el aprendizaje conductual del evento inmediatamente anterior al modificar la eficacia sináptica corticostriatal (Fig. 11). Al mismo tiempo, la respuesta de dopamina se transfiere al evento de predicción de recompensa. Una depresión en el momento de la recompensa omitida impide el aprendizaje de reacciones erróneas. En el siguiente paso, la respuesta de la dopamina al evento imprevisto de predicción de recompensa media el aprendizaje del evento predictivo inmediatamente anterior, y la respuesta de la dopamina también se transfiere nuevamente a ese evento. Como esto ocurre repetidamente, la respuesta de la dopamina se mueve hacia atrás en el tiempo hasta que no haya más eventos que preceden, permitiendo que en cada paso el evento anterior adquiera la predicción de recompensa. Este mecanismo sería ideal para formar secuencias de comportamiento que conduzcan a una recompensa final.

Este mecanismo de aprendizaje emplea completamente el error de dopamina en la predicción de eventos apetitivos como señal de enseñanza retroactiva que induce cambios sinápticos de larga duración (Fig. 12 B). Utiliza la plasticidad dependiente de la dopamina junto con rastros de la capacidad estriatal cuya aptitud biológica para el aprendizaje aún está por investigar. Esto resulta en un aprendizaje directo por resultado, esencialmente compatible con la influencia de la señal de enseñanza en el actor de los modelos de TD. El movimiento retrógrado demostrado de la respuesta de la dopamina se utiliza para aprender estímulos anteriores y anteriores.

UN MECANISMO ALTERNATIVO: INFLUENCIA FACILITATORIA DE LA SEÑAL DE DOPAMINA PREDICTIVA.

Ambos mecanismos descritos anteriormente emplean la respuesta de dopamina como una señal de enseñanza para modificar la neurotransmisión en el cuerpo estriado. Como la contribución de la plasticidad estriatal dependiente de dopamina al aprendizaje no se comprende completamente, otro mecanismo podría basarse en la plasticidad demostrada de la respuesta de dopamina sin requerir plasticidad estriatal. En un primer paso, las neuronas de la dopamina adquieren respuestas a los estímulos que predicen la recompensa. En un paso posterior, las respuestas predictivas podrían usarse para aumentar el impacto de las entradas corticales que ocurren simultáneamente en las mismas espinas dendríticas de las neuronas del cuerpo estriado. La actividad postsináptica cambiaría según

Δactividad=δrˆ i

Ecuación 10where es la señal de refuerzo de dopamina, i es la actividad de entrada, y δ es una constante de amplificación. En lugar de constituir una señal de enseñanza, la respuesta predictiva de dopamina proporciona una señal de mejora o motivación para la neurotransmisión del estriado en el momento del estímulo que predice la recompensa. Con estímulos que compiten entre sí, las entradas neuronales que ocurren simultáneamente con la señal de dopamina que predice la recompensa se procesarán de manera preferencial. Las reacciones de comportamiento se beneficiarían de la información anticipada y serían más frecuentes, más rápidas y más precisas. La influencia facilitadora de la información anticipada se demuestra en experimentos de comportamiento al vincular un estímulo condicionado con presionar una palanca (Lovibond 1983).

Un posible mecanismo puede emplear el efecto de enfoque de la dopamina. En el modelo simplificado de la fig. 11La dopamina globalmente reduce todas las influencias corticales. Esto permite que solo la entrada más fuerte pase a las neuronas del estriado, mientras que las entradas más débiles se vuelven ineficaces. Esto requiere un mecanismo no lineal de mejora de contraste, como el umbral para generar potenciales de acción. Una mejora comparable de las entradas más fuertes podría ocurrir en las neuronas que serían predominantemente excitadas por la dopamina.

Este mecanismo emplea la respuesta de dopamina adquirida, que predice la recompensa, como una señal de sesgo o de selección para influir en el procesamiento postsináptico (Fig. 12 A). El rendimiento mejorado se basa totalmente en la plasticidad demostrada de las respuestas de dopamina y no requiere plasticidad dependiente de dopamina en las neuronas del estriado. Las respuestas a la recompensa imprevisible u omitida ocurren demasiado tarde para influir en el procesamiento del estriado, pero pueden ayudar a calcular la respuesta predictiva de dopamina en analogía con los modelos de TD.

Estimulación eléctrica de las neuronas de dopamina como estímulo no condicionado.

La estimulación eléctrica de regiones cerebrales circunscritas sirve de manera confiable como refuerzo para adquirir y mantener el comportamiento de aproximación (Olds y Milner 1954). Algunos sitios de autoestimulación muy efectivos coinciden con los cuerpos de las células de dopamina y los haces de axones en el cerebro medio (Corbett y Wise 1980), núcleo accumbens (Phillips et al. 1975), cuerpo estriado (Phillips et al. 1976), y la corteza prefrontal (Mora y Myers 1977; Phillips et al. 1979), pero también se encuentran en estructuras no relacionadas con los sistemas de dopamina (Blanco y Milner 1992). La autoestimulación eléctrica implica la activación de las neuronas de dopamina (Fibiger y Phillips 1986; Wise and Rompré 1989) y se reduce por las lesiones inducidas por 6-hidroxidopamina de los axones de dopamina (Fibiger et al. 1987; Phillips y Fibiger 1978), inhibición de la síntesis de dopamina (Edmonds y Gallistel 1977), inactivación por despolarización de las neuronas de dopamina (Rompré y Wise 1989), y los antagonistas de los receptores de dopamina administrados sistémicamente (Furiezos y Wise 1976) o en el núcleo accumbens (Mogenson et al. 1979). La autoestimulación se facilita con aumentos inducidos por la cocaína o la anfetamina en la dopamina extracelular (Colle y Wise 1980; Stein 1964; Wauquier 1976). La autoestimulación aumenta directamente la utilización de dopamina en el núcleo accumbens, el estriado y la corteza frontal (Fibiger et al. 1987; Mora y Myers 1977).

Resulta intrigante imaginar que los impulsos y la liberación de dopamina evocados eléctricamente pueden servir como estímulos no condicionados en el aprendizaje asociativo, similar a la estimulación de las neuronas de la octopamina en las abejas que aprenden el reflejo de probóscide (Martillo 1993). Sin embargo, la autoestimulación relacionada con la dopamina difiere en al menos tres aspectos importantes de la activación natural de las neuronas de la dopamina. En lugar de solo activar las neuronas de dopamina, las recompensas naturales generalmente activan varios sistemas neuronales en paralelo y permiten la codificación distribuida de diferentes componentes de recompensa (ver texto adicional). Segundo, la estimulación eléctrica se aplica como refuerzo incondicional sin reflejar un error en la predicción de la recompensa. Tercero, la estimulación eléctrica solo se entrega como una recompensa después de una reacción de comportamiento, en lugar de en el momento de un estímulo que predice la recompensa. Sería interesante aplicar la autoestimulación eléctrica exactamente de la misma manera que las neuronas de dopamina emiten su señal.

Déficits de aprendizaje con neurotransmisión de dopamina alterada

Muchos estudios investigaron el comportamiento de animales con neurotransmisión de dopamina alterada después de la aplicación local o sistémica de antagonistas de los receptores de dopamina o la destrucción de los axones de dopamina en el cerebro medio ventral, el núcleo accumbens o el estriado. Además de observar los déficits locomotores y cognitivos que recuerdan el parkinsonismo, estos estudios revelaron deficiencias en el procesamiento de la información de recompensa. Los primeros estudios abogaron por déficits en la percepción subjetiva y hedónica de las recompensas (Sabio xnumx; Wise et al. 1978). La experimentación adicional reveló un uso deficiente de las recompensas primarias y estímulos del apetito condicionados para el enfoque y el comportamiento consumatorio (Beninger et al. 1987; Ettenberg 1989; Miller et al. 1990; Salamone 1987; Ungerstedt 1971; Sabio y Colle 1984; Sabio y Rompre 1989). Muchos estudios describieron deficiencias en los procesos motivacionales y de atención que subyacen al aprendizaje apetitivo (Beninger 1983, 1989; Beninger y Hahn 1983; Fibiger y Phillips 1986; LeMoal y Simon 1991; Robbins y Everitt 1992, 1996; Blanco y Milner 1992; Sabio xnumx). La mayoría de los déficits de aprendizaje se asocian con una alteración de la neurotransmisión de dopamina en el núcleo accumbens, mientras que las deficiencias del estriado dorsal conducen a déficits sensoriomotores (Amalric y Koob 1987; Robbins y Everitt 1992; Blanco 1989). Sin embargo, el aprendizaje de las tareas instrumentales en general y de las propiedades de estímulo discriminativas en particular parecen estar a menudo a salvo, y no se resuelve completamente si algunos de los déficits de aprendizaje aparentes pueden ser confundidos por déficits de rendimiento motor (Salamone 1992).

La degeneración de las neuronas de dopamina en la enfermedad de Parkinson también conduce a una serie de déficits de aprendizaje declarativos y procedimentales, incluido el aprendizaje asociativo (Linden et al. 1990; Sprengelmeyer et al. 1995). Los déficits están presentes en el aprendizaje de prueba y error con refuerzo inmediato (Vriezen y Moscovitch 1990) y al asociar estímulos explícitos con diferentes resultados (Knowlton et al. 1996), incluso en las primeras etapas de la enfermedad de Parkinson sin atrofia cortical (Canavan et al. 1989). Los pacientes parkinsonianos también muestran una percepción del tiempo deterioradaPastor et al. 1992). Todos estos déficits se producen en presencia del tratamiento con L-Dopa, que restaura los niveles tónicos de dopamina del estriado sin restablecer las señales fásicas de dopamina.

Estos estudios sugieren que la neurotransmisión de la dopamina juega un papel importante en el procesamiento de las recompensas por el comportamiento de aproximación y en las formas de aprendizaje que implican asociaciones entre estímulos y recompensas, mientras que podría cuestionarse la participación en formas más instrumentales de aprendizaje. No está claro si estos déficits reflejan una inactivación conductual más general debido a la reducción tónica de la estimulación del receptor de dopamina en lugar de la ausencia de una señal de recompensa de dopamina fásica. Para resolver esta pregunta, así como para aclarar más específicamente el papel de la dopamina en diferentes formas de aprendizaje, sería útil estudiar el aprendizaje en aquellas situaciones en las que realmente ocurre la respuesta fásica de dopamina a los estímulos apetitivos.

Formas de aprendizaje posiblemente mediadas por la señal de dopamina.

Las características de las respuestas de dopamina y la influencia potencial de la dopamina en las neuronas del estriado pueden ayudar a delinear algunas de las formas de aprendizaje en las que podrían estar involucradas las neuronas de la dopamina. Las respuestas preferenciales a los eventos apetitivos en lugar de aversivos favorecerían una participación en el aprendizaje del comportamiento de aproximación y la mediación de efectos de refuerzo positivos, en lugar de la retirada y el castigo. Las respuestas a recompensas primarias fuera de las tareas y contextos de aprendizaje permitirían que las neuronas de dopamina desempeñen un papel en un espectro relativamente amplio de aprendizaje que involucra recompensas primarias, tanto en condicionamiento clásico como instrumental. Las respuestas a los estímulos de predicción de recompensa reflejan asociaciones de estímulo-recompensa y serían compatibles con una participación en la expectativa de recompensa subyacente en el aprendizaje de incentivos general (Bindra 1968). Por el contrario, las respuestas de dopamina no codifican explícitamente las recompensas como objetivos, ya que solo informan errores en la predicción de recompensas. También parecen ser insensibles a los estados motivacionales, por lo que desfavorecen un papel específico en el aprendizaje de incentivos dependientes del estado de actos dirigidos a objetivos (Dickinson y Balleine 1994). La falta de relaciones claras con los movimientos de brazos y ojos desfavorecería un papel en la mediación directa de las respuestas de comportamiento que siguen a los estímulos de incentivo. Sin embargo, las comparaciones entre descargas de neuronas individuales y el aprendizaje de organismos completos son intrínsecamente difíciles. A nivel sináptico, la dopamina liberada fásicamente alcanza muchas dendritas en probablemente todas las neuronas del estriado y, por lo tanto, podría ejercer un efecto de plasticidad en la gran variedad de componentes conductuales que afectan al estriado, lo que puede incluir el aprendizaje de los movimientos.

Las condiciones específicas en las que las señales de dopamina fásicas podrían desempeñar un papel en el aprendizaje están determinadas por los tipos de estímulos que inducen efectivamente una respuesta de dopamina. En el laboratorio de animales, las respuestas de dopamina requieren la aparición fásica de estímulos apetitosos, nuevos o particularmente salientes, que incluyen recompensas de nutrientes primarios y estímulos que predicen la recompensa, mientras que los estímulos aversivos no desempeñan un papel importante. Las respuestas a la dopamina pueden ocurrir en todas las situaciones de comportamiento controladas por resultados fásicos y explícitos, aunque los estímulos condicionados de orden superior y los refuerzos secundarios aún no se probaron. Las respuestas de dopamina fásicas probablemente no desempeñarán un papel en las formas de aprendizaje no mediadas por los resultados que ocurren de forma fásica, y la respuesta predictiva no podría contribuir al aprendizaje en situaciones en las que no se producen estímulos predictivos fásicos, como los cambios de contexto relativamente lentos. . Esto lleva a la interesante pregunta de si el ahorro de algunas formas de aprendizaje por lesiones de dopamina o neurolépticos podría reflejar simplemente la ausencia de respuestas de dopamina fásicas en primer lugar porque no se usaron los estímulos efectivos que las provocaron.

La participación de las señales de dopamina en el aprendizaje puede ilustrarse con un ejemplo teórico. Imagine las respuestas de dopamina durante la adquisición de una tarea de tiempo de reacción en serie cuando una reacción correcta de repente conduce a una recompensa de nutrientes. La respuesta de recompensa posteriormente se transfiere a estímulos de predicción de recompensa progresivamente anteriores. Los tiempos de reacción mejoran aún más con la práctica prolongada a medida que las posiciones espaciales de los objetivos se vuelven cada vez más predecibles. Aunque las neuronas de la dopamina continúan respondiendo a los estímulos que predicen la recompensa, la mejora conductual adicional podría deberse principalmente a la adquisición del procesamiento predictivo de posiciones espaciales por otros sistemas neuronales. Por lo tanto, las respuestas a la dopamina se producirían durante la parte inicial, incentivadora del aprendizaje, en la que los sujetos se acercan a los objetos y obtienen recompensas explícitas primarias y posiblemente condicionadas. Estarían menos involucrados en situaciones en las que el progreso del aprendizaje va más allá de la inducción del comportamiento de acercamiento. Esto no restringiría el papel de la dopamina a los pasos de aprendizaje iniciales, ya que muchas situaciones requieren aprender inicialmente de los ejemplos y solo más tarde involucrar el aprendizaje por resultados explícitos.

COOPERACIÓN ENTRE LAS SEÑALES DE PREMIOS

Error de predicción

La señal de error de predicción de las neuronas de dopamina sería un excelente indicador del valor apetitivo de los eventos ambientales en relación con la predicción, pero no discrimina entre los alimentos, los líquidos y los estímulos que predicen la recompensa y entre las modalidades visual, auditiva y somatosensorial. Esta señal puede constituir un mensaje de alerta de recompensa por el cual las neuronas postsinápticas están informadas sobre la sorprendente aparición u omisión de un evento gratificante o potencialmente gratificante sin indicar su identidad. Tiene todas las características formales de una poderosa señal de refuerzo para el aprendizaje. Sin embargo, la información sobre la naturaleza específica de las recompensas es crucial para determinar cuál de los objetos debe abordarse y de qué manera. Por ejemplo, un animal hambriento debe acercarse principalmente a los alimentos pero no a los líquidos. Para discriminar las recompensas relevantes de las irrelevantes, la señal de dopamina debe complementarse con información adicional. Recientes experimentos de diálisis in vivo mostraron una mayor liberación de dopamina inducida por alimentos en ratas hambrientas que en saciadas (Wilson et al. 1995). Esta dependencia del impulso de la liberación de dopamina puede no implicar respuestas impulsivas, ya que no hemos podido encontrar una clara dependencia del impulso con las respuestas de la dopamina al comparar entre períodos tempranos y tardíos de sesiones experimentales individuales durante las cuales los animales se saturaron de líquido (JL Contreras-Vidal y W. Schultz, datos no publicados).

Recompensas específicas

La información relacionada con las recompensas de líquidos y alimentos también se procesa en estructuras cerebrales distintas de las neuronas dopaminérgicas, como el estriado dorsal y ventral, el núcleo subtalámico, la amígdala, la corteza prefrontal dorsolateral, la corteza orbitofrontal y la corteza cingulada anterior. Sin embargo, estas estructuras no parecen emitir una señal de error de predicción de recompensa global similar a las neuronas de dopamina. En primates, estas estructuras procesan recompensas como 1) respuestas transitorias después de la entrega de la recompensa (Apicella et al. 1991a,b, 1997; Bowman et al. 1996; Hikosaka et al. 1989; Niki y Watanabe 1979; Nishijo et al. 1988; Tremblay y Schultz 1995; Watanabe 1989), 2) respuestas transitorias a las señales de predicción de recompensa (Aosaki et al. 1994; Apicella et al. 1991b; 1996; Hollerman et al. 1994; Nishijo et al. 1988; Thorpe et al. 1983; Tremblay y Schultz 1995; Williams et al. 1993), 3) activaciones sostenidas durante la expectativa de recompensas inmediatamente próximas (Apicella et al. 1992; Hikosaka et al. 1989; Matsumura et al. 1992; Schultz et al. 1992; Tremblay y Schultz 1995), o 4) modulaciones de las activaciones relacionadas con el comportamiento por recompensa predicha (Hollerman et al. 1994; Watanabe 1990, 1996). Muchas de estas neuronas se diferencian bien entre diferentes recompensas de alimentos y entre diferentes recompensas de líquidos. Por lo tanto, procesan la naturaleza específica del evento gratificante y pueden servir a la percepción de las recompensas. Algunas de las respuestas de recompensa dependen de la impredecibilidad de la recompensa y se reducen o están ausentes cuando la recompensa es predicha por un estímulo condicionado (Apicella et al. 1997; Matsumoto et al. 1995; L. Tremblay y W. Schultz, datos no publicados). Pueden procesar predicciones para recompensas específicas, aunque no está claro si señalan errores de predicción ya que sus respuestas a las recompensas omitidas son desconocidas.

Mantener el desempeño establecido.

Tres mecanismos neuronales parecen ser importantes para mantener el rendimiento del comportamiento establecido, a saber, la detección de recompensas omitidas, la detección de estímulos que predicen la recompensa y la detección de recompensas predichas. Las neuronas de la dopamina se deprimen cuando se omiten las recompensas previstas. Esta señal podría reducir la eficacia sináptica relacionada con respuestas de comportamiento erróneas y evitar su repetición. La respuesta de la dopamina a los estímulos que predicen la recompensa se mantiene durante el comportamiento establecido y, por lo tanto, continúa sirviendo como información avanzada. Aunque las neuronas de dopamina no detectan las recompensas totalmente predichas, son procesadas por los sistemas corticales y subcorticales no antaminérgicos mencionados anteriormente. Esto sería importante para evitar la extinción del comportamiento aprendido.

Tomados en conjunto, parece que el procesamiento de recompensas específicas por aprender y mantener el comportamiento de aproximación se beneficiaría enormemente de una cooperación entre las neuronas de dopamina que indica la ocurrencia imprevista u omisión de la recompensa y las neuronas en las otras estructuras simultáneamente, lo que indica la naturaleza específica de la recompensa.

COMPARACIONES CON OTROS SISTEMAS DE PROYECCIÓN

Neuronas de noradrenalina

Casi toda la población de neuronas de noradrenalina en locus coeruleus en ratas, gatos y monos muestra respuestas de activación-depresoras bifásicas bastante homogéneas a estímulos visuales, auditivos y somatosensoriales que provocan reacciones de orientación (Aston-Jones y Bloom 1981; Foote et al. 1980; Rasmussen et al. 1986). Particularmente efectivos son los eventos infrecuentes a los que los animales prestan atención, como los estímulos visuales en una tarea de discriminación extraña (Aston-Jones et al. 1994). Las neuronas de noradrenalina discriminan muy bien entre despertar o motivar y eventos neutrales. Adquieren rápidamente respuestas a nuevos estímulos objetivo durante la reversión y pierden respuestas a objetivos anteriores antes de que se complete la reversión de comportamiento (Aston-Jones et al. 1997). Se producen respuestas al líquido libre fuera de cualquier tarea y se transfieren a los estímulos objetivo que predicen la recompensa dentro de una tarea, así como a los estímulos aversivos primarios y condicionados (Aston-Jones et al. 1994; Foote et al. 1980; Rasmussen y Jacobs 1986; Sara y segal xnumx). Las respuestas son a menudo transitorias y parecen reflejar cambios en la ocurrencia o el significado del estímulo. Las activaciones pueden ocurrir solo por algunos ensayos con presentaciones repetidas de objetos de alimentos (Vankov et al. 1995) o con estímulos auditivos condicionados asociados con recompensa líquida, soplo de aire aversivo o descarga eléctrica en el pie (Rasmussen y Jacobs 1986; Sara y segal xnumx). Durante el condicionamiento, se producen respuestas a las primeras presentaciones de estímulos novedosos y reaparecen de forma transitoria cada vez que las contingencias de refuerzo cambian durante la adquisición, reversión y extinción (Sara y segal xnumx).

En conjunto, las respuestas de las neuronas de noradrenalina se asemejan a las respuestas de las neuronas de dopamina en varios aspectos, activadas por recompensas primarias, estímulos que predicen la recompensa y estímulos novedosos, y transfieren la respuesta de los eventos de apetito primarios a condicionales. Sin embargo, las neuronas de noradrenalina difieren de las neuronas de dopamina al responder a una variedad mucho mayor de estímulos estimulantes, al responder bien a los estímulos aversivos primarios y condicionados, al discriminar bien contra los estímulos neutros, al seguir rápidamente los cambios de comportamiento y al mostrar respuestas decrecientes con estímulos repetidos. presentación que puede requerir ensayos 100 para respuestas apetitivas sólidas (Aston-Jones et al. 1994). Las respuestas de noradrenalina están fuertemente relacionadas con las propiedades de estimulación o captación de atención de los estímulos que provocan reacciones de orientación, mientras que se centran mucho menos en las propiedades de estímulo apetitivas como la mayoría de las neuronas de dopamina. Probablemente son más motivados por los elementos de apetito que atraen la atención que por los motivadores.

Neuronas de serotonina

La actividad en los diferentes núcleos de rafe facilita la salida motora al establecer el tono muscular y la actividad motora estereotipada (Jacobs y Fornal 1993). Las neuronas rafe dorsales en gatos muestran respuestas fásicas, no titilantes a estímulos visuales y auditivos sin ningún significado conductual particular (Heym et al. 1982; LeMoal y Olds 1979). Estas respuestas se asemejan a las respuestas de las neuronas de dopamina a estímulos nuevos y particularmente destacados. Otras comparaciones requerirían una experimentación más detallada.

Núcleo basal de Meynert

Las neuronas del prosencéfalo basal de los primates se activan de forma fásica mediante una gran variedad de eventos conductuales que incluyen estímulos condicionados que predicen la recompensa y recompensas primarias. Muchas activaciones dependen de la memoria y de las asociaciones con refuerzo en las tareas de discriminación y respuesta tardía. Las activaciones reflejan la familiaridad de los estímulos (Wilson y Rollos 1990a), cobran más importancia con los estímulos y movimientos que ocurren más cerca del momento de la recompensa (Richardson y DeLong 1990), diferenciar bien entre estímulos visuales sobre la base de asociaciones apetitivas y aversivas (Wilson y Rollos 1990b), y cambiar en unos pocos intentos durante la reversión (Wilson y Rolls 1990c). Las neuronas también son activadas por estímulos aversivos, estímulos visuales y auditivos predichos y movimientos. Responden con frecuencia a recompensas totalmente previstas en tareas de comportamiento bien establecidas (Mitchell et al. 1987; Richardson y DeLong 1986, 1990), aunque las respuestas a recompensas imprevistas son más abundantes en algunos estudios (Richardson y DeLong 1990) pero no en otros (Wilson y Rollos 1990ac). En comparación con las neuronas de dopamina, son activadas por un espectro mucho mayor de estímulos y eventos, incluidos los eventos aversivos, y no muestran una respuesta de la población bastante homogénea a las recompensas no predichas y su transferencia a estímulos que predicen la recompensa.

Fibras de escalada cerebelosa

Probablemente se postuló que la primera señal de enseñanza impulsada por error en el cerebro implicaba la proyección de fibras trepadoras de la oliva inferior a las neuronas de Purkinje en la corteza cerebelosa (Marr 1969), y muchos estudios de aprendizaje cerebelar se basan en este concepto (Houk et al. 1996; Ito 1989; Kawato y Gomi 1992; Llinas y galés xnumx). La escalada de las entradas de fibra a las neuronas de Purkinje cambia transitoriamente su actividad cuando se modifican las cargas de movimientos o ganancias entre movimientos y retroalimentación visual y los monos se adaptan a la nueva situación (Gilbert y Thach 1977; Ojakangas y Ebner 1992). La mayoría de estos cambios consisten en un aumento de la actividad en lugar de las respuestas de activación versus depresión observadas con errores en direcciones opuestas en las neuronas de dopamina. Si la activación de la fibra trepadora sirviera como señal de enseñanza, la activación conjunta de la fibra trepadora y la fibra paralela debería conducir a cambios en la entrada de fibra paralela a las neuronas de Purkinje. Esto ocurre de hecho como una depresión a largo plazo de la entrada de fibra paralela, principalmente en preparaciones in vitro (Ito 1989). Sin embargo, los cambios de fibra paralelos comparables son más difíciles de encontrar en situaciones de aprendizaje conductual (Ojakangas y Ebner 1992), dejando abiertas las consecuencias de las posibles señales de enseñanza de la fibra trepadora en este momento.

Un segundo argumento para el papel de las fibras trepadoras en el aprendizaje implica el condicionamiento clásico aversivo. Una fracción de las fibras trepadoras se activa por soplos de aire aversivo a la córnea. Estas respuestas se pierden después del acondicionamiento del párpado de Pavlov con un estímulo auditivo (Sears y Steinmetz 1991), sugiriendo una relación con la imprevisibilidad de los eventos aversivos primarios. Después del acondicionamiento, las neuronas en el núcleo interpelo cerebeloso responden al estímulo condicionado (Berthier y Moore 1990; McCormick y Thompson 1984). Las lesiones de este núcleo o las inyecciones de la bicuculina antagonista de GABA en la oliva inferior previenen la pérdida de las respuestas del soplo de aire de la oliva inferior después del acondicionamiento, lo que sugiere que la inhibición monosináptica o polisináptica de Interpositus a la oliva inferior suprime las respuestas después del acondicionamiento (Thompson y Gluck 1991). Esto podría permitir que las neuronas de olivo inferiores se depriman en ausencia de estímulos aversivos predichos y, por lo tanto, informen un error negativo en la predicción de eventos aversivos similares a las neuronas de dopamina.

Por lo tanto, las fibras trepadoras pueden reportar errores en el rendimiento motor y errores en la predicción de eventos aversivos, aunque esto no siempre implica cambios bidireccionales como ocurre con las neuronas de dopamina. Las fibras trepadoras no parecen adquirir respuestas a estímulos aversivos condicionados, pero tales respuestas se encuentran en el núcleo interpositus. El cálculo de los errores de predicción aversiva puede implicar entradas inhibitorias descendentes a las neuronas de olivo inferiores, en analogía a las proyecciones del cuerpo estriado a las neuronas de dopamina. Por lo tanto, los circuitos cerebelosos procesan señales de error, aunque de manera diferente a las neuronas de dopamina y los modelos de TD, y podrían implementar reglas de aprendizaje de errores como la regla de Rescorla-Wagner (Thompson y Gluck 1991) o la regla de Widrow-Hoff formalmente equivalente (Kawato y Gomi 1992).

DOPAMINE REWARD SIGNAL VERSUS PARKINSONIAN DEFICITS

La alteración de la neurotransmisión de dopamina con la enfermedad de Parkinson, las lesiones experimentales o el tratamiento neuroléptico se asocia con muchos déficits conductuales en el movimiento (acinesia, temblor, rigidez), cognición (atención, bradifrenia, planificación, aprendizaje) y motivación (respuestas emocionales reducidas, depresión). El rango de déficits parece demasiado amplio para ser explicado simplemente por una señal de recompensa de dopamina que funciona mal. La mayoría de los déficits mejoran considerablemente con la terapia sistémica con precursores de dopamina o agonistas del receptor, aunque esto no puede restituir de manera simple la transmisión fásica de información por impulsos neuronales. Sin embargo, muchos déficits apetitivos no se restauran con esta terapia, como los déficits de discriminación inducidos farmacológicamente (Ahlenius xnumx) y déficits de aprendizaje parkinsonianos (Canavan et al. 1989; Knowlton et al. 1996; Linden et al. 1990; Sprengelmeyer et al. 1995; Vriezen y Moscovitch 1990).

A partir de estas consideraciones, parece que la neurotransmisión de la dopamina desempeña dos funciones separadas en el cerebro, el procesamiento fásico de la información de apetito y alerta y la activación tónica de una amplia gama de comportamientos sin codificación temporal. Las deficiencias en una función doble de dopamina similar pueden ser la base de la fisiopatología de la esquizofrenia (Gracia 1991). Es interesante observar que los cambios fásicos de la actividad de la dopamina pueden ocurrir en diferentes escalas de tiempo. Mientras que las respuestas de recompensa siguen un curso de tiempo en el orden de decenas y cientos de milisegundos, los estudios de liberación de dopamina con voltimetría y microdiálisis se refieren a escalas de tiempo de minutos y revelan un espectro mucho más amplio de funciones de dopamina, incluido el procesamiento de recompensas, alimentación, bebida, Castigos, estrés y comportamiento social (Abercrombie et al. 1989; Iglesia et al. 1987b; Doherty y Gratton 1992; Louilot et al. 1986; Young et al. 1992, 1993). Parece que la neurotransmisión de la dopamina sigue al menos tres escalas de tiempo con roles progresivamente más amplios en el comportamiento, desde la función rápida y bastante restringida de las recompensas de señalización y los estímulos de alerta a través de una función más lenta del procesamiento de un rango considerable de eventos motivadores positivos y negativos hasta la función tónica. de permitir una gran variedad de procesos motrices, cognitivos y motivacionales.

La función tónica de la dopamina se basa en concentraciones bajas y sostenidas de dopamina extracelular en el cuerpo estriado (5 – 10 nM) y otras áreas inervadas con dopamina que son suficientes para estimular los receptores de dopamina extrasinápticos, en su mayoría D2 en su estado de alta afinidad (9-74) nM; 8) (Richfield et al. 1989). Esta concentración está regulada localmente dentro de un rango estrecho por el desbordamiento sináptico y la liberación extraináptica de dopamina inducida por la actividad tónica del impulso espontáneo, el transporte de la recaptación, el metabolismo, la liberación mediada por autorreceptor y el control de la síntesis, y la influencia del glutamato presináptico en la liberación de dopamina (Chesselet 1984). La importancia de las concentraciones de dopamina en el ambiente se demuestra experimentalmente por los efectos perjudiciales de los niveles no fisiológicos de la estimulación del receptor. La reducción de la estimulación del receptor de dopamina después de lesiones de aferentes de dopamina o la administración local de antagonistas de dopamina en la corteza prefrontal conducen a un desempeño deficiente de las tareas de respuesta espacial retardada en ratas y monos (Brozoski et al. 1979; Sawaguchi y Goldman-Rakic ​​1991; Simon et al. 1980). Curiosamente, el aumento de la rotación de dopamina prefrontal induce alteraciones similares (Elliott et al. 1997; Murphy et al. 1996). Aparentemente, la estimulación tónica de los receptores de dopamina no debe ser ni demasiado baja ni demasiado alta para asegurar una función óptima de una región cerebral determinada. Cambiar la influencia de la dopamina ambiental bien regulada comprometería el correcto funcionamiento de las neuronas del cuerpo estriado y cortical. Diferentes regiones del cerebro pueden requerir niveles específicos de dopamina para mediar en funciones conductuales específicas. Se puede especular que las concentraciones ambientales de dopamina también son necesarias para mantener la plasticidad sináptica del estriado inducida por una señal de recompensa de dopamina. Un efecto de la dopamina tónica en la plasticidad sináptica es sugerido por los efectos perjudiciales del bloqueo del receptor de dopamina o la desactivación del receptor D2 en la depresión posttánica (Calabresi et al. 1992a, 1997).

También existen muchos otros neurotransmisores en bajas concentraciones ambientales en el líquido extracelular, como el glutamato en el estriado (0.9 μM) y la corteza (0.6 μM) (Herrera-Marschitz et al. 1996). Esto puede ser suficiente para estimular los receptores de NMDA altamente sensibles (Arenas y Barish 1989) pero no otros tipos de receptores de glutamato (Kiskin et al. 1986). El glutamato ambiental facilita la actividad de acción potencial a través de la estimulación del receptor NMDA en el hipocampo (Sah et al. 1989) y activa los receptores de NMDA en la corteza cerebral (Blanton y Kriegstein 1992). Los niveles tónicos de glutamato están regulados por la captación en el cerebelo y aumentan durante la filogénesis, lo que influye en la migración neuronal a través de la estimulación del receptor de NMDA (Rossi y Slater 1993). También existen otros neurotransmisores en concentraciones ambientales bajas, como aspartato y GABA en el estriado y la corteza frontal (0.1 μM y 20 nM, respectivamente) (Herrera-Marschitz et al. 1996), y la adenosina en el hipocampo, donde participa en la inhibición presináptica (Manzoni et al. 1994). Aunque incompleta, esta lista sugiere que las neuronas en muchas estructuras cerebrales se bañan permanentemente en una sopa de neurotransmisores que tiene efectos fisiológicos poderosos y específicos sobre la excitabilidad neuronal.

Dada la importancia general de las concentraciones extracelulares tónicas de neurotransmisores, parece que la amplia gama de síntomas parkinsonianos no se debería a una transmisión deficiente de la información de recompensa por parte de las neuronas dopaminérgicas, sino que refleja un mal funcionamiento de las neuronas estriatales y corticales debido a una alteración de la capacidad de la dopamina ambiental. . Las neuronas de dopamina no estarían activamente involucradas en la amplia gama de procesos deficientes en el parkinsonismo, sino que simplemente proporcionarían la concentración de fondo de dopamina necesaria para mantener el funcionamiento adecuado de las neuronas estriatales y corticales involucradas en estos procesos.

AGRADECIMIENTOS

Agradezco a los Dres. Dana Ballard, Anthony Dickinson, Francois Gonon, David D. Potter, Traverse Slater, Roland E. Suri, Richard S. Sutton y R. Mark Wightman por discusiones y comentarios esclarecedores, y también dos árbitros anónimos para comentarios extensos.

El trabajo experimental fue apoyado por la Swiss National Science Foundation (actualmente 31.43331.95), el Capital Humano y Movilidad y los programas Biomed 2 de la Comunidad Europea a través de la Oficina Suiza de Educación y Ciencia (CHRX-CT94 – 0463 a través de 93.0121 y BMH4-CT95 –0608 a través de 95.0313 – 1), la Fundación James S. McDonnell, la Fundación de Investigación Roche, la Fundación United Parkinson (Chicago) y el British Council.

Referencias

    1. Abercrombie ED,
    2. Keefe KA,
    3. DiFrischia DS,
    4. Zigmond MJ

    (1989) Efecto diferencial del estrés sobre la liberación de dopamina in vivo en el cuerpo estriado, el núcleo accumbens y la corteza frontal media. J. Neurochem. 52: 1655-1658.

    1. Ahlenius s.

    (1974) Efectos de dosis bajas y altas de L-dopa sobre la supresión del comportamiento inducida por tetrabenazina o α-metil-tirosina en una tarea de discriminación sucesiva. Psychopharmacologia 39: 199-212.

    1. Alexander GE,
    2. DeLong MR,
    3. Strick PL

    (1986) Organización paralela de circuitos funcionalmente segregados que conectan los ganglios basales y la corteza. Annu. Rev. Neurosci. 9: 357-381.

    1. Amalric M.,
    2. Koob GF

    (1987) El agotamiento de la dopamina en el núcleo caudado pero no en el núcleo accumbens deteriora el rendimiento en el tiempo de reacción. J. Neurosci. 7: 2129-2134.

    1. Andén ne,
    2. Fuxe K.,
    3. Hamberger B.,
    4. Hökfelt T. A

    (1966) estudio cuantitativo sobre las neuronas de dopamina nigro-neostriatal. Acta Physiol. Scand. 67: 306-312.

    1. Anglade P.,
    2. Mouatt-Prigent A.,
    3. Agid Y.,
    4. Hirsch EC

    (1996) Plasticidad sináptica en el núcleo caudado de pacientes con enfermedad de Parkinson. Neurodegeneración 5: 121-128.

    1. Aosaki T.,
    2. Tsubokawa H.,
    3. Ishida A.,
    4. Watanabe K.,
    5. Graybiel soy,
    6. Kimura m.

    (1994) Las respuestas de las neuronas tónicamente activas en el cuerpo estriado del primate experimentan cambios sistemáticos durante el acondicionamiento sensoriomotor conductual. J. Neurosci. 14: 3969-3984.

    1. Apicella p.
    2. Legallet E.,
    3. Trouche E.

    (1996) Respuestas de la descarga tónica de las neuronas en el estriado del mono a los estímulos visuales presentados en condiciones pasivas y durante el desempeño de la tarea. Neurosci. Lett. 203: 147-150.

    1. Apicella p.
    2. Legallet E.,
    3. Trouche E.

    (1997) Respuestas de la descarga tónica de neuronas en el estriado del mono a recompensas primarias entregadas durante diferentes estados de comportamiento. Exp. Brain Res. 116: 456-466.

    1. Apicella p.
    2. Ljungberg T.,
    3. Scarnati E.,
    4. Schultz W.

    (1991a) Respuestas a la recompensa en mono estriado dorsal y ventral. Exp. Brain Res. 85: 491-500.

    1. Apicella p.
    2. Scarnati E.,
    3. Ljungberg T.,
    4. Schultz W.

    (1992) Actividad neuronal en el estriado del mono relacionada con la expectativa de eventos ambientales predecibles. J. Neurofisiol. 68: 945-960.

    1. Apicella p.
    2. Scarnati E.,
    3. Schultz W.

    (1991b) Las neuronas de descarga tónica del estriado del mono responden a estímulos preparatorios y gratificantes. Exp. Brain Res. 84: 672-675.

    1. Arbib MA,
    2. Dominey PF

    (1995) Modelando los roles de los ganglios basales en el tiempo y la secuenciación de los movimientos oculares sacádicos. en Modelos de procesamiento de información en los ganglios basales, eds Houk JC, Davis JL, Beiser DG (MIT Press, Cambridge, MA), pp 149 – 162.

    1. Arbuthnott GW,
    2. Ingham ca

    (1993) El espinoso problema de lo que hace la dopamina en la enfermedad psiquiátrica. Prog. Brain Res. 99: 341-350.

    1. Aston-Jones G.,
    2. Bloom FE

    (1981) Las neuronas del locus coeruleus que contienen norepinefrina en ratas que se comportan muestran respuestas pronunciadas a estímulos ambientales no nocivos. J. Neurosci. 1: 887-900.

    1. Aston-Jones G.,
    2. Rajkowski J.,
    3. Kubiak P.

    (1997) Las respuestas condicionadas de las neuronas del locus coeruleus del mono anticipan la adquisición de un comportamiento discriminativo en una tarea de vigilancia. Neurociencia 80: 697-716.

    1. Aston-Jones G.,
    2. Rajkowski J.,
    3. Kubiak P.,
    4. Alexinsky T.

    (1994) Las neuronas del Locus coeruleus en el mono se activan selectivamente mediante señales asistidas en una tarea de vigilancia. J. Neurosci. 14: 4467-4480.

    1. Ballard DH

    (1997) Una introducción a la computación neural. (MIT Press, Cambridge, MA).

    1. Barto AG

    (1995) Los críticos adaptativos y los ganglios basales. en Modelos de procesamiento de información en los ganglios basales, eds Houk JC, Davis JL, Beiser DG (MIT Press, Cambridge, MA), pp 215 – 232.

    1. Barto AG,
    2. Anandan p.

    (1985) Autómatas de aprendizaje estocásticos de reconocimiento de patrones. IEEE Trasnact. Syst. Hombre Cybern. 15: 360-375.

    1. Barto AG,
    2. Sutton RS,
    3. Anderson CW

    (1983) Elementos adaptativos de tipo neuronal que pueden resolver problemas de aprendizaje difíciles. IEEE Trans Syst. Hombre Cybernet. 13: 834-846.

    1. Beninger RJ

    (1983) El papel de la dopamina en la actividad locomotora y el aprendizaje. Brain Res. Rdo. 6: 173-196.

    1. Beninger RJ

    (1989) Disociar los efectos de la función dopaminérgica alterada en el rendimiento y el aprendizaje. Brain Res. Toro. 23: 365-371.

    1. Beninger RJ,
    2. Cheng M.,
    3. Hahn BL,
    4. Hoffman DC,
    5. Mazurski EJ

    (1987) Efectos de la extinción, pimozida, SCH 23390 y metoclopramida sobre la respuesta operante de ratas recompensada con alimentos. Psicofarmacología 92: 343-349.

    1. Beninger RJ,
    2. Hahn BL

    (1983) La pimozida bloquea el establecimiento pero no la expresión del condicionamiento específico del ambiente producido por la anfetamina. Ciencias: 220: 1304-1306.

    1. Berendse HW,
    2. Groenewegen HJ,
    3. Lohman AHM

    (1992) Distribución compartimental de las neuronas del estriado ventral que se proyectan al mesencéfalo en la rata. J. Neurosci. 12: 2079-2103.

    1. Berger B.,
    2. Trottier S.,
    3. Verney C.,
    4. Gaspar p.
    5. Alvarez C.

    (1988) Distribución regional y laminar de la inervación de dopamina y serotonina en la corteza cerebral de macaco: un estudio radioautográfico. J. comp. Neurol. 273: 99-119.

    1. Bergson C.,
    2. Mrzljak L.,
    3. Smiley JF,
    4. Pappy M.,
    5. Levenson r.
    6. Goldman-Rakic ​​PS

    (1995) Variaciones regionales, celulares y subcelulares en la distribución de D1 y D5 Receptores de dopamina en cerebro de primate. J. Neurosci. 15: 7821-7836.

    1. Berthier NE,
    2. Moore JW

    (1990) Actividad de células nucleares cerebelosas profundas durante el acondicionamiento clásico de la extensión de la membrana nictitante en conejos. Exp. Brain Res. 83: 44-54.

    1. Bindra D.

    (1968) Interpretación neuropsicológica de los efectos del impulso y la motivación de incentivo en la actividad general y el comportamiento instrumental. Psychol. Rdo. 75: 1-22.

    1. Blanton MG,
    2. Kriegstein AR

    (1992) Propiedades de los receptores de los neurotransmisores de aminoácidos de las neuronas corticales embrionarias cuando son activadas por agonistas exógenos y endógenos. J. Neurofisiol. 67: 1185-1200.

    1. Boeijinga PH,
    2. Mulder AB,
    3. Pennartz CMA,
    4. Manshanden yo,
    5. Lopes da Silva FH

    (1993) Respuestas del núcleo accumbens después de la estimulación de fornix / fimbria en la rata. Identificación y potenciación a largo plazo de vías mono y polisinápticas. Neurociencia 53: 1049-1058.

    1. Bolam jp
    2. Francis cm,
    3. Henderson Z.

    (1991) Aporte colinérgico a las neuronas de dopamina en la sustancia negra: un doble estudio inmunocitoquímico. Neurociencia 41: 483-494.

    1. Bolles RC

    (1972) Refuerzo, expectativa y aprendizaje. Psychol. Rdo. 79: 394-409.

    1. Bowman EM,
    2. Aigner TG,
    3. Richmond BJ

    (1996) Señales neuronales en el estriado ventral del mono relacionadas con la motivación para el jugo y las recompensas de cocaína. J. Neurofisiol. 75: 1061-1073.

    1. Bouyer JJ,
    2. Parque DH,
    3. Joh TH,
    4. Pickel VM

    (1984) Análisis químico y estructural de la relación entre las entradas corticales y los terminales que contienen tirosina hidroxilasa en el neostriado de rata. Brain Res. 302: 267-275.

    1. Marrón jr,
    2. Arbuthnott GW

    (1983) La electrofisiología de la dopamina (D2) receptores: un estudio de las acciones de la dopamina en la transmisión corticostriatal. Neurociencia 10: 349-355.

    1. Brozoski TJ,
    2. RM marrón,
    3. Rosvold HE,
    4. Goldman PS

    (1979) Déficit cognitivo causado por el agotamiento regional de la dopamina en la corteza prefrontal del mono rhesus. Ciencias: 205: 929-932.

    1. Caillé I.,
    2. Dumartin B.,
    3. Bloch B.

    (1996) Localización ultraestructural de la inmunorreactividad del receptor de dopamina D1 en neuronas estriatonigral de rata y su relación con la inervación dopaminérgica. Brain Res. 730: 17-31.

    1. Calabresi P.,
    2. Maj R.,
    3. Pisani A.,
    4. Mercuri NB,
    5. Bernardi G.

    (1992a) Depresión sináptica a largo plazo en el estriado: caracterización fisiológica y farmacológica. J. Neurosci. 12: 4224-4233.

    1. Calabresi P.,
    2. Pisani A.,
    3. Mercuri NB,
    4. Bernardi G.

    (1992b) La potenciación a largo plazo en el cuerpo estriado se desenmascara eliminando el bloque de magnesio dependiente de voltaje de los canales receptores de NMDA. EUR. J. Neurosci. 4: 929-935.

    1. Calabresi P.,
    2. Saiardi A.,
    3. Pisani A.,
    4. Baik JH,
    5. Centonze D.,
    6. Mercuri NB,
    7. Bernardi G.,
    8. Borelli E.

    (1997) Plasticidad sináptica anormal en el estriado de ratones que carecen de receptores D2 de dopamina. J. Neurosci. 17: 4536-4544.

    1. Asamblea General de Canavan,
    2. Passingham RE,
    3. CD de Marsden,
    4. Quinn n.
    5. Wyke M.,
    6. Polkey CE

    (1989) El desempeño en tareas de aprendizaje de pacientes en las primeras etapas de la enfermedad de Parkinson. Neuropsychologia 27: 141-156.

    1. Cepeda C.,
    2. Buchwald NA,
    3. Levine MS

    (1993) Las acciones neuromoduladoras de la dopamina en el neostriatum dependen de los subtipos de receptores del ácido aminao excitador activados. Proc. Natl Acad Sci. Estados Unidos 90: 9576-9580.

    1. Cepeda C.,
    2. Chandler SH,
    3. Shumate LW,
    4. Levine MS

    (1995) Na persistente+ Conductancia en las neuronas neostriatales de tamaño mediano: caracterización mediante videomicroscopía infrarroja y grabaciones de parches de células completas. J. Neurofisiol. 74: 1343-1348.

    1. Cepeda C.,
    2. Colwell CS,
    3. Itri JN,
    4. Chandler SH,
    5. Levine MS

    (1998) Modulación dopaminérgica de corrientes de células completas inducidas por NMDA en neuronas neostáticas en rodajas: contribución de las conductancias de calcio. J. Neurofisiol. 79: 82-94.

    1. Chergui K.,
    2. Suaud-Chagny MF,
    3. Gonon f.

    (1994) Relación no lineal entre el flujo de impulsos, la liberación de dopamina y la eliminación de dopamina en el cerebro de rata in vivo. Neurociencia 62: 641-645.

    1. Chesselet MF

    (1984) Regulación presináptica de la liberación de neurotransmisores en el cerebro: hechos e hipótesis. Neurociencia 12: 347-375.

    1. Iglesia WH,
    2. Justicia JB Jr.,
    3. Byrd LD

    (1987) Dopamina extracelular en el estriado de la rata después de la inhibición de la absorción por la cocaína, la nomifensina y la benztropina. EUR. J. Pharmacol. 139: 345-348.

    1. Iglesia WH,
    2. Justicia JB Jr.,
    3. Neill DB

    (1987) Detección de cambios relevantes para el comportamiento en la dopamina extracelular con microdiálisis. Brain Res. 412: 397-399.

    1. Clarke PBS,
    2. Hommer DW,
    3. Pert A.,
    4. Skirboll LR

    (1987) Inervación de las neuronas de la sustancia negra por aferentes colinérgicos del núcleo pedunculopontino en la rata: evidencia neuroanatómica y electrofisiológica. Neurociencia 23: 1011-1019.

    1. Colle WM,
    2. RA sabio

    (1980) Efectos del núcleo accumbens de anfetamina en la recompensa de estimulación cerebral del hipotálamo lateral. Brain Res. 459: 356-360.

    1. Contreras-Vidal JL,
    2. Schultz W. A

    (1996) modelo de red neuronal de aprendizaje relacionado con la recompensa, motivación y comportamiento orientador. Soc. Neurosci. Abstr. 22: 2029.

    1. Corbett D.,
    2. RA sabio

    (1980) Autoestimulación intracraneal en relación con los sistemas dopaminérgicos ascendentes del cerebro medio: un estudio de microelectrodos móviles. Brain Res. 185: 1-15.

    1. Corvaja N.,
    2. Doucet G.,
    3. Bolam jp

    (1993) Ultraestructura y objetivos sinápticos de la proyección de rape-nigral en la rata. Neurociencia 55: 417-427.

    1. Dehaene S.,
    2. Changeux J.-P.

    (1991) The Wisconsin Card Sorting Test: análisis teórico y modelado en una red neuronal. Cerebr. Corteza 1: 62-79.

    1. Delaney K.,
    2. Gelperin A.

    (1986) Aprendizaje posterior a la ingestión de alimentos a dietas deficientes de aminoácidos por la babosa terrestre Limax maximus. J. comp. Fisiol. [UNA] 159: 281-295.

    1. DeLong MR,
    2. Crutcher MD,
    3. Georgopoulos AP

    (1983) Relaciones entre el movimiento y la descarga de una sola célula en la sustancia negra del mono que se comporta. J. Neurosci. 3: 1599-1606.

    1. Di Chiara G.

    (1995) El papel de la dopamina en el abuso de drogas visto desde la perspectiva de su papel en la motivación. Dependen de drogas y alcohol. 38: 95-137.

    1. Dickinson A.

    (1980) Teoría contemporánea del aprendizaje animal. (Cambridge Univ. Press, Cambridge, Reino Unido).

    1. Dickinson A.,
    2. Balleine B.

    (1994) Control motivacional de la acción dirigida a un objetivo. Anim Aprender. Behav. 22: 1-18.

    1. Dickinson A.,
    2. Hall G.,
    3. Mackintosh NJ

    (1976) Sorpresa y la atenuación del bloqueo. J. Exp. Psychol. Anim Behav. Proc. 2: 313-322.

    1. Doherty MD,
    2. Gratton A.

    (1992) Mediciones cronoamperométricas de alta velocidad de la liberación de dopamina mesolímbica y nigrostriatal asociada con el estrés diario repetido. Brain Res. 586: 295-302.

    1. Dominey P.,
    2. Arbib M.,
    3. Joseph J.-P. UNA

    (1995) modelo de plasticidad corticostriatal para el aprendizaje de asociaciones y secuencias oculomotoras. J. Cognit. Neurosci. 7: 311-336.

    1. Doucet G.,
    2. Descarries L.,
    3. Garcia S.

    (1986) Cuantificación de la inervación de dopamina en neostriatum de rata adulta. Neurociencia 19: 427-445.

    1. Dugast C.,
    2. Suaud-Chagny MF,
    3. Gonon f.

    (1994) Monitoreo in vivo continuo de la liberación de dopamina evocada en el núcleo accumbens de rata por amperometría. Neurociencia 62: 647-654.

    1. Edmonds DE,
    2. Gallistel CR

    (1977) Recompensa versus rendimiento en la autoestimulación: efectos específicos de los electrodos de α-metil-p-tirosina sobre la recompensa en la rata. J. comp. Fisiol. Psychol. 91: 962-974.

    1. Elliott R.,
    2. BJ sahakiano,
    3. Matthews K.,
    4. Bannerjea A.,
    5. Rimmer J.,
    6. Robbins TW

    (1997) Efectos del metilfenidato en la memoria de trabajo espacial y la planificación en adultos jóvenes sanos. Psicofarmacología 131: 196-206.

    1. Ettenberg A.

    (1989) Dopamina, neurolépticos y comportamiento reforzado. Neurosci. Biobehav. Rdo. 13: 105-111.

    1. Fagg AH

    (1993) Aprendizaje de refuerzo para alcanzar y agarrar robóticos. en Nuevas perspectivas en el control del movimiento Reach to Grasp, eds Bennet KMB, Castiello U. (Holanda Septentrional, Ámsterdam), pp 281 – 308.

    1. Fagg AH,
    2. Arbib MA A

    (1992) modelo de aprendizaje condicional visual primate-motor. Adaptar. Behav. 1: 3-37.

    1. Fibiger HC,
    2. LePiane FG,
    3. Jakubovic A.,
    4. Phillips AG

    (1987) El papel de la dopamina en la autoestimulación intracraneal del área tegmental ventral. J. Neurosci. 7: 3888-3896.

    1. Fibiger HC,
    2. Miller JJ

    (1977) Una investigación anatómica y electrofisiológica de la proyección serotoninérgica desde el núcleo dorsal de raphé a la sustancia negra en la rata. Neurociencia 2: 975-987.

    1. Fibiger HC,
    2. Phillips AG

    Recompensa, motivación, cognición: psicobiología de los sistemas mesotelencefálicos de dopamina. Manual de fisiología. El sistema nervioso. Sistemas reguladores intrínsecos del cerebro. 1986Am. Fisiol. Soc.Bethesda, MA, sec. 1, vol. IV, p. 647 – 675.

    1. Filion M.,
    2. Tremblay L.,
    3. Bédard PJ

    (1988) Influencias anormales del movimiento pasivo de las extremidades sobre la actividad de las neuronas del globo pálido en monos parkinsonianos. Brain Res. 444: 165-176.

    1. Flaherty AW,
    2. Graybiel A.

    (1993) Dos sistemas de entrada para representaciones corporales en la matriz del estriado del primate: evidencia experimental en el mono ardilla. J. Neurosci. 13: 1120-1137.

    1. Flaherty AW,
    2. Graybiel A.

    (1994) Organización de entrada-salida del estriatum sensoriomotor en el mono ardilla. J. Neurosci. 14: 599-610.

    1. Flores K.,
    2. Downing ca

    (1978) Control predictivo de los movimientos oculares en la enfermedad de Parkinson. Ann. Neurol. 4: 63-66.

    1. Foote SL,
    2. Aston-Jones G.,
    3. Bloom FE

    (1980) La actividad de impulso de las neuronas del locus coeruleus en ratas y monos despiertos es una función de la estimulación sensorial y la activación. Proc. Natl Acad Sci. Estados Unidos 77: 3033-3037.

    1. Freund TF,
    2. Powell JF,
    3. Smith AD

    (1984) Tirosina hidroxilasa-inmunorreactivas en contacto sináptico con neuronas estriatonigral identificadas, con referencia particular a espinas dendríticas. Neurociencia 13: 1189-1215.

    1. Frey U.
    2. Schroeder H.,
    3. Matthies H.

    (1990) Los antagonistas dopaminérgicos previenen el mantenimiento a largo plazo de la LTP posttánica en la región CA1 de los cortes de hipocampo. Brain Res. 522: 69-75.

    1. Friston KJ,
    2. Tononi g.
    3. Reeke GN Jr.,
    4. Sporns O.,
    5. Edelman GM

    (1994) Selección dependiente del valor en el cerebro: simulación en un modelo neuronal sintético. Neurociencia 59: 229-243.

    1. Fujita K.

    (1987) Reconocimiento de especies por cinco monos macacos. Primates 28: 353-366.

    1. Furiezos G.,
    2. RA sabio

    (1976) Extinción de la autoestimulación intracraneal inducida por pimozida: los patrones de respuesta descartan déficits motores o de rendimiento. Brain Res. 103: 377-380.

    1. Futami T.,
    2. Takakusaki K.,
    3. Kitai ST

    (1995) Entradas glutamatérgicas y colinérgicas desde el núcleo tegmental pedunculopontino a las neuronas de dopamina en la sustancia negra pars compacta. Neurosci. Res. 21: 331-342.

    1. Gallistel CR

    (1990) La organización del aprendizaje. (MIT Press, Cambridge, MA).

    1. García CE,
    2. Prett DM,
    3. Morari m.

    (1989) Modelo de control predictivo: teoría y práctica: una encuesta. Automatica 25: 335-348.

    1. García-Muñoz M.,
    2. Joven sj,
    3. Groves P.

    (1992) Cambios presinápticos a largo plazo en la excitabilidad de la vía corticostriatal. Neuroreport 3: 357-360.

    1. Gariano RF,
    2. Groves PM

    (1988) Disparo en ráfaga en las neuronas dopaminérgicas del cerebro medio mediante la estimulación de las cortezas prefrontal medial y cingulada anterior. Brain Res. 462: 194-198.

    1. Garris PA,
    2. Ciolkowski EL,
    3. Pastore P.,
    4. Wightman RM

    (1994a) Eflujo de dopamina de la hendidura sináptica en el núcleo accumbens del cerebro de rata. J. Neurosci. 14: 6084-6093.

    1. Garris PA,
    2. Ciolkowski EL,
    3. Wightman RM

    (1994b) Heterogeneidad del desbordamiento de dopamina evocado dentro de las regiones estriatal y striatoamygdaloid. Neurociencia 59: 417-427.

    1. Garris PA,
    2. Wightman RM

    (1994) Diferentes cinéticas gobiernan la transmisión dopaminérgica en la amígdala, la corteza prefrontal y el estriado: un estudio voltamétrico in vivo. J. Neurosci. 14: 442-450.

    1. Gerfen CR

    (1984) El mosaico neostriatal: compartimentación de la entrada corticostriatal y sistemas de salida estriatonigral. Naturaleza 311: 461-464.

    1. Gerfen CR,
    2. Engber TM,
    3. Mahan LC,
    4. Susel Z.,
    5. Chase TN,
    6. Monsma FJ Jr.,
    7. Sibley DR

    (1990) D1 y D2 expresión del gen regulado por el receptor de dopamina de las neuronas estriatonigral y estriatopalida. Ciencias: 250: 1429-1432.

    1. Alemán dc,
    2. Dubach M.,
    3. Askari S.,
    4. Especialista SG,
    5. Bowden DM

    (1988) Síndrome parkinsoniano inducido por 1-metil-4-fenil-1,2,3,6-tetrahidropiridina (MPTP) en macaca fascicularis: ¿qué neuronas dopaminérgicas del cerebro medio se pierden? Neurociencia 24: 161-174.

    1. Gilbert PFC,
    2. Thach WT

    (1977) Actividad celular de Purkinje durante el aprendizaje motor. Brain Res. 128: 309-328.

    1. Giros B.,
    2. Jaber M.,
    3. Jones SR,
    4. Wightman RM,
    5. Caron MG

    (1996) Hiperlocomoción e indiferencia a la cocaína y la anfetamina en ratones que carecen del transportador de dopamina. Naturaleza 379: 606-612.

    1. Goldman-Rakic ​​PS,
    2. Leranth C.,
    3. Williams MS,
    4. Mons N.,
    5. Geffard M.

    (1989) Complejo sináptico de dopamina con neuronas piramidales en la corteza cerebral de los primates. Proc. Natl Acad Sci. Estados Unidos 86: 9015-9019.

    1. Gonon f.

    (1988) Relación no lineal entre el flujo de impulsos y la dopamina liberada por las neuronas dopaminérgicas del cerebro medio de la rata según lo estudiado por electroquímica in vivo. Neurociencia 24: 19-28.

    1. Gonon f.

    (1997) Acción excitatoria prolongada y extrasináptica de la dopamina mediada por los receptores D1 en el estriado de la rata in vivo. J. Neurosci. 17: 5972-5978.

    1. Gonzales C.,
    2. Chesselet M.-F.

    (1990) Vía amigdalonigral: un estudio anterógrado en la rata con Phaseolus vulgaris Leucoaglutinina (PHA-L). J. comp. Neurol. 297: 182-200.

    1. Grace AA

    (1991) Liberación de dopamina fásica versus tónica y la modulación de la capacidad de respuesta del sistema de dopamina: una hipótesis para la etiología de la esquizofrenia. Neurociencia 41: 1-24.

    1. Gracia AA,
    2. Bunney BS

    (1985) Efectos opuestos de las vías de retroalimentación estriatonigral sobre la actividad de las células dopaminérgicas del cerebro medio. Brain Res. 333: 271-284.

    1. Graybiel soy,
    2. Aosaki T.,
    3. Flaherty AW,
    4. Kimura m.

    (1994) Los ganglios basales y el control motor adaptativo. Ciencias: 265: 1826-1831.

    1. Groves PM,
    2. García-Muñoz M.,
    3. Linder JC,
    4. Manley MS,
    5. Martone ME,
    6. Joven sj

    (1995) Elementos de la organización intrínseca y procesamiento de información en el neostriatum. en Modelos de procesamiento de información en los ganglios basales, eds Houk JC, Davis JL, Beiser DG (MIT Press, Cambridge, MA), pp 51 – 96.

  • Gullapalli, V., Barto, A. G., y Grupen, R. A. Aprendizaje de mapas de admisión para ensamblaje guiado por fuerza. En: Actas de la Conferencia Internacional 1994 sobre Robótica y Automatización. Los Alamitos, CA: Computer Society Press, 1994, p. 2633 – 2638.
    1. Haber SN,
    2. Lynd E.,
    3. Klein C.,
    4. Groenewegen HJ

    (1990) Organización topográfica de las proyecciones eferentes del estriado ventral en el mono rhesus: un estudio de rastreo autorradiográfico. J. comp. Neurol. 293: 282-298.

    1. Haber S.,
    2. Lynd-Balta E.,
    3. Mitchell SJ

    (1993) La organización de las proyecciones palidales ventrales descendentes en el mono. J. comp. Neurol. 329: 111-128.

    1. Martillo m.

    (1993) Una neurona identificada media el estímulo no condicionado en el aprendizaje olfativo asociativo en las abejas. Naturaleza 366: 59-63.

    1. Hammond C.,
    2. Shibazaki T.,
    3. Rouzaire-Dubois B.

    (1983) Neuronas de salida ramificada del núcleo subtalámico de rata: estudio electrofisiológico de los efectos sinápticos en células identificadas en los dos núcleos diana principales, el núcleo entopeduncular y la sustancia negra. Neurociencia 9: 511-520.

    1. Hattori T.,
    2. Fibiger HC,
    3. McGeer PL

    (1975) Demostración de una proyección pálido-nigral que inerva las neuronas dopaminérgicas. J. comp. Neurol. 162: 487-504.

    1. Hedreen JC,
    2. DeLong MR

    (1991) Organización de proyecciones estriatopalidales, estriatonigral y nigrostriatal en el macaco. J. comp. Neurol. 304: 569-595.

    1. Hernandez lopez s.
    2. Bargas J.,
    3. Surmeier DJ,
    4. Reyes A.,
    5. Galarraga E.

    (1997) La activación del receptor D1 mejora la descarga evocada en las neuronas espinosas del medio neostático mediante la modulación de una Ca de tipo L2+ conductancia. J. Neurosci. 17: 3334-3342.

    1. Herrera-Marschitz M.,
    2. Usted zb
    3. Goiny M.,
    4. Meana JJ,
    5. Silveira R.,
    6. Godukhin OV,
    7. Chen Y.,
    8. Espinoza s.
    9. Pettersson E.,
    10. Loidl CF,
    11. Lubec g.
    12. Andersson K.,
    13. Nylander I.,
    14. Terenius L.,
    15. Ungerstedt U.

    (1996) Sobre el origen de los niveles de glutamato extracelular controlados en los ganglios basales de la rata mediante microdiálisis in vivo. J. Neurochem. 66: 1726-1735.

    1. Hersch SM,
    2. Ciliax BJ,
    3. Gutekunst C.-A.,
    4. Rees HD,
    5. Heilman CJ,
    6. Yung KKL,
    7. Bolam jp
    8. Ince E.,
    9. Yi H.,
    10. Levey AI

    (1995) Análisis microscópico electrónico de las proteínas receptoras de dopamina D1 y D2 en el cuerpo estriado dorsal y sus relaciones sinápticas con aferentes corticostriatales motores. J. Neurosci. 15: 5222-5237.

    1. Heym j.
    2. Trulson yo
    3. Jacobs BL

    (1982) Actividad de la unidad Raphe en gatos que se mueven libremente: efectos de estímulos visuales y auditivos fásicos. Brain Res. 232: 29-39.

    1. Hikosaka O.
    2. Sakamoto M.,
    3. Usui S.

    (1989) Propiedades funcionales de las neuronas caudadas de mono. III. Actividades relacionadas con la expectativa de objetivo y recompensa. J. Neurofisiol. 61: 814-832.

    1. Hollerman JR,
    2. Schultz W.

    (1996) Actividad de las neuronas de dopamina durante el aprendizaje en un contexto de tarea familiar. Soc. Neurosci. Abstr. 22: 1388.

    1. Hollerman JR,
    2. Tremblay L.,
    3. Schultz W.

    (1994) Recompensa la dependencia de varios tipos de actividad neuronal en el estriado del primate. Soc. Neurosci. Abstr. 20: 780.

    1. Holstein GR,
    2. Pasik P.,
    3. Hamori J.

    (1986) Sinapsis entre los elementos axonales y dendríticos inmunorreactivos a GABA en la sustancia negra del mono. Neurosci. Lett. 66: 316-322.

    1. Hoover JE,
    2. Strick PL

    (1993) Múltiples canales de salida en los ganglios basales. Ciencias: 259: 819-821.

    1. Horvitz JC,
    2. Stewart T.,
    3. Jacobs BL

    (1997) La actividad de ráfaga de las neuronas dopaminérgicas tegmentales ventrales es provocada por estímulos sensoriales en el gato despierto. Brain Res. 759: 251-258.

    1. Houk JC,
    2. Adams JL,
    3. Barto AG A

    (1995) modelo de cómo los ganglios basales generan y usan señales neuronales que predicen el refuerzo. en Modelos de procesamiento de información en los ganglios basales, eds Houk JC, Davis JL, Beiser DG (MIT Press, Cambridge, MA), pp 249 – 270.

    1. Houk JC,
    2. Buckingham JT,
    3. Barto AG

    (1996) Modelos de cerebelo y aprendizaje motor. Behav. Cerebro sci. 19: 368-383.

    1. Hrupka BJ,
    2. Lin YM,
    3. Gietzen DW,
    4. Rogers QR

    (1997) Pequeños cambios en las concentraciones de aminoácidos esenciales alteran la selección de la dieta en ratas deficientes en aminoácidos. J. Nutr. 127: 777-784.

    1. Hull CL

    (1943) Principios de comportamiento. (Appleton-Century-Crofts, Nueva York).

    1. Ingham CA,
    2. Hood SH,
    3. Weenink A.,
    4. Van Maldegem B.,
    5. Arbuthnott GW

    (1993) Cambios morfológicos en el neostriado de rata después de inyecciones unilaterales de 6-hidroxidopamina en la vía nigrostriatal. Exp. Brain Res. 93: 17-27.

    1. Ito M.

    (1989) Depresión a largo plazo. Annu. Rev. Neurosci. 12: 85-102.

    1. Jacobs BL,
    2. Fornal CA

    (1993) 5-HT y control motor: una hipótesis. Tendencias Neurosci. 16: 346-352.

    1. Jiménez-Castellanos J.,
    2. Graybiel soy

    (1989) Evidencia de que las zonas histoquímicamente distintas de la sustancia compacta nigra de primate nigra están relacionadas con distribuciones con patrones de neuronas de proyección nigrostriatal y fibras estriatonigral. Exp. Brain Res. 74: 227-238.

    1. Kalman RE A

    (1960) nuevo enfoque para el filtrado lineal y problemas de predicción. J. Ing. Básico Trans. COMO YO 82: 35-45.

  • Kamin, L. J. Asociación selectiva y condicionamiento. En: Cuestiones fundamentales en el aprendizaje instrumental, editado por N. J. Mackintosh y W. K. Honig. Halifax, Canadá: Dalhousie University Press, 1969, pág. 42 – 64.
    1. Kawagoe KT,
    2. Garris PA,
    3. Wiedemann DJ,
    4. Wightman RM

    (1992) Regulación de los gradientes transitorios de concentración de dopamina en el microambiente que rodea las terminales nerviosas en el cuerpo estriado de la rata. Neurociencia 51: 55-64.

    1. Kawaguchi Y.
    2. Wilson CJ,
    3. Emson PC

    (1989) Registro intracelular de parche neostriatal identificado y células espinosas de matriz en una preparación de corte que preserva las entradas corticales. J. Neurofisiol. 62: 1052-1068.

    1. Kawato M.,
    2. Gomi h

    (1992) Los modelos de aprendizaje del cerebelo y VOR / OKR. Tendencias Neurosci. 15: 445-453.

    1. Kiskin NI,
    2. Krishtal OA,
    3. Tsyndrenko AY

    (1986) Receptores de aminoácidos excitadores en las neuronas del hipocampo: el kainato no logra desensibilizarlos. Neurosci. Lett. 63: 225-230.

    1. Klopf AH

    (1982) La neurona hedonista: una teoría de la memoria, el aprendizaje y la inteligencia. (Hemisferio, Washington, DC).

    1. Knowlton BJ,
    2. Mangels JA,
    3. Squire LR A

    (1996) sistema de aprendizaje del hábito neostriatal en humanos. Ciencias: 273: 1399-1402.

    1. Künzle H.

    (1978) Un análisis autorradiográfico de las conexiones eferentes de premotor y regiones prefrontales adyacentes (áreas 6 y 9) en Macaca fascicularis. Cerebro Behav. Evol. 15: 185-234.

    1. LeMoal M.,
    2. Olds ME

    (1979) Entrada auditiva periférica al área límbica del cerebro medio y estructuras relacionadas. Brain Res. 167: 1-17.

    1. LeMoal M.,
    2. Simon H.

    (1991) Red dopaminérgica mesocorticolímbica: funciones funcionales y reguladoras. Fisiol. Rdo. 71: 155-234.

    1. Levey AI,
    2. Hersch SM,
    3. Centeno DB,
    4. Sunahara RK,
    5. Niznik HB,
    6. Kitt CA,
    7. Precio DL,
    8. Maggio r.
    9. Brann MR,
    10. Ciliax BJ

    (1993) Localización de los receptores de dopamina D1 y D2 en el cerebro con anticuerpos específicos de subtipo. Proc. Natl Acad Sci. Estados Unidos 90: 8861-8865.

    1. Linden A.,
    2. Bracke-Tolkmitt R.,
    3. Lutzenberger W.,
    4. Asamblea General de Canavan,
    5. Scholz E.,
    6. Diener HC,
    7. Birbaumer N.

    (1990) Potenciales corticales lentos en pacientes parkinsonianos durante el curso de una tarea de aprendizaje asociativo. J. Psychophysiol. 4: 145-162.

    1. Ljungberg T.,
    2. Apicella p.
    3. Schultz W.

    (1991) Respuestas de las neuronas de dopamina del cerebro medio de los monos durante el rendimiento de la alternancia retrasada. Brain Res. 586: 337-341.

    1. Ljungberg T.,
    2. Apicella p.
    3. Schultz W.

    (1992) Respuestas de las neuronas de dopamina de los monos durante el aprendizaje de las reacciones de comportamiento. J. Neurofisiol. 67: 145-163.

    1. Llinas r.
    2. Galés JP

    (1993) En el cerebelo y el aprendizaje motor. Curr. Opin. Neurobiol. 3: 958-965.

    1. Lohman AHM,
    2. Van Woerden-Verkley I.

    (1978) Conexiones ascendentes al cerebro anterior en el lagarto tegu. J. comp. Neurol. 182: 555-594.

    1. Louilot A.,
    2. LeMoal M.,
    3. Simon H.

    (1986) Reactividad diferencial de las neuronas dopaminérgicas en el núcleo accumbens en respuesta a diferentes situaciones de comportamiento. Un estudio voltamétrico in vivo en ratas en movimiento libre. Brain Res. 397: 395-400.

    1. Lovibond PF

    (1983) Facilitación del comportamiento instrumental mediante un estímulo condicionado por el apetito pavloviano. J. Exp. Psychol. Anim Behav. Proc. 9: 225-247.

    1. Lovinger DM,
    2. Tyler EC,
    3. Merritt A.

    (1993) Depresión sináptica a corto y largo plazo en neostriatum de ratas. J. Neurofisiol. 70: 1937-1949.

    1. Lynd-Balta E.,
    2. Haber SN

    (1994) Proyecciones estriatonigrales de primates: una comparación del cuerpo estriado relacionado con el sensorimotor y el cuerpo estriado ventral. J. comp. Neurol. 345: 562-578.

    1. Mackintosh NJ A

    (1975) teoría de la atención: variaciones en la asociabilidad del estímulo con el refuerzo. Psychol. Rdo. 82: 276-298.

    1. Manzoni DO
    2. Manabe t.
    3. Nicoll RA

    (1994) Liberación de adenosina por activación de receptores NMDA en el hipocampo. Ciencias: 265: 2098-2101.

    1. Marr D. A

    (1969) teoría de la corteza cerebelosa. J. Physiol. (Lond.) 202: 437-470.

    1. Marshall JF,
    2. O'Dell SJ,
    3. Navarrete r.
    4. Rosenstein AJ

    (1990) Topografía del sitio de transporte de alta afinidad de dopamina en cerebro de rata: diferencias importantes entre el cuerpo estriado dorsal y ventral. Neurociencia 37: 11-21.

  • Matsumoto, K., Nakamura, K., Mikami, A. y Kubota, K. Respuesta al suministro de agua impredecible en la boca de las neuronas visualmente sensibles en la corteza orbitofontal de los monos. Abstr. Satélite Symp. Reunión del IBR en honor al profesor Kubota, Inuyama, Japón, P-14, 1995.
    1. Matsumura M.,
    2. Kojima J.,
    3. Gardiner TW,
    4. Hikosaka O.

    (1992) Funciones visuales y oculomotoras del núcleo subtalámico de mono. J. Neurofisiol. 67: 1615-1632.

    1. Maunsell JHR,
    2. Gibson JR

    (1992) Latencias de respuesta visual en la corteza estriada del mono macaco. J. Neurofisiol. 68: 1332-1344.

    1. Mazzoni P.,
    2. Andersen RA,
    3. Jordan mi

    (1991) regla de aprendizaje más plausible biológicamente que la propagación hacia atrás aplicada a un modelo de red del área cortical 7. Cereb. Corteza 1: 293-307.

  • McCallum, A. K. Aprendizaje de refuerzo con percepción selectiva y estados ocultos. (Tesis doctoral). Rochester, Nueva York: Univ. Rochester, 1995.
    1. McCormick DA,
    2. Thompson RF

    (1984) Respuestas neuronales del cerebelo de conejo durante la adquisición y el rendimiento de una respuesta nictitante de membrana-párpado con condicionamiento clásico. J. Neurosci. 4: 2811-2822.

    1. McLaren I.

    (1989) La unidad computacional como un conjunto de neuronas: una implementación de un algoritmo de aprendizaje de corrección de errores. en The Computing Neuron, editores Durbin R., Miall C., Mitchison G. (Addison-Wesley, Amsterdam), pp 160 – 178.

    1. Michael AC,
    2. Justicia JB Jr.,
    3. Neill DB

    (1985) Determinación voltamétrica in vivo de la cinética del metabolismo de la dopamina en la rata. Neurosci. Lett. 56: 365-369.

    1. Middleton FA,
    2. Strick PL

    (1996) El lóbulo temporal es un objetivo de salida de los ganglios basales. Proc. Natl Acad Sci. Estados Unidos 93: 8683-8687.

    1. Miller EK,
    2. Li L.,
    3. Desimone R.

    (1993) Actividad de las neuronas en la corteza temporal inferior inferior durante una tarea de memoria a corto plazo. J. Neurosci. 13: 1460-1478.

    1. Miller JD,
    2. Sanghera MK,
    3. Alemán dc

    (1981) Actividad de la unidad dopaminérgica mesencefálica en la rata condicionada conductualmente. Life Sci. 29: 1255-1263.

    1. Miller R.,
    2. Wickens JR,
    3. Beninger RJ

    (1990) Receptores de dopamina D-1 y D-2 en relación con la recompensa y el rendimiento: un caso para el receptor D-1 como sitio primario de acción terapéutica de los fármacos neurolépticos. Prog. Neurobiol. 34: 143-183.

    1. Mirenowicz J.,
    2. Schultz W.

    (1994) Importancia de la imprevisibilidad para respuestas de recompensa en neuronas de dopamina de primates. J. Neurofisiol. 72: 1024-1027.

    1. Mirenowicz J.,
    2. Schultz W.

    (1996) Activación preferencial de las neuronas de la dopamina del cerebro medio por estímulos apetitivos en lugar de aversivos. Naturaleza 379: 449-451.

    1. Mitchell SJ,
    2. Richardson RT,
    3. Baker FH,
    4. DeLong MR

    (1987) El primate globus pallidus: actividad neuronal relacionada con la dirección del movimiento. Exp. Brain Res. 68: 491-505.

    1. Mogenson GJ,
    2. Takigawa M.,
    3. Robertson A.,
    4. Wu M.

    (1979) Autoestimulación del núcleo accumbens y área tegmental ventral de Tsai atenuada por microinyecciones de espiroperidol en el núcleo accumbens. Brain Res. 171: 247-259.

    1. Montague PR,
    2. Dayan p.
    3. Nowlan SJ,
    4. Pouget a.
    5. Sejnowski TJ

    (1993) Uso de refuerzo aperiódico para autoorganización dirigida durante el desarrollo. en Sistemas de procesamiento de información neural 5, eds Hanson SJ, Cowan JD, Giles CL (Morgan Kaufmann, San Mateo, CA), pp 969 – 976.

    1. Montague PR,
    2. Dayan p.
    3. Persona C.,
    4. Sejnowski TJ

    (1995) Abejas que buscan comida en entornos inciertos mediante el aprendizaje predictivo de hebreo. Naturaleza 377: 725-728.

    1. Montague PR,
    2. Dayan p.
    3. Sejnowski TJ A

    (1996) marco para sistemas de dopamina mesencefálicos basados ​​en el aprendizaje predictivo de Hebbian. J. Neurosci. 16: 1936-1947.

    1. Montague PR,
    2. Sejnowski TJ

    (1994) El cerebro predictivo: coincidencia temporal y orden temporal en los mecanismos de aprendizaje sináptico. Aprender. Memoria 1: 1-33.

    1. Mora F.,
    2. Myers RD

    (1977) Autoestimulación cerebral: evidencia directa del compromiso de la dopamina en la corteza prefrontal. Ciencias: 197: 1387-1389.

    1. Murphy BL,
    2. Arnsten AF,
    3. Goldman-Rakic ​​PS,
    4. Roth RH

    (1996) El aumento de la rotación de dopamina en la corteza prefrontal perjudica el rendimiento de la memoria de trabajo espacial en ratas y monos. Proc. Natl Acad Sci. Estados Unidos 93: 1325-1329.

    1. Nakamura K.,
    2. Mikami A.,
    3. Kubota K.

    (1992) Actividad de neuronas individuales en la amígdala de mono durante la ejecución de una tarea de discriminación visual. J. Neurofisiol. 67: 1447-1463.

    1. Nedergaard S.,
    2. Bolam jp
    3. Greenfield SA

    (1988) Facilitación de la conductancia de calcio dendrítica por 5-hidroxitriptamina en la sustancia negra. Naturaleza 333: 174-177.

    1. Niijima K.,
    2. Yoshida m.

    (1988) Activación de las neuronas de dopamina mesencefálicas por estimulación química del núcleo tegmenti pedunculopontinus pars compacta. Brain Res. 451: 163-171.

    1. Niki H.,
    2. Watanabe M.

    (1979) Actividad de las unidades prefrontal y cingulada durante el comportamiento de tiempo en el mono. Brain Res. 171: 213-224.

    1. Nirenberg MJ,
    2. Vaughan RA,
    3. Uhl GR,
    4. Kuhar MJ,
    5. Pickel VM

    (1996) El transportador de dopamina se localiza en las membranas plasmáticas dendríticas y axonales de las neuronas dopaminérgicas nigrostriatal. J. Neurosci. 16: 436-447.

    1. Nishijo h.
    2. O no.,
    3. Nishino H.

    (1988) Distribución topográfica de neuronas amigdolares de modalidad específica en mono alerta. J. Neurosci. 8: 3556-3569.

    1. Nishino H.,
    2. O no.,
    3. Muramoto KI,
    4. Fukuda M.,
    5. Sasaki K.

    (1987) Actividad neuronal en el área tegmental ventral (VTA) durante el comportamiento de alimentación con presión de barra motivada en el mono. Brain Res. 413: 302-313.

    1. Ojakangas CL,
    2. Ebner TJ

    (1992) El complejo de células de Purkinje y los cambios de picos simples durante una tarea de aprendizaje voluntario del movimiento del brazo en el mono. J. Neurofisiol. 68: 2222-2236.

    1. Olds J.,
    2. Milner p.

    (1954) Refuerzo positivo producido por la estimulación eléctrica del área septal y otras regiones del cerebro de rata. J. comp. Fisiol. Psychol. 47: 419-427.

    1. Otmakhova NA,
    2. Lisman JE

    (1996) La activación de D1 / D5 recetor recetor aumenta la magnitud de la potenciación temprana a largo plazo en las sinapsis de hipocampo CA1. J. Neurosci. 16: 7478-7486.

    1. Packard MG,
    2. NM blanco

    (1991) Disociación de los sistemas de memoria del hipocampo y del núcleo caudado mediante la inyección intracerebral post entrenamiento de agonistas de la dopamina. Behav. Neurosci. 105: 295-306.

    1. Pastor MA,
    2. Artieda J.,
    3. Jahanshahi M.,
    4. Obeso JA

    (1992) La estimación del tiempo y la reproducción son anormales en la enfermedad de Parkinson. Cerebro 115: 211-225.

    1. Pearce JM,
    2. Hall G. A

    (1980) modelo para el condicionamiento pavloviano: variaciones en la efectividad de los estímulos condicionados pero no de los condicionados no condicionados. Psychol. Rdo. 87: 532-552.

    1. Pennartz CMA,
    2. Ameerun RF,
    3. Groenewegen HJ,
    4. Lopes da Silva FH

    (1993) Plasticidad sináptica en una preparación de corte in vitro del núcleo de rata accumbens. EUR. J. Neurosci. 5: 107-117.

  • Percheron, G., Francois, C., Yelnik, J., y Fenelon, G. El sistema de primate nigro-striato-pallido-nigral. No es un simple bucle. En: Mecanismos neuronales en trastornos del movimiento, editado por A. R. Crossman y M. A. Sambrook. Londres: John Libbey, 1989, p. 103 – 109.
    1. Phillips AG,
    2. Brooke SM,
    3. Fibiger HC

    (1975) Efectos de los isómeros de la anfetamina y los neurolépticos en la autoestimulación del núcleo accumbens y el paquete dorsal noradrenérgico. Brain Res. 85: 13-22.

    1. Phillips AG,
    2. Carter DA,
    3. Fibiger HC

    (1976) Sustratos dopaminérgicos de autoestimulación intracraneal en el núcleo caudado. Brain Res. 104: 221-232.

    1. Phillips AG,
    2. Fibiger HC

    (1978) El papel de la dopamina en la mediación de la autoestimulación en el tegmento ventral, el núcleo accumbens y la corteza prefrontal medial. Poder. J. Psychol. 32: 58-66.

    1. Phillips AG,
    2. Mora F.,
    3. Rolls ET

    (1979) Autoestimulación intracraneal en la corteza orbitofrontal y el núcleo caudado de mono rhesus: efectos de la apomorfina, pimozida y espiroperidol. Psicofarmacología 62: 79-82.

    1. Pickel VM,
    2. Beckley SC,
    3. Joh TH,
    4. Reis DJ

    (1981) Localización inmunocitoquímica ultraestructural de la tirosina hidroxilasa en el neostriatum. Brain Res. 225: 373-385.

    1. Precio JL,
    2. Amaral DG

    (1981) Un estudio autorradiográfico de las proyecciones del núcleo central de la amígdala de mono. J. Neurosci. 1: 1242-1259.

    1. Rao RPN,
    2. Ballard DH

    (1997) El modelo dinámico de reconocimiento visual predice las propiedades de respuesta neuronal en la corteza visual. Computación Neural. 9: 721-763.

    1. Rasmussen K.,
    2. Jacobs BL

    (1986) Actividad de una sola unidad de las neuronas del locus coeruleus en el gato que se mueve libremente. II. Acondicionamiento y estudios farmacológicos. Brain Res. 371: 335-344.

    1. Rasmussen K.,
    2. Morilak DA,
    3. Jacobs BL

    (1986) Actividad de una sola unidad de las neuronas del locus coeruleus en el gato que se mueve libremente. I. Durante conductas naturalistas y en respuesta a estímulos simples y complejos. Brain Res. 371: 324-334.

    1. Rescorla RA,
    2. Wagner AR A

    (1972) teoría del condicionamiento pavloviano: variaciones en la efectividad del refuerzo y el no refuerzo. en Classical Conditioning II: Current Research and Theory, eds Black AH, Prokasy WF (Appleton Century Crofts, Nueva York), pp 64 – 99.

    1. Richardson RT,
    2. DeLong MR

    (1986) Nucleus basalis de la actividad neuronal de Meynert durante una tarea de respuesta retrasada en un mono. Brain Res. 399: 364-368.

    1. Richardson RT,
    2. DeLong MR

    (1990) Respuestas dependientes del contexto de las neuronas del núcleo basal de primate en una tarea de ir / no ir. J. Neurosci. 10: 2528-2540.

    1. Richfield EK,
    2. Pennney JB,
    3. Joven AB

    (1989) Comparaciones anatómicas y de estado de afinidad entre los receptores de dopamina D1 y D2 en el sistema nervioso central de rata. Neurociencia 30: 767-777.

    1. Robbins TW,
    2. Everitt BJ

    (1992) Funciones de la dopamina en el estriado dorsal y ventral. Semin. Neurosci. 4: 119-128.

    1. Robbins TW,
    2. Everitt BJ

    (1996) Mecanismos neuroconductuales de recompensa y motivación. Curr. Opin. Neurobiol. 6: 228-236.

    1. Robinson TE,
    2. Berridge KC

    (1993) La base neuronal para el ansia de drogas: una teoría de la adicción a la sensibilización de incentivos. Brain Res. Rdo. 18: 247-291.

    1. Rogawski MA

    (1987) Nuevas direcciones en la acción de los neurotransmisores: la dopamina proporciona algunas pistas importantes. Tendencias Neurosci. 10: 200-205.

    1. Rogers QR,
    2. Harper AE

    (1970) Selección de una solución que contiene histidina por ratas alimentadas con una dieta desequilibrada con histidina. J. comp. Fisiol. Psychol. 72: 66-71.

    1. Rollos ET,
    2. Critchley HD,
    3. Mason r.
    4. Wakeman EA

    (1996) Neuronas de la corteza orbitofrontal: papel en el aprendizaje de la asociación olfativa y visual. J. Neurofisiol. 75: 1970-1981.

    1. Romo r.
    2. Scarnati E.,
    3. Schultz W.

    (1992) Papel de los ganglios basales de los primates y la corteza frontal en la generación interna de movimientos: comparaciones en las neuronas del estriado activadas durante el inicio y la ejecución del movimiento inducido por estímulos. Exp. Brain Res. 91: 385-395.

    1. Romo r.
    2. Schultz W.

    (1990) Neuronas de dopamina del mesencéfalo del mono: contingencias de respuestas al contacto activo durante los movimientos del brazo autoiniciados. J. Neurofisiol. 63: 592-606.

    1. Rompré P.-P.
    2. RA sabio

    (1989) Evidencia de comportamiento para la inactivación de la despolarización de la dopamina en el cerebro medio. Brain Res. 477: 152-156.

    1. Rossi DJ,
    2. Slater NT

    (1993) El inicio del desarrollo de la actividad del canal del receptor NMDA durante la migración neuronal. Neurofarmacología 32: 1239-1248.

    1. Rumelhart DE,
    2. Hinton GE,
    3. Williams RJ

    (1986) Aprendizaje de representaciones internas por propagación de errores. en Parallel Distributed Processing I, eds Rumelhart DE, McClelland JL (MIT Press, Cambridge, MA), pp 318 – 362.

    1. Sah P.,
    2. Hestrin S.,
    3. Nicoll RA

    (1989) La activación tónica de los receptores NMDA por el glutamato ambiental mejora la excitabilidad de las neuronas. Ciencias: 246: 815-818.

    1. Salamone JD

    (1987) Las acciones de los fármacos neurolépticos sobre los comportamientos instrumentales apetitivos. en Manual de psicofarmacología., eds Iversen LL, Iversen SD, Snyder SH (Plenum, Nueva York), 19: 576 – 608.

    1. Salamone JD

    (1992) Funciones motoras y sensoriomotoras complejas de la dopamina del cuerpo estriado y accumbens: participación en los procesos de comportamiento instrumental. Psicofarmacología 107: 160-174.

    1. Sands SB,
    2. Barish ME A

    (1989) descripción cuantitativa de las respuestas de los neurotransmisores de los aminoácidos excitadores en neuronas espinales de Yenopus ambriónicas cultivadas. Brain Res. 502: 375-386.

    1. Sara sj
    2. Segal M.

    (1991) Plasticidad de las respuestas sensoriales de las neuronas del locus coeruleus en la rata portadora: implicaciones para la cognición. Prog. Brain Res. 88: 571-585.

    1. Sawaguchi T.,
    2. Goldman-Rakic ​​PS

    (1991) D1 Receptores de dopamina en la corteza prefrontal: participación en la memoria de trabajo. Ciencias: 251: 947-950.

    1. Scarnati E.,
    2. Proia A.,
    3. Campana E.,
    4. Pacitti C. A

    (1986) estudio microiontoforético sobre la naturaleza del supuesto neurotransmisor sináptico involucrado en la vía excitadora pedunculopontina-sustancia negra compacta de la rata. Exp. Brain Res. 62: 470-478.

    1. Schultz W.

    (1986) Respuestas de las neuronas de la dopamina del cerebro medio al estímulo disparador del comportamiento en el mono. J. Neurofisiol. 56: 1439-1462.

    1. Schultz W.,
    2. Apicella p.
    3. Ljungberg T.

    (1993) Respuestas de las neuronas de dopamina de los monos para recompensar y condicionar los estímulos durante los pasos sucesivos del aprendizaje de una tarea de respuesta tardía. J. Neurosci. 13: 900-913.

    1. Schultz W.,
    2. Apicella p.
    3. Romo r.
    4. Scarnati E.

    (1995a) Actividad dependiente del contexto en el estriado del primate que refleja eventos de comportamiento pasados ​​y futuros. en Modelos de procesamiento de información en los ganglios basales, eds Houk JC, Davis JL, Beiser DG (MIT Press, Cambridge, MA), pp 11 – 28.

    1. Schultz W.,
    2. Apicella p.
    3. Scarnati E.,
    4. Ljungberg T.

    (1992) Actividad neuronal en el estriado ventral del mono relacionado con la expectativa de recompensa. J. Neurosci. 12: 4595-4610.

    1. Schultz W.,
    2. Dayan p.
    3. Montague RR A

    (1997) sustrato neural de predicción y recompensa. Ciencias: 275: 1593-1599.

    1. Schultz W.,
    2. Romo r.

    (1987) Respuestas de las neuronas de dopamina nigrostriatal a la estimulación somatosensorial de alta intensidad en el mono anestesiado. J. Neurofisiol. 57: 201-217.

    1. Schultz W.,
    2. Romo r.

    (1990) Neuronas de dopamina del mesencéfalo del mono: contingencias de respuestas a estímulos que provocan reacciones de comportamiento inmediatas. J. Neurofisiol. 63: 607-624.

    1. Schultz W.,
    2. Romo r.
    3. Ljungberg T.,
    4. Mirenowicz J.,
    5. Hollerman JR,
    6. Dickinson A.

    (1995b) Señales relacionadas con la recompensa transportadas por las neuronas de dopamina. en Modelos de procesamiento de información en los ganglios basales, eds Houk JC, Davis JL, Beiser DG (MIT Press, Cambrdige, MA), pp 233 – 248.

    1. Schultz W.,
    2. Ruffieux A.,
    3. Aebischer P.

    (1983) La actividad de las neuronas pars compacta de la sustancia negra del mono en relación con la activación motora. Exp. Brain Res. 51: 377-387.

    1. Sears LL,
    2. Steinmetz JE

    (1991) La actividad de la oliva inferior accesoria dorsal disminuye durante la adquisición de la respuesta de párpado condicionada de forma clásica. Brain Res. 545: 114-122.

    1. Selemon LD,
    2. Goldman-Rakic ​​PS

    (1990) Mezcla topográfica de las neuronas estriatonigral y striatopallidal en el mono rhesus. J. comp. Neurol. 297: 359-376.

    1. Sesack SR,
    2. Aoki C.,
    3. Pickel VM

    (1994) Localización ultraestructural de la inmunorreactividad tipo receptor D2 en las neuronas de la dopamina del cerebro medio y sus objetivos estriatales. J. Neurosci. 14: 88-106.

    1. Sesack SR,
    2. Pickel VM

    (1992) Efferentes corticales prefrontales en la sinapsis de rata en dianas neuronales sin marcar de terminales de catecolamina en el núcleo accumbens septi y en neuronas de dopamina en el área ventral tegmental. J. comp. Neurol. 320: 145-160.

    1. Simon h.
    2. Scatton B.,
    3. LeMoal M.

    (1980) Las neuronas dopaminérgicas A10 están involucradas en las funciones cognitivas. Naturaleza 286: 150-151.

    1. Smith AD,
    2. Bolam jp

    (1990) La red neuronal de los ganglios basales, como lo revela el estudio de las conexiones sinápticas de las neuronas identificadas. Tendencias Neurosci. 13: 259-265.

    1. Smith ID,
    2. Grace AA

    (1992) Rol del núcleo subtalámico en la regulación de la actividad de la neurona dopamina nigral. Synapse 12: 287-303.

    1. Smith MC

    (1968) Intervalo CS-US e intensidad US en el condicionamiento clásico de la respuesta de la membrana nictitante del conejo. J. comp. Fisiol. Psychol. 66: 679-687.

    1. Smith Y.,
    2. Bennett BD,
    3. Bolam jp
    4. Padre A.,
    5. Sadikot AF

    (1994) Relaciones sinápticas entre los aferentes dopaminérgicos y la entrada cortical o talámica en el territorio sensoriomotor del estriado en el mono. J. comp. Neurol. 344: 1-19.

    1. Smith Y.,
    2. Bolam jp

    (1990) Las neuronas de salida y las neuronas dopaminérgicas de la sustancia negra reciben una entrada que contiene GABA del globo pálido en la rata. J. comp. Neurol. 296: 47-64.

    1. Smith Y.,
    2. Bolam jp

    (1991) Convergencia de entradas sinápticas del estriado y del globo pálido en células nigrocoliculares identificadas en la rata: un estudio de etiquetado anterógrado doble. Neurociencia 44: 45-73.

    1. Smith Y.,
    2. Hazrati L.-N.
    3. Padre A.

    (1990) Proyecciones eferentes del núcleo subtalámico en el mono ardilla según se estudió mediante el método de rastreo anterógrado PHA-L. J. comp. Neurol. 294: 306-323.

    1. Somogyi P.,
    2. Bolam jp
    3. Totterdell S.,
    4. Smith AD

    (1981) Entrada monosináptica desde el núcleo accumbens: la región ventral del estriado a las neuronas nigrostriatal marcadas de forma retrógrada. Brain Res. 217: 245-263.

    1. Sprengelmeyer R.,
    2. Asamblea General de Canavan,
    3. Lange HW,
    4. Hömberg V.

    (1995) Aprendizaje asociativo en trastornos neostriatales degenerativos: contrastes en el recuerdo explícito e implícito entre pacientes con enfermedad de Parkinson y Huntington. Mov. Disord. 10: 85-91.

    1. Surmeier DJ,
    2. Eberwine J.,
    3. Wilson CJ,
    4. Stefani A.,
    5. Kitai ST

    (1992) Los subtipos de receptores de dopamina se colocalizan en neuronas estriatonigral de rata. Proc. Natl Acad Sci. Estados Unidos 89: 10178-10182.

    1. Stamford JA,
    2. Kruk ZL,
    3. Palij P.,
    4. Millar j.

    (1988) La difusión y la captación de dopamina en el caudado de rata y el núcleo accumbens en comparación con el uso de voltametría cíclica rápida. Brain Res. 448: 381-385.

    1. Stein L.

    (1964) La autoestimulación del cerebro y la acción estimulante central de la anfetamina. Proc. Federación 23: 836-841.

    1. Stein L.,
    2. Xue BG,
    3. Belluzzi JD

    (1994) Refuerzo in vitro del estallido del hipocampo: una búsqueda de los átomos de comportamiento de Skinner. J. Exp. Anal. Behav. 61: 155-168.

    1. Steinfels GF,
    2. Heym j.
    3. Strecker RE,
    4. Jacobs BL

    (1983) Correlaciones de comportamiento de la actividad de la unidad dopaminérgica en gatos que se mueven libremente. Brain Res. 258: 217-228.

    1. Suaud-Chagny MF,
    2. Dugast C.,
    3. Chergui K.,
    4. Msghina M.,
    5. Gonon f.

    (1995) Captación de dopamina liberada por el flujo impulsivo en el sistema mesolímbico y estriado de rata in vivo. J. Neurochem. 65: 2603-2611.

    1. Suri RE,
    2. Schultz W. A

    (1996) modelo de aprendizaje neural basado en la actividad de las neuronas de dopamina de primates. Soc. Neurosci. Abstr. 22: 1389.

    1. Sutton RS

    (1988) Aprendiendo a predecir por el método de la diferencia temporal. La máquina aprende. 3: 9-44.

    1. Sutton RS,
    2. Barto AG

    (1981) Hacia una teoría moderna de redes adaptativas: expectativa y predicción. Psychol. Rdo. 88: 135-170.

    1. Tepper J. M,
    2. Martin LP,
    3. Anderson DR

    (1995) GABAA inhibición mediada por receptores de neuronas dopaminérgicas sustancia negra de rata por pars reticulata neuronas de proyección. J. Neurosci. 15: 3092-3103.

    1. Tesauro G.

    (1994) TD-Gammon, un programa de auto-enseñanza de backgammon, logra un juego de nivel maestro. Neural Comp. 6: 215-219.

    1. Thompson RF,
    2. Gluck MA

    (1991) Sustratos cerebrales de aprendizaje asociativo básico y memoria. en Perspectivas sobre neurociencia cognitiva, eds Lister RG, Weingartner HJ (Oxford Univ. Press, Nueva York), pp 25 – 45.

    1. Thorndike EL

    (1911) Inteligencia Animal: Estudios Experimentales. (MacMillan, Nueva York).

    1. Thorpe SJ,
    2. Rollos ET,
    3. Maddison s.

    (1983) La corteza orbitofrontal: actividad neuronal en el mono que se comporta. Exp. Brain Res. 49: 93-115.

    1. Toan DL,
    2. Schultz W.

    (1985) Respuestas de células de pálido de rata a la estimulación de la corteza y efectos de la actividad dopaminérgica alterada. Neurociencia 15: 683-694.

    1. Tremblay L.,
    2. Schultz W.

    (1995) Procesamiento de información relacionada con la recompensa en neuronas orbitofrontal de primates. Soc. Neurosci. Abstr. 21: 952.

    1. Trent F.,
    2. Tepper JM

    (1991) La estimulación dorsal de raphé modifica la invasión antidrómica evocada por estriado de las neuronas de dopamina nigral in vivo. Exp. Brain Res. 84: 620-630.

  • Ungerstedt, U. Adipsia y afagia después de 6-hidroxidopamina indujo la degeneración del sistema de dopamina nigro-estriatal. Acta Physiol. Scand. Supl. 367: 95-117, 1971.
    1. Vankov A.,
    2. Hervé-Minvielle A.,
    3. Sara sj

    (1995) Respuesta a la novedad y su rápida habituación en las neuronas del locus coeruleus de la rata que explora libremente. EUR. J. Neurosci. 7: 1180-1187.

    1. Vriezen ER,
    2. Moscovitch M.

    (1990) Memoria para el orden temporal y aprendizaje asociativo condicional en pacientes con enfermedad de Parkinson. Neuropsychologia 28: 1283-1293.

    1. Walsh JP

    (1993) Depresión de la entrada sináptica excitadora en neuronas del estriado de rata. Brain Res. 608: 123-128.

    1. Wang Y.,
    2. Cummings SL,
    3. Gietzen DW

    (1996) Patrón temporal-espacial de la expresión de c-fos en el cerebro de rata en respuesta a una deficiencia de aminoácidos indispensable. I. La fase de reconocimiento inicial. Mol. Brain Res. 40: 27-34.

    1. Watanabe M.

    (1989) La idoneidad de las respuestas de comportamiento codificadas en la actividad posterior al ensayo de las unidades prefrontales de primates. Neurosci. Lett. 101: 113-117.

    1. Watanabe M.

    (1990) Actividad de la unidad prefrontal durante el aprendizaje asociativo en el mono. Exp. Brain Res. 80: 296-309.

    1. Watanabe M.

    (1996) La expectativa de recompensa en las neuronas prefrontales de los primates. Naturaleza 382: 629-632.

    1. Wauquier A.

    (1976) La influencia de las drogas psicoactivas en la autoestimulación cerebral en ratas: una revisión. en Brain Stimulation Reward, eds Wauquier A., ​​Rolls ET (Elsevier, Nueva York), pp 123 – 170.

    1. NM blanco

    (1989) Recompensa o refuerzo: ¿cuál es la diferencia? Neurosci. Biobehav. Rdo. 13: 181-186.

    1. Blanco NW,
    2. Milner PM

    (1992) La psicobiología de los reforzadores. Annu. Rev. Psychol. 43: 443-471.

    1. Wightman RM,
    2. Zimmerman JB

    (1990) Control de la concentración extracelular de dopamina en el estriado de la rata por el flujo de impulso y la captación. Brain Res. Rdo. 15: 135-144.

    1. Wickens JR,
    2. Comenzó AJ,
    3. Arbuthnott GW

    (1996) La dopamina revierte la depresión de las sinapsis corticostriatal de rata que normalmente sigue la estimulación de alta frecuencia de la corteza in vitro. Neurociencia 70: 1-5.

    1. Wickens J.,
    2. Kötter R.

    (1995) Modelos celulares de refuerzo. en Modelos de procesamiento de información en los ganglios basales, eds Houk JC, Davis JL, Beiser DG (MIT Press, Cambridge, MA), pp 187 – 214.

  • Widrow, G. y Hoff, M. E. Circuitos de conmutación adaptativos. IRE Western Electronic Show Conven., Conven. Rec. parte 4: 96 – 104, 1960.
  • Widrow, G. y Sterns, S. D. Procesamiento de señal adaptativo. Englewood Cliffs, NJ: Prentice-Hall, 1985.
    1. Williams SM,
    2. Goldman-Rakic ​​PS

    (1993) Caracterización de la inervación dopaminérgica de la corteza frontal de primate utilizando un anticuerpo específico de dopamina. Cereb. Corteza 3: 199-222.

    1. Williams GV,
    2. Millar j.

    (1990) Acciones dependientes de la concentración de la liberación de dopamina estimulada sobre la actividad neuronal en el estriado de la rata. Neurociencia 39: 1-16.

    1. Williams GV,
    2. Rollos ET,
    3. Leonard CM,
    4. Stern C.

    (1993) Respuestas neuronales en el estriado ventral del mono que se comporta. Behav. Brain Res. 55: 243-252.

    1. Wilson C.,
    2. Nomikos GG,
    3. Collu M.,
    4. Fibiger HC

    (1995) Correlaciones dopaminérgicas del comportamiento motivado: importancia del impulso. J. Neurosci. 15: 5169-5178.

    1. Wilson CJ

    (1995) La contribución de las neuronas corticales al patrón de disparo de las neuronas espinosas del estriado. en Modelos de procesamiento de información en los ganglios basales, eds Houk JC, Davis JL, Beiser DG (MIT Press, Cambridge, MA), pp 29 – 50.

    1. Wilson FAW,
    2. Rolls ET

    (1990a) Respuestas neuronales relacionadas con la novedad y familiaridad de los estímulos visuales en la sustancia innominada, la banda diagonal de Broca y la región periventricular del cerebro anterior del primate. Exp. Brain Res. 80: 104-120.

    1. Wilson FAW,
    2. Rolls ET

    (1990b) Respuestas neuronales relacionadas con el refuerzo en el cerebro anterior basal del primate. Brain Res. 509: 213-231.

    1. Wilson FAW,
    2. Rolls ET

    (1990c) El aprendizaje y la memoria se reflejan en las respuestas de las neuronas relacionadas con el refuerzo en el cerebro anterior basal del primate. J. Neurosci. 10: 1254-1267.

    1. RA sabio

    (1982) Neurolépticos y comportamiento operante: la hipótesis de anhedonia. Behav. Cerebro sci. 5: 39-87.

    1. RA sabio

    (1996) Neurobiología de la adicción. Curr. Opin. Neurobiol. 6: 243-251.

    1. RA sabio,
    2. Colle L.

    (1984) La pimozida atenúa la alimentación gratuita: el análisis de las "mejores puntuaciones" revela un déficit motivacional. Psychopharmacologia 84: 446-451.

    1. RA sabio,
    2. Hoffman DC

    (1992) Localización de mecanismos de recompensa de fármacos por inyecciones intracraneales. Synapse 10: 247-263.

    1. RA sabio,
    2. Rompre P.-P.

    (1989) Dopamina cerebral y recompensa. Annu. Rev. Psychol. 40: 191-225.

    1. RA sabio,
    2. Spindler J.,
    3. de Wit H.,
    4. Gerber GJ

    (1978) "Anhedonia" inducida por neurolépticos en ratas: los bloques de pimozida recompensan la calidad de los alimentos. Ciencias: 201: 262-264.

    1. Wynne B.,
    2. Güntürkün O.

    (1995) Inervación dopaminérgica del telencéfalo de la paloma (Columba Liva): un estudio con anticuerpos contra tirosina hidroxilasa y dopamina. J. comp. Neurol. 357: 446-464.

    1. Yan Z.,
    2. Canción WJ,
    3. Surmeier DJ

    (1997) Los receptores de dopamina D2 reducen el Ca de tipo N2+ Corrientes en las interneuronas colinérgicas neostriatales de la rata a través de una vía insensible a la proteína-quinasa-C delimitada por la membrana. J. Neurofisiol. 77: 1003-1015.

    1. Yim CY,
    2. Mogenson GJ

    (1982) Respuesta de las neuronas del núcleo accumbens a la estimulación de la amígdala y su modificación por la dopamina. Brain Res. 239: 401-415.

    1. Joven amj,
    2. José MH,
    3. JA gris

    (1992) Aumento de la liberación de dopamina in vivo en el núcleo accumbens y el núcleo caudado de la rata durante la bebida: un estudio de microdiálisis. Neurociencia 48: 871-876.

    1. Joven amj,
    2. José MH,
    3. JA gris

    (1993) Inhibición latente de la liberación condicionada de dopamina en el núcleo accumbens de rata. Neurociencia 54: 5-9.

    1. Yung KKL,
    2. Bolam jp
    3. Smith AD,
    4. Hersch SM,
    5. Ciliax BJ,
    6. Levey AI

    (1995) Localización inmunocitoquímica de los receptores de dopamina D1 y D2 en los ganglios basales de la rata: microscopía óptica y electrónica. Neurociencia 65: 709-730.

  •