Aprendizaje guiado por la recompensa más allá de la dopamina en el núcleo accumbens: las funciones integradoras de las redes de ganglios cortico-basales (2008)

Eur J Neurosci. 2008 Oct;28(8):1437-48. doi: 10.1111/j.1460-9568.2008.06422.x.

Yin HH1, Ostlund SB, Balleine BW.

Resumen

Aquí desafiamos la opinión de que el aprendizaje guiado por la recompensa está controlado únicamente por la vía de mesoaccumbens que surge de las neuronas dopaminérgicas en el área tegmental ventral y se proyecta hacia el núcleo accumbens. Esta opinión ampliamente aceptada asume que la recompensa es un concepto monolítico, pero trabajos recientes han sugerido lo contrario. Ahora parece que, en el aprendizaje guiado por la recompensa, las funciones de las estrías ventral y dorsal, y los circuitos de ganglios cortico-basales asociados con ellas, pueden disociarse. Mientras que el núcleo accumbens es necesario para la adquisición y expresión de ciertas respuestas pavlovianas apetitivas y contribuye al control motivacional del desempeño instrumental, el estriado dorsal es necesario para la adquisición y expresión de acciones instrumentales. Dichos hallazgos sugieren la existencia de múltiples sistemas funcionales independientes pero interactivos que se implementan en iteraciones y redes de ganglios corticobásicos organizados jerárquicamente que participan en comportamientos apetitivos que van desde respuestas de enfoque pavloviano a acciones instrumentales dirigidas por objetivos controladas por contingencias de acción-resultado.

Palabras clave: estriado, dopamina, ganglios basales, aprendizaje, núcleo accumbens, recompensa

Se ha vuelto común en la literatura reciente encontrar un concepto monolítico de "recompensa" aplicado uniformemente al comportamiento apetitivo, ya sea para denotar cualquier cosa que sea buena para el organismo (generalmente desde la perspectiva del experimentador), o se usa indistintamente con términos más antiguos como 'refuerzo' o 'incentivo'. Este estado de cosas es alentado, si no es la consecuencia de, el enfoque en un solo sustrato neuronal para "recompensa" que implica la liberación de dopamina (DA) en el núcleo accumbens (Berke y Hyman, 2000; Grace et al., 2007).

El vínculo entre la vía de mesoaccumbens y la recompensa, reconocida hace décadas, se ha fortalecido con evidencia más reciente de que la señal de DA fásica codifica un error de predicción de recompensa, que presumiblemente sirve como una señal de enseñanza en el aprendizaje asociativo.gSchultz et al., 1997). De acuerdo con la interpretación más popular, al igual que hay una única señal de recompensa, también hay una única señal para el aprendizaje guiado por recompensa, que en este caso significa asociación entre un estímulo y una recompensa (Montague et al., 2004). La pregunta de cómo este tipo de aprendizaje controla el comportamiento adaptativo, sin embargo, se ha descuidado; simplemente se supone que la señal de dopamina es suficiente tanto para el aprendizaje predictivo y las respuestas condicionales engendradas de este modo, como para las acciones dirigidas por el objetivo guiadas por su asociación con la recompensa. En consecuencia, el enfoque de la mayoría de las investigaciones en el campo de la recompensa y la adicción es la señalización de DA y la plasticidad relacionada en el camino de mesoaccumbens (Berridge y Robinson, 1998; Hyman et al., 2006; Grace et al., 2007).

Esta visión del proceso de recompensa, como se reconoce cada vez más (Cardinal et al., 2002; Balleine, 2005; Everitt y Robbins, 2005; Hyman et al., 2006), es a la vez inadecuado y engañoso. Es inadecuado porque ni la adquisición ni el desempeño de las acciones dirigidas a la meta pueden explicarse en términos de los procesos asociativos que median el aprendizaje estímulo-recompensa.. Es engañoso, además, porque el enfoque exclusivo en la actividad en el camino de mesoaccumbens, que no es ni necesario ni suficiente para las acciones dirigidas a un objetivo, ha desviado la atención de la pregunta más fundamental de qué son exactamente las acciones dirigidas hacia un objetivo y cómo se implementan. por el cerebro. De hecho, de acuerdo con la evidencia convergente de una variedad de enfoques experimentales, lo que anteriormente parecía ser un mecanismo de recompensa individual puede, de hecho, comprender múltiples procesos con distintos efectos de comportamiento y sustratos neurales (Corbit et al., 2001; O'Doherty et al., 2004; Yin et al., 2004; Delgado et al., 2005; Yin et al., 2005b; Haruno y Kawato, 2006a; Tobler et al., 2006; Jedynak et al., 2007; Robinson et al., 2007; Tobler et al., 2007).

Aquí intentamos exponer algunos de los problemas asociados con el modelo actual de mesoaccumbens y proponer, en su lugar, un modelo diferente de aprendizaje guiado por recompensa. Argumentaremos que el cuerpo estriado es una estructura altamente heterogénea que puede dividirse en al menos cuatro dominios funcionales, cada uno de los cuales actúa como un centro en una red funcional distinta con otros componentes corticales, talámicos, palídicos y del cerebro medio.. Las funciones integradoras de estas redes, que van desde la producción de respuestas incondicionales provocadas por la recompensa hasta el control de las acciones dirigidas por el objetivo, pueden disociarse y estudiarse utilizando ensayos de comportamiento contemporáneos.

Predicción y control.

Se suele suponer que la vía de mesoaccumbens es necesaria para la adquisición de una asociación entre la recompensa y los estímulos ambientales que predicen esa recompensa. Por ejemplo, en algunos de los experimentos que examinan la actividad fásica de las células DA obtenidas por recompensa, los monos fueron entrenados para asociar un estímulo con la entrega de jugo (Waelti et al., 2001) y subsecuentemente responda al estímulo con una respuesta condicional (CR): lamido anticipatorio. La lamida del mono podría ser dirigida hacia el objetivo, porque cree que es necesario obtener jugo. Alternativamente, el lamido puede ser provocado por el estímulo antecedente con el que se asocia el jugo. ¿Cuál de estos determinantes del lamido de los monos es controlar el comportamiento? en cualquier situación particular no es conocido a priori, y no puede ser determinado por observación superficial; Solo se puede determinar utilizando pruebas diseñadas específicamente para este propósito. Estas pruebas, que han tardado muchas décadas en desarrollarse, forman el núcleo de los principales avances modernos en el estudio del aprendizaje y el comportamiento (Tabla 1). Por el uso de estas pruebas, que se analizará más adelante, ahora sabemos que la misma respuesta de comportamiento, ya sea un enfoque ambulatorio, orientar o presionar una palanca, puede surgir de múltiples influencias que son experimentalmente disociables.

Tabla 1  

Aprendizaje guiado por recompensa

La insensibilidad a la ambigüedad central en los determinantes reales del comportamiento es, por lo tanto, el principal problema con el análisis neurocientífico actual del aprendizaje guiado por recompensa. TPara comprender el significado de este problema, es necesario apreciar las diferencias entre cómo el aprendizaje predictivo (o pavloviano) y el aprendizaje dirigido por objetivos (o instrumental) controlan el comportamiento apetitivo. De hecho, a juzgar por la frecuencia con que estos dos procesos se han combinado en la literatura sobre recompensas, una breve revisión de esta distinción parece ser un punto de partida útil para nuestra discusión.

En el condicionamiento pavloviano apetitivo, la recompensa (es decir, el estímulo incondicional o EE. UU.) Se combina con un estímulo (estímulo condicional o CS), independientemente de la conducta del animal, mientras que en el aprendizaje instrumental, la recompensa depende de las acciones de los animales. Sin embargo, la pregunta crítica en ambas situaciones es si la asociación estímulo-recompensa o la asociación acción-recompensa controlan el comportamiento.

Tan simple como parece, esta pregunta eludió a los investigadores durante muchas décadas en gran parte porque las respuestas de comportamiento en estas situaciones pueden parecer idénticas.

Por lo tanto, las respuestas condicionales (CR) controladas por la asociación de estímulo-recompensa pavloviana a menudo pueden tener una apariencia de orientación hacia el objetivo. Incluso la salivación, el CR original de Pavlov, podría haber sido producido por sus perros como un intento deliberado de facilitar la ingestión. Es precisamente debido a esta ambigüedad que se aprendió la explicación más obvia, a saber, que en el condicionamiento pavloviano se aprende la asociación estímulo-resultado, mientras que en el condicionamiento instrumental se aprende la asociación acción-resultado, no se pudo obtener mucho apoyo durante muchas décadas (Desollador, 1938; Ashby, 1960; Bolles, 1972; Mackintosh, 1974). Sin embargo, aunque muchos CR de Pavlovian son autonómicos o consumatorios, otros CR, como el comportamiento de aproximación hacia una recompensa, no se caracterizan tan convenientemente (Rescorla y Solomon, 1967); de hecho, pueden confundirse fácilmente con acciones instrumentales (Brown y Jenkins, 1968; Williams y Williams, 1969; Schwartz y Gamzu, 1977). Ahora sabemos que, a pesar de una semejanza superficial, las RC de Pavlov y las acciones instrumentales dirigidas por objetivos difieren en la estructura de representación que controla el desempeño de la respuesta (Schwartz y Gamzu, 1977).

El medio más directo para establecer si el desempeño de una respuesta está mediado por un estímulo-recompensa o una asociación de acción-recompensa es examinar la contingencia específica que controla el desempeño. El ejemplo de salivación es instructivo aquí. Sheffield (1965) probó si la salivación en el condicionamiento pavloviano estaba controlada por su relación con la recompensa o por la asociación estímulo-recompensa. En su experimento, los perros recibieron parejas entre un tono y una recompensa de comida (Sheffield, 1965). Sin embargo, si los perros salivaron durante el tono, entonces la comida no se entregó en esa prueba. Este acuerdo mantuvo una relación pavloviana entre el tono y la comida, pero abolió cualquier asociación directa entre la salivación y la entrega de alimentos. Si la salivación era una acción controlada por su relación con la comida, entonces los perros deberían dejar de salivar; de hecho, nunca deberían adquirir salivación del tono. Sheffield descubrió que era claramente la relación entre el tono pavloviano y la comida lo que controlaba la salivación CR. Durante el transcurso de más de 800 tono-comida, los perros adquirieron y mantuvieron la salivación en el tono a pesar de que esto resultó en la pérdida de la mayor parte de la comida que pudieron haber obtenido al no salivar. Una conclusión similar fue alcanzada por otros en estudios con humanos (Pithers, 1985) y otros animales (Brown y Jenkins, 1968; Williams y Williams, 1969; Holanda, 1979); en todos los casos, parece que, a pesar de su gran variedad, las respuestas pavlovianas no están controladas por su relación con la recompensa, es decir, por la contingencia acción-resultado.

El término contingencia se refiere a la relación condicional entre un evento 'A' y otro, 'B', de modo que la aparición de B depende de A. Una relación de este tipo puede degradarse fácilmente presentando B en ausencia de A. Esto La manipulación experimental, conocida como degradación de contingencia, se realiza comúnmente presentando una recompensa independientemente del estímulo predictivo o de la acción. Aunque este enfoque se desarrolló originalmente para estudiar el condicionamiento pavloviano (Rescorla, 1968), la degradación de contingencia instrumental también se ha convertido en una herramienta común (Hammond, 1980). Cuando estas contingencias se manipulan directamente, el contenido del aprendizaje se revela: por ejemplo, en el autoconformado, un CR pavloviano "disfrazado" como acción instrumental se ve interrumpido por manipulaciones del pavloviano en lugar de la contingencia instrumental (Schwartz y Gamzu, 1977).

Las acciones instrumentales dirigidas a un objetivo se caracterizan por dos criterios: 1) sensibilidad a los cambios en el valor del resultado y 2) sensibilidad a los cambios en la contingencia entre acción y resultado (Dickinson, 1985; Dickinson y Balleine, 1993). La sensibilidad a la devaluación del resultado solo, debe enfatizarse, no es suficiente para caracterizar una respuesta como dirigida hacia el objetivo, ya que algunas respuestas pavlovianas también pueden ser sensibles a esta manipulación (Holanda y Rescorla, 1975). Sin embargo, el desempeño de acciones instrumentales dirigidas a un objetivo también es sensible a las manipulaciones de la contingencia de acción-resultado, mientras que las respuestas de Pavlovian son sensibles a la manipulación de la contingencia de estímulo-resultado (Rescorla, 1968; Davis y Bitterman, 1971; Dickinson y Charnock, 1985). Sin embargo, se puede encontrar una excepción importante en el caso de los hábitos (ver más abajo), que son más similares a las respuestas de Pavlov en su relativa insensibilidad a los cambios en la contingencia instrumental, pero también son impermeables a la devaluación del resultado porque el resultado no es parte. de la estructura representacional que controla el desempeño (cf. Dickinson, 1985 y más abajo para mayor discusión).

Para resumir, entonces, es de suma importancia que una respuesta particular se defina claramente en términos de la contingencia de control en lugar de la forma de respuesta o la tarea de comportamiento utilizada para establecerla. Sin examinar la contingencia de control en una situación dada, es probable que tanto el comportamiento como los procesos neuronales encontrados para mediar el comportamiento sean mal caracterizados. En última instancia, como argumentaremos, son las contingencias reales de control, adquiridas a través del aprendizaje e implementadas por distintos sistemas neuronales, las que controlan el comportamiento, aunque pueden compartir la misma 'vía común final'. Por lo tanto, el desafío central es ir más allá de las apariencias para descubrir el comportamiento de control de contingencia subyacente (para un resumen, consulte Tabla 1). Para afirmar que las estructuras neuronales específicas median las capacidades psicológicas específicas, por ejemplo, la dirección de la meta, el estado de la conducta debe evaluarse con los ensayos de conducta apropiados. Hacer lo contrario es invitar a la confusión cuando los grupos discuten sobre los determinantes neuronales apropiados y no reconocen que sus tareas de comportamiento podrían medir diferentes fenómenos. Lo que importa, en última instancia, es lo que el animal realmente aprende, no lo que el experimentador cree que el animal aprende, y lo que el animal realmente aprende solo puede ser revelado por ensayos que sondean directamente el contenido del aprendizaje.

La distinción pavloviano-instrumental habría sido trivial, si el animal hubiera logrado aprender lo mismo (por ejemplo, una asociación entre el estímulo y la recompensa) sin importar cuáles sean los arreglos experimentales. Usando las medidas más comunes de aprendizaje disponibles para la neurociencia hoy en día, simplemente no hay manera de saberlo. Por lo tanto, los investigadores a menudo afirman estudiar el comportamiento dirigido a un objetivo sin examinar si el comportamiento en cuestión está dirigido hacia el objetivo. Aunque comúnmente se asume que los diferentes tipos de aprendizaje resultan del uso de diferentes "tareas" o "paradigmas", la mayoría de las veces los investigadores no proporcionan una justificación adecuada para sus supuestos.

Un ejemplo clásico de este problema es el uso de laberintos para estudiar el aprendizaje. Un problema con los experimentos en laberinto y los ensayos relacionados, como la preferencia de lugar condicionado, es la dificultad de disociar experimentalmente la influencia de las contingencias pavlovianas (estímulo-recompensa) e instrumentales (acción-recompensa) sobre el comportamiento (Dickinson, 1994; Yin y Knowlton, 2002). Por lo tanto, moverse a través de un laberinto en T para obtener alimentos podría reflejar una estrategia de respuesta (girar a la izquierda) o simplemente un enfoque condicionado hacia algún hito extra-laberinto controlado por la asociación cue-food (Restle, 1957). Una forma de probar si este último juega un papel en el rendimiento es invertir el laberinto; ahora los estudiantes de respuesta deben continuar girando a la izquierda, mientras que aquellos que usan pistas extra-laberinto deben girar a la derecha. Pero son aquellos que siguen girando a la izquierda usando realmente una estrategia de respuesta o simplemente se están acercando a algunos Intra¿Laberinto relacionado con la comida? No es una cuestión fácil de descubrir, porque los controles habituales para el control de la conducta de Pavlov no se pueden aplicar fácilmente en estudios de laberinto. Uno de estos, el control bidireccional, establece que los animales pueden ejercer el control sobre una respuesta particular al requerir la inversión de la dirección de esa respuesta para ganar la recompensa (Hershberger, 1986; Heyes y Dawson, 1990). Desafortunadamente, en un laberinto, la reversión de la respuesta aún puede no ser suficiente para establecer una acción como dirigida hacia el objetivo, porque la reversión puede lograrse extinguiendo la relación de estímulo-recompensa existente y sustituyéndola por otra. Por ejemplo, una rata que se aproxima a una señal particular dentro del laberinto puede aprender, durante la reversión, que ya no está emparejada con la recompensa, sino que es algún otro estímulo, lo que resulta en la adquisición de un enfoque CR hacia el nuevo estímulo. Por lo tanto, aparentemente pueden revertir su respuesta sin haber codificado nunca la contingencia de respuesta-recompensa. Debido a que esta posibilidad no se puede probar en la práctica, el uso de laberintos, procedimientos de preferencia de lugar o tareas locomotoras simples para estudiar procesos de aprendizaje orientados a objetivos es particularmente peligroso y puede resultar en una caracterización errónea de los procesos que controlan el comportamiento junto con el papel específico de cualquier neuronal. procesos que se encuentran involucrados (Smith-Roe y Kelley, 2000; Hernández et al., 2002; Atallah y otros, 2007).

Nucleus accumbens no es necesario para el aprendizaje instrumental.

Las insuficiencias del análisis conductual actual se vuelven particularmente claras en el estudio del núcleo accumbens. Muchos estudios han sugerido que esta estructura es crítica para la adquisición de acciones dirigidas a objetivos. (Hernández et al., 2002; Goto y Gracia, 2005; Hernández et al., 2005; Pothuizen et al., 2005; Taha y Campos, 2006; Atallah y otros, 2007; Cheer et al., 2007; Lerchner et al., 2007). Pero esta conclusión se ha alcanzado en gran medida con las medidas de un cambio en el rendimiento solo, utilizando tareas en las que el comportamiento de control de contingencia es ambiguo. Aunque la observación de que una manipulación perjudica la adquisición de alguna respuesta conductual podría indicar un déficit de aprendizaje, también podría reflejar un efecto en el inicio de la respuesta o la motivación. Por ejemplo, un impedimento en la adquisición de la presión de palanca a menudo puede reflejar un efecto en el rendimiento en lugar de en el aprendizaje (Smith-Roe y Kelley, 2000). Las curvas de adquisición solas, como representaciones incompletas de cualquier proceso de aprendizaje, deben interpretarse con cautela (Gallistel et al., 2004). Desafortunadamente, la distinción entre aprendizaje y rendimiento, tal vez la lección más antigua en el estudio del aprendizaje, a menudo se ignora hoy.

Un análisis más detallado indica que el accumbens no es necesario ni suficiente para el aprendizaje instrumental. Las lesiones de la cáscara de accumbens no alteran la sensibilidad del desempeño a la devaluación del resultado (de Borchgrave et al, 2002; Corbit et al, 2001) o a la degradación de contingencia instrumental (Corbit et al, 2001), mientras que se ha encontrado que las lesiones del núcleo de accumbens reducen la sensibilidad a la devaluación sin perjudicar la sensibilidad de las ratas a la degradación selectiva de la contingencia instrumental (Corbit et al., 2001). Otros estudios que evalúan el efecto de las manipulaciones de accumbens en la adquisición de una nueva respuesta en estudios de refuerzo condicionado han encontrado un efecto en el rendimiento relacionado con la recompensa, en particular la mejora del rendimiento de la anfetamina, pero no en la adquisición de la respuesta per se (Parkinson et al, 1999). Del mismo modo, un estudio sistemático realizado por Cardinal y Cheung tampoco encontró ningún efecto de las lesiones del núcleo accumbens en la adquisición de una respuesta de presión de palanca bajo un programa de refuerzo continuo; la adquisición deteriorada solo se observó con refuerzo retrasado (Cardenal y Cheung, 2005).

Aunque el accumbens no codifica la contingencia instrumental (Balleine & Killcross, 1994; Corbit, Muir y Balleine, 2001), evidencia considerable sugiere que juega un papel fundamental en actuación, un rol que ahora podemos definir mejor a la luz del trabajo reciente. Como concluyeron varios estudios, el accumbens es crítico para ciertos tipos de condicionamiento pavloviano apetitoso, y media los efectos excitatorios no específicos que pueden tener las señales asociadas a la recompensa en el desempeño instrumental, así como los sesgos específicos del resultado en la selección de respuesta producida. por tales señales. Las lesiones del núcleo, o del cingulado anterior, una fuente importante de entrada cortical al núcleo, o una desconexión entre estas dos estructuras, perjudican la adquisición del comportamiento de abordaje pavloviano (Parkinson et al., 2000). La infusión local de un antagonista del receptor de dopamina tipo D1 o un antagonista del receptor de glutamato NMDA inmediatamente después del entrenamiento también afectó esta forma de aprendizaje sin afectar el rendimiento (Dalley et al., 2005). Estos datos concuerdan con las medidas de in vivo actividad neuronal. Por ejemplo, Carelli y sus colegas encontraron que las neuronas en el núcleo de los accumbens pueden cambiar su actividad sistemáticamente durante el aprendizaje de una tarea de autoconformación pavloviana (Day et al., 2006; Día y Carelli, 2007).

Las neuronas en la región de la concha parecen estar sintonizadas con recompensas y estímulos aversivos, incluso antes de cualquier experiencia de aprendizaje; también son capaces de desarrollar respuestas a los CS que predicen estos resultados (Roitman et al., 2005). El trabajo de Berridge y sus colegas, además, ha planteado la posibilidad de que ciertas regiones dentro del núcleo de la cáscara accumbens y en el pálido ventral aguas abajo se puedan caracterizar como "puntos calientes hedónicos". Estas áreas modulan directamente las respuestas hedónicas incondicionales a las recompensas, como la reactividad del gusto. Por ejemplo, los agonistas de los receptores de opioides en estas regiones pueden amplificar significativamente la reactividad del sabor ingestivo a la sacarosa. Sin embargo, estas regiones altamente localizadas están integradas en redes más amplias que no desempeñan un papel en el comportamiento apetitivo consumatorio (Taha y Campos, 2005; Pecina et al., 2006; Taha y Campos, 2006).

La distinción en los roles relativos de núcleo y concha parece ser uno entre los comportamientos apetitivos preparatorios y consumatorios, respectivamente, que pueden modificarse fácilmente por la experiencia a través de distintos tipos de condicionamiento pavloviano. Las respuestas preparatorias, como el enfoque, están vinculadas con las cualidades emocionales generales del resultado, mientras que las conductas consumadoras están vinculadas con cualidades sensoriales más específicas; también son diferencialmente susceptibles a diferentes tipos de CS, por ejemplo, las respuestas preparatorias se condicionan más fácilmente con un estímulo de larga duración (Konorski, 1967; Dickinson y Dearing, 1979; Balleine, 2001; Dickinson y Balleine, 2002).

En cualquier caso, la evidencia que implica a los accumbens en algunos aspectos del condicionamiento pavloviano es abrumadora. Sin embargo, no es la única estructura involucrada, y otras redes, como las que involucran a los diversos núcleos amigdaloides, también parecen desempeñar un papel central tanto en los componentes preparatorios como en los componentes consumatorios del conditoning pavloviano. (Balleine y Killcross, 2006).

Una función que puede atribuirse claramente a los accumbens es la integración de las influencias pavlovianas en el comportamiento instrumental. Las RC de Pavlov, incluidas aquellas que reflejan la activación de estados motivacionales centrales, como el deseo y la excitación, pueden ejercer una fuerte influencia en el desempeño de las acciones instrumentales (Trapold y Overmier, 1972; Lovibond, 1983; Holanda, xnumx). Por ejemplo, un CS que predice de forma independiente la entrega de alimentos puede aumentar la respuesta instrumental para el mismo alimento. Este efecto es comúnmente estudiado usando el paradigma de transferencia pavloviano-instrumental (PIT). En PIT, los animales reciben fases de entrenamiento pavloviano e instrumental por separado, en las que aprenden, de forma independiente, a asociar una señal con la comida y a presionar una palanca para la misma comida. Luego, en las pruebas de sondeo, la señal se presenta con la palanca disponible y se mide la elevación de las tasas de respuesta en presencia de la CS. Se han identificado dos formas de PIT; uno relacionado con el efecto generalmente excitante de señales relacionadas con la recompensa y un segundo efecto más selectivo sobre el rendimiento de la elección producido por el estado predictivo de una señal con respecto a una recompensa específica en comparación con otras. La cubierta de accumbens es necesaria para esta última forma de PIT específica para el resultado, pero no es necesaria para la primera forma más general ni para la sensibilidad a la devaluación del resultado; en contraste, las lesiones del núcleo de accumbens reducen la sensibilidad tanto a la devaluación del resultado como a la forma general de PIT, pero dejan intacto el PIT intacto específico del resultado (Corbit et al., 2001; (Balleine y Corbit, 2005).

Un estudio reciente proporcionó información adicional sobre el papel de la capa accumbens en el PIT específico para el resultado (Wiltgen y otros, 2007). La expresión controlada de la proteína quinasa II dependiente de calcio / calmodulina activa (CaMKII) en el cuerpo estriado no afectó el aprendizaje instrumental o pavloviano, pero eliminó el PIT específico. Este déficit en PIT no fue permanente y podría revertirse desactivando la expresión del transgén con doxiciclina, lo que demuestra que el déficit se asoció solo con el rendimiento. La mejora artificial del nivel de CaMKII en el cuerpo estriado, por lo tanto, bloquea la transferencia de incentivación específica para el resultado del sistema pavloviano al sistema instrumental. Curiosamente, también se encontró que la activación del transgén CaMKII reduce la excitabilidad de las neuronas en la capa accumbens, sin afectar la transmisión basal o la fuerza sináptica.

El cuerpo estriado dorsal

El cuerpo estriado dorsal, también conocido como neostriatum o caudate-putamen, Recibe proyecciones masivas del llamado neocórtex. Puede dividirse adicionalmente en una región asociativa, que en roedores es más medial y continua con el estriado ventral, y una región sensoriomotora que es más lateral. (Groenewegen et al., 1990; Joel y Weiner, 1994). En conjunto, el estriado dorsal está inervado por células DA de la sustancia negra compacta (SNc), y solo recibe proyecciones magras de las neuronas VTA DA. (Joel y Weiner, 2000). El trabajo anterior en el cuerpo estriado dorsal se ha centrado principalmente en su papel en el aprendizaje del hábito de estímulo-respuesta (SR) (Miller, 1981; Blanco, xnumx). Esta visión se basa en la ley del efecto, según la cual una recompensa actúa para fortalecer o reforzar una asociación de RS entre los estímulos ambientales y la respuesta realizada como resultado de lo cual la tendencia a realizar esa respuesta aumenta en presencia de aquellos. estímulosThorndike, 1911; Casco, xnumx; Miller, 1981). Por lo tanto, se cree que la vía corticostriatal media en el aprendizaje de SR con DA que actúa como la señal de refuerzo (Miller, 1981; Reynolds y Wickens, 2002).

Los modelos SR tienen la ventaja de contener una regla parsimoniosa para traducir el aprendizaje en desempeño. Un modelo basado en expectativas relacionadas con la acción, por el contrario, es más complicado porque la creencia de que "la Acción A conduce al Resultado O" no necesariamente tiene que traducirse a la acción (Guthrie, 1935; Mackintosh, 1974); La información de este tipo se puede utilizar tanto para realizar 'A' como para evitar que se realice 'A'. Por esta razón, las teorías tradicionales rechazaron la explicación más obvia, a saber, que los animales pueden adquirir una contingencia de acción-resultado que guía el comportamiento de elección. Las últimas décadas, sin embargo, han visto una revisión sustancial de la ley de efecto (Adams, xnumx; Colwill y Rescorla, 1986; Dickinson, 1994; Dickinson et al., 1996). TLos resultados de muchos estudios han demostrado que las acciones instrumentales pueden ser verdaderamente dirigidas a un objetivo, es decir, sensibles a los cambios en el valor de recompensa, así como a la eficacia causal de la acción. (ver Dickinson y Balleine, 1994; 2002; Balleine, 2001 para comentarios). Sin embargo, a lo largo del curso de un entrenamiento extenso en condiciones constantes, incluso las acciones recientemente adquiridas pueden volverse relativamente automáticas e impulsadas por estímulos, un proceso conocido como formación de hábito (Adams y Dickinson, 1981; Adams, xnumx; Yin et al., 2004). Los hábitos así definidos, que son provocados automáticamente por estímulos antecedentes, no son controlados por la expectativa o representación del resultado; por lo tanto, son impermeables a los cambios en el valor del resultado. Desde esta perspectiva, la ley del efecto es, por lo tanto, un caso especial que se aplica solo al comportamiento habitual.

La clasificación actual del comportamiento instrumental lo divide en dos clases. TLa primera clase comprende acciones dirigidas por el objetivo controladas por la contingencia instrumental; El segundo, comportamiento habitual impermeable a los cambios en el valor del resultado. (Tabla 1). Usando ensayos de comportamiento como la devaluación de los resultados y la degradación de la contingencia instrumental, Yin et al. Establecieron una disociación funcional entre el sensorimotor (estriado dorsolateral, DLS) y las regiones asociativas (estriado dorsomedial, DMS) del estriado dorsal (Yin y Knowlton, 2004; Yin et al., 2004, 2005a; Yin et al., 2005b; Yin et al., 2006a). Las lesiones de la DLS afectaron el desarrollo de hábitos, lo que dio como resultado un modo de control de la conducta más orientado hacia el objetivo. Las lesiones del DMS tienen el efecto contrario y dan lugar a un cambio de control dirigido a objetivo a control habitual. Yin et al concluyeron, por lo tanto, que el DLS y el DMS pueden ser disociados funcionalmente en términos del tipo de estructuras asociativas que soportan: el DLS es crítico para la formación de hábitos, mientras que el DMS es crítico para la adquisición y expresión de acciones dirigidas a objetivos. Este análisis predice que, bajo ciertas condiciones (por ejemplo, entrenamiento extendido), el control de las acciones puede cambiar del sistema dependiente de DMS al sistema dependiente de DLS, una conclusión que está en gran acuerdo con la considerable literatura sobre primates, incluida la neuroimagen humana (Hikosaka y otros, 1989; Jueptner et al., 1997a; Miyachi et al., 1997; Miyachi et al., 2002; Delgado et al., 2004; Haruno et al., 2004; Tricomi et al., 2004; Delgado et al., 2005; Samejima et al., 2005; Haruno y Kawato, 2006a, b; Lohrenz et al., 2007; Tobler et al., 2007). Se debe recordar, por supuesto, tLa ubicación física del sombrero (p. ej., dorsal o ventral) por sí sola no puede ser una guía confiable para comparar el estriado de roedor y el estriado de primate; dichas comparaciones deben hacerse con precaución, después de una cuidadosa consideración de la conectividad anatómica.

Los efectos de las lesiones del estriado dorsal se pueden comparar con los de las lesiones de Accumbens (Smith-Roe y Kelley, 2000; Atallah y otros, 2007). Como ya se mencionó, las pruebas estándar para establecer un comportamiento como 'dirigido a un objetivo' son la devaluación y degradación de los resultados de la contingencia acción-resultado (Dickinson y Balleine, 1993). Las lesiones del DMS hacen que el comportamiento sea insensible a ambas manipulaciones (Yin et al., 2005b), mientras que las lesiones del núcleo o concha de los accumbens no lo hacen (Corbit et al., 2001). Además, las pruebas de sondeo de estos ensayos de comportamiento generalmente se realizan en extinción, sin la presentación de ninguna recompensa, para evaluar lo que el animal ha aprendido sin contaminación por nuevo aprendizaje. Por lo tanto, sondean directamente la estructura representativa controlando el comportamiento Como control experimental adicional, a menudo es útil realizar una prueba de devaluación por separado en la que se entregan las recompensas, la llamada "prueba recompensada". Las lesiones del DMS no eliminaron la sensibilidad a la devaluación del resultado en la prueba recompensada, como debería esperarse ya que la entrega de un resultado devaluado contingente en una acción puede suprimir la acción independientemente de la codificación acción-resultado. Las lesiones de la cáscara de Accumbens, por otro lado, no afectaron la sensibilidad a la devaluación del resultado ni en la prueba de extinción ni en la prueba con recompensa, mientras que las lesiones del núcleo de Accumbens eliminaron la sensibilidad a la devaluación en ambas pruebas (Corbit et al., 2001). Sin embargo, la sensibilidad a la degradación de la contingencia no se vio afectada por ninguna de las lesiones, lo que demuestra que, después de las lesiones de Accumbens, las ratas fueron capaces de codificar y recuperar representaciones de acción-resultado.

El papel de la dopamina: mesolímbico vs. nigrostriatal

Desde los estudios pioneros sobre la actividad fásica de las neuronas DA en monos, una suposición común en el campo es que todas las células DA se comportan esencialmente de la misma manera (Schultz, 1998a; Montague et al., 2004). Sin embargo, los datos disponibles, así como la conectividad anatómica, sugieren lo contrario. De hecho, el análisis anterior de la heterogeneidad funcional en el estriado también puede extenderse a las células DA en el cerebro medio.

Las células DA se pueden dividir en dos grupos principales: VTA y sustancia nigra pars compacta (SNc). Aunque la proyección desde el VTA para accumbens ha sido el centro de atención en el campo del aprendizaje relacionado con la recompensa, la vía nigrostriatal mucho más masiva ha sido relativamente descuidada, con atención centrada principalmente en su papel en la enfermedad de Parkinson. Pensamiento actual sobre el papel de DA en el aprendizaje ha sido fuertemente influenciada por la propuesta de que la actividad fásica de las células DA refleja una predicción de recompensa.rLjungberg et al., 1992; Schultz, 1998b). yoEn la tarea de condicionamiento pavloviano más común utilizada por Schultz y colegas, estas neuronas se activan en respuesta a la recompensa (EE. UU.) pero, con el aprendizaje, la actividad evocada por los EE. UU. se traslada a la CS. Cuando se omite EE. UU. Después del aprendizaje, las células DA muestran una breve depresión en la actividad en el momento esperado de su entrega (Waelti et al., 2001; Fiorillo et al., 2003; Tobler et al., 2003). Dichos datos forman la base de una variedad de modelos computacionales (Schultz et al., 1997; Schultz, 1998b; Brown et al., 1999; Montague et al., 2004).

Dados los múltiples niveles de control en los mecanismos de síntesis y liberación, la potenciación de las neuronas DA no puede equipararse con la liberación de DA, aunque uno podría esperar que estas dos medidas estén altamente correlacionadas. De hecho, como lo muestra un estudio reciente de Carelli y sus colegas que utilizan voltamperometría cíclica de barrido rápido, La liberación real de DA en el núcleo de accumbens parece estar correlacionada con un error de predicción en el condicionamiento pavloviano apetito (Day et al., 2007). Encontraron una señal de DA fásica en el núcleo de accumbens inmediatamente después de recibir la recompensa de sacarosa en el autoconformado de Pavlov. Sin embargo, después del prolongado condicionamiento pavloviano, esta señal ya no se encontró después de la recompensa, sino que se cambió a la CS. Este hallazgo apoya la hipótesis original de 'error de predicción'. También es consistente con trabajos anteriores que muestran un rendimiento deficiente de la CR de Pavloviana después de un antagonismo del receptor de DA o de un agotamiento de la DA en el núcleo de accumbens (Di Ciano et al., 2001; Parkinson et al., 2002). Sin embargo, una observación del estudio es nueva y de considerable interés: después del acondicionamiento prolongado con un CS + que predice la recompensa y un CS- que no predice la recompensa, también se observó una señal DA similar, aunque más pequeña, después del CS- también mostró una ligera caída inmediatamente (500 ~ 800 milisegundos después del inicio de la señal) después del pico inicial (Day et al, 2007, Figura 4). En esta etapa del aprendizaje, los animales casi nunca se acercan al CS, sino que se acercan constantemente al CS +. Por lo tanto, la señal DA fásica inmediatamente después del predictor puede no jugar un papel causal en la generación de la respuesta de enfoque, ya que está presente incluso en ausencia de la respuesta. Si tal señal todavía es necesaria para aprender la contingencia de estímulo-recompensa, aún no está claro, pero la respuesta fásica observada a la CS- ciertamente no es predicha por ninguno de los modelos actuales.

Curiosamente, el agotamiento de la DA local perjudica el rendimiento en esta tarea (Parkinson et al., 2002). Mientras que una señal de DA fásica se observa después de la CS-, que no genera CR en absoluto, la eliminación de la DA tanto fásica como tónica por el agotamiento local perjudica el rendimiento de los CR. Tal patrón sugiere que no se necesita una señal de DA fásica en los accumbens para el desempeño de la CR de Pavlov, pero puede jugar un papel en el aprendizaje, mientras que una señal de DA más tónica y más lenta (supuestamente eliminada en estudios de agotamiento) es más importante para el desempeño de la respuesta de aproximación (Cagniard et al., 2006; Yin et al., 2006b; Niv et al., 2007). Esta posibilidad queda por probar.

Aunque no hay evidencia directa de un papel causal de la señal de DA fásica en el aprendizaje, la hipótesis del 'error de predicción' ha atraído mucha atención, porque es precisamente el tipo de señal de enseñanza utilizada en modelos destacados de aprendizaje. como el modelo Rescorla-Wagner y su extensión en tiempo real, el algoritmo de aprendizaje de refuerzo de diferencia temporal (Schultz, 1998b). De acuerdo con esta interpretación, el aprendizaje apetitivo está determinado por la diferencia entre la recompensa recibida y la recompensa esperada (o entre dos predicciones de recompensa temporalmente sucesivas). Tal señal de enseñanza está regulada por la retroalimentación negativa de todos los predictores de la recompensa (Schultz, 1998b). Si ninguna recompensa sigue al predictor, entonces el mecanismo de retroalimentación negativa se desenmascara como una disminución de la actividad de las neuronas DA. Por lo tanto, el aprendizaje implica la reducción progresiva del error de predicción.

La elegancia de la señal de enseñanza en estos modelos quizás ha distraído a algunos de la realidad anatómica. En el estudio por Day et al (2007), la señal DA en los accumbens proviene principalmente de células en el VTA, pero parece poco probable que otras células DA, con conectividad anatómica completamente diferente, muestren el mismo perfil de respuesta y proporcionen la misma señal. Un gradiente en lo que la señal de las células DA es más probable, ya que las células DA se proyectan a diferentes regiones del estriado con funciones completamente diferentes, y reciben, a su vez, distintas señales de retroalimentación negativa de diferentes regiones del estriado también (Joel y Weiner, 2000; Wickens et al., 2007). Los mecanismos de captación y degradación, así como los receptores presinápticos que regulan la liberación de dopamina, también muestran una variación considerable a lo largo del estriado (Cragg et al., 2002; Arroz Y Cragg, 2004; Wickens et al., 2007; Arroz Y Cragg, 2008).

Proponemos, por lo tanto, que la vía de mesoacumbenos juega un papel más restringido en el aprendizaje pavloviano, en la adquisición del valor de los estados y los estímulos, mientras que la vía nigrostriatal es más importante para el aprendizaje instrumental, en la adquisición de los valores de las acciones. Tlo que es, la señal fásica DA puede codificar diferentes errores de predicción, en lugar de un solo error de predicción, como se supone actualmente. Tres líneas de evidencia apoyan este argumento. Primero, el agotamiento genético de la DA en la vía nigrostriatal afecta la adquisición y ejecución de acciones instrumentales, mientras que el agotamiento de la DA en la vía mesolímbica no lo hace (Sotak et al., 2005; Robinson et al., 2007). Segundo, las células DA en la SNc pueden codificar el valor de las acciones, similar a las células en su región del estriado objetivo (Morris y otros, 2006). En tercer lugar, la lesión selectiva de la proyección nigrostriatal a la DLS deteriora la formación de hábitos (Faure et al., 2005).

El trabajo reciente de Palmiter y sus colegas demostró que los ratones con deficiencia de DA modificados genéticamente tienen un grave deterioro en el aprendizaje y el rendimiento instrumental, pero su rendimiento podría restablecerse mediante la inyección de L-DOPA o mediante la transferencia de genes virales a la vía nigrostriatal (Sotak et al., 2005; Robinson et al., 2007). Por el contrario, la restauración de la DA en el estriado ventral no fue necesaria para restablecer el comportamiento instrumental. Aunque la forma en que las señales de DA habilitan el aprendizaje instrumental sigue siendo una pregunta abierta, una posibilidad obvia es que podría codificar el valor de las acciones iniciadas por sí mismo, es decir, cuánta recompensa se predice en un curso de acción particular.

El cuerpo estriado dorsal, en su conjunto, contiene la expresión más alta de los receptores de DA en el cerebro y recibe la proyección dopaminérgica más masiva.. La proyección de DA al DMS puede jugar un papel diferente en el aprendizaje que la proyección a DLS, ya que estas dos regiones difieren significativamente en el perfil temporal de la liberación, absorción y degradación de DA (Wickens et al., 2007). Nuestra hipótesis es que la proyección de DA al DMS desde el SNc medial es crítica para el aprendizaje de acción-resultado, mientras que la proyección de DA al DLS desde el SNc lateral es crítica para la formación de hábitos. Si esto fuera cierto, se debe esperar que las células DA en la SNc codifiquen el error en la predicción de recompensa basada en acciones autogeneradas (error de predicción instrumental) en lugar de la que se basa en la CS. La evidencia preliminar que respalda esta afirmación proviene de un estudio reciente de Morris y otros, que registraron las neuronas SNc durante una tarea de aprendizaje instrumental (Morris y otros, 2006). Los monos fueron entrenados para mover sus brazos en respuesta a un estímulo discriminativo (SD) que indica el movimiento apropiado y la probabilidad de recompensa. La sD provocó la actividad fásica en las neuronas DA correspondiente al valor de acción en función de la probabilidad de recompensa esperada de una acción particular. Lo más interesante, aunque la respuesta de la DA a la SD incrementado con el valor de acción, lo inverso fue cierto de la respuesta de DA a la recompensa en sí misma, consistente con la idea de que estas neuronas codificaban un error de predicción asociado con ese valor. No es sorprendente que se sepa que el objetivo estriado primario de estas células, el núcleo caudado, contiene neuronas que codifican valores de acción (Samejima et al., 2005). Cabe señalar, sin embargo, que este estudio no utilizó tareas de comportamiento que evalúan de forma inequívoca el valor de las acciones. Una clara predicción de nuestro modelo es que la actividad de DA fásica acompañará el desempeño de las acciones, incluso en ausencia de una S explícita.D. Por ejemplo, predecimos la activación por ráfaga de las neuronas DA nigral en el momento de una acción autoiniciada que gana una recompensa.

Desde nuestro punto de vista, mientras que la señal DA de mesoaccumbens refleja el valor de la CS, la señal nigrostriatal, tal vez de aquellas neuronas que se proyectan al DMS, refleja el valor de la acción en sí misma, o de cualquier SD que predice este valor. Además, tanto el aprendizaje instrumental como el pavloviano parecen implicar alguna forma de retroalimentación negativa para controlar la señal de enseñanza efectiva. De hecho, las proyecciones directas del estriado a las neuronas DA del cerebro medio (Figura 2 y XNUMX) han sido propuestas como la implementación neuronal de este tipo de retroalimentación negativa (Houk et al., 1995), y la fuerza y ​​la naturaleza de la entrada inhibitoria pueden variar considerablemente de una región a otra.

Figura 2 y XNUMX  

Las redes de ganglios cortico-basales.

Un error de predicción, según los modelos actuales, es una señal de enseñanza que determina la cantidad de aprendizaje que se produce. Mientras esté presente, el aprendizaje continúa. Por muy obvio que aparezca este reclamo, un error de predicción para el valor de acción, aunque sintácticamente similar al error de predicción de Pavlov, tiene características únicas que no se han examinado exhaustivamente. En los modelos tradicionales como el modelo Rescorla-Wagner, que aborda exclusivamente el condicionamiento pavloviano (aunque con un éxito limitado), la característica clave es la retroalimentación negativa que regula el error de predicción. Esta salida representa la predicción adquirida, más específicamente la suma de todos los predictores actuales, según lo capturado por los estímulos compuestos que se utilizan normalmente en los experimentos de bloqueo (Rescorla, 1988). Esta suma de predictores disponibles para establecer un término de error global es la principal innovación en esta clase de modelo. Sin embargo, para las acciones instrumentales, los términos de error individuales parecen más probables, ya que es difícil ver cómo la retroalimentación negativa presentaría el valor de múltiples acciones simultáneamente cuando solo se puede realizar una acción a la vez. Por supuesto, existen varias soluciones posibles. Por ejemplo, dado un estado particular (implementado experimentalmente por un S distintoD), los posibles cursos de acción podrían, de hecho, representarse simultáneamente como predicciones adquiridas. Pero la principal dificultad con los errores de predicción instrumental tiene que ver con la naturaleza de la acción en sí. Una predicción pavloviana sigue automáticamente la presentación del estímulo, que es independiente del organismo. Un error de predicción instrumental debe abordar el elemento de control, porque la predicción es en sí misma contingente a la acción, y se emite espontáneamente una acción deliberada basada en la búsqueda de los animales de las consecuencias de actuar en lugar de ser provocada por estímulos precedentes. Al final, es precisamente un descuido general de la naturaleza espontánea de las acciones dirigidas a un objetivo, tanto en neurociencia como en psicología, lo que ha desdibujado la distinción entre los procesos de aprendizaje instrumental y pavloviano, y la naturaleza de los errores de predicción involucrados. Queda por establecer, por lo tanto, qué tipo de señal de retroalimentación negativa, si la hay, regula la adquisición de valores de acción (Dayan y Balleine, 2002).

Finalmente, trabajos recientes también han implicado la proyección nigrostriatal del SNc lateral a DLS específicamente en la formación de hábito. Faure et al. Procesaron de forma selectiva las células DA que se proyectan a DLS utilizando 6-OHDA, y encontraron que esta manipulación tiene un efecto sorprendentemente pequeño en la tasa de presión de la palanca, aunque afectó la formación de hábitos, según lo medido utilizando la devaluación del resultado (Faure et al., 2005). Es decir, los animales lesionados respondieron de una manera dirigida hacia el objetivo, aunque, en un grupo de control, el entrenamiento generó un comportamiento habitual insensible a la devaluación del resultado. El agotamiento local de DA, entonces, es similar a las lesiones excitotóxicas de la DLS, ya que ambas manipulaciones retardan la formación de hábitos y favorecen la adquisición de acciones dirigidas a la meta (Yin et al., 2004). Una señal de DA fásica crítica para la formación de hábitos ya está bien descrita por la señal de refuerzo efectivo en los algoritmos contemporáneos de aprendizaje por refuerzo de diferencias temporales inspirados en el trabajo de Hull y Spence (Casco, xnumx; Spence, 1947, 1960; Sutton y Barto, 1998).

Redes de ganglios cortico-basales.

Hasta ahora hemos discutido la heterogeneidad funcional dentro del estriado, pero sería engañoso sugerir que cualquier área del estriado podría, por ejemplo, traducir la contingencia de acción-resultado en el desempeño de una acción por sí misma. Más bien, los hemisferios cerebrales se organizan como unidades funcionales iterativas que consisten en redes de ganglios cortico-basales (Swanson, 2000; Zahm, 2005). TEl cuerpo estriado, que es la estación de entrada de todos los ganglios basales, sirve como un centro único en el motivo de la red de ganglios cortico-basales, capaz de integrar entradas corticales, talámicas y del cerebro medio.. Como se describió anteriormente, aunque es una estructura continua, diferentes regiones estriatales parecen participar en distintas redes funcionales, por ejemplo, los accumbens actúan como un centro en la red límbica y el DLS en la red sensoriomotora. Sin embargo, debido a la propiedad reentrante de tales redes, ningún componente de esta estructura está en sentido ascendente o descendente en ningún sentido absoluto; por ejemplo, el sistema tálamocortical es la fuente de una entrada importante para el cuerpo estriado y el objetivo de las vías striato-pallidal y striato-nigral.

Aunque los bucles de ganglios basales reentrantes paralelos han sido reconocidos duranteAlexander et al., 1986), enfatizamos roles funcionales distintos de estos circuitos basados ​​en estructuras de representación definidas operativamente y en interacciones entre circuitos para generar comportamientos integradores. Sobre esta base, se pueden discernir al menos cuatro redes de este tipo: las redes límbicas que involucran la cáscara y el núcleo de los accumbens respectivamente, la red asociativa que involucra el estriado asociativo (DMS), y la red sensoriomotora que involucra el sensoriovotor estriado (DLS). Sus funciones van desde mediar en el control de las RU y CRs de Pavlovian apetitivas hasta acciones instrumentales (Figura 1 y XNUMX).

Figura 1 y XNUMX  

Principales dominios funcionales del cuerpo estriado. Una ilustración del cuerpo estriado de una sección coronal que muestra la mitad del cerebro (Paxinos y Franklin, 2003). Tenga en cuenta que estos cuatro dominios funcionales son anatómicamente continuos, y corresponden aproximadamente a lo que ...

Como ya se mencionó, el cuerpo estriado ventral consiste principalmente en el núcleo accumbens, que puede dividirse aún más en la cubierta y el núcleo, cada uno de los cuales participa en una red funcional distinta. Las proyecciones corticales (glutamatérgicas) a la cáscara surgen de las cortezas orbitales infralímbica, central y lateral, mientras que las proyecciones al núcleo provienen de regiones más dorsales de la línea media de la corteza prefrontal como las corticales ventral y dorsal prelímbicas y cingulares anteriores (Groenewegen et al., 1990; Zahm, 2000, 2005). Dentro de estas redes de funciones, la evidencia revisada anteriormente sugiere que el shell está involucrado en las RE para obtener recompensas y en la adquisición de RC consumatorias; El núcleo del comportamiento exploratorio, en particular la adquisición y expresión de las respuestas de enfoque pavloviano. Al menos dos redes principales, entonces, se pueden discernir dentro de la red de ganglios corticobasal ventral o límbica más grande, una para las conductas consumatorias y otra para la preparación y su modificación por el condicionamiento pavloviano (Figura 1 y XNUMX).

El cuerpo estriado dorsal también puede dividirse en al menos dos regiones principales, asociativa y sensoriomotora, con una red funcional distinta asociada a cada una. El estriado asociativo (caudado y partes del putamen anterior en primates) contiene neuronas que disparan en anticipación de recompensas contingentes a la respuesta y cambian su disparo de acuerdo con la magnitud de la recompensa esperada (Hikosaka y otros, 1989; Hollerman et al., 1998; Kawagoe y otros, 1998). En la red asociativa, las cortezas de asociación prefrontal y parietal y su objetivo en el DMS están involucradas en la memoria transitoria, ambas prospectivas, en forma de expectativa de resultados, y retrospectiva, como un registro de copias de las últimas referencias (Konorski, 1967). El nivel sensoriomotor, por otro lado, comprende las cortezas sensoriomotoras y sus objetivos en los ganglios basales. Las salidas de este circuito se dirigen a las cortezas del motor y a las redes motoras del tronco del encéfalo. La actividad neural en el cuerpo estriado sensoriomotor generalmente no está modulada por la expectativa de recompensa, mostrando más actividad relacionada con el movimiento que las neuronas en el cuerpo estriado asociativo (Kanazawa et al., 1993; Kimura y otros, 1993; Costa et al., 2004). Finalmente, además del gradiente medial-lateral, existe una heterogeneidad funcional significativa a lo largo del eje anterior-posterior del cuerpo estriado dorsal, aunque actualmente no se dispone de datos suficientes para permitir una clasificación detallada (Yin et al., 2005b).

Hasta ahora, los estudios solo se han centrado en los componentes corticales y estriados de estas redes. En general, las lesiones de un área cortical tienen efectos similares a las lesiones de su objetivo estriado (Balleine y Dickinson, 1998; Corbit y Balleine, 2003; Yin et al., 2005b). Pero otros componentes en la red podrían servir para funciones similares. Por ejemplo, se encontró que las lesiones del núcleo mediodorsal del tálamo, un componente de la red asociativa, abolían la sensibilidad a la devaluación del resultado y la degradación de la contingencia de manera muy similar a las lesiones en el DMS y en la corteza prelímbica (Corbit et al., 2003). Por lo tanto, aunque nuestro modelo general predice déficits de comportamiento similares después del daño a cada componente de una red, también sugiere, para cualquier estructura dada como pallidum o tálamo, múltiples dominios funcionales.

Interacción entre redes

En la mayoría de las condiciones, el aprendizaje pavloviano e instrumental parece tener lugar en paralelo. Fenómenos como PIT, sin embargo, demuestran hasta qué punto pueden interactuar estos procesos distintos. Habiendo delineado los sistemas funcionales independientes, el siguiente paso es comprender cómo se coordinan estos sistemas para generar comportamiento. Una propuesta atractiva, de acuerdo con el trabajo anatómico reciente, es que las redes descritas anteriormente están organizadas jerárquicamente, cada una de las cuales actúa como un intermediario funcional y lábil en la jerarquía, lo que permite que la información se propague de un nivel al siguiente. En particular, las conexiones en espiral recientemente descubiertas entre el cuerpo estriado y el cerebro medio sugieren una organización anatómica que potencialmente puede implementar interacciones entre redes (Figura 2 y XNUMX). Según lo observado por Haber y sus colegas, las neuronas del estriado envían proyecciones inhibitorias directas a las neuronas DA desde las cuales reciben proyecciones recíprocas de DA, y también proyectan a las neuronas DA que a su vez se proyectan a un área del estriado diferente (Haber et al., 2000). Estas proyecciones permiten la propagación de información hacia adelante en una sola dirección, desde las redes límbicas a las redes asociativas y sensoriomotoras. Por ejemplo, una predicción pavloviana (valor adquirido de la CS) podría reducir la señal de enseñanza efectiva en el nivel límbico, mientras que, por coincidencia, potenciaría la señal DA en el siguiente nivel. La cancelación de la señal de enseñanza efectiva normalmente se implementa mediante una señal de retroalimentación negativa a través de una proyección inhibitoria, por ejemplo, desde las neuronas de proyección espinosa del medio GABAergic desde el estriado a las neuronas DA. Mientras tanto, como lo sugiere la organización anatómica (Haber et al., 2000; Haber, 2003), la potenciación de la señal de DA para la red vecina de ganglios cortico-basales (el siguiente nivel en la jerarquía) podría implementarse a través de proyecciones desinhibitorias (es decir, neuronas GABAérgicas de proyección estriatal a interneuronas GABAérgicas nigral a neuronas DA). Por lo tanto, el valor aprendido de la red límbica se puede transferir a la red asociativa, lo que permite que la adaptación de comportamiento se refine y amplifique con cada iteración (Ashby, 1960). Este modelo predice, por lo tanto, la participación progresiva de diferentes redes neuronales durante diferentes etapas de aprendizaje, una sugerencia respaldada por una variedad de datos (Jueptner et al., 1997b; Miyachi et al., 1997; Miyachi et al., 2002; Yin, 2004; Everitt y Robbins, 2005; Yin y Knowlton, 2005; Belin y Everitt, 2008).

Los fenómenos que requieren la interacción de distintos procesos funcionales, como el PIT, proporcionan un terreno de prueba fértil para este tipo de modelos. De hecho, el modelo jerárquico está de acuerdo con los hallazgos experimentales recientes en PIT. De acuerdo con el modelo, las interacciones pavlovianas-instrumentales están mediadas por conexiones recíprocas entre el estriado y las neuronas DA. La DA parece ser crítica para la transferencia general, que es abolida por los antagonistas de la DA y la inactivación local del VTA (Dickinson et al., 2000; Murschall y Hauber, 2006); mientras que la infusión local de anfetamina, que presumiblemente aumenta los niveles de DA, en los accumbens puede mejorarla significativamente (Wyvell y Berridge, 2000). Por otro lado, el papel de la dopamina del estriado ventral en la transferencia específica es menos claro. Algunas evidencias sugieren que podría evitarse después de la inactivación del VTA (Corbit et al., 2007) pero como Corbit y Janak (2007) informado recientemente, la transferencia específica se suprime mediante la inactivación de la DLS, lo que sugiere que este aspecto del control de estímulos sobre la selección de la acción podría involucrar la proyección nigrostriatal (Corbit y Janak, 2007). De acuerdo con la perspectiva jerárquica, Corbit y Janak (2007) También se encontró que, mientras que la inactivación de la DLS eliminó el efecto excitador selectivo de las señales palovianas (tanto como se ha observado después de las lesiones de concha de accumbens por Corbit et al, 2001), la inactivación del DMS abolió solo el resultado-selectividad de la transferencia y parece preservar el efecto excitador general de estas señales, una tendencia también observada después de las lesiones del tálamo mediodorsal, que forma parte de la red asociativa de ganglios cortico-basales (Ostlund y Balleine, 2008). Sobre la base de estos resultados preliminares, el DMS parece mediar solo la transferencia específica, mientras que el DLS podría ser necesario para los efectos excitatorios específicos y generales de las señales de Pavlov en las acciones instrumentales.

Curiosamente, el cuerpo estriado límbico se proyecta extensamente a las células DA que se proyectan al cuerpo estriado dorsal (Nauta et al., 1978; Nauta, 1989); las proyecciones dopaminérgicas al estriado y las proyecciones del estriado al cerebro medio son altamente asimétricas (Haber, 2003). El cuerpo estriado límbico recibe una entrada limitada de las neuronas DA, pero envía una salida extensa a un conjunto mucho mayor de neuronas DA, y lo contrario ocurre con el cuerpo estriado sensoriomotor. Por lo tanto, las redes límbicas están en una posición perfecta para controlar las redes asociativas y sensoriomotoras. Aquí, la neuroanatomía concuerda con los datos de comportamiento de que la facilitación pavloviana del comportamiento instrumental es mucho más fuerte que lo contrario; de hecho, una considerable evidencia sugiere que las acciones instrumentales tienden a inhibir, en lugar de excitar, a las RC de Pavlov, un hallazgo que aún espera una explicación neurobiológica (Ellison y Konorski, 1964; Williams, 1965).

Conclusiones

El modelo jerárquico discutido aquí, debe notarse, es muy diferente de otros que dependen exclusivamente de la corteza y las conexiones de largo alcance entre las áreas corticales (Fuster, 1995). Incorpora los componentes conocidos y la conectividad del cerebro, en lugar de verlo como un popurrí de módulos corticales que, de alguna manera no especificada, implementan una amplia gama de funciones cognitivas. También evita suposiciones, heredadas de 19th La neurología del siglo, que la corteza cerebral en general, y la corteza prefrontal en particular, de alguna manera forma una unidad homuncular "superior" que controla todo el cerebro. (Miller y Cohen, 2001).

Además, se pueden derivar varias predicciones específicas del presente modelo: (i) Debe haber distintos errores de predicción para acciones autogeneradas y para estados / estímulos con propiedades que reflejen sus diferentes sustratos neurales y funciones funcionales. (ii) También se espera que los componentes pálidos y talámicos de cada red discreta de ganglios cortico-basales sean necesarios para el tipo de control de comportamiento hipotetizado para cada red, no solo los componentes corticales y estriados. (iii) Debe haber una participación progresiva de diferentes redes neuronales durante diferentes etapas de aprendizaje. (iv) La actividad de Accumbens puede controlar directamente las neuronas DA y, a su vez, la actividad del cuerpo estriado dorsal. Basado en un informe de Holanda (2004) sugiriendo que el PIT aumenta con el entrenamiento instrumental, se espera que este control 'límbico' de las redes asociativas y sensoriomotoras se fortalezca con el entrenamiento extendido.

Sin datos detallados, aún es demasiado pronto para ofrecer una explicación formal del modelo jerárquico. Sin embargo, la discusión anterior debería dejar claro que las versiones actuales de la hipótesis de la recompensa de mesoaccumbens se basan en suposiciones problemáticas sobre la naturaleza del proceso de recompensa y el uso de medidas de comportamiento inadecuadas. Los principios de unificación, siempre el objetivo de la empresa científica, solo pueden basarse en la realidad de los datos experimentales, por muy complicados que puedan ser. Debido a que la función del cerebro es, en última instancia, la generación y el control del comportamiento, el análisis conductual detallado será la clave para comprender los procesos neuronales, así como una descripción completa de la inmunidad innata y adquirida permite la dilucidación del sistema inmunológico. Aunque aparentemente es un tópico, difícilmente se puede hacer demasiado hincapié en que podemos entender los mecanismos cerebrales en la medida en que sus funciones se describen y miden con precisión. Cuando el estudio de la función neural se basa en capacidades psicológicas establecidas experimentalmente, por ejemplo, la representación de contingencias de acción-resultado y de estímulo-resultado, la organización anatómica conocida y los mecanismos fisiológicos se ven bajo una nueva luz, lo que lleva a las formulaciones de nuevos Hipótesis y diseño de nuevos experimentos. Como paso inicial en esta dirección, esperamos que el marco analizado aquí sirva como un punto de partida útil para futuras investigaciones.

AGRADECIMIENTOS

Nos gustaría agradecer a David Lovinger por las sugerencias útiles. HHY fue apoyado por la División de Investigación Clínica y Básica Intramural del NIH, NIAAA. SBO está respaldado por NIH grant MH 17140 y BWB por NIH grant MH 56446 y HD 59257.

Referencias

  1. Adams CD. Variaciones en la sensibilidad de la respuesta instrumental para reforzar la devaluación. Revista trimestral de psicología experimental. 1982; 33b: 109 – 122.
  2. Adams CD, Dickinson A. Respuesta instrumental reforzando la devaluación. Revista trimestral de psicología experimental. 1981; 33: 109 – 122.
  3. Alexander GE, DeLong MR, Strick PL. Organización paralela de circuitos funcionalmente segregados que conectan los ganglios basales y la corteza. Annu Rev Neurosci. 1986; 9: 357 – 381. ElPubMed]
  4. Ashby WR. Diseño para un cerebro. segunda edicion. Chapman & Hall; 1960.
  5. Atallah HE, Lopez-Paniagua D, Rudy JW, O'Reilly RC. Sustratos neurales separados para el aprendizaje de habilidades y el desempeño en el estriado ventral y dorsal. Nat Neurosci. 2007; 10: 126-131. [PubMed]
  6. Balleine BW. Procesos de incentivo en el condicionamiento instrumental. En: Mowrer RR, Klein SB, editores. Manual de teorías del aprendizaje contemporáneo. Mahwah, NJ, EE. UU .: Lawrence Erlbaum Associates, Inc., Editores; 2001. pp. 307 – 366.
  7. Balleine BW. Bases neuronales de la búsqueda de alimentos: afecto, excitación y recompensa en los circuitos corticostriatolímbicos. Physiol Behav. 2005; 86: 717 – 730. ElPubMed]
  8. Balleine BW, Dickinson A. Acción instrumental dirigida por objetivos: aprendizaje de contingencia e incentivo y sus sustratos corticales. Neurofarmacología. 1998; 37: 407 – 419. ElPubMed]
  9. Balleine BW, Corbit LH. Las lesiones del núcleo y la cubierta de los accumbens producen efectos disociables en las formas generales y específicas de los resultados de la transferencia instrumental de Palovian; Reunión Anual de la Sociedad de Neurociencias; 2005.
  10. Balleine BW, Killcross S. Procesamiento paralelo de incentivos: una vista integrada de la función de la amígdala. Tendencias Neurosci. 2006; 29: 272 – 279. ElPubMed]
  11. Belin D, Everitt BJ. Los hábitos de búsqueda de cocaína dependen de la conectividad en serie dependiente de la dopamina que vincula lo ventral con el estriado dorsal. Neurona. 2008; 57: 432 – 441. ElPubMed]
  12. Berke JD, Hyman SE. La adicción, la dopamina y los mecanismos moleculares de la memoria. Neurona. 2000; 25: 515 – 532. ElPubMed]
  13. Berridge KC, Robinson TE. ¿Cuál es el papel de la dopamina en la recompensa: impacto hedónico, aprendizaje de recompensa o prominencia de incentivo? Brain Res Brain Res Rev. 1998; 28: 309 – 369. ElPubMed]
  14. Bolles R. Refuerzo, expectativa y aprendizaje. Revisión psicológica. 1972; 79: 394 – 409.
  15. Brown J, Bullock D, Grossberg S. Cómo los ganglios basales utilizan vías de aprendizaje inhibitorias e inhibitorias paralelas para responder selectivamente a señales inesperadas de recompensa. J Neurosci. 1999; 19: 10502 – 10511. ElPubMed]
  16. Brown PL, Jenkins HM. Dar forma automática al picoteo de la llave de la paloma. Revista del análisis experimental de la conducta. 1968; 11: 1–8. [Artículo gratuito de PMC] [PubMed]
  17. Cagniard B, Beeler JA, Britt JP, McGehee DS, Marinelli M, Zhuang X. La dopamina aumenta el rendimiento en ausencia de un nuevo aprendizaje. Neurona. 2006; 51: 541 – 547. ElPubMed]
  18. Cardenal RN, Cheung TH. Las lesiones del núcleo accumbens retrasan el aprendizaje y el rendimiento instrumental con un refuerzo retardado en la rata. BMC Neurosci. 2005; 6: 9. ElArtículo gratuito de PMC] [PubMed]
  19. Cardenal RN, Parkinson JA, Hall J, Everitt BJ. Emoción y motivación: el papel de la amígdala, el estriado ventral y la corteza prefrontal. Neurosci Biobehav Rev. 2002; 26: 321 – 352. ElPubMed]
  20. Alegría JF, Aragona BJ, Heien ML, Seipel AT, Carelli RM, Wightman RM. La liberación coordinada de dopamina accumbal y la actividad neuronal impulsan el comportamiento dirigido hacia el objetivo. Neurona. 2007; 54: 237 – 244. ElPubMed]
  21. Colwill RM, Rescorla RA. Estructuras asociativas en el aprendizaje instrumental. En: Bower G, editor. La psicología del aprendizaje y la motivación. Nueva York: Academic Press; 1986. pp. 55 – 104.
  22. Corbit LH, Balleine BW. El papel de la corteza prelímbica en el condicionamiento instrumental. Behav Brain Res. 2003; 146: 145 – 157. ElPubMed]
  23. Corbit LH, Janak PH. La inactivación del estriado dorsal lateral pero no medial elimina el impacto excitador de los estímulos pavlovianos en la respuesta instrumental. J Neurosci. 2007; 27: 13977 – 13981. ElPubMed]
  24. Corbit LH, Muir JL, Balleine BW. El papel del núcleo accumbens en el condicionamiento instrumental: evidencia de una disociación funcional entre el núcleo accumbens y la cáscara. Diario de la neurociencia. 2001; 21: 3251 – 3260. ElPubMed]
  25. Corbit LH, Muir JL, Balleine BW. Las lesiones del tálamo mediodorsal y los núcleos talámicos anteriores producen efectos disociables sobre el condicionamiento instrumental en ratas. Eur J Neurosci. 2003; 18: 1286 – 1294. ElPubMed]
  26. Corbit LH, Janak PH, Balleine BW. Formas generales y de resultados específicos de la transferencia pavloviana-instrumental: el efecto de los cambios en el estado motivacional y la inactivación del área ventral tegmental. Eur J Neurosci. 2007; 26: 3141 – 3149. ElPubMed]
  27. Costa RM, Cohen D, Nicolelis MA. Plasticidad corticostriatal diferencial durante el aprendizaje de habilidades motoras rápidas y lentas en ratones. Curr biol. 2004; 14: 1124 – 1134. ElPubMed]
  28. Cragg SJ, Hille CJ, Greenfield SA. Los dominios funcionales en el cuerpo estriado dorsal de los primates no humanos están definidos por el comportamiento dinámico de la dopamina. J Neurosci. 2002; 22: 5705 – 5712. ElPubMed]
  29. Dalley JW, Laane K, Theobald DE, Armstrong HC, Corlett PR, Chudasama Y, Robbins TW. Modulación temporal limitada de la memoria pavloviana apetitiva por los receptores D1 y NMDA en el núcleo accumbens. Proc Natl Acad Sci US A. 2005; 102: 6189 – 6194. ElArtículo gratuito de PMC] [PubMed]
  30. Davis J, Bitterman ME. Refuerzo diferencial de otras conductas (DRO): una comparación de control de yugo. Revista del análisis experimental de comportamiento. 1971; 15: 237 – 241. ElArtículo gratuito de PMC] [PubMed]
  31. Día JJ, Carelli RM. El núcleo accumbens y el aprendizaje pavloviano recompensa. Neurocientífico 2007; 13: 148 – 159. ElArtículo gratuito de PMC] [PubMed]
  32. Día JJ, Wheeler RA, Roitman MF, Carelli RM. Las neuronas del núcleo accumbens codifican comportamientos de abordaje pavlovianos: evidencia de un paradigma de autoconformación. Eur J Neurosci. 2006; 23: 1341 – 1351. ElPubMed]
  33. Día JJ, Roitman MF, Wightman RM, Carelli RM. El aprendizaje asociativo media cambios dinámicos en la señalización de dopamina en el núcleo accumbens. Nat Neurosci. 2007; 10: 1020 – 1028. ElPubMed]
  34. Dayan P, Balleine BW. Recompensa, motivación y aprendizaje por refuerzo. Neurona. 2002; 36: 285 – 298. ElPubMed]
  35. Delgado MR, Stenger VA, Fiez JA. Respuestas dependientes de la motivación en el núcleo caudado humano. Cereb Cortex. 2004; 14: 1022 – 1030. ElPubMed]
  36. Delgado MR, Miller MM, Inati S, Phelps EA. Un estudio fMRI del aprendizaje de probabilidad relacionado con la recompensa. Neuroimagen. 2005; 24: 862 – 873. ElPubMed]
  37. Di Ciano P, Cardenal RN, Cowell RA, Little SJ, Everitt BJ. Participación diferencial de los receptores NMDA, AMPA / kainato y dopamina en el núcleo del núcleo accumbens en la adquisición y el rendimiento del comportamiento de aproximación pavloviana. J Neurosci. 2001; 21: 9471 – 9477. ElPubMed]
  38. Dickinson A. Acciones y hábitos: el desarrollo de la autonomía de comportamiento. Transacciones filosóficas de la sociedad real. 1985; B308: 67 – 78.
  39. Dickinson A. Acondicionamiento instrumental. En: Mackintosh NJ, editor. Aprendizaje animal y cognición. Orlando: Académico; 1994. pp. 45 – 79.
  40. Dickinson A, Dearing MF. Interacciones apetito-aversivas y procesos inhibitorios. En: Dickinson A, Boakes RA, editores. Mecanismo de aprendizaje y motivación. Hillsadale, NJ: Lawrence Erlbaum Associates; 1979.
  41. Dickinson A, Charnock DJ. Efectos de contingencia con refuerzo instrumental mantenido. Revista Trimestral de Psicología Experimental. Psicología comparada y fisiológica. 1985; 37: 397–416.
  42. Dickinson A, Balleine B. Acciones y respuestas: la psicología dual del comportamiento. En: Eilan N, McCarthy RA, et al., Editores. Representación espacial: problemas en filosofía y psicología. Malden, MA, EE. UU.: Blackwell Publishers Inc .; 1993. pp. 277 – 293.
  43. Dickinson A, Balleine B. El papel del aprendizaje en el funcionamiento de los sistemas motivacionales. En: Pashler H, Gallistel R, editores. Manual de Steven de psicología experimental (3ª ed.), Vol. 3: Aprendizaje, motivación y emoción. Nueva York, NY, EE.UU .: John Wiley & Sons, Inc .; 2002. págs. 497–533.
  44. Dickinson A, Smith J, Mirenowicz J. Disociación de Pavlovian y aprendizaje de incentivos instrumentales bajo antagonistas de la dopamina. Behav Neurosci. 2000; 114: 468 – 483. ElPubMed]
  45. Dickinson A, Campos J, Varga ZI, Balleine B. Condicionamiento instrumental bidireccional. Revista trimestral de psicología experimental: psicología comparativa y fisiológica. 1996; 49: 289-306. [PubMed]
  46. Ellison GD, Konorski J. Separación de las respuestas motora y salival en el condicionamiento instrumental. Ciencia. 1964; 146: 1071 – 1072. ElPubMed]
  47. Everitt BJ, Robbins TW. Sistemas neuronales de refuerzo para la adicción a las drogas: de las acciones a los hábitos, a la compulsión. Nat Neurosci. 2005; 8: 1481 – 1489. ElPubMed]
  48. Faure A, Haberland U, Conde F, El Massioui N. La lesión al sistema de dopamina nigrostriatal interrumpe la formación de hábitos de estímulo-respuesta. J Neurosci. 2005; 25: 2771 – 2780. ElPubMed]
  49. Fiorillo CD, Tobler PN, Schultz W. Codificación discreta de la probabilidad de recompensa e incertidumbre por las neuronas de dopamina. Ciencia. 2003; 299: 1898 – 1902. ElPubMed]
  50. Fuster JM. La memoria en la corteza cerebral. Cambridge: MIT press; 1995.
  51. Gallistel CR, Fairhurst S, Balsam P. La curva de aprendizaje: implicaciones de un análisis cuantitativo. Proc Natl Acad Sci US A. 2004; 101: 13124 – 13131. ElArtículo gratuito de PMC] [PubMed]
  52. Goto Y, Gracia AA. Modulación dopaminérgica de la unidad límbica y cortical del núcleo accumbens en el comportamiento dirigido hacia el objetivo. Nat Neurosci. 2005; 8: 805 – 812. ElPubMed]
  53. Grace AA, Floresco SB, Goto Y, Lodge DJ. Regulación de la activación de las neuronas dopaminérgicas y control de las conductas dirigidas a los objetivos. Tendencias Neurosci. 2007; 30: 220 – 227. ElPubMed]
  54. Groenewegen HJ, Berendse HW, Wolters JG, Lohman AH. La relación anatómica de la corteza prefrontal con el sistema estriatopalidal, el tálamo y la amígdala: evidencia de una organización paralela. Prog Brain Res. 1990; 85: 95 – 116. discusión 116 – 118. ElPubMed]
  55. Guthrie ER. La psicología del aprendizaje. Nueva York: Harpers; 1935.
  56. Haber SN. Los ganglios basales primates: redes paralelas e integradoras. J Chem Neuroanat. 2003; 26: 317 – 330. ElPubMed]
  57. Haber SN, Fudge JL, McFarland NR. Las vías estriatonigrostriatales en los primates forman una espiral ascendente desde la cáscara hasta el estriado dorsolateral. J Neurosci. 2000; 20: 2369 – 2382. ElPubMed]
  58. Hammond LJ. El efecto de la contingencia sobre el condicionamiento apetitivo del comportamiento libre operante. Revista del Análisis Experimental del Comportamiento. 1980; 34: 297 – 304. ElArtículo gratuito de PMC] [PubMed]
  59. Haruno M, Kawato M. Modelo de aprendizaje reforzado heterárquico para la integración de múltiples bucles cortico-estriatales: examen de resonancia magnética funcional en el aprendizaje de asociación estímulo-acción-recompensa. Redes neuronales. 2006a; 19: 1242 – 1254. ElPubMed]
  60. Haruno M, Kawato M. Diferentes correlatos neurales de la expectativa de recompensa y el error de expectativa de recompensa en el putamen y el núcleo caudado durante el aprendizaje de asociación estímulo-acción-recompensa. J. Neurofisiol. 2006b; 95: 948 – 959. ElPubMed]
  61. Haruno M, Kuroda T, Doya K, Toyama K, Kimura M, Samejima K, Imamizu H, Kawato M. Un correlato neural del aprendizaje conductual basado en la recompensa en el núcleo caudado: un estudio funcional de imágenes de resonancia magnética de una tarea de decisión estocástica. J Neurosci. 2004; 24: 1660 – 1665. ElPubMed]
  62. Hernández PJ, K Sadeghian, Kelley AE. La consolidación temprana del aprendizaje instrumental requiere la síntesis de proteínas en el núcleo accumbens. Nat Neurosci. 2002; 5: 1327 – 1331. ElPubMed]
  63. Hernández PJ, Andrzejewski ME, Sadeghian K, Panksepp JB, Kelley AE. Función del receptor AMPA / kainato, NMDA y dopamina D1 en el núcleo del núcleo accumbens: un papel de contexto limitado en la codificación y consolidación de la memoria instrumental. Aprender mem. 2005; 12: 285 – 295. ElArtículo gratuito de PMC] [PubMed]
  64. Hershberger WA. Un acercamiento a través del espejo. Aprendizaje y comportamiento animal. 1986; 14: 443–451.
  65. Heyes CM, Dawson GR. Una demostración de aprendizaje observacional en ratas utilizando un control bidireccional. La revista trimestral de psicología experimental. 1990; 42 (1): 59 – 71. ElPubMed]
  66. Hikosaka O, Sakamoto M, Usui S. Propiedades funcionales de las neuronas caudadas de mono. III. Actividades relacionadas con la expectativa de objetivo y recompensa. J. Neurofisiol. 1989; 61: 814 – 832. ElPubMed]
  67. Holland PC. Relaciones entre la transferencia pavloviana-instrumental y refuerzo de la devaluación. J Exp Psychol Anim Behav Proceso. 2004; 30: 104 – 117. ElPubMed]
  68. Holland PC, Rescorla RA. El efecto de dos formas de devaluar el estímulo no condicionado después del condicionamiento apetitivo de primer y segundo orden. J Exp Psychol Anim Behav Proceso. 1975; 1: 355 – 363. ElPubMed]
  69. Hollerman JR, Tremblay L, Schultz W. Influencia de la expectativa de recompensa en la actividad neuronal relacionada con el comportamiento en el estriado del primate. J. Neurofisiol. 1998; 80: 947 – 963. ElPubMed]
  70. Houk JC, Adams JL, Barto AG. Un modelo de cómo los ganglios basales generan y usan señales neuronales que predicen el refuerzo. En: Houk JC, JD, DB, editores. Modelos de procesamiento de la información en los ganglios basales. Cambridge, MA: MIT Press; 1995. pp. 249 – 270.
  71. Casco C. Principios de comportamiento. Nueva York: Appleton-Century-Crofts; 1943.
  72. Hyman SE, Malenka RC, Nestler EJ. Mecanismos neuronales de la adicción: el papel del aprendizaje y la memoria relacionados con la recompensa. Annu Rev Neurosci. 2006; 29: 565 – 598. ElPubMed]
  73. Jedynak JP, Uslaner JM, Esteban JA, Robinson TE. Plasticidad estructural inducida por la metanfetamina en el cuerpo estriado dorsal. Eur J Neurosci. 2007; 25: 847 – 853. ElPubMed]
  74. Joel D, Weiner I. La organización de los circuitos basales ganglio-talamocorticales: abiertos, interconectados en lugar de cerrados, segregados. Neurociencia 1994; 63: 363 – 379. ElPubMed]
  75. Joel D, Weiner I. Las conexiones del sistema dopaminérgico con el cuerpo estriado en ratas y primates: un análisis con respecto a la organización funcional y compartimental del cuerpo estriado. Neurociencia 2000; 96: 451 – 474. ElPubMed]
  76. Jueptner M, Frith CD, Brooks DJ, Frackowiak RS, Passingham RE. Anatomía del aprendizaje motor. II. Estructuras subcorticales y aprendizaje por ensayo y error. J. Neurofisiol. 1997a; 77: 1325 – 1337. ElPubMed]
  77. Jueptner M, Stephan KM, Frith CD, Brooks DJ, Frackowiak RS, Passingham RE. Anatomía del aprendizaje motor. I. Corteza frontal y atención a la acción. J. Neurofisiol. 1997b; 77: 1313 – 1324. ElPubMed]
  78. Kanazawa I, Murata M, Kimura M. Los roles de la dopamina y sus receptores en la generación de movimientos coreicos. Adv Neurol. 1993; 60: 107 – 112. ElPubMed]
  79. Kawagoe R, Takikawa Y, Hikosaka O. La expectativa de recompensa modula las señales cognitivas en los ganglios basales. Nat Neurosci. 1998; 1: 411 – 416. ElPubMed]
  80. Kimura M, Aosaki T, Ishida A. Aspectos neurofisiológicos de las funciones diferenciales del putamen y el núcleo caudado en el movimiento voluntario. Adv Neurol. 1993; 60: 62 – 70. ElPubMed]
  81. Konorski J. Actividad integradora del cerebro. Chicago: University of Chicago Press; 1967.
  82. Lerchner A, La Camera G, Richmond B. Sabiendo sin hacer. Nat Neurosci. 2007; 10: 15 – 17. ElPubMed]
  83. Ljungberg T, Apicella P, Schultz W. Respuestas de neuronas de dopamina de mono durante el aprendizaje de las reacciones de comportamiento. J. Neurofisiol. 1992; 67: 145 – 163. ElPubMed]
  84. Lohrenz T, McCabe K, Camerer CF, Montague PR. Firma neuronal de señales de aprendizaje ficticias en una tarea de inversión secuencial. Proc Natl Acad Sci US A. 2007; 104: 9493 – 9498. ElArtículo gratuito de PMC] [PubMed]
  85. Lovibond PF. Facilitación del comportamiento instrumental por un estímulo condicionado del apetito pavloviano. J Exp Psychol Anim Behav Proceso. 1983; 9: 225 – 247. ElPubMed]
  86. Mackintosh NJ. La psicología del aprendizaje animal. Londres: prensa académica; 1974.
  87. Miller EK, Cohen JD. Una teoría integradora de la función de la corteza prefrontal. Annu Rev Neurosci. 2001; 24: 167 – 202. ElPubMed]
  88. Miller R. Significado y propósito en el cerebro intacto. Nueva York: Oxford University Press; 1981.
  89. Miyachi S, Hikosaka O, Lu X. Activación diferencial de las neuronas del estriado del mono en las etapas tempranas y tardías del aprendizaje procedimental. Exp Brain Res. 2002; 146: 122 – 126. ElPubMed]
  90. Miyachi S, Hikosaka O, Miyashita K, Karadi Z, Rand MK. Roles diferenciales del estriado del mono en el aprendizaje del movimiento secuencial de la mano. Exp Brain Res. 1997; 115: 1 – 5. ElPubMed]
  91. Montague PR, Hyman SE, Cohen JD. Roles computacionales para la dopamina en el control del comportamiento. Naturaleza. 2004; 431: 760 – 767. ElPubMed]
  92. Morris G, Nevet A, Arkadir D, Vaadia E, Bergman H. Las neuronas de dopamina del cerebro medio codifican decisiones para acciones futuras. Nat Neurosci. 2006; 9: 1057 – 1063. ElPubMed]
  93. Murschall A, Hauber W. La inactivación del área ventral tegmental abolió la influencia excitadora general de las señales de Pavlov en el desempeño instrumental. Aprender mem. 2006; 13: 123 – 126. ElPubMed]
  94. Nauta WJ, Smith GP, Faull RL, Domesick VB. Conexiones eferentes y aferentes negros del núcleo accumbens septi en la rata. Neurociencia 1978; 3: 385 – 401. ElPubMed]
  95. Nauta WJH. Enlaces recíprocos del cuerpo estriado con la corteza cerebral y el sistema límbico: ¿Un sustrato común para el movimiento y el pensamiento? En: Mueller, editor. Neurología y psiquiatría: un encuentro de mentes. Basilea: Karger; 1989. pp. 43 – 63.
  96. Niv Y, Daw ND, Joel D, dopamina Dayan P. Tonic: costos de oportunidad y control del vigor de respuesta. Psicofarmacología (Berl) 2007; 191: 507 – 520. ElPubMed]
  97. O'Doherty J, Dayan P, Schultz J, Deichmann R, Friston K, Dolan RJ. Roles disociables del estriado ventral y dorsal en el condicionamiento instrumental. Ciencia. 2004; 304: 452 – 454. ElPubMed]
  98. Ostlund SB, Balleine BW. Afectación diferencial de la amígdala basolateral y el tálamo mediodorsal en la selección de la acción instrumental. J Neurosci. 2008; 28: 4398 – 4405. ElArtículo gratuito de PMC] [PubMed]
  99. Parkinson JA, Willoughby PJ, Robbins TW, Everitt BJ. La desconexión del córtex cingulado anterior y del núcleo accumbens deteriora el comportamiento del abordaje pavloviano: evidencia adicional de los sistemas estriatopalidales cortical-ventrales límbicos. Behav Neurosci. 2000; 114: 42 – 63. ElPubMed]
  100. Parkinson JA, Dalley JW, Cardenal RN, Bamford A, Fehnert B, Lachenal G, Rudarakanchana N, Halkerston KM, Robbins TW, Everitt BJ. El agotamiento de la dopamina de Nucleus accumbens afecta tanto la adquisición como el rendimiento del comportamiento del abordaje pavloviano apetitivo: implicaciones para la función de la dopamina mesoaccumbens. Behav Brain Res. 2002; 137: 149 – 163. ElPubMed]
  101. Paxinos G, Franklin K. El cerebro del ratón en coordenadas estereotáxicas. Nueva York: Academic Press; 2003.
  102. Pecina S, Smith KS, Berridge KC. Puntos calientes hedónicos en el cerebro. Neurocientífico 2006; 12: 500 – 511. ElPubMed]
  103. Pothuizen HH, Jongen-Relo AL, Feldon J, Yee BK. Doble disociación de los efectos del núcleo selectivo accumbens y lesiones en la cáscara en el comportamiento de elección impulsiva y el aprendizaje de la saliencia en ratas. Eur J Neurosci. 2005; 22: 2605 – 2616. ElPubMed]
  104. Rescorla RA. Probabilidad de shock en presencia y ausencia de CS en el condicionamiento del miedo. J Comp Physiol Psychol. 1968; 66: 1 – 5. ElPubMed]
  105. Rescorla RA. Estudios conductuales del condicionamiento pavloviano. Annu Rev Neurosci. 1988; 11: 329 – 352. ElPubMed]
  106. Rescorla RA, Solomon RL. Teoría del aprendizaje de dos procesos: relaciones entre el condicionamiento pavloviano y el aprendizaje instrumental. Psychol Rev. 1967; 74: 151 – 182. ElPubMed]
  107. Restle F. Discriminación de pistas en laberintos: una resolución de la pregunta "lugar versus respuesta". Revisión psicológica. 1957; 64: 217. [PubMed]
  108. Reynolds JN, Wickens JR. Plasticidad dependiente de dopamina de las sinapsis corticostriatal. Redes neuronales. 2002; 15: 507 – 521. ElPubMed]
  109. Arroz ME, Cragg SJ. La nicotina amplifica las señales de dopamina relacionadas con la recompensa en el estriado. Nat Neurosci. 2004; 7: 583 – 584. ElPubMed]
  110. Arroz ME, Cragg SJ. Derrame de dopamina después de la liberación cuántica: repensando la transmisión de dopamina en la vía nigrostriatal. Brain Res Rev. 2008 [Artículo gratuito de PMC] [PubMed]
  111. Robinson S, Rainwater AJ, Hnasko TS, Palmiter RD. La restauración viral de la señalización de la dopamina al estriado dorsal restaura el condicionamiento instrumental en ratones deficientes en dopamina. Psicofarmacología (Berl) 2007; 191: 567 – 578. ElPubMed]
  112. Roitman MF, Wheeler RA, Carelli RM. Las neuronas de Nucleus accumbens están sintonizadas de forma innata para estimular los estímulos del gusto aversivo y gratificante, codifican sus predictores y están vinculadas a la salida motora. Neurona. 2005; 45: 587 – 597. ElPubMed]
  113. Samejima K, Ueda Y, Doya K, Kimura M. Representación de los valores de recompensa específicos de la acción en el cuerpo estriado. Ciencia. 2005; 310: 1337 – 1340. ElPubMed]
  114. Schultz W. La señal de recompensa fásica de las neuronas de dopamina de los primates. Adv Pharmacol. 1998a; 42: 686 – 690. ElPubMed]
  115. Schultz W. Señal de recompensa predictiva de las neuronas dopaminérgicas. J. Neurofisiol. 1998b; 80: 1 – 27. ElPubMed]
  116. Schultz W, Dayan P, Montague PR. Un sustrato neural de la predicción y la recompensa. Ciencia. 1997; 275: 1593 – 1599. ElPubMed]
  117. Schwartz B, Gamzu E. Pavlovian control del comportamiento operante. En: Honig W, Staddon JER, editores. Manual de comportamiento operante. Nueva Jersey: Prentice Hall; 1977. pp. 53 – 97.
  118. Sheffield FD. Relación entre condicionamiento clásico e instrumental. En: Prokasy WF, editor. Condicionamiento clásico. Nueva York: Appleton-Century-Crofts; 1965. pp. 302 – 322.
  119. Skinner B. El comportamiento de los organismos. Nueva York: Appleton-Century-Crofts; 1938.
  120. Smith-Roe SL, Kelley AE. La activación coincidente de los receptores NMDA y dopamina D1 dentro del núcleo del núcleo accumbens es necesaria para el aprendizaje instrumental apetitivo. J Neurosci. 2000; 20: 7737 – 7742. ElPubMed]
  121. Sotak BN, Hnasko TS, Robinson S, Kremer EJ, Palmiter RD. La desregulación de la señalización de dopamina en el cuerpo estriado dorsal inhibe la alimentación. Brain Res. 2005; 1061: 88 – 96. ElPubMed]
  122. Spence K. El papel del refuerzo secundario en el aprendizaje de recompensa diferida. Revisión psicológica. 1947; 54: 1 – 8.
  123. Spence K. Teoría del comportamiento y aprendizaje. Englewood Cliffs, NJ: Prentice-Hall; 1960.
  124. Sutton RS, Barto AG. Aprendizaje reforzado. Cambridge: MIT Press; 1998.
  125. Swanson LW. Regulación del hemisferio cerebral del comportamiento motivado. Brain Res. 2000; 886: 113 – 164. ElPubMed]
  126. Taha SA, Campos HL. Codificación de palatabilidad y comportamientos apetitivos por distintas poblaciones neuronales en el núcleo accumbens. J Neurosci. 2005; 25: 1193 – 1202. ElPubMed]
  127. Taha SA, Campos HL. Las inhibiciones de las neuronas del núcleo accumbens codifican una señal de activación del comportamiento dirigido a la recompensa. J Neurosci. 2006; 26: 217 – 222. ElPubMed]
  128. Thorndike EL. Inteligencia animal: estudios experimentales. Nueva York: Macmillan; 1911.
  129. Tobler PN, Dickinson A, Schultz W. Codificación de la omisión de recompensa predicha por las neuronas de dopamina en un paradigma de inhibición condicionada. J Neurosci. 2003; 23: 10402 – 10410. ElPubMed]
  130. Tobler PN, O'Doherty JP, Dolan RJ, Schultz W. El aprendizaje neuronal humano depende de los errores de predicción de recompensas en el paradigma de bloqueo. J Neurophysiol. 2006; 95: 301–310. [Artículo gratuito de PMC] [PubMed]
  131. Tobler PN, O'Doherty JP, Dolan RJ, Schultz W. Codificación de valor de recompensa distinta de la codificación de incertidumbre relacionada con la actitud de riesgo en los sistemas de recompensa humanos. J Neurophysiol. 2007; 97: 1621–1632. [Artículo gratuito de PMC] [PubMed]
  132. Trapold MA, Overmier JB. Condicionamiento clásico II: investigación actual y teoría. Appleton-Century-Crofts; 1972. El segundo proceso de aprendizaje en el aprendizaje instrumental; pp. 427 – 452.
  133. Tricomi EM, Delgado MR, Fiez JA. Modulación de la actividad caudada por contingencia de acciones. Neurona. 2004; 41: 281 – 292. ElPubMed]
  134. Waelti P, Dickinson A, Schultz W. Las respuestas a la dopamina cumplen con los supuestos básicos de la teoría del aprendizaje formal. Naturaleza. 2001; 412: 43 – 48. ElPubMed]
  135. NM blanco. Una hipótesis funcional sobre la matriz estriatal y los parches: la mediación de la memoria SR y la recompensa. Vida sci. 1989; 45: 1943 – 1957. ElPubMed]
  136. Wickens JR, Budd CS, Hyland BI, Arbuthnott GW. Contribuciones estriadas a la recompensa y toma de decisiones: dar sentido a las variaciones regionales en una matriz de procesamiento reiterada. Ann NY Acad Sci. 2007; 1104: 192 – 212. ElPubMed]
  137. Williams DR. Condicionamiento clásico y motivación del incentivo. En: Prokasy WF, editor. Condicionamiento clásico. Nueva York: Appleton-Century-Crofts; 1965. pp. 340 – 357.
  138. Williams DR, Williams H. Mantenimiento automático en la paloma: picoteo sostenido a pesar de la falta de refuerzo contingente. Revista del análisis experimental de comportamiento. 1969; 12: 511 – 520. ElArtículo gratuito de PMC] [PubMed]
  139. Wiltgen BJ, Ley M, Ostlund S, Mayford M, Balleine BW. La influencia de las señales de Pavlov en el desempeño instrumental está mediada por la actividad de CaMKII en el cuerpo estriado. Eur J Neurosci. 2007; 25: 2491 – 2497. ElPubMed]
  140. Wyvell CL, Berridge KC. La anfetamina intraacumosa aumenta la importancia de incentivo condicionada de la recompensa de sacarosa: mejora de la "falta" de recompensa sin "gusto" o refuerzo de respuesta mejorado. J Neurosci. 2000; 20: 8122 – 8130. ElPubMed]
  141. Yin HH. Departamento de Psicología. Los Ángeles: UCLA; 2004. El papel del cuerpo estriado dorsal en las acciones dirigidas hacia el objetivo.
  142. Yin HH, Knowlton BJ. La devaluación del reforzador suprime la preferencia condicionada de señales: evidencia de asociaciones estímulo-estímulo. Behav Neurosci. 2002; 116: 174 – 177. ElPubMed]
  143. Yin HH, Knowlton BJ. Aportaciones de las subregiones estriadas al lugar de aprendizaje y respuesta. Aprender mem. 2004; 11: 459 – 463. ElArtículo gratuito de PMC] [PubMed]
  144. Yin HH, Knowlton BJ. Adicción y aprendizaje. En: Stacy A, editora. Manual de cognición y adicción implícitas. Thousand Oaks: Sage; 2005.
  145. Yin HH, Knowlton BJ, Balleine BW. Las lesiones del estriado dorsolateral preservan la expectativa de resultado pero interrumpen la formación de hábitos en el aprendizaje instrumental. Eur J Neurosci. 2004; 19: 181 – 189. ElPubMed]
  146. Yin HH, Knowlton BJ, Balleine BW. El bloqueo de los receptores NMDA en el estriado dorsomedial impide el aprendizaje de la acción-resultado en el condicionamiento instrumental. Eur J Neurosci. 2005a; 22: 505 – 512. ElPubMed]
  147. Yin HH, Knowlton BJ, Balleine BW. La inactivación del cuerpo estriado dorsolateral aumenta la sensibilidad a los cambios en la contingencia acción-resultado en el condicionamiento instrumental. Behav Brain Res. 2006a; 166: 189 – 196. ElPubMed]
  148. Yin HH, Zhuang X, Balleine BW. Aprendizaje instrumental en ratones hiperdopaminérgicos. Neurobiol Learn Mem. 2006b; 85: 283 – 288. ElPubMed]
  149. Yin HH, Ostlund SB, Knowlton BJ, Balleine BW. El papel del cuerpo estriado dorsomedial en el condicionamiento instrumental. Eur J Neurosci. 2005b; 22: 513 – 523. ElPubMed]
  150. Zahm DS. Una perspectiva neuroanatómica integradora en algunos sustratos subcorticales de respuesta adaptativa con énfasis en el núcleo accumbens. Neurosci Biobehav Rev. 2000; 24: 85 – 105. ElPubMed]
  151. Zahm DS. La teoría en evolución de los "macrosistemas" anatómicos funcionales del prosencéfalo basal. Neurosci Biobehav Rev. 2005 [PubMed]