Dinámica diferencial de liberación de dopamina en el núcleo de Nucleus Accumbens y Shell revela señales complementarias para la predicción de errores y la motivación de incentivos (2015)

  1. Regina M. Carelli 2

+Mostrar afiliaciones

Contribuciones de los autores: MPS y FC diseñaron la investigación; MPS y FC realizaron investigación; MPS y FC analizaron datos; MPS, RMW y RMC escribieron el documento.

Resumen

La dopamina mesolímbica (DA) se libera fásicamente durante las conductas apetitivas, aunque existe un desacuerdo importante sobre el propósito específico de estas señales de DA. Por ejemplo, los modelos de error de predicción (PE) sugieren un papel de aprendizaje, mientras que los modelos de saliente de incentivo (IS) argumentan que la señal de DA imbuye los estímulos con valor y, por lo tanto, estimula el comportamiento motivado. Sin embargo, dentro del núcleo accumbens (NAc), los patrones de liberación de DA pueden diferir notablemente entre subregiones, y como tal, es posible que estos patrones contribuyan de manera diferente a aspectos de PE e IS. Para evaluar esto, medimos la liberación de DA en subregiones de la NAc durante una tarea conductual que separaba espaciotemporalmente los estímulos secuenciales dirigidos a la meta. Se utilizaron métodos electroquímicos para medir la liberación de dopamina en el subsegundo NAc en el núcleo y la cubierta durante un programa de cadena instrumental bien aprendido en el que las ratas fueron entrenadas para presionar una palanca (buscar; SL) para obtener acceso a una segunda palanca (tomar; TL) vinculada a Entrega de alimentos, y nuevamente durante la extinción. En el núcleo, el lanzamiento fásico de DA fue mayor después de la presentación inicial de SL, pero mínimo para los siguientes eventos de TL y recompensa. En contraste, el shell Phasic DA mostró un lanzamiento robusto en todos los eventos de tareas. La señalización disminuyó entre el inicio y el final de las sesiones en el shell, pero no en el núcleo. Durante la extinción, la liberación máxima de DA en el núcleo mostró una disminución gradual para la SL y se detiene en la liberación durante las recompensas esperadas omitidas, mientras que la liberación de la DA de shell disminuyó predominantemente durante la TL. Estas dinámicas de liberación sugieren señales DA paralelas capaces de soportar distintas teorías de comportamiento apetitivo.

DECLARACIÓN DE SIGNIFICADO La señalización de la dopamina en el cerebro es importante para una variedad de funciones cognitivas, como el aprendizaje y la motivación. Por lo general, se supone que una única señal de dopamina es suficiente para respaldar estas funciones cognitivas, aunque las teorías rivales no están de acuerdo sobre cómo la dopamina contribuye a los comportamientos basados ​​en la recompensa. Aquí, hemos encontrado que la liberación de dopamina en tiempo real dentro del núcleo accumbens (un objetivo principal de las neuronas de la dopamina del cerebro medio) varía sorprendentemente entre las subregiones del núcleo y la cáscara. En el núcleo, la dinámica de la dopamina es consistente con las teorías basadas en el aprendizaje (como el error de predicción de la recompensa), mientras que en la cáscara, la dopamina es consistente con las teorías basadas en la motivación (por ejemplo, la importancia del incentivo). Estos hallazgos demuestran que la dopamina desempeña funciones múltiples y complementarias basadas en circuitos discretos que ayudan a los animales a optimizar comportamientos gratificantes.

Introducción

Entender el papel de la señalización de la dopamina (DA) en relación con el aprendizaje, el comportamiento y la adicción es un tema central en la neurociencia del comportamiento. Las teorías contemporáneas son consistentes con la organización anatómica del sistema mesolímbico DA, en donde una población relativamente pequeña de neuronas DAérgicas en el área ventral tegmental (VTA) envía colaterales a través del cerebro a circuitos ampliamente modulados para el aprendizaje y la acción. Sin embargo, pruebas recientes sugieren que la señalización de DA puede ser más heterogénea de lo que se consideró anteriormente. Por ejemplo, la liberación de DA fásica después de las señales de recompensa predictiva escalas con el valor de recompensa subjetiva anticipada en el núcleo accumbens (NAc) núcleo, pero no shell (Day et al., 2010; Sugam et al., 2012). En contraste, los cambios motivacionales en el procesamiento hedónico de los tastantes predictivos de drogas se localizan en los cambios fásicos en la liberación de DA en el shell NAc, pero no en el núcleo (Wheeler et al., 2011). Además, nosotros y otros hemos demostrado que la liberación de DA durante las tareas aprendidas codificó los estímulos de manera diferente entre el núcleo y la shell (Aragona et al., 2009; Owesson-White y otros, 2009; Badrinarayan et al., 2012; Cacciapaglia et al., 2012). Entonces, en lugar de una señal global de DA, estos hallazgos sugieren que la DA puede ajustarse de manera diferenciada y discreta a regiones específicas para apoyar la plasticidad dentro de circuitos definidos relacionados con el aprendizaje, la motivación y la acción.

Sin embargo, las funciones precisas de estas señales heterogéneas de DA no se conocen bien. Un modelo influyente ha postulado que DA proporciona una señal de enseñanza para generar expectativas asociativas de resultados futuros y si esas predicciones son precisas [error de predicción (PE)]. Las neuronas DA muestran este tipo de codificación (Schultz et al., 1997; Schultz y Dickinson, 2000; Waelti et al., 2001; Tobler et al., 2003), aunque los hallazgos recientes confirman que esencialmente todas las neuronas DA identificadas de forma optogenética en el VTA muestran una señalización de tipo PE (Cohen et al., 2012). En contraste, los modelos de incentivo de la saliencia (SI) sugieren que la DA actúa para dotar a los estímulos con reforzadores valiosos, creando un impulso motivador para esos resultados (Berridge y Robinson, 1998; Robinson y Berridge, 2008; Zhang et al., 2009; Berridge, 2012). Aunque similares, los modelos de PE e IS hacen predicciones muy divergentes para que la función de DA con respecto a su necesidad en el aprendizaje, la motivación y la adicción a las drogas (Redish, 2004; Tindell et al., 2009; Bromberg-Martin y otros, 2010; Berridge, 2012).

En las tareas de condicionamiento simples, es difícil saber qué está codificando la liberación fásica de DA (es decir, ¿está prediciendo una recompensa o destaque?). Sin embargo, al aislar espacialmente los estímulos predictivos y salientes dentro de la misma tarea, es posible analizar características específicas del aprendizaje y la acción para aislar componentes, como la predicción inicial, los comportamientos consumatorios, la motivación e incluso la extinción. Para solucionar esto, utilizamos una tarea de programación de cadena instrumental en la que las presiones sobre una palanca [buscando la palanca (SL)] permitieron el acceso a las presiones sobre una segunda palanca de toma (TL), y las presiones sobre la TL dieron como resultado la entrega de alimentos. Además, al utilizar la voltametría cíclica de escaneo rápido (FSCV) para medir los patrones de liberación de DA en tiempo real, ya sea en el núcleo de NAc o en la concha en ratas bien entrenadas, diferenciamos cómo las características selectivas de la tarea de la codificación de DA diferían en las subregiones de NAc. Finalmente, examinamos cómo estas señales cambiaron dinámicamente cuando se alteraron aspectos de la motivación (nivel de hambre) y la predicción (extinción). Observamos patrones diferenciales de liberación de DA en el núcleo y la cubierta que eran altamente consistentes con los modelos de PE e IS, respectivamente, y generalmente apoyamos la idea de múltiples señales de DA mesolímbicas que pueden apoyar aspectos complementarios pero distintos del comportamiento dirigido hacia el objetivo.

Materiales y Métodos

Los animales

Doce ratas Sprague-Dawley macho que pesaban 280-330 g se utilizaron como sujetos. Las ratas se alojaron individualmente con un ciclo 12 h luz / oscuridad y se restringió ligeramente la comida a no menos del 90% de peso de alimentación libre (10-15 g de China de laboratorio Purina cada día, además de ∼2.7 g de sacarosa consumida durante las sesiones diarias ). La restricción de alimentos se aplicó durante la duración de las pruebas de comportamiento, excepto durante el período de recuperación posterior a la cirugía, cuando los alimentos se administraron ad libitum. Todos los procedimientos se realizaron de acuerdo con el Comité Institucional de Cuidado y Uso de Animales de la Universidad de Carolina del Norte en Chapel Hill.

Entrenamiento conductual: cadena de horarios.

Las cámaras de prueba contenían dos palancas retráctiles con una luz indicadora sobre cada palanca y un receptáculo para alimentos colocado a la misma distancia entre las palancas como se describió anteriormente (Cacciapaglia et al., 2012). Para cada sujeto, una palanca (por ejemplo, a la izquierda) se designó como TL y la otra palanca (por ejemplo, a la derecha) como el SL durante la duración de todas las sesiones de prueba. El lado del TL y SL se contrapesó en todos los sujetos.

Las ratas fueron entrenadas por primera vez para obtener gránulos de sacarosa (45 mg, Purina) del recipiente de la taza de comida. Durante una única sesión de entrenamiento previo, los pellets 50 se entregaron al azar aproximadamente una vez cada 30. Las ratas se entrenaron para autoadministrarse gránulos de sacarosa durante sesiones diarias únicas. Para dar forma a la respuesta instrumental, los animales fueron entrenados primero para presionar el TL. Cada prueba durante la configuración comenzó con la iluminación de una señal de luz directamente sobre el TL junto con la extensión del TL en la cámara de prueba [sacando la palanca (TLO)]. Cada palanca de toma presiona [TLP; la relación fija 1 (FR1)] dentro de 15 s de extensión dio lugar a la entrega de un solo gránulo de sacarosa (45 mg) en el receptáculo, la retracción del TL y la terminación de la luz indicadora. Si los animales no presionaron el TL dentro de 15 s, la palanca se retrajo, la luz de aviso se apagó y el ensayo se contó como una omisión. Los ensayos se separaron mediante un intervalo intertrial variable con un promedio de 15 s (rango: 5 – 25 s; días de conformación 1 y 2), y luego se incrementaron a un promedio de 45 s en los días de conformación 3 – 4 (rango: 30 – 60 s).

Después del establecimiento de una respuesta estable en el TL (es decir, no más de 2 errores de omisión en una sesión) se introdujo el programa de la cadena ( A), adaptado de Olmstead et al. (2000). Las pruebas durante las sesiones de programación en cadena comenzaron con la extensión del SL y la iluminación simultánea de la luz de señal directamente sobre ella (SLO). Cada SLP (FR1) resultó en la retracción del SL y la extinción de la señal, seguido de la presentación del TLO (extensión de la palanca, luz cue). Como se indicó anteriormente, las prensas TL resultaron en la retracción del TL, la extinción de la luz indicadora y la entrega de una pastilla de sacarosa a la taza de alimentos. Los ensayos se separaron mediante una variable de intervalo intertrial de 45 (rango: 30 – 60 s), y cada sesión consistió de ensayos de 30. Para el día 1 de la programación de la cadena, no hubo demora entre la retracción del SL y la extensión del TL. En los días siguientes, se introdujo un intervalo variable (VI) de 3 – 5 s entre la retracción de la prensa SL y la extensión de la TL. Además, se introdujo un VI 1 – 3 s entre la prensa TL y la entrega del refuerzo de sacarosa. Se utilizaron retrasos variables durante el entrenamiento (es decir, todas las sesiones antes de las grabaciones de FSCV) para eliminar la capacidad de las ratas para cronometrar de manera predecible la entrega de eventos. Las ratas fueron entrenadas para 5 d en este programa de la cadena o hasta que mostraron un rendimiento estable de dos sesiones consecutivas sin omisión en el SL o el TL, después de lo cual se prepararon quirúrgicamente para el registro voltamétrico.

Entrenamiento conductual: extinción.

Después de la última sesión de grabación, un subconjunto de animales se extinguió (grabaciones principales: n = 3; grabaciones de shell: n = 7). Durante la extinción, SLO Las presentaciones indicaron el inicio de una nueva prueba. Las pruebas fueron idénticas a las de la sesión de prueba, donde las prensas SL dieron como resultado presentaciones del TLO 4 s más tarde, pero las presiones sobre el TL no fueron reforzadas. Las sesiones de extinción continuaron hasta que las ratas dejaron de responder en el SL para 10 pruebas consecutivas ( B).

Estudios previos (Schoenbaum et al., 2003; Saddoris y otros, 2005) han demostrado que los correlatos neuronales de la actividad límbica son muy sensibles a los cambios en el aprendizaje y el estado motivacional, por lo que aquí utilizamos marcadores de latencia de respuesta para definir bloques para cada sujeto ( B). El primer bloque fue la extinción temprana, en la cual la latencia de respuesta para un SLP La respuesta fue similar a la sesión premiada. A continuación, el primer SLP La latencia de respuesta que fue al menos 2 SD más larga que durante la sesión en cadena previamente recompensada marcó el comienzo de la extinción de retraso. Finalmente, todos los ensayos que siguieron a la primera respuesta omitida se encontraban en el bloque de extinción tardía y se agruparon según si la rata omitió un SLP respuesta (tarde no presione) o reanudó la respuesta (tarde presione). Todas las conductas de extinción se compararon con el calendario de cadenas reforzado inmediatamente anterior.

Procedimientos quirúrgicos.

Después del entrenamiento de comportamiento, los animales se prepararon quirúrgicamente para registros voltamétricos como se describió anteriormente (Cacciapaglia et al., 2012). En resumen, las ratas se anestesiaron con una inyección intramuscular de clorhidrato de ketamina (100 mg / kg, im) y una mezcla de clorhidrato de xilazina (20 mg / kg). Se implantó una cánula guía (Sistemas bioanalíticos) sobre la cáscara NAc (+ 1.7 mm AP, + 0.8 mm ML) o núcleo (+ 1.3 mm AP, + 1.3 mm ML) y se colocó un electrodo de estimulación bipolar (Plastics One) el VTA (−5.2 mm AP, + 1.0 mm ML y −7.8 DV). Se colocó otra cánula guía para el electrodo de referencia Ag / AgCl en el hemisferio contralateral. Los componentes fueron asegurados al cráneo con tornillos y cemento craneoplástico.

Grabación voltimétrica.

Las técnicas de grabación FSCV utilizadas aquí fueron las descritas en detalle anteriormente (Cacciapaglia et al., 2012; Sugam et al., 2012). Brevemente, después de la cirugía, se permitió que las ratas recuperaran su peso corporal antes de la cirugía (al menos 5 d de recuperación). El día del experimento, se bajó un microelectrodo de fibra de carbono a la capa o núcleo NAc con un microdrive construido localmente (Instalación electrónica del Departamento de Química, Universidad de Carolina del Norte, Chapel Hill, NC), después de colocar un electrodo de referencia Ag / AgCl en El hemisferio contralateral. El microelectrodo de fibra de carbono se mantuvo en −0.4 V frente al electrodo de referencia Ag / AgCl. Periódicamente se adquirió un voltamograma cíclico (intervalos 100 ms) aplicando una forma de onda triangular que condujo el potencial a 1.3 V y de nuevo a −0.4 V. Antes del inicio de cada sesión de grabación, obtuvimos eventos de liberación de DA evocados eléctricamente al impulsar el estimulante bipolar electrodo en el VTA y registró la liberación de DA resultante en el NAc. Si una estimulación no tuvo éxito al provocar la liberación de DA, el electrodo se bajó a una nueva ubicación y se repitió el proceso. Una vez que la estimulación eléctrica evocó exitosamente la liberación de DA en la NAc, se creó un conjunto de entrenamiento de liberación evocada de DA utilizando una combinación de frecuencias estimulantes (entre 10 y 60 Hz) y el número de pulsos bifásicos (de 4 a 25) del electrodo VTA bipolar. En un subconjunto de grabaciones, se creó un conjunto de entrenamiento adicional después del final de la sesión de comportamiento para garantizar la estabilidad del electrodo durante la sesión. En un subconjunto de ratas (n = 9), después de registrar una sesión completa de 30 ensayos, el electrodo se bajó otros ∼300 μm hasta que se encontró otro sitio de liberación, momento en el que se tomó otra grabación para otra sesión de 30 ensayos. El análisis de los datos FSCV (Análisis HDCV) utilizó un análisis quimiométrico de componentes principales para extraer los cambios en la corriente debido a la DA utilizando el conjunto de entrenamiento estimulado eléctricamente de cada sujeto de la sesión de grabación relacionada recopilada antes de la prueba, como se describió anteriormente (Heien et al., 2005; Keithley et al., 2010). Para cada región (núcleo y cubierta), una traza de concentración de DA promedio se alineó con cada evento de comportamiento y se comparó con la concentración de DA promedio sobre una línea base de 5 inmediatamente antes de SLO inicio utilizando un modelo mixto de dos vías ANOVA (factores: evento, región) en promedios de materia.

Para las sesiones de extinción, los rastros de DA también se alinearon con los eventos de comportamiento. Sin embargo, debido a que muchos SLO Las presentaciones no fueron seguidas por ninguna prensa en extinción, se utilizaron dos análisis diferentes. Para el primero, las trazas de DA se alinearon a SLO y agrupados por fase de extinción (ver ), y se analizaron utilizando medidas repetidas de dos vías que utilizan la fase de extinción y el evento de estímulo como factores. Para el segundo análisis, solo pruebas en las que la rata presionó el TLP se utilizaron y las concentraciones pico de DA (es decir, la liberación máxima de DA dentro de 300 ms después del evento) se obtuvieron para ambos TLP y recompensa, y también analizado con un ANOVA de medidas repetidas de dos vías que utiliza la fase de extinción y el estímulo de la tarea como factores. Todos post hoc Las comparaciones por pares se hicieron utilizando el HSD de Tukey, corregido para diferencias N cuando sea apropiado. Todos los análisis estadísticos se realizaron utilizando Prism 4.0 para Windows (software GraphPad) o Statistica para Windows (StatSoft).

Histología.

Después de cada experimento, las ratas se anestesiaron profundamente con una mezcla de ketamina (100 mg / kg) / xilazina (20 mg / kg) (im). Un electrodo de tungsteno ubicado en el mismo micromanipulador utilizado durante el experimento se bajó al sitio de registro experimental y se realizó una pequeña lesión electrolítica (50 – 500 μA, 5 s) para marcar la posición de la punta del electrodo. Se realizaron lesiones múltiples cuando se habían realizado grabaciones múltiples. Se extrajo cada cerebro, se fijó en 4% de formaldehído y luego se congeló a −80C antes de cortarlo en secciones coronales de 40 μm con un criostato. Las secciones se montaron en diapositivas, se observaron con microscopía de campo claro y se tomaron imágenes digitalmente ( C).

Comparación de la versión DA estimulada y evocada por eventos en el núcleo y la shell.

Era posible que las diferencias observadas entre la liberación de DA de núcleo y de shell para eventos de comportamiento no se debieran a diferencias en la dinámica de liberación, sino a diferencias en la cinética de eliminación de DA entre las regiones. Por ejemplo, la dinámica de liberación y absorción de DA estriatal es más lenta en la cubierta que en el núcleo debido a una menor densidad del transportador de dopamina en la cubierta (Jones et al., 1996; Budygin et al., 2002). Como tal, las diferencias entre el núcleo y el shell en eventos posteriores (por ejemplo, TLO, recompensa) podría explicarse por la persistencia de DA residual en la región sináptica en el shell.

Para abordar esta preocupación, comparamos los patrones de liberación y captación de DA provocados por eventos de comportamiento (es decir, SLO) durante la tarea de programación en cadena a DA provocada por una breve ráfaga de estimulación eléctrica de aferentes de VTA. Originalmente, la estimulación eléctrica (pulsos bifásicos de 2 ms) de las fibras VTA se realizaba a través de una amplia gama de frecuencias de estimulación (10 a 60 Hz) y números de pulso (4 a 25 pulsos) para obtener un espectro completo de dinámica de liberación con el fin de construir un conjunto de entrenamiento quimiométrico. Como tal, una gran cantidad de estimulaciones eléctricas fueron sustancialmente mayores (p. Ej., 2000 nm) que las observadas en transitorios que ocurren naturalmente (típicamente 40-150 nm). A concentraciones extremadamente grandes de liberación de DA, es posible que el transportador de DA se sature, lo que lleva a una cinética de eliminación más lenta que la que se observaría en el rango normal. Para abordar esto directamente, seleccionamos solo los “ensayos” de estimulación eléctrica en los que la liberación máxima de DA era <200 nm. Del mismo modo, seleccionamos solo ensayos de comportamiento donde la liberación máxima de DA se alineó con el SLO fue al menos 100 nm. Para cada sujeto, todos los ensayos elegibles se promediaron para el análisis. Usando esta métrica, obtuvimos estimulaciones eléctricas 23 y sesiones evocadas con señales 15 en el núcleo, y estimulaciones eléctricas 14 y sesiones evocadas con señales 11 en el shell.

Las comparaciones de la liberación de DA evocadas eléctricamente mediante cue se realizaron utilizando varias métricas. Primero, el pico de DA se derivó de los eventos de comportamiento en SLO (Es decir, la mayor concentración de DA dentro de 1.5 s SLO inicio), TLO (la mayor concentración de DA entre 4 y 5.5 s después de SLO inicio) y recompensa (la mayor concentración de DA entre 6.5 – 8 s después de SLO inicio) para eventos de señal, y en los puntos de tiempo correspondientes para eventos estimulados eléctricamente (es decir, los mismos puntos de tiempo, pero después del inicio de la estimulación en lugar de SLO comienzo). A continuación, se examinaron las dinámicas de eliminación utilizando métricas publicadas anteriormente (Yorgason et al., 2011). Específicamente, observamos la latencia a la vida media (concentración de la mitad del pico de concentración) después del pico, T 20 (el tiempo para 20% de desintegración desde el pico) y T 80 (tiempo para 80% de caída desde el pico). Estos valores se compararon utilizando un ANOVA de modelo mixto usando región (núcleo, cubierta), tipo de estimulación (SLO alineado, estimulado eléctricamente) como factores entre sujetos y concentración de DA en cada tipo de evento (línea de base, SLO, TLO, y recompensa) o medida de decaimiento (latencias a pico, T 20vida media, y T 80, respectivamente) como medidas repetidas. Post hoc Las comparaciones se realizaron utilizando el HSD de Tukey para diferencias N.

Resultados

Comportamiento de horario de cadena reforzado.

Las ratas aprendieron rápidamente la tarea del horario de la cadena. En la sesión final antes de la cirugía, las ratas en promedio completaron 99.8% de los ensayos con precisión. Durante esas sesiones, las ratas tomaron en promedio 783 ± 253 ms para presionar después de SLO, y 588 ± 298 ms para presionar despues de TLO, una diferencia que fue casi significativa, t (17) = 1.77, p = 0.085 Sin embargo, en los días de grabación posquirúrgica, las ratas nuevamente no hicieron casi ninguna omisión (99.5%), pero mostraron latencias de respuesta significativamente más rápidas para TLP (999 ± 64 ms) que SLP (444 ± 39 ms), t (29) = 7.48, p <0.0001. Es importante destacar que en los días de registro, no hubo diferencias en la latencia de respuesta para los animales registrados en el caparazón frente al núcleo. t (29) = 0.78, p = 0.48. Por lo tanto, las ratas en ambos grupos (núcleo y concha) fueron igualmente competentes para completar el programa de la cadena cuando se reforzó la tarea.

Liberación de DA diferencial en el núcleo y la carcasa de NAc durante la programación de la cadena reforzada

Luego, usamos FSCV para obtener grabaciones de DA en tiempo real desde el núcleo de NAc (n = 13) o shell (n = 12) durante el desempeño en el horario de la cadena bien aprendida ( C). En ratas en las que se tomaron múltiples grabaciones, la punta del electrodo se redujo al menos 300 μm entre sesiones para asegurar que la punta del electrodo de fibra de carbono 100 μm estaba completamente en tejido fresco para cada grabación. Consistente con ambos PE y IS En los modelos, encontramos un lanzamiento de Phasic robusto que comenzó con el inicio del SL y la luz cue (SLO) tanto en el núcleo como en la concha. Se muestran ejemplos de esta señalización de sesiones de grabación representativas (promediadas en los ensayos de 30) para el núcleo ( A) y concha ( B), con gráficos de color de un animal individual. La señalización de DA difirió sorprendentemente entre subregiones. En todas las ratas, en el núcleo ( C – E, trazas negras), DA alcanzó su punto máximo rápidamente al inicio de la señal más predictiva (SLO inicio) y luego se redujo rápidamente a la línea de base en el momento de la TLP. Por el contrario, en la concha ( C – E, trazas grises), los aumentos rápidos en la concentración de DA coincidieron con SLO presentación y se mantuvo elevado para otros estímulos sobresalientes motivacionales con picos discretos en TLO y recompensar la entrega antes de volver a la línea de base al final de la prueba.

Figura 1. 

A , Esquema de diseño de tareas. Durante el programa de la cadena, una palanca (SL) se extendió a la cámara de prueba al mismo tiempo que se iluminaba una luz indicadora sobre la palanca (SLO). SLP Apagó la luz y retrajo la palanca. Después de un retraso, la otra palanca en la cámara (TL) se extendió y la luz de señal asociada se iluminó (TLO). Siguiendo una prensa en el TL (TLP) ratas recibieron refuerzo de alimentos después de un retraso (R). B , Comportamiento de extinción en animales con registros FSCV en el núcleo o el caparazón. El comportamiento y el análisis en extinción se agruparon por bloques según el comportamiento de la rata. Los ensayos en la tarea de la cadena inmediatamente anterior se utilizaron para comparar eventos en extinción. La extinción temprana fueron todas las pruebas hasta la primera respuesta de retraso significativo en el SL, mientras que la extinción tardía fueron todas las pruebas entre el primer SL retrasadoP y la primera prensa omitida siguiente SLO presentación. Dentro del bloque de extinción tardía, se hicieron distinciones entre si el sujeto hizo una prensa u omitió una respuesta. C , Histología de colocaciones de electrodos dentro del núcleo (círculos negros) y concha medial (círculos grises).

Figura 2. 

El rendimiento del programa encadenado produjo diferentes dinámicas de liberación de DA dentro de la NAc. Dinámica de liberación de dopamina en el núcleo ( A ) y concha ( B ) de la NAc alineada con el tiempo de extensión de SL en la cámara (SLO). Las gráficas de color muestran los promedios de un sujeto representativo en el núcleo y la cubierta, respectivamente. Tiempo promedio (▴) de la extensión TL (TLO) y recompensa (R) y rango (± 2 SD) en relación con SLO se muestran en la parte inferior. C E , Promedio de liberación de DA en todas las grabaciones en core (negro) y shell (gris) en relación con ( C ) SLO, ( D ) SLP, y la extensión del TLO 4 s más tarde, y ( E ) TLPy la pastilla de alimentos Rewards (R) entregada a 2.5 después de la impresión. La línea discontinua muestra SEM del promedio para cada región. Fila inferior ( F H ) muestra el promedio de lanzamiento máximo de DA para cada evento de comportamiento. *p <0.05 frente al valor inicial; †p <0.05 núcleo versus caparazón.

Cuantificamos estas observaciones al promediar todas las grabaciones tomadas en el núcleo o en la concha, alineadas con cada uno de los eventos de comportamiento en el calendario de la cadena ( C – H). En las sesiones de grabación FSCV, el tiempo entre SLP y TLO fue arreglado (4 s) al igual que el tiempo entre TLP y recompensa la entrega (2.5 s) para permitir una mejor alineación de los estímulos de la tarea para el análisis de DA. Así, alineando a SLOSLP/ TLO, y TLP/ recompensa permitió la alineación de todos los marcadores de comportamiento y el análisis permitido de la liberación máxima de DA en relación con estos eventos.

Un ANOVA bidireccional que compara las concentraciones máximas de DA (concentración máxima de DA dentro de 300 ms después del evento) a través de la región (núcleo, shell) y evento (línea de base, SLOSLP, TLO, TLP, recompensa) indicó que el shell lanzó más DA en general que el núcleo, F (1,24) = 13.63, p <0.002. Es importante destacar que una interacción significativa de región × evento, F (5,120) = 9.88, p <0.0001, reveló que la señalización de DA en el núcleo y el caparazón respondía de manera diferente a los eventos de comportamiento ( F – H). Específicamente, el lanzamiento de DA central aumentó significativamente en SLO, en relación a la línea de base (p <0.0001), y permaneció por encima de la línea de base en el momento del SLP (p <0.0001), aunque significativamente por debajo del de SLO (p <0.05). Sin embargo, no hubo diferencias en el pico de DA en el núcleo en comparación con la línea de base para ninguno de los eventos de TL (TLO vs línea de base p = 0.59; TLP vs línea de base p = 1.0), y no hay diferencia con respecto a la línea de base en el momento del recibo de la recompensa (p = 1.0).

En contraste, las concentraciones máximas de DA en la cáscara mostraron una liberación significativa de DA para todos los eventos. Todos los eventos se asociaron con una mayor liberación de DA que la línea de base (todas las comparaciones frente a BL, p <0.0002), mientras que ninguno de los eventos fue significativamente diferente entre sí (todos los SL por paresOSLP, TLO, TLP, y recompensas comparaciones, p > 0.96).

Comparando directamente núcleo y shell, encontramos diferencias importantes en la señalización DA entre regiones. Aunque no hubo diferencias en la liberación de DA durante la línea de base (p = 1.0) o los eventos SL (SLO, p = 1.0; SLP, p = 0.22), el shell DA se elevó significativamente en comparación con el núcleo para ambos eventos TL (TLO, p <0.01; TLP, p <0.001) y recompensa (p <0.0005; D – F).

Figura 3. 

Cambios en la señalización de DA entre el inicio de la sesión (temprano; primeros ensayos 5 de la cadena de programación) versus el final de la sesión (tarde; últimos ensayos 5). A , Concentraciones promedio de DA en el núcleo de NAc de los promedios de los primeros cinco ensayos de cada sujeto (azul claro) y los últimos cinco ensayos (violeta). B En el núcleo, la señalización máxima de DA dentro de los sujetos se mantuvo sin cambios entre el inicio de la sesión y el final. C , Concentraciones promedio de DA en el caparazón NAc de los promedios de los primeros cinco ensayos de cada sujeto (rojo) y los últimos cinco ensayos (naranja). D , Shell DA mostró una disminución significativa dentro de los sujetos tanto en el SLP y TLP Señales y recompensas (**p <0.01), mientras que la disminución en el SLO la señal fue casi significativa (#p = 0.073). Las barras de error muestran SE de la diferencia (temprano vs tarde).

Cambios específicos de la región en el lanzamiento de DA entre el inicio y el final de la sesión

A continuación, comparamos el lanzamiento de DA en el núcleo y el shell durante la tarea de programación de cadena reforzada al comienzo de la sesión (primeros ensayos de 5) versus el final de la sesión (últimos ensayos de 5; ). Esto fue importante para probar y asegurar que el electrodo se mantuvo estable durante toda la sesión (es decir, que el electrodo no perdió sensibilidad con el tiempo) y también para evaluar si el DA rastrea cambios sutiles en el estado motivacional (por ejemplo, debido a algún efecto). de disminución del hambre después de consumir la comida) tras la presentación de los diferentes estímulos.

En el núcleo ( A), un ANOVA de dos vías indicó un efecto principal significativo del evento (BL, SLOSLP, TLO, TLP, Rew; F (5,65) = 35.03, p <0.0001), pero ningún efecto de la fase de sesión (temprano vs tardío; F (1,13) = 3.55, p = 0.08), o interacción entre evento × fase de sesión (F (5,65) = 0.82, p = 0.54). Post hoc las comparaciones entre los bloques tempranos y tardíos indicaron que la liberación máxima de DA en relación con los eventos de comportamiento en el núcleo permaneció igual entre el comienzo y el final de la sesión (Tukey: todas las comparaciones entre pares temprana y tardía para BL, SLOSLP, TLO, TLPy recompensa p > 0.50; B).

Sin embargo, los estímulos fásicos de liberación a tarea de DA generalmente disminuyeron durante la sesión en el shell ( C,D), con importantes efectos principales del evento (F (5,55) = 13.52, p <0.0001), fase de sesión (F (1,11) = 6.95, p = 0.02), y una interacción entre el evento y la fase de sesión (F (5,55) = 3.74, p = 0.006). Como en el núcleo, post hoc las pruebas indicaron que no hay diferencia en BL, pero disminuciones significativas en la liberación máxima de DA al SLP, TLP, y recompensa (Tukey: todos p <0.0005), una tendencia hacia la significación en el SLO señal (p = 0.060), pero no hay diferencia en el TLO señal (p = 0.36). Por lo tanto, los cambios en el caparazón (pero no en el núcleo) se limitaron principalmente a acciones motivadas y recompensa el consumo con efectos diferenciales (aunque modestos). Estos cambios entre sesiones en la liberación de DA no se debieron a cambios generalizados en la sensibilidad de los electrodos, sino que sugieren que los cambios específicos de estímulo y capa en los patrones de liberación de DA indican información sobre el significado alterado de los estímulos de la tarea en ensayos repetidos. Dado que los animales habían consumido al menos 25 gránulos en promedio al final de cada sesión de registro (es decir, 1144 mg, o el 7.6% del peso del régimen diario de restricción de alimentos de las ratas), estos hallazgos sugieren que una mayor ingestión del alimento redujo con éxito el estado de hambre motivado en el animal, que se manifestó en cambios en el caparazón pero no en el núcleo durante el transcurso de la sesión.

Dinámica de DA evocada por cue versus estimulada eléctricamente en el núcleo y la carcasa

Una advertencia a estos hallazgos puede ser que el núcleo y la cubierta tienen diferentes dinámicas de eliminación de DA debido a la menor densidad del transportador DA en la cubierta en comparación con el núcleo (Jones et al., 1996; Budygin et al., 2002). Por lo tanto, es posible que la shell DA vista en TL y eventos de recompensa se deba a la liberación residual de DA en el momento de SLO, pero no se puede eliminar del desbordamiento sináptico tan eficientemente como en el núcleo. Para solucionar esto, comparamos la liberación de DA estimulada eléctricamente en la misma ubicación de electrodo que durante las grabaciones de la programación de la cadena para ver si la dinámica estimulada eléctricamente se correspondía con la dinámica evocada en el núcleo y la cubierta ( A). Predecimos que si las cinéticas de eliminación más lentas en la carcasa eran responsables de las diferencias en la señalización de eventos subsiguientes (por ejemplo, TLO) entre el núcleo y la carcasa, entonces las liberaciones estimuladas eléctricamente y evocadas en la señal en sus respectivas subregiones deben seguir patrones casi idénticos de liberación y eliminación. En contraste, las desviaciones significativas de las estimulaciones eléctricas sugerirían que la liberación de DA en esa área está rastreando eventos relacionados con tareas de una manera que no puede explicarse solo por la dinámica de depuración sináptica.

Figura 4. 

Comparación de la señalización de DA estimulada eléctricamente versus provocada por señales en el núcleo y la carcasa de NAc. A , Concentración media de DA alineada a cualquiera de los SLO Señal o estimulación eléctrica del inicio de la fibra VTA. El momento de inicio de la TL.O se estimaron los valores de referencia y recompensa en un rango de tiempos de respuesta para esos resultados después de SLO (tiempo de respuesta promedio indicado por triángulo; ancho indica ± 95% intervalo de confianza). B , Comparación de las concentraciones promedio de DA en la línea base (BL) con la concentración máxima de DA dentro de 1 s de SLO o estimulación eléctrica (Stim / SLO), y dentro del intervalo de confianza del% de 95 para los tiempos correspondientes al TLO O recompensa las épocas. C , Latencia a la concentración máxima después de SLO o estimulación eléctrica (Peak Lat) y subsiguiente decaimiento (eliminación) después de la liberación en el núcleo y la carcasa. T20 y T80 son los tiempos en los que la señal ha decaído 20% y 80% lejos del pico, respectivamente, mientras que la vida media es la latencia que sigue al pico hasta alcanzar la concentración del pico máximo. *p <0.0001, estimulación eléctrica / SLO versus línea de base; †p <0.0001, Shell: Señal mayor [DA] que todos los demás tipos de estimulación; ‡ p <0.0001, Shell: Indique una mayor latencia para decaer desde el pico que todos los demás tipos de estimulación. Las barras de error muestran SE de la diferencia (señal vs eléctrica).

En general, encontramos que el núcleo y la carcasa difirieron drásticamente en su relación entre el lanzamiento de DA evocado eléctricamente y evocado eléctricamente ( B). Al observar las concentraciones máximas en los eventos de tarea, hubo diferencias significativas en las concentraciones de DA como una interacción de la región (núcleo / capa) x tipo de estimulación (eléctrica versus señal) x evento (BL, SL)O, TLO, Rew; F (3,174) = 12.31, p <0.0001). En el núcleo, las concentraciones máximas de DA para trazas evocadas por señales y estimuladas eléctricamente eran casi idénticas; no hubo diferencias estadísticas entre estos tipos de estimulación al inicio del estudio, SLO, TLO, o las épocas de recompensa (Tukey: todas p > 0.80). En contraste, el caparazón mostró un patrón diferente de dinámica entre los patrones de liberación de DA evocados eléctricamente y por señales. Aunque no hubo diferencia en la concentración al inicio o SLO (Tukey: ambos p > 0.98), DA fue significativamente mayor para el TLO y recompense las épocas en las pruebas indicadas en comparación con las estimulaciones eléctricas (tanto p <0.0001).

Del mismo modo, la tasa de liberación y la posterior eliminación de la sinapsis mostraron un patrón similar ( C). Al observar las tasas de eliminación en función de la descomposición desde el pico, hubo una interacción significativa entre la región x el tipo de estimulación × el parámetro de decaimiento (tiempo pico, T20vida media t80; F (3,174) = 80.23, p <0.00001). Como se indicó anteriormente, la depuración del núcleo y la dinámica de desintegración no difirieron entre los tipos de estimulación evocados por señales y evocados eléctricamente. La latencia al pico T 20vida media, y T 80 fueron todos estadísticamente similares sin importar el tipo de estimulación (eléctrico versus señal; todos p > 0.95). Por el contrario, los niveles de DA en la cáscara mostraron un deterioro significativamente retrasado a la línea de base después de SLO Presentaciones relativas a ensayos estimulados eléctricamente. Mientras que la latencia alcanza el máximo y T 20 fueron similares entre estimulaciones evocadas y provocadas eléctricamente (p > 0.98), desde la latencia hasta la vida media (p <0.0001), y T 80 (p <0.0001) se retrasaron significativamente en los ensayos indicados en relación con la estimulación eléctrica. En conjunto, estos hallazgos demuestran que las diferencias intrínsecas en la cinética de aclaramiento en el caparazón y el núcleo son insuficientes para explicar las diferencias en la señalización de DA durante el desempeño conductual.

Comportamiento de extinción

Las ratas mostraron un comportamiento de extinción durante las sesiones en las que se omitió la recompensa de la comida aumentando progresivamente la latencia para presionar las diferentes palancas durante el transcurso de la sesión de extinción. Generamos fases definidas por comportamiento basadas en estos cambios de latencia en relación con la latencia de prensa en el SL y TL durante la sesión de cadena reforzada inmediatamente anterior. La fase inicial se definió como las pruebas en las que las latencias eran las mismas que durante la sesión reforzada. Cuando las ratas presionaron la palanca significativamente más lento (es decir,> 2 SD) de lo normal, esto se denominó fase de retardo que duró desde la primera respuesta retardada hasta que el sujeto omitió una respuesta. Todos los ensayos posteriores a esta primera omisión se denominaron fase tardía en función de si la rata presionó (prensa tardía) u omitió una respuesta (tardía sin prensa).

Primero, evaluamos el número de ensayos realizados antes de que las ratas exhibieran un cambio de latencia desde la fase temprana a la fase de retraso, así como el número de ensayos hasta el primer ensayo omitido (es decir, el cambio a la fase tardía) para el SL y el TL, respectivamente ( A). Las ratas redujeron la velocidad de respuesta en el TL significativamente antes de que lo hicieran para el SL, emparejadas t prueba: t (7) = 2.49, p = 0.04, lo que sugiere que el TL (quizás en virtud de su relación inmediata con la recompensa) fue más sensible a la omisión de la recompensa que el SL. En contraste, el número de ensayos antes de realizar la primera omisión fue casi idéntico para las palancas SL y TL (p > 0.9), lo que quizás indica que las respuestas omitidas solo se emitieron cuando la predicción de la recompensa se había actualizado con precisión a cero al inicio del ensayo. De acuerdo con esto, rara vez encontramos ensayos en los que los animales realizaron un SLP pero omitió un TL posteriorP respuesta (solo 4 / 140 ensayos de fase tardía totales; 2.9%), lo que sugiere que las ratas realizaron casi exclusivamente la secuencia de la cadena completa o no lo hicieron en absoluto. Como tal, es probable que las omisiones estén más vinculadas a la información disponible en la SL que en la TL.

Figura 5. 

Comportamiento de extinción en animales con grabaciones FSCV en el núcleo o concha. A , El número de ensayos antes de las ratas mostró por primera vez un aumento significativo en la latencia de la respuesta al cambio de la fase temprana de extinción (izquierda) y la omisión de la respuesta (derecha) para el SL (gris claro) y TL (gris oscuro). Las ratas mostraron un cambio de latencia para el TL en significativamente menos ensayos que el SL, aunque el número de ensayos antes de omitir un ensayo fue el mismo entre buscar y recibir respuestas. *p <0.05 SL frente a TL. B , Latencia de respuesta para responder en la SL (izquierda) y la TL (derecha) en las fases de extinción. La latencia de respuesta aumentó en todos los bloques y fue significativamente más larga en los bloques de retraso y extinción tardía para las prensas SL. Las prensas en el TL fueron confiablemente más rápidas que las del SL dentro de cada bloque. *p <0.05, **p <0.01 vs Ext. Temprano

A continuación, examinamos las latencias medias para el SLP y TLP en cada fase basada en los criterios anteriores. Un ANOVA de medidas repetidas de dos vías que comparaba la latencia de respuesta en las diferentes palancas (SL, TL) durante las diferentes fases de la tarea (cadena, extinción temprana, extinción tardía, pulsación tardía) mostró un efecto principal significativo de la palanca (F (1,4) = 45.7, p = 0.003), que se debió a respuestas significativamente más rápidas en el TL que en el SL ( B), consistente con el rendimiento durante las sesiones reforzadas típicas, y un importante efecto principal de la fase de extinción (F (3,12) = 14.5, p <0.001). Para la SL, SLP Las respuestas durante la extinción temprana fueron similares a las de la sesión de la cadena reforzada (Tukey: p = 1.0), pero significativamente disminuido por el retraso (p = 0.02 vs temprano) y prensa tardía (p = 0.003 vs principios) fases. Sin embargo, las latencias de la prensa en el SL fueron similares entre el retardo y la fase tardía (p = 0.89). Para las prensas TL, los cambios en la latencia de respuesta fueron más sutiles, con la fase Tardía siendo significativamente más lenta que la fase temprana (p = 0.04). Sin embargo, un contraste lineal representó la mayor proporción de varianza en el cambio de latencia de TL (F (1,4) = 11.08, p = 0.03; 86% de la varianza del efecto principal), mientras que para el SL, un contraste que compara la cadena y las fases temprana y tardía y tardía representó la mayor proporción de la varianza del efecto (F (1,4) = 15.42, p = 0.02; 97% de varianza del efecto principal).

Extinción: el resultado omitido aumenta diferencialmente la señalización DA de núcleo y shell

La señalización de DA relacionada con el evento en el NAc cambió a medida que la rata avanzaba a través de las fases de extinción definidas por el comportamiento. La forma en que la codificación DA se vio afectada por la extinción varió notablemente entre el núcleo y el shell ( ).

Figura 6. 

DA lanzamiento en el núcleo ( A C ) y concha ( D F ) durante la extinción. A , Alineación con el SLO en el núcleo reveló una disminución continua en el lanzamiento de DA central a la prueba sobre las pruebas de extinción iterativas (líneas azules) en relación con las sesiones en cadena recompensadas (línea negra). BvCore DA libera las respuestas operativas y recompensa durante el calendario de la cadena reforzada (negro) y la extinción temprana (azul) alineada con el TLP evento. La barra gris muestra el rango de concentraciones máximas y mínimas de DA durante el período de referencia. C , Pico DA en relación al SLP, TLP, y recompensa en el calendario reforzado y extinción temprana. D , Alineación con el SLO en la cáscara (líneas rojas) reveló disminuciones más discretas en la liberación fásica de DA a la señal sobre las pruebas de extinción iterativas en relación con las sesiones de cadena recompensadas (línea negra). E , Señalización DA alineada al TLP en la cáscara en extinción temprana (rojo) y el calendario de la cadena reforzada (negro). F , Peak DA en la cáscara se mantuvo sin cambios en SLP, pero mostró disminuciones significativas en TLP y recompensa. *p <0.05, **p <0.01, cadena versus extinción temprana; †p <0.05, omisión menor que la línea de base.

Primero examinamos la señalización de DA en el núcleo durante la extinción. Relativo al SLO, DA disminuyó de manera significativa y lineal en las diferentes fases de la extinción en relación con la sesión de la cadena recompensada, (interacción: fase x cue; SLO vs línea base F (4,157) = 33.19, p <0.0001; A. Post hoc Las comparaciones por pares mostraron que el pico DA al SL.O disminuyó rápidamente entre las fases de la cadena y la extinción temprana (Tukey: p <0.0001), y nuevamente entre la extinción temprana y la extinción tardía (p <0.0001). Sin embargo, DA durante la extinción del retardo no fue diferente de en el bloque de prensa tardía (p = 0.64) y el pico DA no difirió en la fase tardía en función de si la rata respondió o no (prensa tardía versus tarde no pulsada, p = 0.99). Además, el lanzamiento de DA durante el SLO fue significativamente mayor que la línea de base en la cadena (p <0.0001), extinción temprana (p <0.0001) y retardar la extinción (p <0.001) fases, pero no en las fases de impresión tardía o sin impresión tardía (ambas p > 0.5). Estos hallazgos por pares apoyaron una tendencia lineal negativa significativa (F (1,157) = 94.77, p <0.0001), que representó la mayoría (71%) de la varianza del efecto.

A continuación, un sello distintivo de las señales de PE en el cerebro es la presencia de errores de predicción negativos en el momento de una recompensa esperada omitida (Schultz et al., 1997). Anticipamos que estas señales serían más fuertes al principio de la extinción cuando el sujeto tenía plena expectativa de que se entregaría la recompensa. En el núcleo ( B), un ANOVA de dos vías indicó una interacción significativa de la fase x evento (cadena contra extinción temprana; F (3,57) = 3.24, p = 0.029). Específicamente, aunque la liberación máxima de DA se refiere al SL anterior.P se redujo significativamente en la extinción temprana en relación con la sesión de la cadena reforzada, (Tukey: p = 0.019), lanzamiento de DA al TLP no se vio afectado (p = 0.41). Críticamente, el DA central mostró evidencia de un error de predicción negativo durante la extinción ( B) de modo que la liberación de DA durante el tiempo de la recompensa esperada pero omitida fue significativamente menor que durante la sesión reforzada (p = 0.003). De hecho, mientras que la liberación máxima de DA a la recompensa no fue diferente de la línea de base durante la sesión de Chain reforzada (p = 0.99), cambió a significativamente menos que la línea de base durante las omisiones de recompensa (p = 0.03). Por lo tanto, las señales de DA en el núcleo durante la extinción temprana mostraron tanto cambios dinámicos en la liberación a estímulos y acciones de predicción de SL, ningún cambio en relación con una señal de TL, y un error de predicción negativo para recompensar la omisión.

La cáscara mostró un patrón diferente de lanzamiento de DA en relación con el SLO señal ( D). Aquí, el DA promediado por el cue evocado a la SLO cambiado dinámicamente a través de las fases, (interacción: fase x cue; F (2,24) = 7.95, p <0.0005), pero a diferencia del núcleo, el DA de caparazón no cambió entre la fase de cadena y la extinción temprana, (p = 0.74), pero la señalización DA a la SLO se redujo significativamente durante la fase de extinción tardía en relación con la fase de la cadena reforzada (p = 0.041) y la fase de extinción temprana (p = 0.02), coincidiendo con el cambio motivacional en el comportamiento de las ratas ( ). La señalización DA volvió a disminuir significativamente entre la fase de retardo y las fases tardías (pulsación tardía, p = 0.03; tarde ninguna prensa, p = 0.004), pero no hubo diferencia en los niveles de DA entre las últimas fases (prensa versus ninguna prensa, p = 0.43). Al igual que en el núcleo, el lanzamiento de DA durante el SL.O estuvo significativamente por encima de la línea de base durante las fases de cadena, extinción temprana y extinción tardía (Tukey: todos p <0.001), pero ninguna de las fases tardías fue significativamente diferente de la línea de base. Por lo tanto, la liberación de DA central rastreó rápida y continuamente los cambios en la predicción para la señal más predictiva, mientras que los patrones de liberación de DA para la misma señal en el caparazón, en cambio, siguieron los cambios en el estado motivacional entre las fases de extinción.

En cuanto a la señalización de prensado y recompensa, la versión de shell DA difería del patrón en el núcleo ( E,F). Un ANOVA de dos vías que examina el DA en ensayos individuales por tipo de estímulo (BL, SLP, TLP, recompensa) y la fase de extinción (cadena, extinción temprana) encontraron una interacción significativa entre el estímulo x la extinción (F (3,108) = 11.5, p <0.0001; D). A diferencia del núcleo, no hubo diferencia en el lanzamiento máximo de DA de shell a la SLP temprano en la extinción (p = 0.44). En cambio, la extinción indujo una disminución significativa en la liberación de DA a ambos TLP (p = 0.01) y en el momento de la omisión de la recompensa relativa al recibo de la recompensa (p <0.0001) relativo al tiempo emparejado durante el programa de Cadena reforzado. Durante la sesión de cadena recompensada, la DA se elevó significativamente por encima de la línea de base (p <0.0001), pero durante la omisión de la recompensa, DA fue numéricamente mayor que, pero no estadísticamente diferente de la línea de base (p = 0.07). Por lo tanto, a diferencia del núcleo, encontramos evidencia limitada de errores de predicción de extinción temprana y, en cambio, una disminución en la liberación de DA en relación con la prensa TL (pero no en SL), así como la eliminación de la liberación de DA en la recompensa observada durante el calendario reforzado.

Discusión

Los patrones de liberación de DA fásicos rastrearon estímulos que diferían notablemente entre las subregiones de NAc de una manera consistente con las teorías contrastantes de la función de DA. En una tarea de programación de cadena bien aprendida, el DA en el núcleo de NAc alcanzó su punto máximo selectivo en la señal más predictiva, y realizó un seguimiento lineal de los cambios en el valor de predicción y los errores durante la extinción. En contraste, la liberación de DA fásica en la concha NAc rastreó todos los estímulos salientes cuando se recompensó la tarea, y tanto durante la sesión como durante la extinción mostraron cambios en la señalización consistentes con cambios en la motivación. Como tal, proponemos que estas señales DA estén disponibles simultáneamente para el animal durante el comportamiento, permitiendo que tanto la información predictiva como la motivacional guíen el aprendizaje y la acción.

El lanzamiento de Core DA rastrea el error de predicción

En el núcleo, la DA aumentó fásicamente en el momento de la presentación de la señal de SL y se negó a la línea de base para eventos posteriores totalmente predichos (por ejemplo, TL, recompensa), similar a hallazgos anteriores (Roitman et al., 2004; Cacciapaglia et al., 2012). Este patrón de actividad es coherente con los modelos de predicción de errores, que establecen que las señales predictoras máximas deberían provocar la liberación más alta de DA (es decir, la predicción), mientras que los eventos predichos con precisión que siguen deberían provocar una liberación de DA mínima (es decir, un error de predicción). Por lo tanto, como el SL y la recompensa fueron predichos con precisión por el SL, generaron un pequeño error en su entrega y provocaron un pequeño lanzamiento de DA relacionado con el error (Schultz et al., 1997; Schultz y Dickinson, 2000).

Nuestro laboratorio y otros han demostrado que las señales de DA en el núcleo son sensibles a las diferencias en el valor predicho, y están moduladas por factores subjetivos como la preferencia de riesgo y los retrasos en el refuerzo (Day et al., 2010; Gan et al., 2010; Sugam et al., 2012; Saddoris y otros, 2013, 2015). Por ejemplo, en ratas que realizan una tarea de toma de decisiones arriesgada, el DA central se escala con señales que predijeron la opción preferida de la rata y rápidamente cayó por debajo de la línea de base cuando se omitieron las recompensas esperadas, lo que indica un error de predicción negativo (Sugam et al., 2012). De la misma manera, el DA central hizo un seguimiento del valor de los resultados predichos y se modificó dinámicamente según el valor de cue predicho actualizado durante la extinción. En efecto, DA da a conocer al SL.O en el momento en que la rata comenzó a omitir las respuestas durante la extinción, independientemente de si se realizó o no una respuesta, lo que sugiere que DA señaló el valor anticipado de la respuesta, en lugar de la motivación para presionar. Además, las omisiones de recompensa al comienzo de la extinción provocaron fuertes pausas en la versión DA, consistentes con la señalización negativa del error de predicción.

Shell DA rastrea estímulos motivacionalmente salientes

La liberación de DA en la cáscara rastreaba discretamente todos los estímulos salientes (SLO, TLO, R). Estos patrones no podrían explicarse por una cinética de recaptación más lenta y, en cambio, parecen reflejar la codificación en tiempo real de eventos contingentes (Pan et al., 2005) y la prominencia de incentivo adquirida (Berridge y Robinson, 1998; Berridge, 2012; Wassum et al., 2012). Por lo tanto, los eventos de liberación de DA codificaron tanto las señales predictivas como las recompensas en el shell, pero solo las señales predictivas en el núcleo (Cacciapaglia et al., 2012).

Encontramos evidencia de este componente motivacional de la señalización de shell DA. Primero, la señalización de DA en la cáscara a los estímulos se redujo entre el inicio y el final de las sesiones, lo que no se vio en el núcleo. Una explicación es que las ratas al final de la sesión estaban simplemente más saciadas (por definición, habían comido más comida que al comienzo de la sesión), y como tal, las señales predictivas de la comida reflejaban el estado motivacional disminuido del animal. . En contraste, las señales aún predecían con precisión el suministro de la bolita de sacarosa, por lo que la codificación de tipo PE en el núcleo se vio relativamente menos afectada por este cambio motivacional.

Segundo, durante la extinción, el lanzamiento de DA en el shell a la SLO permaneció estable mientras la rata realizaba la tarea al mismo nivel motivacional (como lo indica la latencia y precisión de la respuesta), pero disminuyó significativamente después de que la motivación de las ratas disminuyó (es decir, la latencia de la respuesta) durante el curso de la extinción. Por el contrario, vimos descensos rápidos en la liberación fásica de DA durante los estímulos TL. Los modelos de SI predicen que las señales que reducen la incertidumbre deberían crear una mayor motivación y prominencia de incentivos (Zhang et al., 2009; Smith et al., 2011), que aquí está sesgada hacia el TL, ya que es el máximo predictivo de la entrega de recompensa inminente. De hecho, las infusiones de anfetamina en el interior de NAc potencian de forma selectiva la codificación de las señales más próximas a la entrega de recompensa en una tarea pavloviana encadenada, pero tienen menos efecto en la primera señal de la secuencia (Smith et al., 2011). Por lo tanto, la codificación DA del TL fue particularmente sensible a la pérdida predicha de entrega de recompensa en extinción. Sorprendentemente, las omisiones de recompensa no dieron como resultado una versión de DA por debajo de la línea de base, lo que sugiere que la DA de shell tenía menos probabilidades de codificar un error de predicción negativo que el núcleo. En conjunto, este patrón de señalización dentro del shell NAc es claramente diferente del núcleo, y sugiere una codificación de tipo IS.

En apoyo, el shell NAc ha sido implicado en una variedad de comportamientos motivados por la motivación. Por ejemplo, el apetito de la sal, donde una solución salada normalmente es aversiva, puede ser gratificante si el animal está privado de sal. En ambos casos, el resultado predicho (sal) es el mismo, pero la motivación para obtener ese resultado difiere entre los animales normales y los que carecen de sal (Tindell et al., 2009). La codificación neural NAc para la solución salada se modula en la cáscara según el grado de motivación de la sal, mientras que las neuronas centrales no mostraron diferencias basadas en el estado (Loriaux et al., 2011). De manera similar, las microinfusiones de anfetaminas en el interior de NAc potencian fuertemente el vigor motivacional de presionar con palanca en presencia de una señal durante la transferencia de pavlovian a instrumental (PIT), al igual que la experiencia crónica previa a la transferencia con cocaína (Wyvell y Berridge, 2000; Saddoris y otros, 2011; LeBlanc et al., 2013). De hecho, la experiencia con la cocaína autoadministrada que potencia el comportamiento del PIT también aumenta preferentemente la codificación neuronal de la capa NAc en relación con el núcleo (Saddoris y otros, 2011).

Este patrón de IS y PE en la cáscara y el núcleo parece rastrear las condiciones tanto apetitivas como aversivas. En el condicionamiento del miedo pavloviano, la DA fásica aumenta en la capa NAc para señales aversivas salientes, mientras que la liberación de DA central disminuye y se detiene en la liberación, lo que indica una predicción de tipo PE de un resultado negativo (Badrinarayan et al., 2012). Por lo tanto, incluso los eventos negativos (pero destacados) pueden contabilizarse con un modelo de tipo IS dentro de la cáscara, mientras que la versión DA central permanece fuertemente acoplada a las predicciones del valor del resultado.

Complejidad de la señalización de PE e IS en el acondicionamiento.

Una advertencia es que en el condicionamiento pavloviano, los animales que interactúan preferentemente con señales predictivas ("rastreadores de signos") muestran una liberación de DA mejorada en el núcleo de NAc en comparación con los que van inmediatamente a la taza de alimentos ("rastreadores de objetivos"; Flagel et al., 2011). Este aumento del seguimiento de signos se describe como un soporte de IS, ya que la señal se ha convertido en un estímulo saliente capaz de actuar como un "imán" motivacional y concuerda con hallazgos similares en el núcleo (Aragona et al., 2009; Peciña y Berridge, 2013; Wassum et al., 2013; Ostlund et al., 2014). Esto parece estar en desacuerdo con nuestra asignación de PE sesgada al núcleo e IS al shell.

Es importante tener en cuenta que las funciones respectivas de la señal DA en el núcleo y la cubierta probablemente sean complejas. Por ejemplo, pocos de los estudios anteriores han investigado de forma independiente el papel de la cáscara y el núcleo en estas tareas, por lo que el aumento de DA en el núcleo de los animales de rastreo de signos puede reflejar simplemente un aumento generalizado en las señales de incentivo de DA en la vía mesolímbica. Además, no estamos abogando por una división absoluta; Encontramos algún lanzamiento de DA al TL.O En el núcleo, aunque DA al SL.O en el shell persistió a pesar de los cambios en la motivación durante la extinción, lo que sugiere que las características de IS pueden estar presentes en el núcleo y PE en el shell (aunque en niveles más bajos y / o menos sensibles a la dinámica de tareas). Más bien, sugerimos que el núcleo y la cubierta representan un sesgo crítico hacia los patrones de codificación de tipo PE e IS, lo cual es consistente con la composición más graduada de la anatomía del cuerpo estriado (Haber, 2014).

Implicaciones para la adicción

Las diferencias basadas en el modelo en la señalización de DA de núcleo y shell tienen implicaciones importantes más allá del aprendizaje de recompensa natural. Por ejemplo, aunque las drogas de abuso son inicialmente gratificantes, con el tiempo, los estímulos asociados con las drogas pueden inducir sentimientos de intenso deseo aversivo, imponiendo un estado afectivo negativo que impulsa la búsqueda de drogas (Koob y Le Moal, 1997). La abstinencia prolongada de las drogas aumenta el impacto de los estímulos asociados con las drogas a través de un proceso conocido como la incubación del deseo (Grimm et al., 2001; Hollander y Carelli, 2005; Pickens et al., 2011). El resultado previsto (fármaco) no cambia tanto en la condición inmediata como en la abstinente, pero hay un profundo aumento en la motivación para reanudar el consumo de drogas en los sujetos abstinentes. Esto sugiere un cambio significativo en la prominencia de los incentivos de esos estímulos y predeciría que los cambios relacionados con la abstinencia deberían verse preferentemente en el caparazón. De manera relacionada, cuando a ratas que se autoadministran drogas se les presentan señales predictivas de cocaína que inducen un estado motivacional aversivo, los cambios en la señalización de DA rastrean el estado aversivo del animal en el caparazón pero no en el núcleo (Wheeler et al., 2011). En conjunto, estos hallazgos respaldan que las contribuciones del DA del núcleo y de la cáscara al aprendizaje y la motivación son consistentes tanto en las recompensas naturales como de las drogas.

Notas a pie de página

  • Recibido en junio 18, 2015.
  • Revisión recibida en julio 8, 2015.
  • Aceptado julio 15, 2015.
  • Este trabajo fue apoyado por los Institutos Nacionales sobre Donaciones de Abuso de Drogas DA028156 y DA035322 a MPS y DA017318 y DA034021 a RMC, y DA010900 a RMW Agradecemos a la Dra. Elizabeth West los comentarios sobre un borrador anterior de este trabajo.

  • Los autores declaran no tener intereses financieros en competencia.

  • La correspondencia debe dirigirse al Dr. Michael Saddoris, Departamento de Psicología y Neurociencias, Universidad de Colorado Boulder, Muenzinger, UCB 345, Boulder, CO 80309-0345. [email protected]

Referencias

    1. Aragona BJ,
    2. Dia jj
    3. Roitman MF,
    4. Cleaveland NA,
    5. Wightman RM,
    6. Carelli RM

    (2009) Especificidad regional en el desarrollo en tiempo real de los patrones de transmisión fásica de dopamina durante la adquisición de una asociación de cue y cocaína en ratas. Eur J Neurosci 30: 1889 – 1899.

    1. Badrinarayan A,
    2. Wescott SA,
    3. Vander Weele CM,
    4. Saunders BT,
    5. Couturier SE,
    6. Maren s,
    7. Aragona bj

    (2012) Los estímulos aversivos modulan diferencialmente la dinámica de transmisión de dopamina en tiempo real dentro del núcleo y la cubierta del núcleo accumbens. J Neurosci 32: 15779 – 15790.

    1. Berridge KC

    (2012) Del error de predicción a la importancia del incentivo: cómputo mesolímbico de la motivación de recompensa. Eur J Neurosci 35: 1124 – 1143.

    1. Berridge KC,
    2. Robinson TE

    (1998) ¿Cuál es el papel de la dopamina en la recompensa: el impacto hedónico, el aprendizaje de la recompensa o la importancia de los incentivos? Brain Res Rev 28: 309 – 369.

    1. Bromberg-Martin ES,
    2. Matsumoto M,
    3. Hikosaka O

    (2010) La dopamina en el control motivacional: gratificante, aversiva y alerta. Neurona 68: 815 – 834.

    1. Budygin EA,
    2. Juan CE,
    3. Mateo Y,
    4. Jones SR

    (2002) Falta de efecto de la cocaína en el aclaramiento de dopamina en el núcleo y la cubierta del núcleo accumbens de ratones knock-out transportadores de dopamina. J Neurosci 22: RC222.

    1. Cacciapaglia F,
    2. Saddoris MP,
    3. Wightman RM,
    4. Carelli RM

    (2012) Dinámicas de liberación de dopamina diferenciales en el núcleo del núcleo accumbens y en la cáscara rastrean distintos aspectos del comportamiento dirigido hacia el objetivo para la sacarosa. Neurofarmacología 62: 2050 – 2056.

    1. Cohen JY,
    2. Haesler S,
    3. Vong L,
    4. Lowell BB,
    5. Uchida N

    (2012) Señales específicas de tipo neuronal para recompensa y castigo en el área ventral tegmental. Naturaleza 482: 85 – 88.

    1. Dia jj
    2. Jones JL,
    3. Wightman RM,
    4. Carelli RM

    (2010) La liberación de dopamina en el núcleo fásico accumbens codifica los costos relacionados con el esfuerzo y el retraso. Biol Psychiatry 68: 306 – 309.

    1. Flagel SB,
    2. Clark JJ,
    3. Robinson TE,
    4. Mayo L,
    5. Czuj A,
    6. Willuhn I,
    7. Akers CA,
    8. Clinton SM,
    9. Phillips PE,
    10. Akil h

    (2011) Un papel selectivo para la dopamina en el aprendizaje de estímulo-recompensa. Naturaleza 469: 53 – 57.

    1. Gan JO,
    2. Walton ME,
    3. Phillips PE

    (2010) Codificación de costo y beneficio disociable de recompensas futuras por la dopamina mesolímbica. Nat Neurosci 13: 25 – 27.

    1. Grimm JW,
    2. Esperanza BT,
    3. RA sabio,
    4. Shaham Y

    (2001) Neuroadaptación: incubación de ansias de cocaína después de la retirada. Naturaleza 412: 141 – 142.

    1. Haber SN

    (2014) El lugar de la dopamina en el circuito de ganglios cortico-basales. Neurociencia 282C: 248 – 257.

    1. Heien ML,
    2. Khan AS,
    3. Ariansen JL,
    4. Alegría JF,
    5. Phillips PE,
    6. Wassum KM,
    7. Wightman RM

    (2005) Medición en tiempo real de las fluctuaciones de la dopamina después de la cocaína en el cerebro de las ratas que se comportan. Proc Natl Acad Sci EE.UU. 102: 10023 – 10028.

    1. Hollander JA,
    2. Carelli RM

    (2005) La abstinencia de la autoadministración de cocaína aumenta la codificación neural de los comportamientos orientados a objetivos en los accumbens. Neuropsicofarmacología 30: 1464 – 1474.

    1. Keithley RB,
    2. Carelli RM,
    3. Wightman RM

    (2010) Estimación de rangos y el análisis multivariado de in vivo Datos de voltametría cíclica de barrido rápido. Anal chem 82: 5541 – 5551.

    1. Koob GF,
    2. Le Moal M

    (1997) Abuso de drogas: desregulación homeostática hedónica. Ciencias: 278: 52 – 58.

    1. LeBlanc KH,
    2. Criada NT,
    3. Ostlund SB

    (2013) La exposición repetida a la cocaína facilita la expresión de la motivación de incentivo e induce el control habitual en ratas. Más uno 8: e61355.

    1. Loriaux AL,
    2. Roitman JD,
    3. Roitman MF

    (2011) Nucleus accumbens shell, pero no core, rastrea el valor motivacional de la sal. J neurofisiol 106: 1537 – 1544.

    1. Olmstead MC,
    2. Parkinson JA,
    3. Millas fj,
    4. Everitt BJ,
    5. Dickinson A

    (2000) Búsqueda de cocaína por ratas: regulación, refuerzo y activación. Psicofarmacología 152: 123 – 131.

    1. Ostlund SB,
    2. LeBlanc KH,
    3. Kosheleff AR,
    4. Wassum KM,
    5. Criada NT

    (2014) La señalización de dopamina mesolímbica fásica codifica la facilitación de la motivación de incentivos producida por la exposición repetida a la cocaína. Neuropsicofarmacología 39: 2441 – 2449.

    1. Owesson-White CA,
    2. Ariansen J,
    3. Stuber GD,
    4. Cleaveland NA,
    5. Alegría JF,
    6. Wightman RM,
    7. Carelli RM

    (2009) La codificación neuronal del comportamiento de búsqueda de cocaína coincide con la liberación fásica de dopamina en el núcleo y la cubierta de los accumbens. Eur J Neurosci 30: 1117 – 1127.

    1. Pan WX,
    2. Schmidt R,
    3. Wickens JR,
    4. Hyland BI

    (2005) Las células de dopamina responden a eventos predichos durante el condicionamiento clásico: evidencia de los rastros de elegibilidad en la red de aprendizaje de recompensa. J Neurosci 25: 6235 – 6242.

    1. Peciña S,
    2. Berridge KC

    (2013) La dopamina o la estimulación con opioides del núcleo accumbens amplifican de manera similar el "deseo" desencadenado por la señal: la totalidad del núcleo y la cubierta medial se cartografían como sustratos para el mejoramiento de la PIT. Eur J Neurosci 37: 1529 – 1540.

    1. Pickens CL,
    2. Airavaara M,
    3. Theberge F,
    4. Fanous s,
    5. Esperanza BT,
    6. Shaham Y

    (2011) Neurobiología de la incubación del ansia de drogas. Tendencias Neurosci 34: 411 – 420.

    1. Redish AD

    (2004) La adicción como un proceso computacional salió mal. Ciencias: 306: 1944 – 1947.

    1. Robinson TE,
    2. Berridge KC

    (2008) Revisión: la teoría de la sensibilización de incentivo de la adicción: algunos problemas actuales. Philos Trans R Soc Lond B Biol Ciencia 363: 3137 – 3146.

    1. Roitman MF,
    2. Stuber GD,
    3. Phillips PE,
    4. Wightman RM,
    5. Carelli RM

    (2004) La dopamina funciona como un modulador subsecundario de la búsqueda de alimentos. J Neurosci 24: 1265 – 1271.

    1. Saddoris MP,
    2. Gallagher M,
    3. Schoenbaum G

    (2005) La codificación asociativa rápida en la amígdala basolateral depende de las conexiones con la corteza orbitofrontal. Neurona 46: 321 – 331.

    1. Saddoris MP,
    2. Stamatakis A,
    3. Carelli RM

    (2011) Los correlatos neurales de la transferencia de Pavlovian a instrumental en la capa del núcleo accumbens se potencian selectivamente después de la autoadministración de cocaína. Eur J Neurosci 33: 2274 – 2287.

    1. Saddoris MP,
    2. Sugam ja,
    3. Cacciapaglia F,
    4. Carelli RM

    (2013) Dinámica rápida de la dopamina en el núcleo y la cubierta de los accumbens: aprendizaje y acción. Frente Biosci (Elite Ed) 5: 273 – 288.

    1. Saddoris MP,
    2. Sugam ja,
    3. Stuber GD,
    4. Witten IB,
    5. Deisseroth K,
    6. Carelli RM

    (2015) La dopamina mesolímbica rastrea dinámicamente, y está relacionada de manera causal, con aspectos discretos de la toma de decisiones basada en valores. Biol Psychiatry 77: 903 – 911.

    1. Schoenbaum G,
    2. Setlow B,
    3. Saddoris MP,
    4. Gallagher M

    (2003) La codificación del resultado predicho y el valor adquirido en la corteza orbitofrontal durante el muestreo de la señal depende de la entrada de la amígdala basolateral. Neurona 39: 855 – 867.

    1. Schultz W,
    2. Dickinson A

    (2000) Codificación neuronal de errores de predicción. Annu Rev Neurosci 23: 473 – 500.

    1. Schultz W,
    2. Dayan P,
    3. Montague PR

    (1997) Un sustrato neural de predicción y recompensa. Ciencias: 275: 1593 – 1599.

    1. Smith KS,
    2. Berridge KC,
    3. Aldridge JW

    (2011) Desenredar el placer de la atención de incentivo y las señales de aprendizaje en los circuitos de recompensa cerebral. Proc Natl Acad Sci EE.UU. 108: E255 – E264.

    1. Sugam ja,
    2. Dia jj
    3. Wightman RM,
    4. Carelli RM

    (2012) Núcleo fásico accumbens La dopamina codifica el comportamiento de toma de decisiones basado en el riesgo. Biol Psychiatry 71: 199 – 205.

    1. Tindell AJ,
    2. Smith KS,
    3. Berridge KC,
    4. Aldridge JW

    (2009) Cálculo dinámico de la importancia del incentivo: "querer" lo que nunca "gustó". J Neurosci 29: 12220 – 12228.

    1. Tobler PN,
    2. Dickinson A,
    3. Schultz W

    (2003) Codificación de la omisión de recompensa predicha por las neuronas de dopamina en un paradigma de inhibición condicionada. J Neurosci 23: 10402 – 10410.

    1. Waelti P,
    2. Dickinson A,
    3. Schultz W

    (2001) Las respuestas de dopamina cumplen con los supuestos básicos de la teoría del aprendizaje formal. Naturaleza 412: 43 – 48.

    1. Wassum KM,
    2. Ostlund SB,
    3. Criada NT

    (2012) La señalización de dopamina mesolímbica fásica precede y predice el rendimiento de una tarea de secuencia de acción iniciada por sí misma. Biol Psychiatry 71: 846 – 854.

    1. Wassum KM,
    2. Ostlund SB,
    3. Loewinger GC,
    4. Criada NT

    (2013) La liberación de dopamina mesolímbica fásica rastrea la búsqueda de recompensas durante la expresión de transferencia de pavlovian a instrumental. Biol Psychiatry 73: 747 – 755.

    1. Wheeler RA,
    2. Aragona BJ,
    3. Fuhrmann KA,
    4. Jones JL,
    5. Dia jj
    6. Cacciapaglia F,
    7. Wightman RM,
    8. Carelli RM

    (2011) Las señales de la cocaína impulsan cambios opuestos dependientes del contexto en el procesamiento de la recompensa y el estado emocional. Biol Psychiatry 69: 1067 – 1074.

    1. Wyvell CL,
    2. Berridge KC

    (2000) La anfetamina intra-accumbens aumenta la importancia condicionada de incentivo de la recompensa de sacarosa: mejora de la recompensa "querer" sin "mejorar" gusto o refuerzo de respuesta. J Neurosci 20: 8122 – 8130.

    1. Yorgason JT,
    2. España RA,
    3. Jones SR

    (2011) Voltametría de demonios y software de análisis: análisis de las alteraciones inducidas por la cocaína en la señalización de la dopamina utilizando múltiples medidas cinéticas. Métodos de Neurosci J 202: 158 – 164.

    1. Zhang J,
    2. Berridge KC,
    3. Tindell AJ,
    4. Smith KS,
    5. Aldridge JW

    (2009) Un modelo computacional neural de prominencia de incentivo. PLoS Comput Biol 5: e1000437.

  •