Jerarquía de decisión desequilibrada en adictos que emergen del circuito en espiral de dopamina secuestrado por drogas (2013)

 

  • Mehdi Keramati mail,
     
  • Boris Gutkin

 

Resumen

A pesar de querer dejar de fumar explícitamente, los adictos a largo plazo se encuentran impotentes para resistir las drogas, a pesar de saber que consumirlas puede ser un curso de acción dañino. Tal inconsistencia entre el conocimiento explícito de las consecuencias negativas y los patrones conductuales compulsivos representa un conflicto cognitivo / conductual que es una característica central de la adicción. Neurobiológicamente, la actividad inducida por señales diferenciales en distintas subregiones estriatales, así como la conectividad de la dopamina en espiral desde las regiones estriatales ventrales a las regiones dorsales, desempeñan papeles críticos en la búsqueda compulsiva de drogas. Sin embargo, se desconoce el mecanismo funcional que integra estas observaciones neurofarmacológicas con el conflicto cognitivo / conductual mencionado anteriormente. Aquí proporcionamos una explicación computacional formal para la inconsistencia cognitiva inducida por las drogas que es evidente en el "error autodescrito" de los adictos. Mostramos que las drogas adictivas producen gradualmente un sesgo motivacional hacia la búsqueda de drogas en procesos de decisión habituales de bajo nivel, a pesar de la baja valoración cognitiva abstracta de esta conducta. Esta patología surge dentro del marco de aprendizaje por refuerzo jerárquico cuando la exposición crónica al fármaco produce, farmacológicamente, señales de dopamina fásica patológicamente persistentes. De ese modo, la droga secuestra las espirales dopaminérgicas que distribuyen las señales de refuerzo en la jerarquía ventrodorsal corticoestriatal. Desde el punto de vista neurobiológico, nuestra teoría explica el rápido desarrollo del flujo de salida de dopamina inducido por señales de fármacos en el estriado ventral y una respuesta retardada en el estriado dorsal. Nuestra teoría también muestra cómo este patrón de respuesta depende críticamente del circuito en espiral de dopamina. Desde el punto de vista del comportamiento, nuestro marco explica la insensibilidad gradual de la búsqueda de drogas a los castigos asociados a las drogas, el fenómeno de bloqueo de los resultados de las drogas y la preferencia persistente por las drogas sobre las recompensas naturales de los adictos. El modelo sugiere predicciones comprobables y más allá de eso, prepara el escenario para una visión de la adicción como una patología de los procesos jerárquicos de toma de decisiones. Esta visión es complementaria a la interpretación tradicional de la adicción como interacción entre los sistemas de decisión habituales y dirigidos a objetivos.

Introducción

"Admitimos que éramos impotentes ante nuestra adicción, que nuestras vidas se habían vuelto inmanejables", afirma el primer principio del programa de NNOTX de pasos de Narcóticos Anónimos [ 1 ]. Esto muestra cómo los adictos impotentes se encuentran a sí mismos cuando se trata de resistir las drogas, a pesar de saber que el consumo de drogas es un curso de acción equivocado. [ 2 ][ 4 ]. De hecho, el sello distintivo de la adicción es la búsqueda compulsiva de drogas, incluso a costa de evidentes consecuencias adversas. [ 5 ]. Una firma de tal comportamiento patológico se hace evidente en experimentos controlados donde los adictos exhiben un "error autodescrito" característico: una inconsistencia entre la respuesta conductual potente hacia las opciones asociadas con la droga y el valor subjetivo relativamente bajo que el adicto informa de la droga. [ 4 ], [ 6 ], [ 7 ]. Cuando se combina con la pérdida del control cognitivo inhibitorio sobre el comportamiento, después de una exposición prolongada a los medicamentos, esta divergencia entre los planes cognitivos y los hábitos consolidados puede dar lugar a una transición del comportamiento casual al compulsivo de búsqueda de drogas. [ 8 ].

La pérdida del control cognitivo y el error auto-descrito hasta ahora han eludido una explicación basada en principios mediante modelos formales de adicción. [ 9 ][ 13 ]. Las teorías computacionales anteriores de la adicción a las drogas, en su mayoría planteadas dentro del marco de aprendizaje reforzado, ven la adicción como un estado patológico del sistema de aprendizaje de hábitos (estímulo-respuesta) [ 9 ][ 13 ]. La hipótesis central detrás de todos esos modelos es que el efecto farmacológico de las drogas sobre la señalización de la dopamina, supuestamente portadoras de una señal de enseñanza de estímulo-respuesta, da como resultado un refuerzo excesivo gradual de tales asociaciones. Este efecto a su vez conduce a hábitos compulsivos de búsqueda de drogas. Si bien esta visión reducida de la adicción ha capturado algunos aspectos del fenómeno, un consenso creciente en la literatura sobre adicción indica que múltiples sistemas de aprendizaje están involucrados en la patología. Solo una imagen más compleja que incluya los procesos cognitivos del cerebro, así como los procesos habituales de bajo nivel, puede explicar la variedad de comportamientos similares a la adicción. [ 8 ], [ 14 ].

En este artículo, adoptamos un enfoque de aprendizaje de refuerzo jerárquico. [ 15 ] donde las decisiones se representan en diferentes niveles de abstracción, en una jerarquía cognitiva a motora. Suponemos que una cascada de señales de aprendizaje dependientes de la dopamina une los niveles de la jerarquía [ 16 ]. Además, asumimos que las drogas de abuso secuestran farmacológicamente el mecanismo de comunicación entre los niveles de abstracción. Sobre la base de estas suposiciones, mostramos que la disonancia cognitiva informada en adictos surge dentro del marco de aprendizaje de refuerzo jerárquico cuando la exposición crónica a drogas interrumpe el aprendizaje de valores en toda la jerarquía de decisión. Esta interrupción se traduce en una sobrevaloración patológica de las opciones de medicamentos en los procesos habituales de bajo nivel y, por lo tanto, impulsa el comportamiento habitual de búsqueda de medicamentos. Luego, demostramos que la búsqueda de drogas "desagradable" pero compulsiva puede explicarse como un proceso dominado por los procesos habituales de bajo nivel de secuestro de drogas, mientras que los sistemas cognitivos saludables en los niveles representativos superiores pierden el control sobre la conducta. Además, demostramos que el modelo propuesto puede explicar la evidencia reciente sobre el desarrollo rápido versus el retraso del flujo de dopamina provocada por el fármaco en el estriado ventral frente al dorsal, respectivamente, así como la dependencia de este patrón en el circuito en espiral de dopamina.

Materiales y Métodos

Preliminares

En concordancia con una rica literatura de psicología cognitiva, nuestro aprendizaje de refuerzo jerárquico [ 15 ], [ 18 ] El marco asume que un plan cognitivo abstracto como "preparar té" se puede dividir en una secuencia de acciones de nivel inferior: hervir agua, poner té en la olla, etc. Esta descomposición continúa hasta que las respuestas concretas del nivel motor se encuentren en el nivel más bajo del jerarquíaFigura 1A). Neurobiológicamente, los diferentes niveles de la jerarquía de decisión, desde los niveles cognitivos a los motores, se representan a lo largo del eje rostro-caudal del circuito de ganglios cortico-basales (BG). [ 19 ][ 21 ]. Este circuito está compuesto por varios bucles paralelos cerrados entre la corteza frontal y los ganglios basales [ 22 ], [ 23 ] (Figura 1B). Mientras que los bucles anteriores subyacen a una representación más abstracta de las acciones, los bucles caudales, que consisten en la corteza sensomotora y el estriado dorsolateral, codifican hábitos de bajo nivel [ 19 ][ 21 ].

uña del pulgar

Figura 1. Organización jerárquica del comportamiento y el circuito cortico-BG.

A, Un ejemplo de una jerarquía de decisión para dos opciones alternativas: drogas frente a alimentos. Cada curso de acción se representa en diferentes niveles de abstracción, supuestamente codificados en diferentes bucles cortico-BG. Buscar cada uno de los dos tipos de recompensa podría seguir un castigo de magnitud 16. BLas conexiones glutamatérgicas de diferentes áreas prefrontales se proyectan a subregiones estriadas y luego se proyectan de nuevo al PFC a través del pálido y el tálamo, formando varios bucles paralelos. A través de la red de dopamina estriato-nigro-estriado, las regiones ventrales del estriado influyen en las regiones más dorsales. vmPFC, corteza prefrontal medial ventral; OFC, corteza frontal orbital; dACC, corteza cingulada anterior dorsal; SMC, corteza sensoriomotora; VTA, área tegmental ventral; SNc, substantia nigra pars compacta. Figura 1B Modificado de la referencia 21.

doi: 10.1371 / journal.pone.0061489.g001

Dentro de este circuito, la actividad fásica de las neuronas del cerebro medio de dopamina (DA) que se proyectan al cuerpo estriado señala el error entre las recompensas pronosticadas y recibidas, lo que lleva información de refuerzo de estímulo-respuesta [ 24 ]. Estas proyecciones DAérgicas forman una conectividad en serie en cascada que une las regiones más ventrales del estriado a regiones cada vez más dorsales a través de las llamadas conexiones "en espiral" [ 25 ][ 27 ] (Figura 1B). Funcionalmente, dicha organización de avance que conecta la rostral a los bucles cortico-BG caudales permite el acoplamiento dirigido de representaciones gruesas a finas. En consecuencia, las espirales DA se hipotetizan para proporcionar un sustrato neurobiológico para el ajuste progresivo del error de predicción de recompensa por los niveles más altos de la jerarquía (que codifica el conocimiento abstracto sobre el valor de las opciones de comportamiento). Este error se utiliza para actualizar valores de acción en niveles más detallados. [ 16 ]. En otras palabras, las espirales de DA permiten que los niveles cognitivos abstractos de valoración guíen el aprendizaje en los procesos más detallados de acción-valoración.

Bosquejo teórico

En términos de la teoría computacional del aprendizaje por refuerzo. [ 28 ] (RL), el agente (en nuestro caso, una persona o un animal) aprende a tomar decisiones informadas al actualizar su valor estimado anterior, , para cada par estado-acción, , cuando una recompensa es recibido por el agente a la hora Como resultado de realizar una acción. en el estado contextual (estímulo) . El valor se actualiza mediante el cálculo de la señal de error de predicción de recompensa. Esta señal no solo depende de la recompensa recibida instantáneamente (), pero también en el valor del nuevo estado en el que el agente termina, después de que se haya realizado esa acción. Denotado por , esta función de valor temporalmente avanzada representa la suma de las recompensas futuras que el animal espera recibir del estado resultante, , adelante. El error de predicción se puede calcular mediante la siguiente ecuación:


(1)

Intuitivamente, la señal de error de predicción calcula la discrepancia entre el valor esperado y el valor de recompensa realizado de una acción. En una estructura de decisión jerárquica, sin embargo, en lugar de aprender el -valores independientemente en diferentes niveles, más niveles abstractos pueden sintonizar la señal de enseñanza calculada en niveles más bajos. Como los niveles más altos de la jerarquía representan una representación más abstracta de las contingencias ambientales, el aprendizaje ocurre más rápido en esos niveles. Esto se debe a la baja dimensionalidad relativa de la representación abstracta del comportamiento: un plan de acción se puede representar como un solo paso (una dimensión) en el nivel superior de la jerarquía y como múltiples acciones detalladas (múltiples dimensiones) en los niveles inferiores de la jerarquía. El valor de nivel superior de este plan de acción se aprendería rápidamente en comparación con los niveles detallados en los que los errores de recompensa tendrían que propagarse hacia atrás todos los pasos de acción detallados. Por lo tanto, ajustar los valores de nivel inferior mediante la información de valores de los niveles superiores puede acelerar la convergencia de estos valores. Una forma estadísticamente eficiente de hacerlo es suponer que para calcular la señal de error de predicción en el -th nivel de abstracción, , la función de valor temporalmente avanzado, , proviene de un nivel superior de abstracción, [ 16 ]:


(2)

Para conservar la optimalidad, la ecuación 2 se puede usar para calcular el error de predicción solo cuando se realiza la última acción primitiva constituyente de una opción abstracta (consulte la Figura S1 en Archivo S1). En otros casos, el aprendizaje de valores en diferentes niveles ocurre de manera independiente, como en la ecuación 1. En ambos casos, la señal de enseñanza se utiliza para actualizar los valores anteriores en el nivel correspondiente:


(3)
donde es la tasa de aprendizaje. Esta forma de intercambio de información entre niveles es plausible biológicamente ya que refleja la estructura en espiral del circuito DA, llevando la información hacia abajo de la jerarquía en la dirección ventro-dorsal. Al mismo tiempo, ser guiado por niveles más abstractos acelera significativamente el aprendizaje, aliviando la alta dimensionalidad del aprendizaje valioso en niveles detallados [ 16 ].

En este documento mostramos que la interacción entre una versión modificada del modelo desarrollado en [ 16 ] y los efectos farmacológicos específicos de las drogas de abuso en el sistema dopaminérgico pueden capturar datos relacionados con la adicción en escalas de análisis radicalmente diferentes: neurobiológicos conductuales y de circuito. Primero, el nuevo modelo brinda una posible explicación convincente para varios aspectos de comportamiento intrigantes asociados con la adicción a las drogas (por ejemplo, el error que se describe a sí mismo). [ 4 ], [ 6 ], [ 7 ]). En segundo lugar, podemos explicar una amplia gama de pruebas con respecto a la dinámica de la liberación de dopamina provocada por el fármaco. [ 17 ].

Modificamos el modelo presentado en. [ 16 ] como sigue. Hacemos el modelo más eficiente en términos de capacidad de memoria de trabajo al reemplazar , en la ecuación 2, ya que los dos valores convergen al mismo nivel constante (consulte la Figura S2 en Archivo S1, para bases computacionales y neurobiológicas):


(4)

Aquí, Es la opción relativamente abstracta y es la última acción primitiva en la secuencia de comportamiento que completa esta opción. Similar, es el valor gratificante de , Que incluye (el valor gratificante de ).

Fundamentalmente, las diversas drogas abusadas por los seres humanos comparten una propiedad fundamental de aumentar farmacológicamente la concentración de dopamina en el cuerpo estriado. [ 29 ]. En consecuencia, incorporamos este efecto farmacológico del fármaco mediante la adición de un sesgo positivo, , (ver también [ 9 ][ 12 ]) a la señal de error de predicción transportada por las neuronas de dopamina (consulte la Figura S3 en Archivo S1, para bases computacionales y neurobiológicas):


(5)

Aquí captura el efecto farmacológico directo del fármaco en el sistema DA, y es su valor de refuerzo debido a los efectos euforigénicos (ver Archivo S1 para información complementaria).

Si bien las ecuaciones 3 y 5 juntas definen el mecanismo computacional para actualizar los valores en nuestro modelo, también suponemos que un mecanismo de competencia basado en la incertidumbre determina el nivel de abstracción que controla el comportamiento. Esto está inspirado en el mecanismo propuesto en [ 29 ] Para el arbitraje entre los sistemas habituales y los orientados a objetivos. A este respecto, en cada punto de decisión, solo el nivel de abstracción con la mayor certeza en la estimación del valor de las elecciones controla el comportamiento. Una vez que este nivel haya tomado la decisión de actuar, todos los niveles inferiores de la jerarquía serán implementados por este nivel dominante para implementar la acción seleccionada como una secuencia de respuestas motoras primitivas (ver Archivo S1 para información complementaria; Figura S4 en Archivo S1; Figura S5 en Archivo S1). Al recibir el feedback de recompensa del entorno, los valores en todos los niveles se actualizan. Este mecanismo de arbitraje basado en la incertidumbre predice que a medida que los procesos abstractos son más flexibles, tienen una capacidad superior de aproximación de valores durante las primeras etapas del aprendizaje y, por lo tanto, controlan el comportamiento en estas etapas. Sin embargo, dado que los niveles abstractos utilizan una representación aproximada del entorno (por ejemplo, debido a que contienen un número relativamente pequeño de funciones básicas), su capacidad de aproximación de valor final no es tan precisa como la de los niveles detallados. En otras palabras, después de un entrenamiento extenso, la certeza asociada con los valores estimados es menor para los niveles más bajos de la jerarquía en comparación con los niveles superiores. Por lo tanto, con el aprendizaje progresivo, los niveles más bajos de la jerarquía asumen el control sobre la selección de acciones, ya que su incertidumbre disminuye gradualmente. Esto está de acuerdo con varias líneas de evidencia que muestran un predominio progresivo de la dorsal sobre el estriado ventral en el control de la búsqueda de drogas (así como la búsqueda de recompensas naturales) [ 8 ], [ 30 ], [ 31 ].

Resultados

La inconsistencia en la valoración de la jerarquía surge bajo la droga pero no con recompensas naturales

A diferencia de los anteriores modelos computacionales de adicción basados ​​en el aprendizaje por refuerzo. [ 9 ][ 13 ] que se basan en un enfoque de sistema de decisión único, nuestra explicación se basa en un marco de sistemas de interacción múltiple. Como resultado, aunque la forma de modelar el efecto del fármaco sobre la señal de error de predicción en nuestro modelo es similar a los anteriores [ 9 ][ 12 ], se traduce en consecuencias fundamentalmente diferentes. El aumento transitorio de dopamina inducido por medicamentos aumenta el error de predicción inmediato en cada nivel de la jerarquía y, como resultado, conlleva un sesgo. , en la transferencia de conocimiento de un nivel de abstracción al siguiente, a lo largo de la dirección gruesa a fina de la jerarquía. Este sesgo hace que el valor asintótico de la búsqueda de drogas en un nivel dado sea unidades superiores a la de una capa abstracta más (Figura 2B). La acumulación de estas discrepancias a lo largo del eje rostro-caudal induce progresivamente diferencias significativas en el valor de los comportamientos de búsqueda de drogas entre los extremos superior e inferior de la jerarquía. Por lo tanto, incluso cuando sigue un fuerte castigo, el valor del comportamiento asociado a las drogas sigue siendo positivo en los ciclos motores de bajo nivel, mientras que se vuelve negativo en los niveles cognitivos. En otras palabras, el modelo predice que la acumulación del efecto del fármaco sobre las espirales de DA aumenta el valor de búsqueda de fármaco en los hábitos motores a una amplitud tan alta que incluso un fuerte castigo natural no podrá disminuirlo lo suficiente. Sugerimos que esto explica la inconsistencia entre la evaluación cognitiva y de bajo nivel de las conductas relacionadas con las drogas en los adictos. En otras palabras, proponemos que la búsqueda compulsiva de medicamentos y la elasticidad significativamente reducida a los costos asociados se deriven del efecto farmacológico del secuestro del medicamento, el mecanismo dependiente de la dopamina que transfiere la información entre los niveles de jerarquía de decisión.

uña del pulgar

Figura 2. Motivación por alimento frente a fármaco en diferentes niveles de abstracción (resultados de simulación).

En los primeros ensayos de 150 donde no hay castigo después de la recompensa, el valor de buscar recompensas naturales en todos los niveles converge con 10 (A). Para el caso de la droga, sin embargo, el efecto farmacológico directo de la droga (, ajustado a) resulta en el valor asintótico en cada nivel a ser unidades más altas que la de un nivel más alto de abstracción (B). Por lo tanto, cuando son seguidos por un castigo, mientras que los bucles cognitivos asignan correctamente un valor negativo a la elección de búsqueda de drogas, los bucles de nivel motor encuentran deseable la búsqueda de drogas (valor positivo). Las curvas en esta figura muestran la evolución de los valores en “un” animal simulado y, por lo tanto, no fue aplicable ningún análisis estadístico.

doi: 10.1371 / journal.pone.0061489.g002

Mientras que las drogas, en nuestro modelo, dan como resultado una valoración desequilibrada en todos los niveles, el valor de las recompensas naturales converge al mismo valor en todos los niveles, debido a la falta de un efecto farmacológico directo en el mecanismo de señalización de DA (). En consecuencia, no se observarán incoherencias ni sobrevaluaciones en niveles detallados para el caso de recompensas naturales (Figura 2A). La sobrevaloración de las respuestas de búsqueda de drogas en los niveles más bajos de la jerarquía debería dar como resultado una preferencia anormal de las drogas sobre las recompensas naturales y la participación excesiva en actividades relacionadas con las drogas.

Respuesta de dopamina diferencial en el estriado ventral frente al dorsal a señales asociadas con el fármaco

Neurobiológicamente, los roles diferenciales de las subregiones estriatales en la adquisición y expresión del comportamiento de búsqueda de drogas han ocupado un lugar central en la investigación de la adicción. La evidencia convergente de diferentes líneas de investigación sugiere que la transición conductual del uso recreativo al uso compulsivo de drogas refleja un cambio neurobiológico de la valoración del ventral al estriado dorsolateral [ 8 ], [ 33 ], [ 34 ], correspondiente a un cambio de niveles cognitivos a detallados en nuestro modelo. De acuerdo con nuestro modelo, se muestra que la red en espiral de la DA que conecta las zonas ventrales a regiones cada vez más dorsales del estriado desempeña un papel fundamental en esta transición [ 25 ].

En un estudio reciente clave, Willuhn et al. [ 17 ] evaluó el patrón de liberación de dopamina en respuesta a señales asociadas a las drogas en el estriado ventral y dorsolateral de ratas durante las tres semanas en que experimentaron cocaína. Utilizando voltametría cíclica de barrido rápido, la observación crítica fue que el flujo de salida de DA inducido por el cue en el estriado ventral emerge incluso después de un entrenamiento muy limitado. En contraste, el cuerpo estriado dorsolateral mostró una salida de DA desencadenada por la señal solo después de un entrenamiento extenso, y el desarrollo de este patrón de liberación desapareció cuando el cuerpo estriado ventral se lesionó en el hemisferio ipsilateral.

Debido a que la resolución temporal de voltametría de barrido rápido captura las fluctuaciones de la concentración en un segundo, el patrón observado de flujo de salida de DA debe atribuirse a la señalización DA "fásica" y, por lo tanto, a la señal de error de predicción, de acuerdo con la teoría RL de dopamina [ 24 ]. De acuerdo con la teoría de RL, la señal de error de predicción al observar un estímulo inesperado es igual al valor de recompensa que ese estímulo predice. Por lo tanto, la liberación de DA inducida por la señal es equivalente al valor predicho por esa señal.

En este sentido, nuestro marco jerárquico proporciona una explicación formal para el patrón diferencial del flujo de salida del estriado ventral versus dorsal informado en [ 17 ]. El valor predicho por la indicación asociada a la droga en los niveles cognitivos abstractos de la jerarquía aumenta rápidamente en las primeras etapas de entrenamiento (Figura 2B), debido a la baja dimensionalidad del problema de aprendizaje en altos niveles de abstracción. Como resultado, nuestro modelo muestra que el flujo de salida de DA inducido por el cue se debe observar en el estriado ventral incluso después de un entrenamiento limitado (Figura 3 y XNUMX). Sin embargo, en los niveles más detallados de representación, el proceso de aprendizaje es lento (Figura 2B), debido a la alta dimensionalidad del espacio del problema, así como a la dependencia del aprendizaje en niveles más abstractos a través de espirales de DA. En consecuencia, el flujo de salida de DA inducido por el cue en el cuerpo estriado dorsolateral debería desarrollarse gradualmente y hacerse observable solo después de un entrenamiento extenso (Figura 3 y XNUMX).

uña del pulgar

Figura 3. Salida de dopamina en diferentes subregiones del cuerpo estriado en respuesta a señales asociadas a drogas (resultados de simulación).

En línea con los datos experimentales. [ 17 ]El modelo muestra (columna izquierda) que, en respuesta a las señales asociadas con el fármaco, habrá un flujo de salida de dopamina en el estriado ventral, después de un entrenamiento limitado y extenso. Sin embargo, en las subregiones más dorsolaterales, el flujo de salida generado por la señal se desarrollará gradualmente durante el curso del aprendizaje. El modelo predice (segunda columna desde la derecha) que este desarrollo retardado de salida de DA provocada por la señal en el cuerpo estriado dorsal depende de la conectividad en serie dependiente de la DA que une el ventral al cuerpo estriado dorsal. Es decir, como resultado de desconectar las espirales de DA, mientras que la respuesta de DA provocada por la señal permanece intacta en el estriado ventral, disminuye significativamente en el estriado dorsolateral. Además, el modelo predice (tercera columna desde la derecha) resultados similares para el flujo de salida de DA inducido por el cue en el cuerpo estriado dorsolateral para el caso del cuerpo estriado ventral lesionado. Finalmente, si después de una extensa combinación de señales de drogas en animales intactos, un castigo sigue a la droga, el modelo predice (columna derecha) que la señal relacionada con la droga da como resultado la inhibición de la pierna ventral de las espirales de DA, incluso después de un entrenamiento limitado. Sin embargo, en las regiones más dorsales, el flujo de salida de DA disminuye lentamente durante el aprendizaje, pero seguirá siendo positivo, incluso después de una extensa combinación de drogas y castigos. Los datos presentados en esta figura se obtuvieron de "un" animal simulado y, por lo tanto, no se aplicó ningún análisis estadístico.

doi: 10.1371 / journal.pone.0061489.g003

Además, nuestro modelo explica la evidencia en [ 17 ] que dicho desarrollo retardado de flujo de salida de DA inducido por el cue en el cuerpo estriado dorsolateral depende del cuerpo estriado ventral (Figura 3 y XNUMX). En nuestro modelo, una lesión unilateral simulada del estriado ventral (el nivel de valoración abstracto en el modelo) disminuye significativamente el valor pronosticado por el fármaco a niveles detallados en el hemisferio ipsilateral y, por lo tanto, disminuye significativamente el nivel de flujo de DA inducido por el indicio. Para modelar la lesión del cuerpo estriado ventral, simplemente fijamos el valor de todos los estímulos en el nivel más alto de la jerarquía a cero.

De manera similar, nuestro modelo predice que el desarrollo de la señalización DA fásica en el estriado dorsolateral depende de la integridad del circuito en espiral DA (Figura 3 y XNUMX). De hecho, una desconexión en el circuito en espiral de DA en nuestro modelo corta la comunicación a través de los niveles de abstracción, lo que a su vez evita la acumulación del sesgo inducido por el fármaco en la señal de refuerzo, a lo largo de los niveles de la jerarquía de decisión. Para modelar la desconexión en el circuito en serie dependiente de DA del estriado ventral a dorsal, fijamos cada nivel de abstracción para calcular la señal de error de predicción localmente (como en la ecuación 3), sin recibir el valor del estado temporalmente avanzado desde el nivel inmediatamente superior Nivel de abstracción.

Además, el modelo predice que el patrón de salida de DA provocada por la señal cambiará si después de un entrenamiento extenso con cocaína y señales asociadas a la cocaína, como en el experimento anterior, uno comienza a combinar el suministro de cocaína con un fuerte castigo. Predecimos que el flujo de salida de DA en respuesta a la señal asociada con la cocaína debería disminuir rápidamente por debajo de la línea de base en el estriado ventral. Sin embargo, en el estriado dorsolateral, la liberación de DA inducida por la señal debe mantenerse por encima de la línea de base (Figura 3 y XNUMX) con una posible disminución parcial retardada. Esto indica que se asigna un valor subjetivo positivo al estímulo farmacológico a niveles detallados, a pesar de los valores negativos (por debajo de la línea de base) a niveles cognitivos. Cabe destacar que esta predicción depende del supuesto de que el cerebro trata el castigo simplemente como una recompensa negativa. Este supuesto es un tanto controvertido: está claramente respaldado por estudios experimentales [ 35 ], pero también discutido de otra manera por otros [ 14 ], [ 36 ]. Excepto por esta predicción, otros aspectos del modelo no dependen de si el castigo está codificado por la dopamina o por otro sistema de señalización.

El régimen de entrenamiento utilizado por Willuhn et al. [ 34 ] no está lo suficientemente extendido como para producir un comportamiento compulsivo de búsqueda de drogas, caracterizado por la insensibilidad a los castigos asociados con las drogas [ 37 ], [ 38 ]. Por lo tanto, una pregunta clave que debe responderse es cuál es la relación entre el desarrollo retrasado de la respuesta DA inducida por señales en el DLS y el desarrollo tardío de la respuesta compulsiva. De acuerdo con nuestro modelo, el comportamiento compulsivo requiere no solo la valoración excesiva de la elección del fármaco en los niveles bajos de la jerarquía, sino también la transferencia del control sobre el comportamiento de lo cognitivo abstracto a los procesos habituales de bajo nivel. La escala de tiempo de estos dos procesos solo depende en parte la una de la otra: el proceso de sobrevaluación depende de la señal de error de predicción, mientras que la transferencia del control de comportamiento también depende de las incertidumbres relativas en la estimación de valor. Por lo tanto, la sobrevaluación de las señales asociadas a las drogas en los niveles bajos de la jerarquía puede preceder al cambio de control sobre el comportamiento desde arriba hacia abajo de la jerarquía. Las escalas de tiempo exactas de los dos procesos dependen de la velocidad de aprendizaje y del ruido inherente a los diferentes niveles, respectivamente (ver Archivo S1 para información complementaria). En otras palabras, es probable que el flujo de dopamina inducido por señales en la DLS se desarrolle significativamente antes de que la búsqueda compulsiva de drogas se manifieste en la conducta.

Implicaciones conductuales de la valoración inconsistente de los medicamentos versus recompensas naturales

Desde nuestro punto de vista conductual, en nuestro modelo, si el castigo se combina con la droga en las primeras etapas del uso voluntario de drogas, el valor abstracto de la respuesta de búsqueda de drogas se vuelve negativo rápidamente. Suponiendo que la búsqueda de drogas esté controlada por niveles abstractos durante estas etapas iniciales, la evaluación abstracta negativa de la elección de drogas hace que el sujeto no esté dispuesto a experimentar ese curso de acción por más tiempo. Esto evitará la consolidación de una fuerte preferencia de bajo nivel hacia los medicamentos a lo largo del tiempo. Por lo tanto, el modelo explica la elasticidad de las opciones de medicamentos a los costos durante las primeras etapas del consumo de medicamentos, pero no después del uso crónico. Consistentemente, los modelos animales de adicción muestran que la insensibilidad de las respuestas de búsqueda de drogas a las consecuencias dañinas asociadas con la droga se desarrolla solo después de la autoadministración prolongada de drogas, pero no el uso limitado de drogas. [ 37 ], [ 38 ]. En contraste con nuestra teoría, los primeros modelos computacionales de adicción. [ 9 ], [ 10 ] están en directa contradicción con este cuerpo de evidencia, ya que predicen que los resultados de comportamiento adversos que siguen inmediatamente al uso de drogas, no tienen un efecto motivador incluso en las etapas muy tempranas de experimentar drogas (ver Archivo S1 para información complementaria).

Nuestro modelo explica además la aparición del efecto de bloqueo para los resultados de los medicamentos [ 39 ]. El bloqueo es un fenómeno condicionante en el que el emparejamiento previo de un estímulo A con un resultado bloquea la formación de asociación entre un estímulo diferente B con ese resultado en una fase de entrenamiento posterior, donde tanto A como B se presentan antes de la entrega del resultado. [ 40 ]. Resultados de la simulación de nuestro modelo en un diseño experimental pavloviano (ver Archivo S1 Para información complementaria sobre la versión pavloviana del modelo, se muestra que para ambos casos de recompensas naturales y medicamentos, cuando el valor estimado en cierto nivel de la jerarquía alcanza su estado estable (en lugar de crecer sin límites), no se produce ningún aprendizaje adicional en ese punto. nivel, ya que la señal de error de predicción ha disminuido a cero (Figura 4 y XNUMX). Por lo tanto, se asociará un nuevo estímulo con la recompensa ya predicha. Evidencia de comportamiento que muestra un efecto de bloqueo asociado con los refuerzos naturales y de drogas. [ 39 ] se ha utilizado como un argumento importante para criticar el modelo computacional de adicción basado en dopamina propuesto anteriormente. [ 9 ]. Aquí mostramos que centrarse en la naturaleza jerárquica de las representaciones y la organización de bucles dopaminérgicos dorsal-ventrales puede, de hecho, dar cuenta de los datos de bloqueo, evitando así estas críticas (ver Archivo S1 para información complementaria).

uña del pulgar

Figura 4. Efecto bloqueante para recompensas naturales vs. drogas.

El modelo predice que el bloqueo se produce para recompensas naturales (A) y drogas (B), solo si el período de entrenamiento inicial es "extenso", de modo que el primer estímulo predice completamente el valor del resultado. Después del entrenamiento "moderado", los niveles cognitivos que son más flexibles predicen completamente los valores y, por lo tanto, bloquean el aprendizaje adicional. Sin embargo, el aprendizaje sigue activo en los procesos de bajo nivel cuando comienza la segunda fase de entrenamiento (presentación simultánea de ambos estímulos). Por lo tanto, nuestro modelo predice que el entrenamiento inicial moderado en un experimento de bloqueo con recompensas naturales también resultará en una inconsistencia cognitiva / conductual. Los datos presentados en esta figura se obtuvieron de "un" animal simulado y, por lo tanto, no se aplicó ningún análisis estadístico.

doi: 10.1371 / journal.pone.0061489.g004

Como se mencionó anteriormente, varias líneas de evidencia muestran un predominio progresivo de la dorsal sobre el estriado ventral en el control sobre el comportamiento durante el curso del aprendizaje [ 8 ], [ 31 ], [ 32 ]. Al ser interpretada sobre la base de esas pruebas, la valoración desequilibrada de la búsqueda de drogas en la jerarquía también explica los esfuerzos infructuosos de los adictos para reducir el consumo de drogas después de una experiencia prolongada con las drogas, cuando el control sobre las opciones relacionadas con las drogas ha cambiado de cognitivo a bajo. Nivel de procesos habituales. Esta supremacía de los procesos dominados por las drogas conduce naturalmente a la inelasticidad del comportamiento a los costos asociados a las drogas (búsqueda compulsiva de drogas), probablemente acompañada de un error autodescrito. Para el caso de las recompensas naturales, sin embargo, nuestro modelo predice que aunque la inelasticidad conductual aumenta a lo largo del aprendizaje, a medida que no se desarrolla una inconsistencia de valoración en los niveles de la jerarquía, los castigos asociados con la recompensa eventualmente inhibirán la búsqueda de recompensa.

Nuestro modelo se centra en la evaluación de acciones en una jerarquía de decisión "presumiblemente dada", y deja de lado cómo las opciones abstractas y sus correspondientes subrutinas de bajo nivel se descubren inicialmente durante el desarrollo. Se propone que el descubrimiento de la jerarquía de decisiones sea un proceso de abajo hacia arriba, que se logra mediante la combinación de secuencias de acciones de bajo nivel y la construcción de opciones más abstractas. [ 41 ]. Este proceso, supuestamente sometido a un cambio del estriado dorsal al ventral, es en la dirección opuesta al mecanismo de competencia propuesto aquí, para tomar el control del comportamiento.

Discusión

El creciente cuerpo de evidencia sobre el papel diferencial de las diferentes subregiones del estriado en la adicción generalmente se interpreta en el marco de la dicotomía habitual frente a la meta. [ 8 ], [ 14 ], [ 34 ]. El enfoque de toma de decisiones jerárquica que usamos aquí es complementario a tales cuentas de sistema dual. Mientras que el enfoque de proceso dual trata con diferentes algoritmos (sin modelo frente a modelo basado) [ 30 ]) para resolver un solo problema, el marco jerárquico de RL se centra en diferentes representaciones del mismo problema en diferentes niveles de abstracción temporal. En teoría, un algoritmo habitual o dirigido a un objetivo puede resolver cada una de estas diferentes representaciones del problema. En nuestro modelo, la acumulación de sesgos inducidos por el fármaco sobre las espirales de DA se produce en un entorno donde el algoritmo de estimación de valores está libre de modelos (aprendizaje de hábitos). Sin embargo, esto no descarta la existencia de sistemas basados ​​en modelos que funcionen en los niveles superiores de la jerarquía. Uno puede simplemente incorporar el sistema de decisión y valoración dirigido a objetivos dependiente de PFC en el modelo asumiendo que las acciones en los niveles más altos de abstracción son evaluadas por un sistema dirigido a objetivos. Si bien esta complicación no cambia la naturaleza de los resultados presentados en este manuscrito, su consiguiente flexibilidad adicional para explicar otros aspectos de la adicción se deja para estudios futuros. De hecho, en nuestro modelo, independientemente de que exista o no un sistema de metas directas, la discrepancia en el valor asintótico de la búsqueda de drogas entre los dos extremos de la jerarquía aumenta con el número de niveles de decisión gobernados por el proceso "habitual" .

A la luz de nuestra teoría, la recaída se puede ver como un renacimiento de los hábitos inadaptados inactivos del nivel motor, después de un período de dominación de los niveles cognitivos. De hecho, uno puede imaginar que, como resultado de la terapia cognitiva (en adictos humanos) o la extinción forzada (en modelos animales de abstinencia), el alto valor de la búsqueda de drogas en el nivel detallado de la jerarquía no se extingue, pero se vuelve latente debido para revertir el control a niveles cognitivos. Dado que el comportamiento relacionado con las drogas es sensible a las consecuencias adversas en niveles abstractos, por lo tanto, se puede evitar la búsqueda de drogas siempre que los procesos cognitivos de alto nivel dominen el control de la conducta. Incluso se puede especular que los populares programas de pasos 12 (por ejemplo, Alcohólicos Anónimos, Narcóticos Anónimos, etc.) funcionan en parte al exigir explícitamente a los participantes que admitan la inconsistencia de su estilo de vida relacionado con las drogas, lo que permite a los niveles cognitivos abstractos ejercer un control explícito sobre su comportamiento. Se puede considerar que las condiciones estresantes o la reexposición al fármaco (cebado) son factores de riesgo que debilitan el dominio de los niveles abstractos sobre el comportamiento, lo que puede dar lugar a la reaparición de respuestas de búsqueda de fármaco (debido a los altos valores no cognitivos latentes). ).

En resumen, proponemos una explicación coherente de varios fenómenos aparentemente dispares característicos de la adicción a las drogas. Nuestro modelo proporciona una explicación normativa de los datos sobre las funciones diferenciales de los circuitos estriatales ventral frente a dorsal en la adquisición de la búsqueda de drogas y el desempeño del hábito, así como el papel selectivo de la conectividad DA de alimentación para los efectos de la droga frente a los reforzadores naturales. Lo más importante es que mostramos cómo la patología inducida por drogas en las señales DA ventral-dorsal que gotean la información motivacional hacia abajo en la jerarquía de representación cognitiva podría conducir a una discordancia entre las actitudes abstractas de los adictos hacia la búsqueda de drogas y lo que realmente hacen. Obviamente, nuestro modelo no ofrece, ni está destinado a ofrecer, una descripción completa de la adicción a las drogas. Explicar otros aspectos inexplicables de la adicción requiere incorporar muchos otros sistemas cerebrales que se ha demostrado que están afectados por las drogas de abuso. [ 42 ]. Cómo incorporar dichos sistemas dentro de la red de cómputo formal sigue siendo un tema para mayor investigación.

información de soporte

Archivo_S1.pdf
 

Figura S1,Una muestra de jerarquía de decisión con cinco niveles de abstracción. Figura S2, El circuito neural correspondiente para los tres algoritmos de aprendizaje de valores analizados es una estructura de decisión jerárquica. A, Usando un algoritmo de aprendizaje de TD simple (ecuación S7), la señal de error de predicción en cada nivel de abstracción se calcula independientemente de otros niveles. B, En el modelo propuesto por Haruno y Kawato (4) (ecuación S8), el valor del estado temporalmente avanzado proviene de un nivel más alto de abstracción. C, en nuestro modelo (ecuación S9) el valor del estado temporalmente avanzado se sustituye por una combinación de la recompensa y el valor Q de la acción realizada en un nivel más alto de abstracción. Figura S3, Nuestro modelo predice diferentes sitios de acción de medicamentos en el circuito de aprendizaje de recompensa: sitios 1 a 3. Las drogas que afectan a los sitios 4 a 6, en contraste, no darán como resultado los patrones de comportamiento y neurobiológicos producidos por la simulación del modelo para las drogas, sino que producirán resultados similares al caso de las recompensas naturales. Figura S4, La tarea utilizada para simular el mecanismo de competencia basado en la incertidumbre entre los niveles de la jerarquía para tomar el control del comportamiento. Figura S5, Resultado de la simulación, que muestra un cambio gradual del control sobre el comportamiento de los niveles superiores a los niveles inferiores de la jerarquía. Q (s, a) y Estados Unidos) Muestra el valor estimado y la incertidumbre de los pares de estado-acción, respectivamente.

Archivo S1.

Figura S1,Una muestra de jerarquía de decisión con cinco niveles de abstracción. Figura S2, El circuito neural correspondiente para los tres algoritmos de aprendizaje de valores analizados es una estructura de decisión jerárquica. A, Usando un algoritmo de aprendizaje de TD simple (ecuación S7), la señal de error de predicción en cada nivel de abstracción se calcula independientemente de otros niveles. B, En el modelo propuesto por Haruno y Kawato (4) (ecuación S8), el valor del estado temporalmente avanzado proviene de un nivel más alto de abstracción. C, en nuestro modelo (ecuación S9) el valor del estado temporalmente avanzado se sustituye por una combinación de la recompensa y el valor Q de la acción realizada en un nivel más alto de abstracción. Figura S3, Nuestro modelo predice diferentes sitios de acción de medicamentos en el circuito de aprendizaje de recompensa: sitios 1 a 3. Las drogas que afectan a los sitios 4 a 6, en contraste, no darán como resultado los patrones de comportamiento y neurobiológicos producidos por la simulación del modelo para las drogas, sino que producirán resultados similares al caso de las recompensas naturales. Figura S4, La tarea utilizada para simular el mecanismo de competencia basado en la incertidumbre entre los niveles de la jerarquía para tomar el control del comportamiento. Figura S5, Resultado de la simulación, que muestra un cambio gradual del control sobre el comportamiento de los niveles superiores a los niveles inferiores de la jerarquía. Q (s, a) y Estados Unidos) Muestra el valor estimado y la incertidumbre de los pares de estado-acción, respectivamente.

doi: 10.1371 / journal.pone.0061489.s001

(PDF) (documento en inglés)

AGRADECIMIENTOS

Agradecemos a S. Ahmed y P. Dayan por las discusiones críticas, y M. Reinoud, D. Redish, N. Daw, E. Koechlin y A. Dezfouli por comentar sobre el manuscrito.

Contribuciones de autor

Concebido y diseñado los experimentos: MK. Realizó los experimentos: MK. Analicé los datos: MK BG. Reactivos aportados / materiales / herramientas de análisis: MK. Escribió el papel: MK BG.

Referencias

  1. 1. Narcóticos Anónimos (2008). 6th ed. Oficina de Servicio Mundial.
  2. 2. Goldstein A (2001) Adicción: de la biología a la política de drogas. Oxford University Press, EE. UU.
  3. 3. Volkow ND, Fowler JS, Wang GJ, Swanson JM (2004) Dopamina en el abuso de drogas y la adicción: resultados de estudios de imagen e implicaciones de tratamiento. Psiquiatría Molecular 9: 557 – 569. doi 10.1038 / sj.mp.4001507. Encuentra este artículo en línea
  4. 4. Stacy AW, Wiers RW (2010) Cognición y adicción implícitas: una herramienta para explicar el comportamiento paradójico. Revisión anual de la psicología clínica 6: 551 – 575. doi 10.1146 / annurev.clinpsy.121208.131444. Encuentra este artículo en línea
  5. 5. Manual diagnóstico y estadístico de trastornos mentales (DSM-IV) (2000). 4th ed. Washington, DC: Asociación Americana de Psiquiatría.
  6. 6. Lamb RJ, Preston KL, Schindler CW, Meisch RA, Davis F, et al. (1991) Los efectos de refuerzo y subjetivos de la morfina en los post-adictos: un estudio de dosis-respuesta. La revista de farmacología y terapéutica experimental 259: 1165 – 1173. Encuentra este artículo en línea
  7. 7. Goldstein RZ, Woicik PA, Moeller SJ, Telang F, Jayne M, et al. (2010) El gusto y la falta de recompensas de drogas y no drogas en los usuarios activos de cocaína: el cuestionario STRAP-R. Revista de psicofarmacología 24: 257 – 266. doi 10.1177/0269881108096982. Encuentra este artículo en línea
  8. 8. Everitt BJ, Robbins TW (2005) Sistemas neuronales de refuerzo para la adicción a las drogas: de las acciones a los hábitos y la compulsión. Nature Neuroscience 8: 1481 – 1489. doi 10.1038 / nn1579. Encuentra este artículo en línea
  9. 9. Redish AD (2004) La adicción como un proceso computacional que salió mal. Ciencia 306: 1944 – 1947. doi 10.1126 / science.1102384. Encuentra este artículo en línea
  10. 10. Dezfouli A, Piray P, Keramati MM, Ekhtiari H, Lucas C, et al. (2009) Un modelo neurocomputacional para la adicción a la cocaína. Cálculo neural 21: 2869 – 2893. doi 10.1162 / neco.2009.10-08-882. Encuentra este artículo en línea
  11. 11. Piray P, Keramati MM, Dezfouli A, Lucas C, Mokri A (2010) Las diferencias individuales en los receptores de dopamina en el núcleo accumbens predicen el desarrollo de un comportamiento similar al de la adicción: un enfoque computacional. Cálculo neural 22: 2334 – 2368. doi 10.1162 / NECO_a_00009. Encuentra este artículo en línea
  12. 12. Dayan P (2009) Dopamina, aprendizaje por refuerzo y adicción. Farmacopsiquiatría 42: 56 – 65. doi 10.1055 / 0028-s-1124107. Encuentra este artículo en línea
  13. 13. Takahashi Y, Schoenbaum G, Niv Y (2008) Silenciar a los críticos: comprender los efectos de la sensibilización a la cocaína en el estriado dorsolateral y ventral en el contexto de un modelo actor / crítico. Las fronteras en neurociencia 2: 86 – 99. doi 10.3389 / neuro.01.014.2008. Encuentra este artículo en línea
  14. 14. Redish AD, Jensen S, Johnson A (2008) Un marco unificado para la adicción: vulnerabilidades en el proceso de decisión. El comportamiento y las ciencias del cerebro 31: 415 – 487. doi 10.1017 / S0140525X0800472X. Encuentra este artículo en línea
  15. 15. Botvinick MM (2008) Modelos jerárquicos de comportamiento y función prefrontal. Tendencias en las ciencias cognitivas 12: 201 – 208. doi 10.1016 / j.tics.2008.02.009. Encuentra este artículo en línea
  16. 16. Haruno M, Kawato M (2006) Modelo de aprendizaje de reforzamiento heterárquico para la integración de múltiples bucles cortico-estriatales: examen de IRMf en el aprendizaje de asociación estímulo-acción-recompensa. Redes neuronales 19: 1242 – 1254. doi 10.1016 / j.neunet.2006.06.007. Encuentra este artículo en línea
  17. 17. Willuhn I, Burgeno LM, Everitt BJ, Phillips PEM (2012) Reclutamiento jerárquico de la señalización fásica de dopamina en el estriado durante la progresión del consumo de cocaína. Actas de la Academia Nacional de Ciencias 109: 20703 – 20708. doi X. Encuentra este artículo en línea
  18. 18. Botvinick MM, Niv Y, Barto AC (2009) Comportamiento jerárquicamente organizado y sus fundamentos neuronales: una perspectiva de aprendizaje de refuerzo. Cognición 113: 262 – 280. doi 10.1016 / j.cognition.2008.08.011. Encuentra este artículo en línea
  19. 19. Badre D, D'Esposito M (2009) ¿Es jerárquico el eje rostro-caudal del lóbulo frontal? Nature Reviews Neuroscience 10: 659–669. doi: 10.1038 / nrn2667. Encuentra este artículo en línea
  20. 20. Koechlin E, Ody C, Kouneiher F (2003) La arquitectura del control cognitivo en la corteza prefrontal humana. Ciencia 302: 1181 – 1185. doi 10.1126 / science.1088545. Encuentra este artículo en línea
  21. 21. Badre D, Hoffman J, Cooney JW, D'Esposito M (2009) Déficits de control cognitivo jerárquico después de daños en el lóbulo frontal humano. Nature Neuroscience 12: 515-522. doi: 10.1038 / nn.2277. Encuentra este artículo en línea
  22. 22. Alexander GE, DeLong MR, Strick PL (1986) Organización paralela de circuitos segregados funcionalmente que enlazan los ganglios basales y la corteza. Revisión anual de neurociencia 9: 357 – 381. doi 10.1146 / annurev.neuro.9.1.357. Encuentra este artículo en línea
  23. 23. Alexander GE, Crutcher MD, DeLong MR (1990) Circuitos basales de los ganglios-talamocorticales: sustratos paralelos para las funciones motora, oculomotora, prefrontal y límbica. Avances en la investigación cerebral 85: 119 – 146. Encuentra este artículo en línea
  24. 24. Schultz W, Dayan P, Montague PR (1997) Un sustrato neuronal de predicción y recompensa. Ciencia 275: 1593 – 1599. doi 10.1126 / science.275.5306.1593. Encuentra este artículo en línea
  25. 25. Belin D, Everitt BJ (2008) Los hábitos de búsqueda de cocaína dependen de la conectividad en serie dependiente de la dopamina que vincula lo ventral con el cuerpo estriado dorsal. Neuron 57: 432 – 441. doi 10.1016 / j.neuron.2007.12.019. Encuentra este artículo en línea
  26. 26. Haber SN, Fudge JL, McFarland NR (2000) Las rutas estriatonigrostriatales en primates forman una espiral ascendente desde la concha hasta el estriado dorsolateral. El Journal of Neuroscience 20: 2369 – 2382. Encuentra este artículo en línea
  27. 27. Haber SN (2003) Los ganglios basales primates: redes paralelas e integradoras. Diario de neuroanatomía química 26: 317 – 330. doi 10.1016 / j.jchemneu.2003.10.003. Encuentra este artículo en línea
  28. 28. Sutton RS, Barto AG (1998) Aprendizaje por refuerzo: una introducción. Cambridge: MIT Press.
  29. 29. Di Chiara G, Imperato A (1988) Las drogas que consumen los seres humanos aumentan preferentemente las concentraciones sinápticas de dopamina en el sistema mesolímbico de ratas que se mueven libremente. Actas de la Academia Nacional de Ciencias de los Estados Unidos de América 85: 5274 – 5278. doi X. Encuentra este artículo en línea
  30. 30. Daw ND, Niv Y, Dayan P (2005) Competencia basada en la incertidumbre entre los sistemas estriatales prefrontal y dorsolateral para el control del comportamiento. Nature Neuroscience 8: 1704 – 1711. doi 10.1038 / nn1560. Encuentra este artículo en línea
  31. 31. Vanderschuren LJMJ, Ciano PD, Everitt BJ (2005) Participación del cuerpo estriado dorsal en la búsqueda de cocaína controlada por cue. El Journal of Neuroscience 25: 8665 – 8670. doi 10.1523 / JNEUROSCI.0925-05.2005. Encuentra este artículo en línea
  32. 32. Volkow ND, Wang GJ, Telang F, Fowler JS, Logan J, et al. (2006) Indicaciones de cocaína y dopamina en el cuerpo estriado dorsal: mecanismo del deseo en la adicción a la cocaína. El Journal of Neuroscience 26: 6583 – 6588. doi 10.1523 / JNEUROSCI.1544-06.2006. Encuentra este artículo en línea
  33. 33. Kalivas PW, Volkow ND (2005) Las bases neuronales de la adicción: una patología de la motivación y la elección. El American Journal of Psychiatry 162: 1403 – 1413. doi 10.1176 / appi.ajp.162.8.1403. Encuentra este artículo en línea
  34. 34. Belin D, Jonkman S, Dickinson A, Robbins TW, Everitt BJ (2009) Procesos de aprendizaje paralelos e interactivos dentro de los ganglios basales: relevancia para la comprensión de la adicción. Investigación del comportamiento del cerebro 199: 89 – 102. doi 10.1016 / j.bbr.2008.09.027. Encuentra este artículo en línea
  35. 35. Matsumoto M, Hikosaka O (2009) Dos tipos de neuronas de dopamina transmiten claramente señales motivacionales positivas y negativas. Naturaleza 459: 837 – 841. doi 10.1038/nature08028. Encuentra este artículo en línea
  36. 36. Frank MJ, Surmeier DJ (2009) ¿Las neuronas dopaminérgicas de sustancia negra se diferencian entre recompensa y castigo? Revista de biología celular molecular 1: 15 – 16. doi 10.1093 / jmcb / mjp010. Encuentra este artículo en línea
  37. 37. Vanderschuren LJMJ, Everitt BJ (2004) La búsqueda de drogas se vuelve compulsiva después de la autoadministración prolongada de cocaína. Ciencia 305: 1017 – 1019. doi 10.1126 / science.1098975. Encuentra este artículo en línea
  38. 38. Deroche-Gamonet V, Belin D, Piazza PV (2004) Evidencia de comportamiento similar a la adicción en la rata. Ciencia 305: 1014 – 1017. doi 10.1126 / science.1099020. Encuentra este artículo en línea
  39. 39. Panlilio LV, Thorndike EB, Schindler CW (2007) Bloqueo del condicionamiento de un estímulo pareado de cocaína: prueba la hipótesis de que la cocaína produce una señal de recompensa mayor a la esperada. Farmacología, bioquímica y comportamiento 86: 774 – 777. doi 10.1016 / j.pbb.2007.03.005. Encuentra este artículo en línea
  40. 40. Kamin L (1969) Predictibilidad, sorpresa, atención y acondicionamiento. En: Campbell BA, Church RM, editores. Castigo y comportamiento aversivo. Nueva York: Appleton-Century-Crofts. pp. 279 – 296.
  41. 41. Dezfouli A, Balleine BW (2012) Hábitos, secuencias de acción y aprendizaje por refuerzo. La revista europea de neurociencia 35: 1036 – 1051. doi 10.1111 / j.1460-9568.2012.08050.x. Encuentra este artículo en línea
  42. 42. Koob GF, Le Moal M (2005) Neurobiología de la adicción. San Diego: Prensa Académica