Publicado en línea 2018 Mayo 14. doi 10.1038 / s41593-018-0152-y
Resumen
La dopamina es un modulador crítico tanto del aprendizaje como de la motivación. Esto presenta un problema: ¿cómo pueden las células diana saber si el aumento de dopamina es una señal para aprender o para moverse? A menudo se presume que la motivación implica cambios lentos ("tónicos") de dopamina, mientras que las fluctuaciones rápidas ("fásicas") de dopamina transmiten errores de predicción de recompensa para el aprendizaje. Sin embargo, estudios recientes han demostrado que la dopamina transmite un valor motivacional y promueve el movimiento, incluso en escalas de tiempo inferiores al segundo. Aquí describo una explicación alternativa de cómo la dopamina regula el comportamiento continuo. La liberación de dopamina relacionada con la motivación es rápida y localmente esculpida por receptores en terminales de dopamina, independientemente de la activación de las células de dopamina. Las neuronas objetivo cambian bruscamente entre los modos de aprendizaje y rendimiento, y las interneuronas colinérgicas estriatales proporcionan un mecanismo de cambio candidato. El impacto en el comportamiento de la dopamina varía según la subregión, pero en cada caso, la dopamina proporciona una estimación dinámica de si vale la pena gastar un recurso interno limitado, como energía, atención o tiempo.
¿Es la dopamina una señal para el aprendizaje, la motivación o ambas cosas?
Nuestra comprensión de la dopamina ha cambiado en el pasado y está cambiando una vez más. Una distinción crítica es entre los efectos de la dopamina en corriente Comportamiento (rendimiento), y efectos de la dopamina en futuras comportamiento (aprendizaje). Ambos son reales e importantes, pero en varias ocasiones uno ha estado a favor y el otro no.
Cuando (en los '70s] fue posible realizar lesiones selectivas y completas de las vías de dopamina, la consecuencia obvia de comportamiento fue una reducción severa en el movimiento1. Esto encaja con los efectos acinéticos de la pérdida de dopamina en humanos, producidos por la enfermedad de Parkinson avanzada, los fármacos tóxicos o la encefalitis.2. Sin embargo, ni los casos de ratas ni humanos muestran una incapacidad fundamental para moverse. Ratas lesionadas con dopamina nadan en agua fría3y los pacientes acinéticos pueden levantarse y correr si suena una alarma de incendio (kinesia "paradójica"). Tampoco hay un déficit básico en la apreciación de las recompensas: las ratas lesionadas con dopamina consumirán los alimentos que se colocan en la boca y muestran signos de disfrutarla.4. Más bien, no elegirán hacer un esfuerzo para obtener recompensas activamente. Estos y muchos otros resultados establecieron un vínculo fundamental entre la dopamina y la motivación.5. Incluso la desaceleración del movimiento observada en casos menos graves de la enfermedad de Parkinson puede considerarse un déficit motivacional, lo que refleja decisiones implícitas de que no vale la pena gastar la energía necesaria para movimientos más rápidos.6.
Luego (en los '80') vinieron grabaciones pioneras de neuronas de dopamina en monos que se comportan (en áreas del cerebro medio que se proyectan en el cerebro anterior: área tegmental ventral, VTA / substantia nigra pars compacta, SNc). Entre los patrones de disparo observados se encontraban breves explosiones de actividad a estímulos que desencadenaron movimientos inmediatos. Este disparo de dopamina "fásico" se interpretó inicialmente como un apoyo a la "activación de comportamiento"7 y "excitación motivacional"8 - en otras palabras, como estimulante del comportamiento actual del animal.
Se produjo un cambio radical en los '90', con la reinterpretación de las explosiones fásicas de dopamina como codificación. errores de predicción de recompensa (RPEs9). Esto se basó en una observación clave: las células de dopamina responden a estímulos inesperados asociados con una recompensa futura, pero a menudo dejan de responder si se esperan estos estímulos10. La idea de RPE se originó en teorías de aprendizaje anteriores, y especialmente en el campo de la ciencia de la computación de refuerzo del entonces en desarrollo.11. El punto de una señal de RPE es actualizar valores(estimaciones de recompensas futuras). Estos valores se utilizan más adelante, para ayudar a tomar decisiones que maximicen la recompensa. Dado que la activación de células de dopamina se parece a los RPE, y los RPE se utilizan para el aprendizaje, se volvió natural enfatizar el papel de la dopamina en el aprendizaje. Las manipulaciones optogenéticas posteriores confirmaron la identidad dopaminérgica de las células codificantes de RPE12,13 y demostraron que efectivamente modulan el aprendizaje14,15.
La idea de que la dopamina proporciona una señal de aprendizaje encaja perfectamente con la literatura de que la dopamina modula la plasticidad sináptica en el cuerpo estriado, el objetivo principal del cerebro anterior de la dopamina. Por ejemplo, la triple coincidencia de la estimulación con glutamato de una espina dendrítica del estriado, la despolarización postsináptica y la liberación de dopamina hacen que la espina dorsal crezca16. La modulación dopaminérgica de los mecanismos de aprendizaje a largo plazo ayuda a explicar los efectos conductuales persistentes de las drogas adictivas, que comparten la propiedad de mejorar la liberación de dopamina estriatal17. Incluso la acinesia profunda con pérdida de dopamina puede explicarse en parte por tales mecanismos de aprendizaje.18. La falta de dopamina puede tratarse como un RPE constantemente negativo, que actualiza progresivamente los valores de las acciones hacia cero. Los antagonistas de la dopamina pueden producir efectos similares a la extinción en el comportamiento, similares a los de la extinción.19,20.
Sin embargo, la idea de que la dopamina participa de manera crítica en la motivación continua nunca ha desaparecido; por el contrario, los neurocientíficos del comportamiento la dan por sentada. Esto es apropiado dada la fuerte evidencia de que las funciones de la dopamina en la motivación / movimiento / vigor son disociables del aprendizaje.15,20–23. El desafío involucrado en la conciliación de este rol motivacional con la teoría de que el DA proporciona una señal de aprendizaje de RPE es menos apreciado.
La motivación "mira hacia adelante": utiliza predicciones de recompensa futura (valores) para energizar apropiadamente el comportamiento actual. Por el contrario, el aprendizaje "mira hacia atrás" a los estados y acciones en el pasado reciente, y actualiza sus valores. Estas son fases complementarias de un ciclo: los valores actualizados pueden usarse en la toma de decisiones subsiguientes si esos estados se vuelven a encontrar, luego se actualizan nuevamente, y así sucesivamente. Pero, ¿en qué fase del ciclo interviene la dopamina: usar los valores para tomar decisiones (desempeño) o actualizar los valores (aprendizaje)?
En algunas circunstancias, es sencillo imaginar que la dopamina desempeña ambos roles simultáneamente.24Las señales predictivas de recompensa inesperadas son los eventos arquetípicos para evocar la activación y liberación de las células de dopamina, y tales señales típicamente fortalecen el comportamiento y evocan el aprendizaje ( ). En esta situación particular, tanto la predicción de recompensa como los errores de predicción de recompensa aumentan simultáneamente, pero no siempre es así. A modo de ejemplo, las personas y otros animales a menudo se sienten motivados a trabajar por recompensas, incluso cuando ocurre poco o nada sorprendente. Pueden trabajar más y más duro a medida que se acercan cada vez más a la recompensa (el valor aumenta a medida que se acercan las recompensas). El punto es que el aprendizaje y la motivación son conceptualmente, computacionalmente y conductualmente distintos, y sin embargo, la dopamina parece hacer ambas cosas.
A continuación, evalúo críticamente las ideas actuales sobre cómo la dopamina es capaz de lograr el aprendizaje y las funciones motivacionales. Propongo un modelo actualizado, basado en tres hechos clave: 1) la liberación de dopamina desde los terminales no surge simplemente de la activación de las células de dopamina, sino que también puede controlarse localmente; 2) la dopamina afecta tanto a la plasticidad sináptica como a la excitabilidad de las células diana, con distintas consecuencias para el aprendizaje y el rendimiento, respectivamente; 3) los efectos de dopamina en la plasticidad pueden ser activados o desactivados por elementos del circuito cercanos. Juntas, estas características pueden permitir que los circuitos cerebrales alternen entre dos mensajes distintos de dopamina, para el aprendizaje y la motivación, respectivamente.
¿Hay señales de dopamina “fásicas” y “tónicas” separadas, con diferentes significados?
A menudo se argumenta que los roles de aprendizaje y motivación de la dopamina ocurren en diferentes escalas de tiempo.25. Las células de dopamina se disparan continuamente ("tónicamente") a unos cuantos picos por segundo, con ocasionales explosiones breves ("fásicas") o pausas. Los estallidos, especialmente si se sincronizan artificialmente a través de las células de dopamina, conducen a los aumentos rápidos correspondientes en la dopamina del cerebro anterior.26 que son altamente transitorios (sub-segundo duración)27). La contribución separada de la activación tónica de las células de dopamina a las concentraciones de dopamina en el cerebro anterior es menos clara. Algunas evidencias sugieren que esta contribución es muy pequeña.28. Puede ser suficiente para producir una estimulación casi continua de los receptores D2 de mayor afinidad, lo que permite al sistema notar breves pausas en la activación de las células de dopamina29 y usa estas pausas como errores de predicción negativos.
La microdiálisis se ha utilizado ampliamente para medir directamente los niveles de dopamina en el cerebro anterior, aunque con una resolución temporal baja (generalmente con un promedio de muchos minutos). Tales mediciones lentas de dopamina pueden ser difíciles de relacionar precisamente con el comportamiento. No obstante, la microdiálisis de la dopamina en el núcleo accumbens (NAc; cuerpo estriado ventral / medial) muestra correlaciones positivas con la actividad locomotora30 y otros índices de motivación.5. Esto se ha interpretado ampliamente como que hay cambios lentos ("tónicos") en la concentración de dopamina, y que estos cambios lentos transmiten una señal motivacional. Más específicamente, los modelos computacionales han propuesto que los niveles de dopamina tónica rastrean la tasa de recompensa promedio a largo plazo31 - una variable de motivación útil para la asignación de tiempo y las decisiones de alimentación. Vale la pena enfatizar que muy pocos artículos definen claramente los niveles de dopamina "tónicos"; por lo general, solo asumen que la concentración de dopamina cambia lentamente en la escala de tiempo de varios minutos de la microdiálisis.
Sin embargo, esta visión de “dopamina fásica = RPE / aprendizaje, dopamina tónica = motivación” enfrenta muchos problemas. En primer lugar, no hay evidencia directa de que la activación tónica de las células de dopamina varíe normalmente en escalas de tiempo lentas. Las tasas de cocción tónicas no cambian con la motivación cambiante32,33. Se ha argumentado que los niveles de dopamina tónica cambian debido a una proporción cambiante de células de dopamina activas34,35. Pero a través de muchos estudios en animales sin drogas y sin depilación, nunca se ha informado que las células de dopamina cambien entre los estados silenciosos y activos.
Además, el hecho de que la microdiálisis mida los niveles de dopamina lentamente no significa que los niveles de dopamina en realidad cambien lentamente. Nosotros recientemente15 examinó la dopamina NAc de rata en una tarea de recompensa probabilística, utilizando tanto microdiálisis como voltimetría cíclica de exploración rápida. Confirmamos que la dopamina mesolímbica, medida por microdiálisis, se correlaciona con la tasa de recompensa (recompensas / min). Sin embargo, incluso con una resolución temporal mejorada de la microdiálisis (1min), la dopamina fluctuó tan rápido como la tomamos: no vimos evidencia de una señal de dopamina inherentemente lenta.
Usando la resolución temporal más fina de voltametría, observamos una relación cercana entre las fluctuaciones y la motivación de la dopamina por debajo del segundo. A medida que las ratas realizaban la secuencia de acciones necesarias para obtener recompensas, la dopamina se elevaba cada vez más, alcanzando un máximo justo cuando obtenían la recompensa (y disminuían rápidamente a medida que la consumían). Demostramos que la dopamina se correlacionaba fuertemente con el valor del estado instantáneo, definido como la recompensa futura esperada, descontada por el tiempo esperado necesario para recibirla. Esta dinámica rápida de la dopamina también puede explicar los resultados de la microdiálisis, sin invocar señales de dopamina separadas en diferentes escalas de tiempo. A medida que los animales experimentan más recompensas, aumentan sus expectativas de recompensas futuras en cada paso de la secuencia de prueba. En lugar de una señal de tasa de recompensa promedio de evolución lenta, la correlación entre la dopamina y la tasa de recompensa se explica mejor como un promedio, a lo largo del tiempo de recolección de muestras de microdiálisis prolongado, de estos valores de estado de rápida evolución.
Esta interpretación del valor de la liberación de dopamina mesolímbica es consistente con los resultados de voltametría de otros grupos de investigación, quienes han encontrado repetidamente que la liberación de dopamina aumenta con la proximidad creciente a la recompensa36–38( ). Esta señal de motivación no es intrínsecamente "lenta", sino que puede observarse en un rango continuo de escalas de tiempo. Aunque las rampas de dopamina pueden durar varios segundos cuando un comportamiento de aproximación también dura varios segundos38Esto refleja el curso temporal del comportamiento, en lugar de la dinámica intrínseca de la dopamina. La relación entre la liberación de dopamina mesolímbica y el valor fluctuante es visible tan rápido como lo permite la técnica de grabación, es decir, en una escala de tiempo de ~ 100ms con electrodos de voltametría aguda15.
Las rápidas fluctuaciones de la dopamina no solo reflejan la motivación, sino que también impulsan de inmediato el comportamiento motivado. Las respuestas fásicas más grandes de las células de dopamina para desencadenar señales predicen tiempos de reacción más cortos en ese mismo ensayo39. La estimulación optogenética de las células de dopamina VTA hace que las ratas tengan más probabilidades de comenzar a trabajar en nuestra tarea de recompensa probabilística15, como si tuvieran una mayor expectativa de recompensa. La estimulación optogenética de las neuronas de dopamina SNc, o sus axones en el cuerpo estriado dorsal, aumenta la probabilidad de movimiento40,41. Críticamente, estos efectos de comportamiento son evidentes dentro de un par de cientos de milisegundos desde el inicio de la estimulación optogenética. La capacidad de las señales predictivas de recompensa para aumentar la motivación parece estar mediada por una modulación dopaminérgica muy rápida de la excitabilidad de las neuronas espinosas NAc42. Dado que la dopamina está cambiando rápidamente, y estos cambios afectan la motivación rápidamente, las funciones motivacionales de la dopamina se describen mejor como rápidas ("fásicas"), no lentas ("tónicas").
Además, la invocación de escalas de tiempo rápidas y lentas separadas no resuelve en sí mismo el problema de decodificación que enfrentan las neuronas con receptores de dopamina. Si la dopamina indica el aprendizaje, la modulación de la plasticidad sináptica parecería una respuesta celular apropiada. Pero los efectos inmediatos sobre el comportamiento motivado implican efectos inmediatos sobre los picos, por ejemplo, a través de cambios rápidos en la excitabilidad. La dopamina puede tener ambos efectos postsinápticos (y más), entonces, ¿una determinada concentración de dopamina tiene un significado específico? ¿O es necesario construir este significado, por ejemplo, comparando los niveles de dopamina a lo largo del tiempo o utilizando otras señales coincidentes para determinar qué maquinaria celular se debe activar? Esta posibilidad se analiza más adelante.
¿La liberación de dopamina transmite la misma información que la activación de las células de dopamina?
La relación entre las fluctuaciones rápidas de la dopamina y el valor motivacional parece extraña, dado que la activación de las células de la dopamina se parece al RPE. Además, algunos estudios han reportado señales de RPE en la liberación de dopamina mesolímbica43. Es importante señalar un desafío en la interpretación de algunas formas de datos neuronales. Las señales de valor y los RPE están correlacionados entre sí, como era de esperar, ya que el RPE generalmente se define como el cambio en el valor de un momento al siguiente (RPE de “diferencia temporal”). Debido a esta correlación, es fundamental utilizar diseños y análisis experimentales que distingan el valor de las cuentas de RPE. El problema se agrava cuando se usa una medida neuronal que se basa en cambios de señal relativos, en lugar de absolutos. Los análisis de voltamperometría suelen comparar la dopamina en algún momento de interés con una época "de referencia" anterior en cada ensayo (para eliminar los componentes de la señal que no dependen de la dopamina, incluida la carga de electrodos en cada barrido de voltaje y deriva en una escala de tiempo de minutos). Pero restar una línea de base puede hacer que una señal de valor se parezca a una señal RPE. Esto es lo que observamos en nuestros propios datos de voltamperometría (Fig. 2e). Los cambios en la expectativa de recompensa se reflejaron en los cambios en la concentración de dopamina al principio de cada prueba, y estos cambios se omiten si uno simplemente asume una línea de base constante entre las pruebas.15. Por tanto, las conclusiones sobre la liberación de dopamina y la codificación de RPE deben considerarse con cautela. Este peligro de interpretación de datos se aplica no solo a la voltamperometría, sino a cualquier análisis que se base en cambios relativos, incluyendo potencialmente algunos fMRI y fotometría.44.
No obstante, todavía debemos reconciliar la liberación de dopamina relacionada con el valor en el núcleo de NAc con la ausencia constante de aumento de valor relacionado por las neuronas de dopamina13, incluso dentro del área VTA lateral que proporciona dopamina al núcleo de NAc45. Un factor potencial es que las células de dopamina generalmente se registran en animales con cabeza que realizan tareas de acondicionamiento clásico, mientras que la liberación de dopamina se mide típicamente en animales sin restricciones que se mueven activamente a través de su entorno. Propusimos que la dopamina mesolímbica podría indicar específicamente el valor del "trabajo"15 - que refleja un requisito de dedicar tiempo y esfuerzo para obtener la recompensa. De acuerdo con esto, la dopamina aumenta con señales que instruyen el movimiento, pero no con señales que instruyen la quietud, incluso cuando indican una recompensa futura similar.46. Si, como en muchas tareas clásicas de acondicionamiento, el “trabajo” activo no aporta ningún beneficio, los cambios dopaminérgicos que indican el valor del trabajo pueden ser menos evidentes.
Aún más importante puede ser el hecho de que la liberación de dopamina puede controlarse localmente en las propias terminales y, por lo tanto, mostrar patrones espacio-temporales independientes de la aceleración del cuerpo celular. Por ejemplo, la amígdala basolateral (BLA) puede influir en la liberación de dopamina NAc incluso cuando el VTA está desactivado.47. A la inversa, la inactivación de BLA reduce la liberación de dopamina NAc y el comportamiento motivado correspondiente, sin afectar aparentemente a la activación de VTA48. Los terminales de dopamina tienen receptores para una variedad de neurotransmisores, incluidos el glutamato, los opioides y la acetilcolina. Los receptores nicotínicos de acetilcolina permiten que las interneuronas colinérgicas estriatales (NIC) controlen rápidamente la liberación de dopamina49,50. Aunque hace tiempo que se ha observado que el control local de la liberación de dopamina es potencialmente importante7,51, no se ha incluido en las cuentas computacionales de la función de la dopamina. Propongo que la dinámica de liberación de dopamina relacionada con la codificación de valor surja en gran medida a través de local control, incluso cuando la activación de células de dopamina proporciona importantes señales similares a RPE para el aprendizaje.
¿Cómo puede la dopamina significar tanto aprendizaje como motivación sin confusión?
En principio, una señal de valor es suficiente para transmitir RPE también, ya que los RPE de diferencia temporal simplemente son cambios rápidos en el valor (Fig. 2B). Por ejemplo, las distintas vías intracelulares en las neuronas diana pueden ser diferentes a la concentración absoluta de dopamina (que representa el valor) frente a los cambios relativos rápidos en la concentración (que representan el EPR). Este esquema parece plausible, dada la compleja modulación de dopamina de la fisiología de la neurona espinosa52 y su sensibilidad a los patrones temporales de concentración de calcio.53. Sin embargo, esto también parece algo redundante. Si ya existe una señal similar a RPE en el aumento de células de dopamina, debería ser posible usarla en lugar de derivar RPE a partir de una señal de valor.
Para usar apropiadamente distintas señales de RPE y valores, los circuitos receptores de dopamina pueden cambiar activamente la forma en que interpretan la dopamina. Existe evidencia intrigante de que la acetilcolina también puede cumplir esta función de cambio. Al mismo tiempo que las células de dopamina disparan ráfagas de picos a señales inesperadas, los CIN se muestran breves (~ 150ms) descansos en cocción, que no escalan con RPEs54. Estas pausas CIN pueden ser impulsadas por neuronas VTA GABAérgicas55 así como las células relacionadas con la "sorpresa" en el tálamo intralaminar, y se han propuesto para actuar como una señal de asociabilidad que promueve el aprendizaje56. Morris y Bergman sugirieron54 que las pausas colinérgicas definen ventanas temporales para la plasticidad estriatal, durante las cuales la dopamina se puede usar como una señal de aprendizaje. La plasticidad dependiente de la dopamina se suprime continuamente por mecanismos que incluyen los receptores muscarínicos m4 en las neuronas del estriado de la vía directa57. Los modelos de señalización intracelular sugieren que durante las pausas de CIN, la ausencia de la unión de m4 puede actuar de forma sinérgica con las explosiones fásicas de dopamina para aumentar la activación de PKA58, promoviendo así el cambio sináptico.
Las células colinérgicas del cuerpo estriado están bien posicionadas para cambiar dinámicamente el significado de un mensaje dopaminérgico multiplexado. Durante las pausas de CIN, el alivio de un bloqueo muscarínico sobre la plasticidad sináptica permitiría usar la dopamina para aprender. En otros momentos, la liberación de los terminales de dopamina se esculpiría localmente para afectar el desempeño del comportamiento continuo. Actualmente, esta sugerencia es a la vez especulativa e incompleta. Se ha propuesto que los CIN integren información de muchas neuronas espinosas circundantes para extraer señales útiles a nivel de red, como la entropía.59,60. Pero no está del todo claro que la dinámica de actividad de la CIN se pueda usar para generar señales de valor de dopamina61, y también para bloquear las señales de aprendizaje de dopamina.
¿Dopamina significa lo mismo en todo el cerebro anterior?
A medida que la idea de RPE se consolidó, se imaginó que la dopamina era una señal global, transmitiendo un mensaje de error a través de los objetivos corticales frontales y estriatales. Schultz enfatizó que las células de dopamina de mono a lo largo de VTA y SNc tienen respuestas muy similares62. Los estudios de células de dopamina identificadas también han encontrado respuestas homogéneas de tipo RPE en roedores, al menos para las neuronas VTA laterales en contextos de condicionamiento clásico13. Sin embargo, las células de dopamina son molecular y fisiológicamente diversas63–65 y ahora hay muchos informes que muestran diversos patrones de disparo en los animales que se comportan. Estos incluyen aumentos fásicos en el disparo a eventos aversivos66 y desencadenar señales67 que encajan mal con la cuenta estándar de RPE. Muchas células de dopamina muestran una respuesta inicial de corta latencia a eventos sensoriales que refleja sorpresa o "alerta" más que la codificación específica de RPE68,69. Este aspecto de alerta es más prominente en SNc.69, donde las células de dopamina se proyectan más hacia el estriatum dorsal / lateral “sensorimotor” (DLS45,63). También se ha informado que las subpoblaciones de células de dopamina SNc aumentan41 o disminuir70 Disparar en conjunción con movimientos espontáneos, incluso sin señales externas.
Varios grupos utilizaron la fotometría de fibra y el indicador de calcio GCaMP para examinar la actividad en masa de las subpoblaciones de neuronas de dopamina71,72. Las células de dopamina que se proyectan al estriado dorsal / medial (DMS, por sus siglas en inglés) mostraron una actividad de depresión transitoria a shocks breves inesperados, mientras que las que se proyectaron a DLS mostraron una mayor actividad.71- más coherente con una respuesta de alerta. También se han observado distintas respuestas dopaminérgicas en diferentes subregiones del prosencéfalo utilizando GCaMP para examinar la actividad de los axones y terminales de dopamina.40,72,73. Usando imágenes de dos fotones en ratones con cabeza, Howe y Dombeck40 Informó actividad de dopamina fásica relacionada con movimientos espontáneos. Esto se observó predominantemente en los axones de dopamina individuales de SNc que terminaron en el cuerpo estriado dorsal, mientras que los axones de dopamina VTA en NAc respondieron más para recompensar el parto. Otros también encontraron actividad dopaminérgica relacionada con la recompensa en NAc, con DMS en su lugar más vinculado a acciones contralaterales72 y la cola posterior del cuerpo estriado en respuesta a estímulos aversivos y novedosos74.
Las medidas directas de liberación de dopamina también revelan heterogeneidad entre subregiones30,75. Con la microdiálisis, encontramos que la dopamina está correlacionada con el valor específicamente en el núcleo de NAc y la corteza frontal ventral-medial, no en otras partes mediales del cuerpo estriado (cáscara de NAc, DMS) o la corteza frontal. Esto es intrigante, ya que parece asociarse bien con dos "puntos calientes" de codificación de valores observados de forma sistemática en estudios de RMF humanos.76,77. En particular, la señal NAc BOLD, que tiene una relación cercana con la señalización de dopamina78, aumenta con la anticipación de la recompensa (valor), más que con el RPE76.
Ya sea que estos patrones espaciales de liberación de dopamina surgen de la activación de distintas subpoblaciones de células de dopamina, el control local de la liberación de dopamina, o ambos, desafían la idea de un mensaje global de dopamina. Se podría concluir que hay muchas funciones diferentes de dopamina, con (por ejemplo) la dopamina en el "movimiento" de señalización del estriado dorsal y la dopamina en la "recompensa" de señalización del estriado ventral40. Sin embargo, estoy a favor de otro enfoque conceptual. Las diferentes subregiones estriadas obtienen aportes de diferentes regiones corticales, por lo que procesarán diferentes tipos de información. Sin embargo, cada subregión estriatal comparte una arquitectura de microcircuitos común, que incluye neuronas espinosas con receptores de D1 frente a receptores de D2 separados79, CINs, y así sucesivamente. Aunque es común referirse a varias subregiones estriadas (p. Ej., DLS, DMS, núcleo NAc) como si fueran áreas discretas, no hay límites anatómicos afilados entre ellas (la capa NAc es un poco más neuroquímica distinta). En cambio, solo hay gradientes suaves en la densidad de receptores, proporciones de interneuronas, etc., que parecen más ajustes a los parámetros de un algoritmo computacional compartido. Dada esta arquitectura común, ¿podemos describir una función común de dopamina, abstraída de la información específica que maneja cada subregión?
Dopamina estriatal y la asignación de recursos limitados.
Propongo que una variedad de efectos dispares de dopamina en el comportamiento en curso puede entenderse como una modulación de decisiones de asignación de recursos. Específicamente, la dopamina proporciona estimaciones de cuánto vale la pena gastar un recurso interno limitado, con un recurso particular que difiere entre las subregiones estriatales. Para el estriado "motor" (~ DLS) el recurso es movimiento, que está limitado porque mover energía cuesta, y porque muchas acciones son incompatibles entre sí80. El aumento de la dopamina hace que sea más probable que un animal decida que vale la pena gastar energía para moverse o moverse más rápido6,40,81. Tenga en cuenta que una señal de dopamina que codifica "el movimiento vale la pena" producirá correlaciones entre la dopamina y el movimiento, incluso sin la codificación de la dopamina "movimiento" per se.
Para el estriado "cognitivo" (~ DMS), los recursos son procesos cognitivos que incluyen atención (que, por definición, es de capacidad limitada)82) y memoria de trabajo83. Sin dopamina, las señales externas sobresalientes que normalmente provocan movimientos de orientación se descuidan, como si se consideraran menos dignas de atención3. Además, la combinación deliberada de procesos de control cognitivo es un esfuerzo (costoso)84). Dopamina - especialmente en DMS85 - juega un papel clave a la hora de decidir si vale la pena realizar este esfuerzo86,87. Esto puede incluir si se emplean estrategias de decisión deliberativas ("basadas en modelos") más exigentes desde el punto de vista cognitivo.88.
Para el estriado "motivacional" (~ NAc), un recurso limitado clave puede ser el tiempo del animal. La dopamina mesolímbica no se requiere cuando los animales realizan una acción simple y fija para obtener recompensas rápidamente89. Pero muchas formas de recompensa solo pueden obtenerse a través del trabajo prolongado: secuencias extendidas de acciones no recompensadas, como en el forrajeo. Elegir involucrarse en el trabajo significa que deben abandonarse otras formas beneficiosas de pasar el tiempo. La dopamina mesolímbica alta indica que realizar un trabajo prolongado y laborioso vale la pena, pero a medida que la dopamina disminuye, los animales no se molestan y, en cambio, pueden prepararse para dormir.90.
Dentro de cada circuito de circuito córtico-estriado, la contribución de la dopamina al comportamiento continuo es, por lo tanto, económica (preocupada por la asignación de recursos) y motivacional (si es vale la pena gastar recursos81). Estos circuitos no son completamente independientes, sino que tienen una organización jerárquica y en espiral: las porciones más ventrales del cuerpo estriado influyen en las células de dopamina que se proyectan a más porciones dorsales5,91. De esta manera, las decisiones de participar en el trabajo también pueden ayudar a fortalecer los movimientos específicos y más breves necesarios. Pero en general, la dopamina proporciona señales "activantes", lo que aumenta la probabilidad de que se tome alguna decisión, en lugar de señales "direccionales" que especifican cómo los recursos deben ser gastados5.
¿Cuál es el papel computacional de la dopamina cuando se toman decisiones?
Una forma de pensar acerca de este rol de la actividad es en términos de umbrales de toma de decisiones. En ciertos modelos matemáticos, los procesos de decisión aumentan hasta que alcanzan un nivel de umbral, cuando el sistema se compromete con una acción.92. Una mayor dopamina sería equivalente a una menor distancia al umbral, por lo que las decisiones se alcanzan más rápidamente. Esta idea es simplista, pero hace predicciones cuantitativas que han sido confirmadas. La reducción de los umbrales para el movimiento causaría un cambio específico en la forma de la distribución del tiempo de reacción, justo lo que se ve cuando se infunde anfetamina en el estriatum sensoriomotor20.
En lugar de umbrales fijos, los datos neuronales y de comportamiento pueden adaptarse mejor si los umbrales disminuyen con el tiempo, como si las decisiones fueran cada vez más urgentes. Se ha propuesto la producción de ganglios basales para proporcionar una señal de urgencia que evoluciona dinámicamente, lo que vigoriza los mecanismos de selección en la corteza.93. La urgencia también fue mayor cuando las recompensas futuras estaban más cerca en el tiempo, lo que hace que este concepto sea similar al de la codificación de valor, el papel de activación de la dopamina.
¿Es tal rol de activación suficiente para describir los efectos moduladores del rendimiento de la dopamina del cuerpo estriado? Esto se relaciona con la pregunta de larga data de si los circuitos de los ganglios basales seleccionan directamente entre las acciones aprendidas80 o simplemente vigorizar las elecciones hechas en otros lugares93,94. Hay al menos dos formas en que la dopamina puede parecer tener un efecto más "direccional". La primera es cuando la dopamina actúa dentro de una subregión cerebral que procesa información direccional inherente. Los circuitos de los ganglios basales tienen un papel importante, parcialmente lateralizado, orientado hacia y acercándose a las posibles recompensas. El caudado de primates (~ DMS) está involucrado en dirigir los movimientos oculares hacia campos espaciales contralaterales95. Una señal dopaminérgica de que vale la pena orientarse hacia algo en el espacio contralateral puede explicar la correlación observada entre la actividad dopaminérgica en DMS y los movimientos contralaterales72, así como el comportamiento rotacional producido por las manipulaciones de dopamina.96. Una segunda influencia "direccional" de la dopamina es evidente cuando las lesiones (bilaterales) de dopamina desvían a las ratas hacia elecciones de bajo esfuerzo / baja recompensa, en lugar de alternativas de alto esfuerzo / alta recompensa97. Esto puede reflejar el hecho de que algunas decisiones son más seriales que paralelas, con ratas (y humanos) que evalúan las opciones una a la vez.98. En estos contextos de decisión, la dopamina puede seguir desempeñando un papel fundamentalmente activador al transmitir el valor de la opción actualmente considerada, que puede aceptarse o no.24.
Los animales activos toman decisiones en múltiples niveles, a menudo a tasas altas. Más allá de pensar en decisiones individuales, puede ser útil considerar una trayectoria general a través de una secuencia de estados ( ). Al facilitar las transiciones de un estado a otro, la dopamina puede acelerar el flujo a lo largo de las trayectorias aprendidas99. Esto puede relacionarse con la importante influencia de la dopamina sobre el momento del comportamiento44,100. Una frontera clave para el trabajo futuro es obtener una comprensión más profunda de cómo dichos efectos de la dopamina en el comportamiento en curso surgen mecánicamente, al alterar el procesamiento de la información dentro de células individuales, microcircuitos y bucles de ganglios cortical basales a gran escala. Además, he enfatizado los roles computacionales comunes de la dopamina en un rango de objetivos estriatales, pero los objetivos corticales en gran parte descuidados, y queda por ver si las funciones de dopamina en ambas estructuras pueden describirse dentro del mismo marco.
En resumen, una descripción adecuada de la dopamina explicaría cómo la dopamina puede indicar tanto el aprendizaje como la motivación, en las mismas escalas de tiempo rápidas, sin confusión. Esto explicaría por qué la liberación de dopamina en los objetivos clave se relaciona con la expectativa de recompensa, aunque el disparo de células de dopamina no lo haga. Y proporcionaría una cuenta computacional unificada de las acciones de la dopamina en el estriado y en otros lugares, lo que explica los efectos de comportamiento dispares en el movimiento, la cognición y el tiempo. Algunas ideas específicas presentadas aquí son especulativas, pero tienen la intención de vigorizar la discusión renovada, el modelado y los nuevos experimentos incisivos.
Expresiones de gratitud.
Agradezco a los muchos colegas que brindaron comentarios perspicaces sobre borradores de textos anteriores, incluidos Kent Berridge, Peter Dayan, Brian Knutson, Jeff Beeler, Peter Redgrave, John Lisman, Jesse Goldberg y los árbitros anónimos. Lamento que las limitaciones de espacio impidan la discusión de muchos estudios previos importantes. El Instituto Nacional de Trastornos Neurológicos y Accidentes Cerebrovasculares, el Instituto Nacional de Salud Mental y el Instituto Nacional sobre el Abuso de Drogas proporcionaron apoyo esencial.