Veröffentlicht online 2018 Mai 14. doi: 10.1038 / s41593-018-0152-y
Abstrakt
Dopamin ist ein kritischer Modulator sowohl für das Lernen als auch für die Motivation. Dies stellt ein Problem dar: Wie können Zielzellen wissen, ob erhöhte Dopaminwerte ein Signal zum Lernen oder zum Bewegen sind? Es wird oft vermutet, dass die Motivation mit langsamen ("tonischen") Dopaminveränderungen einhergeht, während schnelle ("phasische") Dopaminschwankungen Belohnungsvorhersagefehler für das Lernen vermitteln. Jüngste Studien haben jedoch gezeigt, dass Dopamin den Motivationswert und die Bewegung fördert, selbst auf Zeitskalen unter einer Sekunde. Hier beschreibe ich einen alternativen Bericht darüber, wie Dopamin das fortlaufende Verhalten reguliert. Motivationsbedingte Dopaminfreisetzung wird schnell und lokal durch Rezeptoren an Dopamin-Terminals gebildet, unabhängig vom Dopamin-Zellbrand. Zielneuronen schalten abrupt zwischen Lern- und Leistungsmodus um, wobei striatale cholinerge Interneuronen einen möglichen Schaltmechanismus darstellen. Die Auswirkungen von Dopamin auf das Verhalten variieren je nach Subregion. In jedem Fall liefert Dopamin jedoch eine dynamische Abschätzung, ob es sich lohnt, eine begrenzte interne Ressource wie Energie, Aufmerksamkeit oder Zeit zu verbrauchen.
Ist Dopamin ein Signal zum Lernen, zur Motivation oder beides?
Unser Verständnis von Dopamin hat sich in der Vergangenheit geändert und ändert sich erneut. Ein kritischer Unterschied besteht in der Wirkung von Dopamin auf Strom Verhalten (Leistung) und Dopamineffekte auf Zukunft Verhalten (Lernen). Beide sind real und wichtig, aber zu verschiedenen Zeiten war einer dafür und der andere nicht.
Als (in den '70s) die Durchführung selektiver, vollständiger Läsionen von Dopaminpfaden möglich wurde, bestand die offensichtliche Verhaltensfolge in einer starken Einschränkung der Bewegung1. Dies passt zu den akinetischen Wirkungen des Dopaminverlusts beim Menschen, der durch fortgeschrittene Parkinson-Krankheit, toxische Medikamente oder Enzephalitis hervorgerufen wird2. Weder Ratten- noch Menschenfälle weisen jedoch eine grundlegende Bewegungsunfähigkeit auf. Mit Dopamin verletzte Ratten schwimmen in kaltem Wasser3Akinetische Patienten können aufstehen und rennen, wenn ein Feueralarm ertönt („paradoxe“ Kinesie). Es gibt auch kein grundsätzliches Defizit bei der Wertschätzung von Belohnungen: Dopamin-verletzte Ratten fressen Futter, das sie in den Mund nehmen, und zeigen Anzeichen von Genuss4. Sie werden sich nicht dafür entscheiden, aktiv Belohnungen zu erhalten. Diese und viele andere Ergebnisse stellten eine grundlegende Verbindung zwischen Dopamin und Motivation her5. Selbst die Verlangsamung der Bewegung, die in weniger schweren Fällen der Parkinson-Krankheit beobachtet wird, kann als Motivationsdefizit angesehen werden, was implizite Entscheidungen widerspiegelt, dass es sich nicht lohnt, die für schnellere Bewegungen erforderliche Energie aufzuwenden6.
Dann folgten (in den '80s) bahnbrechende Aufzeichnungen von Dopamin-Neuronen bei Affen (in Bereichen des Mittelhirns, die nach vorne ragen: ventraler Tegmentbereich, VTA / Substantia nigra pars compacta, SNc). Unter den beobachteten Feuermustern befanden sich kurze Aktivitätsschübe für Reize, die sofortige Bewegungen auslösten. Dieses "phasische" Dopamin-Brennen wurde ursprünglich als unterstützende "Verhaltensaktivierung" interpretiert.7 und "motivierende Erregung"8 - mit anderen Worten, als Belebung des aktuellen Verhaltens des Tieres.
Bei den '90s kam es zu einer radikalen Verschiebung, wobei die phasischen Dopamin-Bursts als Codierung neu interpretiert wurden Prädiktionsfehler belohnen (RPEs9). Dies beruhte auf einer Schlüsselbeobachtung: Dopaminzellen reagieren auf unerwartete Reize, die mit einer zukünftigen Belohnung verbunden sind, reagieren jedoch häufig nicht mehr, wenn diese Reize erwartet werden10. Die RPE-Idee entstand aus früheren Lerntheorien und insbesondere aus dem sich damals entwickelnden Gebiet der Informatik des verstärkenden Lernens11. Der Punkt eines RPE-Signals ist das Aktualisieren Werte(Schätzungen zukünftiger Belohnungen). Diese Werte werden später verwendet, um Entscheidungen zu treffen, die die Belohnung maximieren. Da das Brennen von Dopaminzellen RPEs ähnelte und RPEs zum Lernen verwendet werden, wurde es selbstverständlich, die Rolle von Dopamin beim Lernen zu betonen. Spätere optogenetische Manipulationen bestätigten die dopaminerge Identität von RPE-kodierenden Zellen12,13 und zeigten, dass sie tatsächlich das Lernen modulieren14,15.
Die Idee, dass Dopamin ein Lernsignal liefert, passt hervorragend zu der Literatur, in der Dopamin die synaptische Plastizität im Striatum, dem primären Vorderhirnziel von Dopamin, moduliert. Beispielsweise bewirkt das dreifache Zusammentreffen der Glutamatstimulation einer striatalen Dendritenwirbelsäule, der postsynaptischen Depolarisation und der Dopaminfreisetzung, dass die Wirbelsäule wächst16. Die dopaminerge Modulation von Langzeitlernmechanismen hilft bei der Erklärung der anhaltenden Verhaltensweisen von Suchtmitteln, die die Eigenschaft der Verbesserung der striatalen Dopaminfreisetzung teilen17. Sogar die tiefe Akinesie mit Dopaminverlust kann teilweise durch solche Lernmechanismen erklärt werden18. Ein Mangel an Dopamin kann als konstant negatives RPE behandelt werden, das die Werte der Wirkungen schrittweise gegen Null aktualisiert. Ähnlich fortschreitende, vom Aussterben bedingte Auswirkungen auf das Verhalten können durch Dopamin-Antagonisten hervorgerufen werden19,20.
Die Idee, dass Dopamin entscheidend an der anhaltenden Motivation beteiligt ist, ist jedoch nie verschwunden - im Gegenteil, es wird von Verhaltensneurowissenschaftlern allgemein als selbstverständlich angesehen. Dies ist angemessen, da starke Beweise dafür vorliegen, dass Dopaminfunktionen bei Motivation / Bewegung / Belebung nicht vom Lernen getrennt sind15,20-23. Weniger verbreitet ist die Herausforderung, diese Motivationsrolle mit der Theorie in Einklang zu bringen, dass DA ein RPE-Lernsignal liefert.
Motivation „blickt nach vorne“: Sie verwendet Vorhersagen über zukünftige Belohnungen (Werte), um das aktuelle Verhalten angemessen zu aktivieren. Im Gegensatz dazu werden beim Lernen Zustände und Handlungen in der jüngeren Vergangenheit rückwärts betrachtet und ihre Werte aktualisiert. Dies sind komplementäre Phasen eines Zyklus: Die aktualisierten Werte können bei der nachfolgenden Entscheidungsfindung verwendet werden, wenn diese Zustände erneut angetroffen werden, dann erneut aktualisiert werden und so weiter. Aber um welche Phase des Zyklus handelt es sich bei Dopamin - um die Verwendung von Werten, um Entscheidungen zu treffen (Leistung) oder um die Aktualisierung von Werten (Lernen)?
Unter bestimmten Umständen ist es einfach vorstellbar, dass Dopamin beide Rollen gleichzeitig spielt.24Unerwartete, belohnende Hinweise sind die archetypischen Ereignisse für das Hervorrufen des Feuers und der Freisetzung von Dopamin-Zellen. Solche Hinweise beleben in der Regel sowohl das Verhalten als auch das Lernen (Abb.. 1). In dieser speziellen Situation nehmen sowohl die Belohnungsvorhersage als auch die Belohnungsvorhersagefehler gleichzeitig zu - dies ist jedoch nicht immer der Fall. Als nur ein Beispiel sind Menschen und andere Tiere oft motiviert, für Belohnungen zu arbeiten, selbst wenn wenig oder nichts Überraschendes passiert. Sie können härter und härter arbeiten, je näher sie der Belohnung kommen (Wert steigt, wenn sich die Belohnungen nähern). Der Punkt ist, dass Lernen und Motivation konzeptionell, rechnerisch und verhaltensmäßig unterschiedlich sind - und dennoch scheint Dopamin beides zu tun.
Im Folgenden bewerte ich kritisch aktuelle Ideen, wie Dopamin sowohl Lern- als auch Motivationsfunktionen erreichen kann. Ich schlage ein aktualisiertes Modell vor, das auf drei Schlüsselfakten basiert: 1) Die Freisetzung von Dopamin aus Terminals entsteht nicht einfach durch das Brennen von Dopamin-Zellen, sondern kann auch lokal gesteuert werden. 2) -Dopamin beeinflusst sowohl die synaptische Plastizität als auch die Erregbarkeit von Zielzellen mit unterschiedlichen Konsequenzen für das Lernen bzw. die Leistung. 3) -Dopamin-Effekte auf die Plastizität können durch benachbarte Schaltungselemente ein- oder ausgeschaltet werden. Zusammen können diese Merkmale es den Gehirnkreisläufen ermöglichen, zwischen zwei unterschiedlichen Dopamin-Botschaften umzuschalten, um zu lernen bzw. zu motivieren.
Gibt es getrennte "phasische" und "tonische" Dopaminsignale mit unterschiedlichen Bedeutungen?
Es wird oft argumentiert, dass die Lern- und Motivationsrollen von Dopamin auf verschiedenen Zeitskalen stattfinden25. Dopaminzellen feuern kontinuierlich ("tonisch") mit einigen Spitzen pro Sekunde, mit gelegentlichen kurzen ("phasischen") Ausbrüchen oder Pausen. Ausbrüche, insbesondere wenn sie über Dopaminzellen hinweg künstlich synchronisiert werden, führen zu einem entsprechend schnellen Anstieg des Vorderhirn-Dopamins26 das sind sehr vorübergehend (Dauer unter einer Sekunde27). Der separate Beitrag von Tonic Dopamine Cell Firing zu den Dopaminkonzentrationen im Vorderhirn ist weniger klar. Einige Hinweise deuten darauf hin, dass dieser Beitrag sehr gering ist28. Es kann ausreichend sein, die D2-Rezeptoren mit höherer Affinität nahezu kontinuierlich zu stimulieren, so dass das System kurze Pausen beim Brennen der Dopamin-Zellen bemerkt29 und verwenden Sie diese Pausen als negative Vorhersagefehler.
Die Mikrodialyse wurde häufig zur direkten Messung des Dopaminspiegels im Vorderhirn eingesetzt, wenn auch mit geringer zeitlicher Auflösung (in der Regel über viele Minuten gemittelt). Solche langsamen Messungen von Dopamin können schwierig sein, sich genau auf das Verhalten zu beziehen. Die Mikrodialyse von Dopamin im Nucleus accumbens (NAc; ventrales / mediales Striatum) zeigt jedoch positive Korrelationen zur lokomotorischen Aktivität30 und andere Indices der Motivation5. Es wurde allgemein angenommen, dass es langsame ("tonische") Änderungen der Dopaminkonzentration gibt und dass diese langsamen Änderungen ein Motivationssignal vermitteln. Im Einzelnen haben Rechenmodelle vorgeschlagen, dass der Tonic Dopamine Level die langfristige durchschnittliche Belohnungsrate verfolgt31 - eine nützliche Motivationsvariable für Zeitzuweisung und Futtersuche. Es ist hervorzuheben, dass nur sehr wenige Artikel die „tonischen“ Dopaminspiegel klar definieren - sie gehen normalerweise nur davon aus, dass sich die Dopaminkonzentration über die mehrminütige Zeitskala der Mikrodialyse langsam ändert.
Diese Sichtweise „Phasendopamin = RPE / Lernen, Tonic Dopamine = Motivation“ ist jedoch mit vielen Problemen konfrontiert. Erstens gibt es keinen direkten Beweis dafür, dass das Brennen von tonischen Dopamin-Zellen normalerweise über eine langsame Zeitskala variiert. Tonic Feuerraten ändern sich nicht mit wechselnder Motivation32,33. Es wurde argumentiert, dass sich die Tonic-Dopamin-Spiegel aufgrund eines sich ändernden Anteils an aktiven Dopamin-Zellen ändern34,35. In vielen Studien an ungedeckten Tieren wurde jedoch nie berichtet, dass Dopaminzellen zwischen stillen und aktiven Zuständen wechseln.
Darüber hinaus bedeutet die Tatsache, dass die Mikrodialyse die Dopaminspiegel langsam misst, nicht, dass sich die Dopaminspiegel tatsächlich langsam ändern. Wir vor kurzem15 untersuchten Ratten-NAc-Dopamin in einer probabilistischen Belohnungsaufgabe, wobei sowohl die Mikrodialyse als auch die schnelle zyklische Voltammetrie angewendet wurden. Wir haben bestätigt, dass mesolimbisches Dopamin, gemessen durch Mikrodialyse, mit der Belohnungsrate (Belohnungen / Minute) korreliert. Trotz einer verbesserten zeitlichen Auflösung der Mikrodialyse (1min) schwankte Dopamin so schnell, wie wir es abgetastet hatten: Wir sahen keinen Hinweis auf ein inhärent langsames Dopaminsignal.
Mit der feineren zeitlichen Auflösung der Voltammetrie konnten wir einen engen Zusammenhang zwischen Dopamin-Fluktuationen im Subsekundenbereich und der Motivation feststellen. Während die Ratten die für die Erzielung von Belohnungen erforderliche Abfolge von Aktionen ausführten, stieg Dopamin immer höher und erreichte einen Höhepunkt, als sie die Belohnung erhielten (und fiel schnell, als sie sie verzehrten). Wir haben gezeigt, dass Dopamin stark mit dem momentanen Zustandswert korreliert - definiert als die erwartete zukünftige Belohnung, abgezinst von der erwarteten Zeit, die benötigt wird, um es zu erhalten. Diese schnelle Dopamindynamik kann auch die Ergebnisse der Mikrodialyse erklären, ohne separate Dopaminsignale auf verschiedenen Zeitskalen aufzurufen. Je mehr Belohnungen Tiere erfahren, desto höher sind ihre Erwartungen an zukünftige Belohnungen bei jedem Schritt in der Versuchssequenz. Anstelle eines sich langsam entwickelnden durchschnittlichen Belohnungsratensignals lässt sich die Korrelation zwischen Dopamin und Belohnungsrate am besten als Durchschnitt dieser sich schnell entwickelnden Zustandswerte über die längere Zeit der Entnahme von Mikrodialyseproben erklären.
Diese Wertinterpretation der Freisetzung von mesolimbischem Dopamin steht im Einklang mit Voltammetrieergebnissen anderer Forschungsgruppen, die wiederholt festgestellt haben, dass die Freisetzung von Dopamin mit zunehmender Nähe zur Belohnung zunimmt36-38(Abb.. 2). Dieses Motivationssignal ist nicht von Natur aus "langsam", sondern kann über einen kontinuierlichen Bereich von Zeitskalen beobachtet werden. Obwohl Dopaminrampen mehrere Sekunden dauern können, wenn ein Annäherungsverhalten auch mehrere Sekunden dauert38Dies spiegelt eher den zeitlichen Verlauf des Verhaltens als die intrinsische Dopamindynamik wider. Die Beziehung zwischen der Freisetzung von mesolimbischem Dopamin und dem schwankenden Wert ist sichtbar, so schnell es die Aufnahmetechnik erlaubt, dh auf einer Zeitskala von ~ 100ms mit Elektroden für die akute Voltammetrie15.
Schnelle Dopaminschwankungen spiegeln nicht nur die Motivation wider, sie treiben auch sofort das motivierte Verhalten an. Größere phasische Reaktionen von Dopamin-Zellen zur Auslösung von Hinweisen sagen kürzere Reaktionszeiten bei genau demselben Versuch voraus39. Die optogenetische Stimulation von VTA-Dopamin-Zellen erhöht die Wahrscheinlichkeit, dass Ratten mit unserer probabilistischen Belohnungsaufgabe beginnen15, als ob sie eine höhere Belohnungserwartung hätten. Die optogenetische Stimulation von SNc-Dopamin-Neuronen oder deren Axonen im dorsalen Striatum erhöht die Wahrscheinlichkeit einer Bewegung40,41. Entscheidend ist, dass diese Verhaltenseffekte innerhalb von ein paar hundert Millisekunden nach Beginn der optogenetischen Stimulation sichtbar werden. Die Fähigkeit von Belohnungsvorhersagen, die Motivation zu steigern, scheint durch eine sehr schnelle dopaminerge Modulation der Erregbarkeit von stacheligen NAc-Neuronen vermittelt zu werden42. Da sich Dopamin schnell ändert und diese Dopaminänderungen die Motivation schnell beeinflussen, werden die Motivationsfunktionen von Dopamin besser als schnell („phasisch“) und nicht als langsam („tonisch“) beschrieben.
Darüber hinaus löst das Aufrufen getrennter schneller und langsamer Zeitskalen an sich nicht das Decodierungsproblem, mit dem Neuronen mit Dopaminrezeptoren konfrontiert sind. Wenn Dopamin das Lernen signalisiert, scheint die Modulation der synaptischen Plastizität eine angemessene zelluläre Reaktion zu sein. Sofortige Auswirkungen auf das motivierte Verhalten haben jedoch unmittelbare Auswirkungen auf das Spiking - z. B. durch schnelle Änderungen der Erregbarkeit. Dopamin kann diese beiden postsynaptischen Effekte (und mehr) haben. Hat eine bestimmte Dopaminkonzentration also eine bestimmte Bedeutung? Oder muss diese Bedeutung konstruiert werden - z. B. durch Vergleichen der Dopaminspiegel über die Zeit oder durch Verwendung anderer übereinstimmender Signale, um zu bestimmen, welche zelluläre Maschinerie aktiviert werden soll? Diese Möglichkeit wird weiter unten diskutiert.
Vermittelt die Dopaminfreisetzung die gleichen Informationen wie das Brennen von Dopaminzellen?
Die Beziehung zwischen schnellen Dopaminschwankungen und Motivationswert scheint seltsam, da das Brennen von Dopaminzellen stattdessen RPE ähnelt. Darüber hinaus haben einige Studien über RPE-Signale bei der Freisetzung von mesolimbischem Dopamin berichtet43. Es ist wichtig, eine Herausforderung bei der Interpretation einiger Formen neuronaler Daten zu beachten. Wertsignale und RPEs sind miteinander korreliert - nicht überraschend, da das RPE normalerweise als Wertänderung von einem Moment zum nächsten definiert wird (RPE mit zeitlicher Differenz). Aufgrund dieser Korrelation ist es wichtig, experimentelle Designs und Analysen zu verwenden, die den Wert von RPE-Konten unterscheiden. Das Problem verschärft sich, wenn ein neuronales Maß verwendet wird, das eher auf relativen als auf absoluten Signaländerungen beruht. Voltammetrieanalysen vergleichen Dopamin normalerweise zu einem Zeitpunkt von Interesse mit einer „Grundlinien“ -Epoche zu Beginn jedes Versuchs (um nicht dopaminabhängige Signalkomponenten zu entfernen, einschließlich Elektrodenladung bei jedem Spannungsdurchlauf und Drift über einen Zeitraum von Minuten). Das Subtrahieren einer Basislinie kann jedoch dazu führen, dass ein Wertesignal einem RPE-Signal ähnelt. Dies haben wir in unseren eigenen Voltammetriedaten beobachtet (Abb. 2e). Änderungen in der Belohnungserwartung spiegelten sich in Änderungen der Dopaminkonzentration zu Beginn jeder Studie wider. Diese Änderungen werden übersehen, wenn man nur von einer konstanten Grundlinie über die Studien hinweg ausgeht15. Schlussfolgerungen zur Dopaminfreisetzung und RPE-Kodierung müssen daher mit Vorsicht betrachtet werden. Diese Gefahr der Dateninterpretation gilt nicht nur für die Voltammetrie, sondern auch für jede Analyse, die auf relativen Änderungen beruht - möglicherweise einschließlich einiger fMRT und Photometrie44.
Dennoch müssen wir die wertbezogene Dopaminfreisetzung im NAc-Kern mit dem konsequenten Fehlen einer wertbezogenen Dotierung durch Dopamin-Neuronen in Einklang bringen13auch innerhalb des lateralen VTA-Bereichs, der den NAc-Kern mit Dopamin versorgt45. Ein möglicher Faktor ist, dass Dopamin-Zellen normalerweise bei kopfstützenden Tieren aufgezeichnet werden, die klassische Konditionierungsaufgaben ausführen, während die Dopamin-Freisetzung in der Regel bei ungehemmten Tieren gemessen wird, die sich aktiv durch ihre Umgebung bewegen. Wir schlugen vor, dass mesolimbisches Dopamin spezifisch den Wert von „Arbeit“ anzeigen könnte.15 - dass es eine Anforderung widerspiegelt, Zeit und Mühe zu investieren, um die Belohnung zu erhalten. In Übereinstimmung damit nimmt Dopamin mit Signalen zu, die Bewegung anweisen, aber nicht mit Signalen, die Stille anweisen, selbst wenn sie eine ähnliche zukünftige Belohnung anzeigen46. Wenn - wie bei vielen klassischen Konditionierungsaufgaben - aktive „Arbeit“ keinen Nutzen bringt, sind dopaminerge Veränderungen, die auf den Wert der Arbeit hinweisen, möglicherweise weniger offensichtlich.
Noch wichtiger ist möglicherweise die Tatsache, dass die Dopaminfreisetzung lokal an den Terminals selbst gesteuert werden kann und somit räumlich-zeitliche Muster unabhängig von der Dotierung des Zellkörpers zeigt. Zum Beispiel kann die basolaterale Amygdala (BLA) die NAc-Dopamin-Freisetzung beeinflussen, selbst wenn VTA inaktiviert ist47. Umgekehrt reduziert die Inaktivierung von BLA die NAc-Dopaminfreisetzung und das entsprechende motivierte Verhalten, ohne dass das VTA-Brennen anscheinend beeinträchtigt wird48. Dopamin-Terminals haben Rezeptoren für eine Reihe von Neurotransmittern, darunter Glutamat, Opioide und Acetylcholin. Nicotin-Acetylcholin-Rezeptoren ermöglichen es striatalen cholinergen Interneuronen (CINs), die Dopamin-Freisetzung schnell zu steuern49,50. Es ist zwar seit langem bekannt, dass die lokale Kontrolle der Dopaminfreisetzung möglicherweise wichtig ist7,51wurde es nicht in die rechnerische Erfassung der Dopaminfunktion einbezogen. Ich schlage vor, dass die Dynamik der Dopaminfreisetzung im Zusammenhang mit der Wertekodierung größtenteils durch entsteht aus einer regionalen Kontrolle, selbst wenn das Brennen von Dopamin-Zellen wichtige RPE-ähnliche Signale für das Lernen liefert.
Wie kann Dopamin sowohl Lernen als auch Motivation ohne Verwirrung bedeuten?
Grundsätzlich reicht ein Wertesignal aus, um auch RPE zu übermitteln, da Zeitdifferenz-RPEs einfach schnelle Wertänderungen sind (Abb. 2B). Beispielsweise können bestimmte intrazelluläre Signalwege in Zielneuronen unterschiedlich empfindlich gegenüber der absoluten Konzentration von Dopamin (die den Wert darstellt) im Vergleich zu schnellen relativen Konzentrationsänderungen (die RPE darstellen) sein. Dieses Schema erscheint angesichts der komplexen Dopamin-Modulation der Physiologie stacheliger Neuronen plausibel52 und ihre Empfindlichkeit gegenüber zeitlichen Mustern der Calciumkonzentration53. Dies scheint jedoch auch etwas überflüssig. Wenn ein RPE-ähnliches Signal bereits beim Dotieren von Dopamin-Zellen vorhanden ist, sollte es möglich sein, es zu verwenden, anstatt RPE aus einem Wertesignal abzuleiten.
Um unterschiedliche RPE- und Wertsignale angemessen zu verwenden, können Dopamin-Empfängerschaltungen aktiv umschalten, wie sie Dopamin interpretieren. Es gibt interessante Hinweise darauf, dass Acetylcholin auch diese Umschaltfunktion übernimmt. Während Dopamin-Zellen Spitzen zu unerwarteten Hinweisen auslösen, zeigen CINs kurze (~ 150ms) Brüche beim Brennen, die nicht mit RPEs skalieren54. Diese CIN-Pausen können von VTA-GABAergen Neuronen gesteuert werden55 sowie "überraschungs" -bezogene Zellen im intralaminaren Thalamus, und es wurde vorgeschlagen, dass sie als ein Assoziationssignal wirken, das das Lernen fördert56. Schlugen Morris und Bergman vor54 Diese cholinergen Pausen definieren zeitliche Fenster für die Plastizität des Striatalbereichs, in denen Dopamin als Lernsignal verwendet werden kann. Die Dopamin-abhängige Plastizität wird kontinuierlich durch Mechanismen unterdrückt, zu denen muskarinische m4-Rezeptoren auf direkt über den Weg verlaufenden striatalen Neuronen gehören57. Modelle der intrazellulären Signalübertragung legen nahe, dass während der CIN-Pausen das Fehlen der m4-Bindung synergistisch mit phasischen Dopamin-Bursts wirkt, um die PKA-Aktivierung zu steigern58und fördert so den synaptischen Wandel.
Striatale cholinerge Zellen sind daher gut positioniert, um die Bedeutung einer gemultiplexten dopaminergen Nachricht dynamisch umzuschalten. Während der CIN-Pausen würde die Linderung einer muskarinischen Blockade über der synaptischen Plastizität die Verwendung von Dopamin zum Lernen ermöglichen. Zu anderen Zeiten würde die Freisetzung von Dopamin-Terminals lokal geformt, um die anhaltende Verhaltensleistung zu beeinträchtigen. Derzeit ist dieser Vorschlag sowohl spekulativ als auch unvollständig. Es wurde vorgeschlagen, dass CINs Informationen von vielen umgebenden stacheligen Neuronen integrieren, um nützliche Signale auf Netzwerkebene wie Entropie zu extrahieren59,60. Es ist jedoch keineswegs klar, dass die CIN-Aktivitätsdynamik zur Erzeugung von Dopaminwertsignalen verwendet werden kann61und auch, um Dopamin-Lernsignale zu steuern.
Bedeutet Dopamin im gesamten Vorderhirn dasselbe?
Als sich die RPE-Idee durchsetzte, stellte man sich vor, dass Dopamin ein globales Signal ist und eine Fehlermeldung über alle striatalen und frontalen kortikalen Ziele sendet. Schultz betonte, dass Affen-Dopamin-Zellen in VTA und SNc sehr ähnliche Reaktionen zeigen62. Untersuchungen identifizierter Dopaminzellen haben auch ziemlich homogene RPE-ähnliche Reaktionen bei Nagetieren gefunden, zumindest für laterale VTA-Neuronen in klassischen Konditionierungszusammenhängen13. Dopamin-Zellen sind jedoch molekular und physiologisch unterschiedlich63-65 und es gibt inzwischen viele Berichte, wonach sie bei sich benehmenden Tieren unterschiedliche Schussmuster aufweisen. Dazu gehört eine phasenweise Erhöhung der Auslösung auf aversive Ereignisse66 und Trigger-Cues67 die schlecht mit dem Standard-RPE-Konto passen. Viele Dopamin-Zellen zeigen eine anfängliche Reaktion mit kurzer Latenz auf sensorische Ereignisse, die mehr Überraschung oder "Alarmierung" widerspiegelt als die spezifische RPE-Codierung68,69. Dieser Alarmierungsaspekt ist bei SNc stärker ausgeprägt69, wo Dopaminzellen mehr in das "sensomotorische" dorsale / laterale Striatum (DLS) hineinragen45,63). Es wurde auch berichtet, dass Subpopulationen von SNc-Dopamin-Zellen zunehmen41 oder abnehmen70 Feuern in Verbindung mit spontanen Bewegungen, auch ohne äußere Hinweise.
Mehrere Gruppen verwendeten Faserphotometrie und den Calciumindikator GCaMP, um die Volumenaktivität von Subpopulationen von Dopamin-Neuronen zu untersuchen71,72. Dopaminzellen, die auf das dorsale / mediale Striatum (DMS) projizieren, zeigten vorübergehend verringerte Aktivität bis zu unerwarteten kurzen Schocks, während diejenigen, die auf DLS projizieren, erhöhte Aktivität zeigten71- konsistenter mit einer alarmierenden Antwort. Unter Verwendung von GCaMP wurden auch deutliche dopaminerge Reaktionen in verschiedenen Subregionen des Vorderhirns beobachtet, um die Aktivität von Dopaminaxonen und -terminals zu untersuchen40,72,73. Verwendung der Zwei-Photonen-Bildgebung in kopfstützenden Mäusen, Howe und Dombeck40 berichteten über eine phasische Dopaminaktivität im Zusammenhang mit spontanen Bewegungen. Dies wurde hauptsächlich bei einzelnen Dopamin-Axonen von SNc beobachtet, die in dorsalem Striatum endeten, während VTA-Dopamin-Axone in NAc stärker auf die Belohnung reagierten. Andere fanden auch belohnungsbedingte dopaminerge Aktivitäten in NAc, wobei DMS eher mit kontralateralen Aktionen verbunden war72 und der hintere Striatum-Schwanz reagiert auf aversive und neuartige Reize74.
Direkte Messungen der Dopaminfreisetzung zeigen auch Heterogenität zwischen Subregionen30,75. Bei der Mikrodialyse fanden wir, dass Dopamin mit dem Wert spezifisch im NAc-Kern und im ventral-medialen Frontalcortex korreliert, nicht in anderen medialen Teilen des Striatums (NAc-Schale, DMS) oder des Frontalcortex. Dies ist faszinierend, da es zwei „Hotspots“ der Wertekodierung zuzuordnen scheint, die in Studien mit humanen fMRI-Studien konsistent beobachtet wurden76,77. Insbesondere das NAc-BOLD-Signal, das in enger Beziehung zur Dopaminsignalisierung steht78, steigt mit der Belohnungserwartung (Wert) - mehr als mit RPE76.
Unabhängig davon, ob diese räumlichen Muster der Dopaminfreisetzung durch das Auslösen bestimmter Subpopulationen von Dopaminzellen, durch die lokale Kontrolle der Dopaminfreisetzung oder durch beides hervorgerufen werden, stellen sie die Idee einer globalen Dopaminbotschaft in Frage. Man könnte den Schluss ziehen, dass es viele verschiedene Dopaminfunktionen gibt, wobei (zum Beispiel) Dopamin im dorsalen Striatum "Bewegung" und Dopamin im ventralen Striatum "Belohnung" signalisiert.40. Ich bevorzuge jedoch einen anderen konzeptionellen Ansatz. Verschiedene striatale Subregionen erhalten Eingaben von verschiedenen kortikalen Regionen und verarbeiten daher verschiedene Arten von Informationen. Dennoch hat jede striatale Subregion eine gemeinsame Mikroschaltungsarchitektur, einschließlich separater D1- im Vergleich zu D2-Rezeptoren, die stachelige Neuronen tragen79, CINs und so weiter. Obwohl es üblich ist, verschiedene striatale Subregionen (z. B. DLS, DMS, NAc-Kern) als diskrete Bereiche zu bezeichnen, gibt es keine scharfen anatomischen Grenzen zwischen ihnen (die NAc-Schale ist neurochemisch etwas ausgeprägter). Stattdessen gibt es nur leichte Gradienten in der Rezeptordichte, den Interneuronanteilen usw., die eher wie Änderungen an den Parametern eines gemeinsam genutzten Rechenalgorithmus erscheinen. Können wir in Anbetracht dieser gemeinsamen Architektur eine gemeinsame Dopaminfunktion beschreiben, die von den spezifischen Informationen, die von den einzelnen Subregionen verarbeitet werden, abstrahiert ist?
Striatales Dopamin und die Zuweisung begrenzter Ressourcen.
Ich schlage vor, dass eine Vielzahl unterschiedlicher Dopamineffekte auf das laufende Verhalten als Modulation von Dopamin verstanden werden kann Ressourcenzuweisungsentscheidungen. Insbesondere liefert Dopamin Schätzungen, wie lohnend es ist, eine begrenzte interne Ressource aufzuwenden, wobei sich die jeweilige Ressource zwischen striatalen Subregionen unterscheidet. Für "motorisches" Striatum (~ DLS) ist die Ressource Bewegung, die begrenzt ist, weil Bewegung Energie kostet und weil viele Aktionen nicht miteinander kompatibel sind80. Durch die Erhöhung des Dopaminspiegels ist es wahrscheinlicher, dass ein Tier entscheidet, dass es sich lohnt, Energie aufzuwenden, um sich zu bewegen oder sich schneller zu bewegen6,40,81. Beachten Sie, dass ein Dopaminsignal, das "Bewegung ist wertvoll" codiert, Korrelationen zwischen Dopamin und Bewegung erzeugt, auch ohne Dopamin, das "Bewegung" codiert. an sich.
Für das „kognitive“ Striatum (~ DMS) sind die Ressourcen kognitive Prozesse, einschließlich Aufmerksamkeit (die per Definition eine begrenzte Kapazität hat)82) und Arbeitsspeicher83. Ohne Dopamin werden auffällige äußere Anhaltspunkte, die normalerweise Orientierungsbewegungen hervorrufen, vernachlässigt, als ob sie weniger Aufmerksamkeit verdienen würden3. Darüber hinaus ist das gezielte Marshalling kognitiver Kontrollprozesse mühsam (kostspielig)84). Dopamin - besonders in DMS85 - spielt eine Schlüsselrolle bei der Entscheidung, ob es sich lohnt, diese Anstrengungen zu unternehmen86,87. Dies kann beinhalten, ob kognitiv anspruchsvollere, überlegte („modellbasierte“) Entscheidungsstrategien angewendet werden sollen88.
Für ein „motivationales“ Striatum (~ NAc) kann die Zeit des Tieres eine begrenzte Schlüsselressource sein. Mesolimbic Dopamin wird nicht benötigt, wenn die Tiere eine einfache, festgelegte Aktion ausführen, um schnell Belohnungen zu erhalten89. Viele Formen der Belohnung können jedoch nur durch langwierige Arbeit erlangt werden: längere Abfolgen von nicht belohnten Aktionen, wie bei der Nahrungssuche. Wenn Sie sich für eine Beschäftigung entscheiden, müssen Sie auf andere vorteilhafte Möglichkeiten verzichten. Ein hoher Anteil an mesolimbischem Dopamin weist darauf hin, dass es sich lohnt, sich auf zeitlich ausgedehnte, mühsame Arbeiten einzulassen. Da Dopamin jedoch verringert ist, stören die Tiere nicht und können sich stattdessen einfach auf den Schlaf vorbereiten90.
Innerhalb jedes kortiko-striatalen Kreislaufs ist der Beitrag von Dopamin zum andauernden Verhalten somit sowohl ökonomisch (in Bezug auf die Ressourcenallokation) als auch motivierend (ob dies der Fall ist) lohnend Ressourcen verschwenden81). Diese Schaltkreise sind nicht vollständig unabhängig, sondern haben eine hierarchische, spiralförmige Organisation: Mehr ventrale Anteile des Striatum beeinflussen Dopamin-Zellen, die zu mehr dorsalen Anteilen vorstehen5,91. Auf diese Weise können Entscheidungen zur Arbeit auch dazu beitragen, die erforderlichen spezifischen, kürzeren Bewegungen zu beleben. Insgesamt liefert Dopamin jedoch eher "Aktivierungssignale" - was die Wahrscheinlichkeit erhöht, dass eine Entscheidung getroffen wird - als "Richtungssignale" wie Ressourcen sollten ausgegeben werden5.
Welche Rolle spielt Dopamin bei der Entscheidungsfindung?
Eine Art, über diese aktivierende Rolle nachzudenken, besteht darin, „Schwellenwerte“ für die Entscheidungsfindung festzulegen. In bestimmten mathematischen Modellen nehmen Entscheidungsprozesse zu, bis sie einen Schwellenwert erreichen, wenn das System eine Aktion ausführt92. Höheres Dopamin würde einem geringeren Abstand zur Schwelle entsprechen, so dass Entscheidungen schneller getroffen werden. Diese Idee ist simpel, macht jedoch quantitative Vorhersagen, die bestätigt wurden. Eine Senkung der Bewegungsschwellen würde eine spezifische Änderung der Form der Reaktionszeitverteilung hervorrufen, genau wie dies bei der Infusion von Amphetamin in das sensomotorische Striatum der Fall ist20.
Anstatt festgelegter Schwellenwerte sind Verhaltens- und neuronale Daten möglicherweise besser geeignet, wenn die Schwellenwerte im Laufe der Zeit sinken und Entscheidungen immer dringlicher werden. Es wurde vorgeschlagen, dass die Basalganglienausgabe ein sich dynamisch entwickelndes Dringlichkeitssignal liefert, das die Selektionsmechanismen im Kortex belebt93. Die Dringlichkeit war auch größer, als die zukünftigen Belohnungen zeitlich näher rückten, wodurch dieses Konzept der wertkodierenden, aktivierenden Rolle von Dopamin ähnelte.
Reicht eine solche Aktivierungsrolle aus, um die leistungsmodulierenden Wirkungen von Striatal-Dopamin zu beschreiben? Dies hängt mit der langjährigen Frage zusammen, ob Basalganglien-Schaltkreise direkt unter erlernten Aktionen auswählen80 oder nur die Entscheidungen beleben, die anderswo getroffen wurden93,94. Es gibt mindestens zwei Möglichkeiten, in denen Dopamin eine eher "gerichtete" Wirkung zu haben scheint. Das erste ist, wenn Dopamin in einer Gehirn-Subregion wirkt, die inhärent gerichtete Informationen verarbeitet. Basalganglien-Schaltkreise spielen eine wichtige, teilweise laterale Rolle, die sich an potenziellen Belohnungen orientiert und sich diesen annähert. Das Primatenkaudat (~ DMS) ist daran beteiligt, Augenbewegungen in Richtung kontralateraler räumlicher Felder zu treiben95. Ein dopaminerges Signal, dass etwas im kontralateralen Raum eine Orientierung wert ist, kann für die beobachtete Korrelation zwischen dopaminerger Aktivität im DMS und kontralateralen Bewegungen verantwortlich sein72sowie das durch Dopamin-Manipulationen erzeugte Rotationsverhalten96. Ein zweiter „gerichteter“ Einfluss von Dopamin ist offensichtlich, wenn (bilaterale) Dopaminläsionen Ratten eher zu Entscheidungen mit geringem Aufwand / geringer Belohnung neigen als zu Alternativen mit hohem Aufwand / hoher Belohnung97. Dies kann die Tatsache widerspiegeln, dass einige Entscheidungen eher seriell als parallel getroffen werden, wobei Ratten (und Menschen) Optionen nacheinander bewerten98. In diesen Entscheidungskontexten kann Dopamin immer noch eine grundlegend aktivierende Rolle spielen, indem es den Wert der gegenwärtig in Betracht gezogenen Option vermittelt, die dann akzeptiert werden kann oder nicht24.
Aktive Tiere treffen Entscheidungen auf mehreren Ebenen, oft mit hoher Geschwindigkeit. Über das Nachdenken über einzelne Entscheidungen hinaus kann es hilfreich sein, eine allgemeine Flugbahn durch eine Folge von Zuständen zu betrachten (Abb.. 1). Durch die Erleichterung von Übergängen von einem Zustand zum nächsten kann Dopamin den Fluss entlang erlernter Trajektorien beschleunigen99. Dies kann mit dem wichtigen Einfluss von Dopamin auf den Zeitpunkt des Verhaltens zusammenhängen44,100. Ein zentrales Ziel der zukünftigen Arbeit ist es, ein tieferes Verständnis dafür zu erlangen, wie sich solche Dopamin-Effekte auf das fortlaufende Verhalten mechanistisch auswirken, indem die Informationsverarbeitung in einzelnen Zellen, Mikroschaltkreisen und großen kortikal-basalen Ganglienschleifen verändert wird. Außerdem habe ich die gemeinsamen Rechenfunktionen von Dopamin in einer Reihe von striatalen Zielen hervorgehoben, aber kortikale Ziele weitgehend vernachlässigt, und es bleibt abzuwarten, ob die Dopaminfunktionen in beiden Strukturen innerhalb desselben Rahmens beschrieben werden können.
Zusammenfassend Eine adäquate Beschreibung von Dopamin würde erklären, wie Dopamin sowohl Lernen als auch Motivation auf derselben schnellen Zeitskala ohne Verwirrung signalisieren kann. Dies würde erklären, warum die Dopaminfreisetzung in wichtigen Zielregionen mit einer Belohnungserwartung einhergeht, obwohl dies beim Brennen von Dopaminzellen nicht der Fall ist. Und es würde eine einheitliche rechnerische Darstellung der Dopamin-Wirkungen im gesamten Striatum und anderswo liefern, was die unterschiedlichen Verhaltenseffekte auf Bewegung, Kognition und Timing erklärt. Einige der hier vorgestellten spezifischen Ideen sind spekulativ, sollen jedoch die erneute Diskussion, Modellierung und neue Experimente anregen.
Danksagung.
Ich danke den vielen Kollegen, die aufschlussreiche Kommentare zu früheren Textentwürfen abgegeben haben, darunter Kent Berridge, Peter Dayan, Brian Knutson, Jeff Beeler, Peter Redgrave, John Lisman, Jesse Goldberg und die anonymen Schiedsrichter. Ich bedaure, dass Platzbeschränkungen die Diskussion vieler wichtiger vorheriger Studien verhinderten. Das Nationale Institut für neurologische Erkrankungen und Schlaganfälle, das Nationale Institut für psychische Gesundheit und das Nationale Institut für Drogenmissbrauch leisteten wesentliche Unterstützung.