Ungleichgewichtige Entscheidungshierarchie bei Süchtigen, die aus einem drogenentdeckten Dopamin-Spiralkreislauf (2013) hervorgehen

 

  • Mehdi Keramati E-mail,
     
  • Boris Gutkin

 

Abstrakt

Obwohl sie langfristig ausdrücklich aufhören wollen, sind Langzeitsüchtige machtlos, sich Drogen zu widersetzen, obwohl sie wissen, dass Drogenkonsum eine schädliche Vorgehensweise sein kann. Eine solche Inkonsistenz zwischen der expliziten Kenntnis negativer Konsequenzen und den zwanghaften Verhaltensmustern stellt einen kognitiven / Verhaltenskonflikt dar, der ein zentrales Merkmal der Sucht ist. Neurobiologisch spielen die differentielle Cue-induzierte Aktivität in verschiedenen striatalen Subregionen sowie die Dopamin-Konnektivität, die von ventralen striatalen Regionen zu dorsalen Regionen führt, eine entscheidende Rolle bei der Suche nach zwanghaften Arzneimitteln. Der Funktionsmechanismus, der diese neuropharmakologischen Beobachtungen mit dem oben genannten kognitiven / Verhaltenskonflikt integriert, ist jedoch unbekannt. Hier liefern wir eine formale rechnerische Erklärung für die drogeninduzierte kognitive Inkonsistenz, die sich im „selbst beschriebenen Fehler“ der Süchtigen zeigt. Wir zeigen, dass Suchtmittel trotz der geringen abstrakten kognitiven Bewertung dieses Verhaltens allmählich zu einer motivierenden Tendenz zur Drogensuche bei gewohnheitsmäßigen Entscheidungsprozessen auf niedriger Ebene führen. Diese Pathologie tritt im Rahmen des hierarchischen Lernrahmens für die Verstärkung auf, wenn eine chronische Exposition gegenüber dem Arzneimittel pharmakologisch pathologisch persistierende phasische Dopaminsignale erzeugt. Dadurch entführt das Medikament die dopaminergen Spiralen, die die Verstärkungssignale in der ventro-dorsalen cortico-striatalen Hierarchie kaskadieren. Neurobiologisch erklärt unsere Theorie die rasche Entwicklung eines durch Arzneimittel-Cues ausgelösten Dopamin-Ausflusses im ventralen Striatum und eine verzögerte Reaktion im dorsalen Striatum. Unsere Theorie zeigt auch, wie dieses Antwortmuster entscheidend von der Dopamin-Spiralschaltung abhängt. Unser Rahmen erklärt verhaltensmäßig die allmähliche Unempfindlichkeit der Drogensuche gegenüber drogenbedingten Bestrafungen, das Blockierungsphänomen für Drogenergebnisse und die anhaltende Präferenz für Drogen gegenüber natürlichen Belohnungen durch Abhängige. Das Modell schlägt überprüfbare Vorhersagen vor und schafft darüber hinaus die Voraussetzungen für eine Betrachtung der Sucht als Pathologie hierarchischer Entscheidungsprozesse. Diese Ansicht ergänzt die traditionelle Interpretation von Sucht als Interaktion zwischen gewohnheitsmäßigen und zielgerichteten Entscheidungssystemen.

Einleitung

"Wir gaben zu, dass wir unserer Sucht gegenüber machtlos waren - unser Leben war unüberschaubar geworden", sagt der allererste Grundsatz des anonymen Narkotik-12-Step-Programms [1]. Hier wird deutlich, wie machtlose Süchtige sich im Kampf gegen Drogen befinden, obwohl sie wissen, dass Drogenmissbrauch eine falsche Vorgehensweise ist [2]-[4]. In der Tat ist das Markenzeichen der Sucht das zwanghafte Suchen der Drogen, selbst auf Kosten offensichtlicher nachteiliger Folgen [5]. Eine Signatur dieses pathologischen Verhaltens zeigt sich in kontrollierten Experimenten, in denen Süchtige einen charakteristischen "selbstbeschriebenen Fehler" aufweisen: eine Inkonsistenz zwischen der starken Verhaltensreaktion auf medikamentenassoziierte Entscheidungen und dem relativ geringen subjektiven Wert, den der Süchtige für das Medikament angibt [4], [6], [7]. In Kombination mit dem Verlust der hemmenden kognitiven Kontrolle des Verhaltens nach längerer Drogenexposition kann diese Divergenz zwischen den kognitiven Plänen und den konsolidierten Gewohnheiten zu einem Übergang von gelegentlichem zu zwanghaftem drogensuchtendem Verhalten führen [8].

Der Verlust der kognitiven Kontrolle und der selbstbeschriebene Fehler haben sich bislang einer prinzipiellen Erklärung durch formale Suchtmodelle entzogen [9]-[13]. Bisherige Computertheorien der Drogenabhängigkeit, die meistens im Rahmen des Verstärkungslernens aufgestellt wurden, betrachten die Sucht als einen pathologischen Zustand des Systems des Habitus-Lernens (Reiz-Antwort-Systems) [9]-[13]. Die zentrale Hypothese hinter all diesen Modellen ist, dass die pharmakologische Wirkung von Arzneimitteln auf die Dopaminsignalisierung, die angeblich ein Lehrsignal für die Reizantwort enthält, zu einer allmählichen Überverstärkung solcher Assoziationen führt. Dieser Effekt führt wiederum zu zwanghaften Drogensuchgewohnheiten. Während diese reduzierte Sichtweise der Sucht einige Aspekte des Phänomens erfasst hat, deutet ein wachsender Konsens in der Suchtliteratur darauf hin, dass mehrere Lernsysteme an der Pathologie beteiligt sind. Nur ein derart komplexeres Bild, das sowohl kognitive als auch gewohnheitsmäßige Prozesse auf niedriger Ebene des Gehirns umfasst, kann die Vielfalt suchtähnlicher Verhaltensweisen erklären [8], [14].

In diesem Beitrag wenden wir einen hierarchischen Ansatz zum Verstärken des Lernens an [15] wo Entscheidungen auf verschiedenen Abstraktionsebenen dargestellt werden, in einer kognitiv-zu-motorischen Hierarchie. Wir gehen davon aus, dass eine Kaskade von Dopamin-abhängigen Lernsignalen Ebenen der Hierarchie miteinander verknüpft [16]. Wir gehen weiter davon aus, dass Drogenmissbrauch den Kommunikationsmechanismus zwischen Abstraktionsebenen pharmakologisch überführt. Basierend auf diesen Annahmen zeigen wir, dass die gemeldete kognitive Dissonanz bei Süchtigen im Rahmen des hierarchischen Verstärkungslernens auftritt, wenn chronische Drogenexposition das Wertelernen in der Entscheidungshierarchie stört. Diese Störung führt zu einer pathologischen Überbewertung der Medikamentenauswahl bei gewohnheitsmäßigen Prozessen auf niedriger Ebene und treibt somit das gewohnheitsmäßige Suchverhalten an. Wir zeigen dann, dass „ungeliebte“, aber zwanghafte Drogensucht als drogenabhängige, gewohnheitsmäßige Prozesse bezeichnet werden kann, die das Verhalten dominieren, während gesunde kognitive Systeme auf den höchsten Repräsentationsstufen die Kontrolle über das Verhalten verlieren. Darüber hinaus zeigen wir, dass das vorgeschlagene Modell die jüngsten Anhaltspunkte für eine schnelle vs. verzögerte Entwicklung des durch Doxamin hervorgerufenen Dopaminausflusses im ventralen vs. dorsalen Striatum sowie die Abhängigkeit dieses Musters von Dopamin-Spiralschaltungen berücksichtigen kann.

Materialen und Methoden

Vorrunde

In Übereinstimmung mit einer reichhaltigen kognitionspsychologischen Literatur wird unser hierarchisches Verstärkungslernen gelehrt [15], [18] Das Rahmenwerk geht davon aus, dass ein abstrakter kognitiver Plan wie „Tee brauen“ in eine Folge von untergeordneten Aktionen unterteilt werden kann: kochendes Wasser, Einfüllen von Tee in den Topf usw. Eine solche Zersetzung setzt sich fort, bis konkrete motorische Antworten auf der niedrigsten Ebene des Systems auftreten Hierarchie (Abbildung 1A). Neurobiologisch sind die verschiedenen Ebenen der Entscheidungshierarchie von kognitiven zu motorischen Ebenen entlang der rostro-caudalen Achse des Cortico-Basal-Ganglien-Kreislaufs (BG) dargestellt [19]-[21]. Dieser Kreislauf besteht aus mehreren parallelen geschlossenen Schleifen zwischen der Frontalrinde und den Basalganglien [22], [23] (Abbildung 1B). Während die anterioren Schleifen einer abstrakteren Darstellung der Handlungen zu Grunde liegen, kodieren die caudalen Schleifen, bestehend aus einem sensorisch-motorischen Kortex und einem dorsolateralen Striatum, niedere Gewohnheiten [19]-[21].

Daumennagel

Abbildung 1. Hierarchische Organisation des Verhaltens und der Cortico-BG-Schaltung.

AEin Beispiel für eine Entscheidungshierarchie für zwei alternative Optionen: Medikament vs. Nahrung. Jede Vorgehensweise wird auf verschiedenen Abstraktionsebenen dargestellt, die angeblich in verschiedenen Cortico-BG-Schleifen codiert sind. Die Suche nach jeder der beiden Arten von Belohnungen kann eine Bestrafung der Größenordnung 16 nach sich ziehen. BGlutamatergische Verbindungen aus verschiedenen präfrontalen Bereichen projizieren auf striatale Subregionen und dann durch Pallidum und Thalamus zurück zum PFC, wobei mehrere parallele Schleifen gebildet werden. Durch das striato-nigro-striatale Dopamin-Netzwerk beeinflussen die ventralen Regionen des Striatum die mehr dorsalen Regionen. vmPFC, ventraler medialer präfrontaler Kortex; OFC, Orbitalfrontkortex; dACC, dorsaler ventrikulärer Cortex; SMC, sensorisch-motorischer Kortex; VTA, ventraler tegmentaler Bereich; SNc, substantia nigra pars compacta. Abbildung 1B Geändert von Ref 21.

doi: 10.1371 / journal.pone.0061489.g001

Innerhalb dieser Schaltung signalisiert die phasische Aktivität von Midbrain-Dopamin (DA) -Neuronen, die auf das Striatum projizieren, den Fehler zwischen vorhergesagten und empfangenen Belohnungen, wodurch Stimulus-Response-verstärkende Informationen übertragen werden [24]. Diese DAergic-Projektionen bilden eine kaskadierende serielle Konnektivität, die die ventraleren Regionen des Striatum über die sogenannten "spiraligen" Verbindungen mit fortschreitend mehr dorsalen Regionen verbindet [25]-[27] (Abbildung 1B). Funktionell ermöglicht eine solche Vorwärtskopplungsorganisation, die das Rostral mit den caudalen Cortico-BG-Schleifen verbindet, eine gerichtete Kopplung von groben zu feinen Darstellungen. Dementsprechend wird angenommen, dass die DA-Spiralen ein neurobiologisches Substrat für die fortschreitende Anpassung des Belohnungsprädiktionsfehlers durch die höheren Ebenen der Hierarchie bereitstellen (das abstrakte Wissen über den Wert von Verhaltensoptionen kodiert). Dieser Fehler wird dann zum Aktualisieren von Aktionswerten auf detaillierteren Ebenen verwendet [16]. Mit anderen Worten, die DA-Spiralen erlauben es den abstrakten kognitiven Bewertungsniveaus, das Lernen in den detaillierteren Handlungsbewertungsprozessen zu lenken.

Theorie-Skizze

In Bezug auf die rechnerische Theorie des Verstärkungslernens [28] (RL), der Agent (in unserem Fall eine Person oder ein Tier) lernt, fundierte Handlungsentscheidungen zu treffen, indem er seinen vorherigen geschätzten Wert aktualisiert; für jedes Paar aus Staat und Aktion wenn eine Belohnung wird vom Agenten zur Zeit empfangen als Ergebnis einer Aktion im kontextuellen Zustand (Stimulus) . Der Wert wird durch Berechnen des Belohnungsvorhersagefehlersignals aktualisiert. Dieses Signal hängt nicht nur von der momentan erhaltenen Belohnung ab (), aber auch auf den Wert des neuen Status, in dem der Agent landet, nachdem diese Aktion ausgeführt wurde. Bezeichnet durch Diese zeitlich erweiterte Wertefunktion stellt die Summe der zukünftigen Belohnungen dar, die das Tier aus dem resultierenden Zustand erwartet. weiter. Der Vorhersagefehler kann durch die folgende Gleichung berechnet werden:


(1)

Intuitiv berechnet das Vorhersagefehlersignal die Diskrepanz zwischen dem erwarteten und dem realisierten lohnenden Wert einer Aktion. In einer hierarchischen Entscheidungsstruktur hingegen lernt man nicht -Werte unabhängig voneinander auf verschiedenen Ebenen, abstraktere Ebenen können das auf niedrigeren Ebenen berechnete Lehrsignal abstimmen. Da höhere Hierarchieebenen eine abstraktere Darstellung von Umweltkontingenzen darstellen, erfolgt das Lernen in diesen Ebenen schneller. Dies liegt an der relativ geringen Dimensionalität der abstrakten Darstellung des Verhaltens: Ein Aktionsplan kann auf der obersten Ebene der Hierarchie als ein einzelner Schritt (eine Dimension) und auf den unteren Ebenen als mehrere detaillierte Aktionen (mehrere Dimensionen) dargestellt werden der Hierarchie. Der Spitzenwert dieses Aktionsplans würde im Vergleich zu den detaillierten Ebenen, in denen die Belohnungsfehler alle detaillierten Aktionsschritte zurückverfolgen müssten, schnell gelernt. Das Abstimmen der Werte der unteren Ebene durch die Werteinformationen der höheren Ebenen kann daher die Konvergenz dieser Werte beschleunigen. Ein statistisch effizienter Weg, dies zu tun, ist die Annahme, dass das Vorhersagefehlersignal am berechnet wird -te Abstraktionsebene, die zeitlich erweiterte Wertefunktion, kommt von einer höheren Abstraktionsebene, [16]:


(2)

Um die Optimalität zu erhalten, kann die Gleichung 2 nur dann zur Berechnung des Vorhersagefehlers verwendet werden, wenn die letzte konstituierende Grundaktion einer abstrakten Option ausgeführt wird (siehe Abbildung S1 in Datei S1). In anderen Fällen erfolgt das Lernen auf verschiedenen Ebenen unabhängig voneinander, wie in Gleichung 1. In beiden Fällen wird das Teach-Signal dann zum Aktualisieren der vorherigen Werte auf der entsprechenden Ebene verwendet:


(3)
woher ist die Lernrate. Diese Form des Austauschs von Informationen auf verschiedenen Ebenen ist biologisch plausibel, da sie die spiralförmige Struktur der DA-Schaltung widerspiegelt und die Informationen in ventro-dorsaler Richtung entlang der Hierarchie führt. Gleichzeitig wird die Lernerfahrung durch abstraktere Ebenen erheblich beschleunigt, wodurch die hohe Dimensionalität des Wertelernens auf detaillierten Ebenen gemildert wird [16].

In diesem Beitrag zeigen wir, dass die Interaktion zwischen einer modifizierten Version des Modells in entwickelt wurde [16] und die spezifischen pharmakologischen Wirkungen von Missbrauchsmedikamenten auf das dopaminerge System können auf Sucht bezogene Daten auf radikal anderen Analyseskalen erfassen: auf neurobiologischer Ebene auf Verhaltens- und Schaltkreisebene. Erstens führt das neue Modell zu einer möglichen zwingenden Erklärung für einige faszinierende Verhaltensaspekte, die mit der Drogenabhängigkeit zusammenhängen (z. B. der selbst beschriebene Fehler) [4], [6], [7]). Zweitens können wir ein breites Spektrum an Beweisen hinsichtlich der Dynamik der durch das Arzneimittel hervorgerufenen Dopaminfreisetzung belegen [17].

Wir modifizieren das in dargestellte Modell [16] wie folgt. Wir machen das Modell in Bezug auf die Arbeitsspeicherkapazität effizienter, indem wir es ersetzen mit in Gleichung 2, da die beiden Werte auf den gleichen stationären Pegel konvergieren (siehe Abbildung S2 in Datei S1für rechnerische und neurobiologische Grundlagen):


(4)

Hier ist die relativ abstrakte Option und ist die letzte primitive Aktion in der Verhaltenssequenz, die diese Option voll erfüllt. Ähnlich, ist der lohnende Wert von , Die umfasst (der lohnende Wert von ).

Entscheidend ist, dass die verschiedenen vom Menschen missbrauchten Medikamente die grundlegende Eigenschaft einer pharmakologisch ansteigenden Dopaminkonzentration im Striatum aufweisen [29]. Dementsprechend integrieren wir diese pharmakologische Wirkung des Arzneimittels durch Hinzufügen einer positiven Tendenz, , (siehe auch [9]-[12]) auf das von Dopamin-Neuronen übertragene Vorhersagefehlersignal (siehe Abbildung S3 in Datei S1für rechnerische und neurobiologische Grundlagen):


(5)

Hier erfasst die direkte pharmakologische Wirkung des Arzneimittels auf das DA-System, und ist der Verstärkungswert aufgrund der euphorigen Wirkung (vgl Datei S1 für zusätzliche Informationen).

Während die Gleichungen 3 und 5 zusammen den Berechnungsmechanismus zum Aktualisieren der Werte in unserem Modell definieren, stellen wir außerdem die Hypothese auf, dass ein auf Unsicherheit basierender Wettbewerbsmechanismus den Abstraktionsgrad bestimmt, der das Verhalten steuert. Dies beruht auf dem in vorgeschlagenen Mechanismus [29] für die Schlichtung zwischen dem gewohnheitsmäßigen und dem zielgerichteten System. In dieser Hinsicht steuert an jedem Entscheidungspunkt nur das Abstraktionsniveau mit der höchsten Sicherheit bei der Schätzung des Wertes von Entscheidungen das Verhalten. Sobald diese Ebene die Entscheidung zum Handeln getroffen hat, werden alle unteren Ebenen der Hierarchie von dieser dominanten Ebene eingesetzt, um die ausgewählte Aktion als eine Folge primitiver motorischer Antworten zu implementieren (siehe Datei S1 für zusätzliche Informationen; Abbildung S4 in Datei S1; Abbildung S5 in Datei S1). Nach Erhalt des Belohnungsfeedbacks aus der Umgebung werden die Werte auf allen Ebenen aktualisiert. Dieser auf Unsicherheiten basierende Arbitrierungsmechanismus sagt voraus, dass abstrakte Prozesse in den frühen Lernphasen überlegene Wertanpassungsfähigkeiten besitzen und somit das Verhalten in diesen Phasen steuern. Da jedoch die abstrakten Ebenen eine grobe Darstellung der Umgebung verwenden (z. B. weil eine relativ kleine Anzahl von Basisfunktionen enthalten ist), ist ihre Endwertnäherungsfähigkeit nicht so genau wie bei detaillierten Ebenen. Mit anderen Worten, nach umfangreichen Schulungen ist die mit den geschätzten Werten verbundene Sicherheit für die unteren Ebenen der Hierarchie geringer als für die oberen Ebenen. Beim progressiven Lernen übernehmen daher die unteren Ebenen der Hierarchie die Kontrolle über die Aktionsauswahl, da ihre Unsicherheit allmählich abnimmt. Dies steht im Einklang mit mehreren Beweislinien, die eine fortschreitende Dominanz des Dorsals über dem ventralen Striatum bei der Kontrolle des Drogensuchens (sowie der Suche nach natürlichen Belohnungen) belegen. [8], [30], [31].

Die Ergebnisse

Inkonsistenzen bei der Hierarchiebewertung treten unter Drogen auf, jedoch nicht unter natürlichen Belohnungen

Im Gegensatz zu den bisherigen verstärkungsbasierten Lernmodellen der Sucht [9]-[13] Unser Konto basiert auf einem Single-Decision-System-Ansatz und basiert auf einem Framework mit mehreren interagierenden Systemen. Infolgedessen ähnelt die Form der Modellierung der Wirkung des Arzneimittels auf das Vorhersagefehlersignal in unserem Modell den vorherigen [9]-[12]führt zu grundsätzlich anderen Konsequenzen. Der durch Arzneimittel hervorgerufene vorübergehende Dopaminanstieg erhöht den unmittelbaren Vorhersagefehler auf jeder Ebene der Hierarchie und führt folglich zu einer Verzerrung. über den Transfer von Wissen von einer Abstraktionsebene zur nächsten entlang der groben bis feinen Richtung der Hierarchie. Diese Tendenz bewirkt, dass der asymptotische Wert der Drogensuche auf einem bestimmten Niveau liegt Einheiten höher als die einer weiteren abstrakten Schicht (Abbildung 2B). Die Anhäufung dieser Diskrepanzen entlang der rostro-kaudalen Achse führt nach und nach zu signifikanten Unterschieden im Wert des Verhaltens von Drogen auf der Suche zwischen den oberen und unteren Extremen der Hierarchie. Selbst wenn eine starke Bestrafung folgt, bleibt der Wert des arzneimittelbezogenen Verhaltens an den unteren Motorschleifen positiv, während es bei den kognitiven Werten negativ wird. Mit anderen Worten, das Modell sagt voraus, dass die Anhäufung des Arzneimitteleffekts über DA-Spiralen den Drogensuchtwert bei den Gewohnheiten auf Motorebene so stark erhöht, dass selbst eine starke natürliche Bestrafung ihn nicht ausreichend verringern kann. Wir schlagen vor, dass dies die Inkonsistenz zwischen kognitiver und niedrigerer Bewertung des Verhaltens von Drogenabhängigen bei Süchtigen erklärt. Mit anderen Worten, wir schlagen vor, dass die zwanghafte Wirkstoffsuche und die deutlich verringerte Elastizität der damit verbundenen Kosten auf die pharmakologischen Auswirkungen des Wirkstoffs zurückzuführen sind, der den Dopamin-abhängigen Mechanismus entführt, der die Informationen zwischen den Entscheidungsstufen der Entscheidungsebene überträgt.

Daumennagel

Abbildung 2. Motivation für Nahrung vs. Drogen auf verschiedenen Abstraktionsebenen (Simulationsergebnisse).

In den ersten 150-Versuchen, bei denen keine Bestrafung auf die Belohnung folgt, konvergiert der Wert der Suche nach natürlichen Belohnungen auf allen Ebenen auf 10 (A). Für den Fall des Arzneimittels ist jedoch die direkte pharmakologische Wirkung des Arzneimittels (, einstellen) ergibt sich der asymptotische Wert auf jeder Ebene Einheiten höher als die einer höheren Abstraktionsebene (B). Wenn also eine Bestrafung folgt, während kognitive Schleifen der Wahl der Drogensuche einen negativen Wert zuweisen, finden Schleifen auf Motorebene die Drogensucht wünschenswert (positiver Wert). Die Kurven in dieser Abbildung zeigen die Entwicklung der Werte in einem simulierten Tier und somit war keine statistische Analyse möglich.

doi: 10.1371 / journal.pone.0061489.g002

Während Arzneimittel in unserem Modell zu einer unausgewogenen Bewertung über alle Stufen führen, konvergiert der Wert der natürlichen Belohnungen über alle Stufen hinweg auf den gleichen Wert, da keine direkte pharmakologische Wirkung auf den DA-Signalmechanismus besteht (). Infolgedessen werden weder Inkonsistenzen noch eine Überbewertung auf detaillierter Ebene für natürliche Belohnungen beobachtet (Abbildung 2A). Eine Überbewertung drogenabhängiger Reaktionen auf niedrigeren Ebenen der Hierarchie sollte zu einer anormalen Präferenz von Medikamenten gegenüber natürlichen Belohnungen und zu einem übermäßigen Engagement bei drogenbezogenen Aktivitäten führen.

Differenzielles Dopamin im ventralen gegenüber dorsalem Striatum auf medikamentenassoziierte Signale

Neurobiologisch hat die differenzierte Rolle der striatalen Subregionen beim Erwerb und der Expression von Suchtverhalten im Mittelpunkt der Suchtforschung gestanden. Konvergierende Beweise aus verschiedenen Forschungslinien legen nahe, dass der Verhaltensübergang vom entspannenden zum zwanghaften Drogenkonsum eine neurobiologische Verschiebung der Bewertung vom ventralen zum dorsolateralen Striatum widerspiegelt [8], [33], [34]Dies entspricht einer Verschiebung von kognitiven zu detaillierten Ebenen in unserem Modell. In Übereinstimmung mit unserem Modell wird gezeigt, dass ein spiralförmiges DA-Netzwerk, das den ventralen Bereich mit den mehr dorsalen Regionen des Striatums verbindet, eine entscheidende Rolle in diesem Übergang spielt [25].

In einer kürzlich durchgeführten Schlüsselstudie haben Willuhn et al. [17] untersuchten das Muster der Dopaminfreisetzung als Reaktion auf medikamentenassoziierte Signale im ventralen und dorsolateralen Striatum von Ratten während drei Wochen, in denen Kokain auftrat. Bei der zyklischen Volt-Scan-Schnellabtastung wurde kritisch beobachtet, dass der Cue-induzierte DA-Efflux im ventralen Striatum auch nach sehr begrenztem Training auftritt. Im Gegensatz dazu zeigte das dorsolaterale Striatum erst nach ausgiebigem Training einen durch Cue ausgelösten DA-Efflux, und die Entwicklung dieses Freisetzungsmusters verschwand, als das ventrale Striatum in der ipsilateralen Hemisphäre verletzt wurde.

Da die zeitliche Auflösung der Fast-Scan-Voltammetrie Sekundärschwankungen der Konzentration erfasst, sollte das beobachtete Muster des DA-Flusses der "phasischen" DA-Signalisierung und somit dem Vorhersagefehlersignal gemäß der RL-Theorie von Dopamin zugeschrieben werden [24]. Gemäß der Theorie von RL ist das Vorhersagefehlersignal beim Beobachten eines unerwarteten Stimulus gleich dem Belohnungswert, den dieser Stimulus vorhersagt. Die Cue-induzierte DA-Freisetzung entspricht daher dem von diesem Cue vorhergesagten Wert.

In dieser Hinsicht liefert unser hierarchisches System eine formale Erklärung für das unterschiedliche Differentialmuster von ventralem und dorsalem striatalem DA-Efflux, das in berichtet wurde [17]. Der Wert, den das drogenassoziierte Stichwort auf den abstrakten kognitiven Ebenen der Hierarchie voraussagt, steigt in den frühen Stadien des Trainings rasch an (Abbildung 2B), aufgrund der geringen Dimension des Lernproblems auf hohem Abstraktionsniveau. Daher zeigt unser Modell, dass der Cue-induzierte DA-Efflux auch nach eingeschränktem Training im ventralen Striatum zu beobachten ist (Figure 3). Auf den detaillierteren Repräsentationsebenen ist der Lernprozess jedoch langsam (Abbildung 2B), aufgrund der hohen Dimension des Problemraums sowie der Abhängigkeit des Lernens auf abstrakteren Ebenen durch DA-Spiralen. Folglich sollte sich der cue-induzierte DA-Efflux im dorsolateralen Striatum allmählich entwickeln und erst nach umfangreichem Training beobachtbar sein (Figure 3).

Daumennagel

Abbildung 3. Dopamin-Efflux bei verschiedenen striatalen Subregionen als Reaktion auf medikamentenassoziierte Hinweise (Simulationsergebnisse).

In Übereinstimmung mit den experimentellen Daten [17], zeigt das Modell (linke Spalte), dass als Reaktion auf medikamentenassoziierte Anzeichen nach begrenztem und umfangreichem Training Dopaminausfluss im ventralen Striatum auftritt. In dorsolateralen Subregionen wird sich jedoch der Cue-induzierte DA-Efflux während des Lernens allmählich entwickeln. Das Modell sagt voraus (zweite Spalte von rechts), dass diese verzögerte Entwicklung des durch Cue hervorgerufenen DA-Efflux im dorsalen Striatum von der DA-abhängigen seriellen Konnektivität abhängt, die das ventrale mit dem dorsalen Striatum verbindet. Das heißt, als Folge der Trennung der DA-Spiralen, während die durch Cue hervorgerufene DA-Reaktion im ventralen Striatum intakt bleibt, nimmt sie im dorsolateralen Striatum deutlich ab. Darüber hinaus sagt das Modell (dritte Spalte von rechts) ähnliche Ergebnisse für den Cue-induzierten DA-Efflux im dorsolateralen Striatum für den Fall des verletzten ventralen Striatum vor. Wenn schließlich nach intensiver Drug-Queue-Paarung bei intakten Tieren eine Bestrafung auf Droge folgt, sagt das Modell (rechte Spalte) voraus, dass Droge-relevante Quecksymptome eine Hemmung des ventralen Beins der DA-Spiralen bewirken, selbst nach begrenztem Training. In mehr dorsalen Regionen nimmt der DA-Ausfluss während des Lernens jedoch langsam ab, bleibt aber auch nach umfangreichen Drogen- und Bestrafungspaaren positiv. Die in dieser Abbildung dargestellten Daten stammen von "einem" simulierten Tier und daher war keine statistische Analyse anwendbar.

doi: 10.1371 / journal.pone.0061489.g003

Darüber hinaus erklärt unser Modell die Beweise in [17] dass eine solche verzögerte Entwicklung des durch Cue hervorgerufenen DA-Efflux im dorsolateralen Striatum vom ventralen Striatum abhängt (Figure 3). In unserem Modell senkt eine simulierte unilaterale Läsion des ventralen Striatums (abstraktes Bewertungsniveau im Modell) den von der Queue vorhergesagten Wert auf detaillierten Ebenen in der ipsilateralen Hemisphäre signifikant und senkt somit den Cue-induzierten DA-Efflux signifikant. Um die Läsion des ventralen Striatum zu modellieren, setzen wir einfach den Wert aller Reize auf der höchsten Ebene der Hierarchie auf Null.

In ähnlicher Weise sagt unser Modell voraus, dass die Entwicklung der phasischen DA-Signalisierung im dorsolateralen Striatum von der Integrität des DA-Spiralkreislaufs abhängt (Figure 3). Tatsächlich verringert eine Unterbrechung des DA-Spiralkreislaufs in unserem Modell die Kommunikation über Abstraktionsebenen hinweg, was wiederum eine Anhäufung der medikamenteninduzierten Verzerrung des Verstärkungssignals entlang der Entscheidungshierarchie verhindert. Um die Trennung in der DA-abhängigen seriellen Schaltung von ventral nach dorsalem Striatum zu modellieren, klemmen wir jede Abstraktionsebene, um das Vorhersagefehlersignal lokal zu berechnen (wie in Gleichung 3), ohne den Wert des zeitlich vorgerückten Zustands vom unmittelbar höheren zu erhalten Abstraktionsebene.

Darüber hinaus sagt das Modell voraus, dass sich das Muster des durch Cue hervorgerufenen DA-Efflux ändern wird, wenn nach einem umfangreichen Training mit Kokain und Kokain-assoziierten Signalen, wie im obigen Experiment, die Kokainabgabe mit einer starken Bestrafung beginnt. Wir gehen davon aus, dass der DA-Ausfluss als Reaktion auf den Kokain-assoziierten Queue im ventralen Striatum schnell unter den Ausgangswert abnehmen sollte. Im dorsolateralen Striatum sollte die Cue-induzierte DA-Freisetzung jedoch über dem Ausgangswert bleiben (Figure 3) mit einer möglichen verzögerten Teilabnahme. Dies deutet darauf hin, dem Drogenreiz einen detaillierten positiven subjektiven Wert zuzuordnen, trotz negativer Werte (unter dem Ausgangswert) auf kognitiven Ebenen. Es ist bemerkenswert, dass diese Vorhersage von der Annahme abhängt, dass die Bestrafung vom Gehirn einfach als negative Belohnung behandelt wird. Diese Annahme ist etwas umstritten: Sie wird durch experimentelle Studien eindeutig unterstützt [35], aber auch anderweitig diskutiert [14], [36]. Abgesehen von dieser Vorhersage hängen andere Aspekte des Modells nicht davon ab, ob die Bestrafung durch Dopamin oder ein anderes Signalsystem kodiert wird.

Das von Willuhn et al. [34] ist nicht ausreichend auf zwanghaftes drogensuchendes Verhalten ausgerichtet, das durch Unempfindlichkeit gegenüber drogenbedingten Bestrafungen gekennzeichnet ist [37], [38]. Daher ist eine Schlüsselfrage zu beantworten, welche Beziehung zwischen der verzögerten Entwicklung der Cue-induzierten DA-Antwort in DLS und der späten Entwicklung der Zwangsantwort besteht. Nach unserem Modell erfordert zwanghaftes Verhalten nicht nur eine übermäßige Bewertung der Medikamentenauswahl auf niedrigen Hierarchieebenen, sondern auch die Übertragung der Kontrolle über das Verhalten von abstrakten kognitiven Prozessen auf die gewohnheitsmäßigen Prozesse auf niedriger Ebene. Die Zeitskala dieser beiden Prozesse ist nur teilweise voneinander abhängig: Der Überbewertungsprozess hängt vom Vorhersagefehlersignal ab, während die Übertragung der Verhaltenssteuerung auch von den relativen Unsicherheiten bei der Wertschätzung abhängt. Daher kann die Überbewertung drogenassoziierter Hinweise auf niedrigen Hierarchieebenen der Verschiebung der Kontrolle über das Verhalten vom oberen zum unteren Ende der Hierarchie vorausgehen. Die genauen Zeitskalen der beiden Prozesse hängen von der Lernrate bzw. dem Rauschen ab, die auf den verschiedenen Ebenen vorhanden sind (siehe Datei S1 für zusätzliche Informationen). Mit anderen Worten, es ist wahrscheinlich, dass sich der durch Cue induzierte Dopaminausfluss im DLS signifikant entwickeln kann, bevor sich das zwanghafte Drogensuchen verhaltensmäßig manifestiert.

Verhaltensimplikationen der inkonsistenten Bewertung von Medikamenten im Vergleich zu natürlichen Belohnungen

Verhaltensbedingt wird in unserem Modell, wenn die Bestrafung in den frühen Stadien des freiwilligen Drogenkonsums mit der Droge gepaart wird, der abstrakte Wert der Drogensuchtreaktion schnell negativ. Wenn man davon ausgeht, dass die Drogensuche in diesen frühen Stadien durch abstrakte Stufen kontrolliert wird, führt eine negative abstrakte Beurteilung der Drogenwahl dazu, dass das Subjekt diese Vorgehensweise nicht länger erleben möchte. Dies wird die Konsolidierung einer starken Präferenz auf niedrigem Niveau gegenüber Drogen im Laufe der Zeit verhindern. Daher erklärt das Modell die Elastizität der Medikamentenauswahl zu den Kosten in den frühen Stadien des Drogenkonsums, nicht jedoch nach chronischem Konsum. Durchgängig zeigen Tiermodelle der Sucht, dass sich die Unempfindlichkeit der drogenabhängigen Reaktionen auf schädliche Folgen des Arzneimittels nur nach längerer Selbstverabreichung des Arzneimittels entwickelt, jedoch nicht auf den Drogenkonsum beschränkt ist [37], [38]. Im Gegensatz zu unserer Theorie sind frühere Rechenmodelle der Sucht [9], [10] stehen in direktem Widerspruch zu diesem Beweismaterial, da sie vorhersagen, dass nachteilige Verhaltensweisen, die unmittelbar auf den Drogenkonsum folgen, selbst in den sehr frühen Stadien des Erlebens von Drogen keine motivierenden Wirkungen haben (siehe Datei S1 für zusätzliche Informationen).

Unser Modell berücksichtigt auch das Auftreten von Blockingeffekten für Arzneimittelergebnisse [39]. Blockieren ist ein Konditionierungsphänomen, bei dem die vorherige Paarung eines Stimulus A mit einem Ergebnis die Bildung einer Verbindung zwischen einem anderen Stimulus B und diesem Ergebnis in einer nachfolgenden Trainingsphase blockiert, wobei sowohl A als auch B vor der Abgabe des Ergebnisses präsentiert werden [40]. Ergebnisse der Simulation unseres Modells in einem Pavlovianischen Versuchsaufbau (siehe Datei S1 für ergänzende Informationen über die Pavlovianische Version des Modells) zeigt, dass für beide Fälle von Naturbelohnungen und Drogen, wenn der geschätzte Wert auf einer bestimmten Hierarchieebene seinen stabilen Zustand erreicht (und nicht unbegrenzt wächst), dabei kein weiteres Lernen erfolgt Pegel, da das Vorhersagefehlersignal auf Null abgesunken ist (Figure 4). Das Verknüpfen eines neuen Stimulus mit der bereits vorhergesagten Belohnung wird somit blockiert. Verhaltensnachweise, die eine Blocking-Wirkung zeigen, die sowohl mit Wirkstoffen als auch mit natürlichen Verstärkern in Verbindung steht [39] wurde als Hauptargument verwendet, um das zuvor vorgeschlagene auf Dopamin basierende Rechenmodell der Abhängigkeit zu kritisieren [9]. Hier haben wir gezeigt, dass die Blockadedaten durch die Fokussierung auf die hierarchische Natur von Repräsentationen und die Anordnung der Dopamin - Dorsal - Ventral - Spiralschleife tatsächlich berücksichtigt werden können, wodurch diese Kritik umgangen wird (vgl Datei S1 für zusätzliche Informationen).

Daumennagel

Abbildung 4. Blocking-Effekt für natürliche Belohnungen gegenüber Medikamenten.

Das Modell sagt voraus, dass das Blockieren für natürliche Belohnungen auftritt (A) und Drogen (B), nur wenn die anfängliche Trainingsperiode „umfangreich“ ist, so dass der erste Stimulus den Wert des Ergebnisses vollständig vorhersagt. Nach einem „moderaten“ Training können flexiblere kognitive Ebenen die Werte vollständig vorhersagen und somit das weitere Lernen blockieren. Das Lernen ist jedoch in Low-Level-Prozessen immer noch aktiv, wenn die zweite Trainingsphase (gleichzeitige Präsentation beider Stimuli) beginnt. Unser Modell sagt daher voraus, dass ein moderates anfängliches Training in einem Blockierungsexperiment mit natürlichen Belohnungen auch zu Inkonsistenzen zwischen kognitivem Verhalten und Verhalten führt. Die in dieser Abbildung dargestellten Daten stammen von "einem" simulierten Tier und daher war keine statistische Analyse anwendbar.

doi: 10.1371 / journal.pone.0061489.g004

Wie bereits erwähnt, zeigen mehrere Evidenzlinien eine progressive Dominanz des Dorsals über dem ventralen Striatum bei der Kontrolle des Verhaltens während des Lernens [8], [31], [32]. Vor dem Hintergrund dieser Beweise interpretiert, erklärt die unausgewogene Bewertung der Drogensuche in der gesamten Hierarchie auch die erfolglosen Bemühungen der Abhängigen, den Drogenkonsum nach längerer Erfahrung mit Drogen zu reduzieren, wenn sich die Kontrolle über drogenbezogene Entscheidungen von kognitiv zu niedrig verschoben hat. gewohnheitsmäßige Prozesse. Diese Vorherrschaft von medikamentendominierten Prozessen führt natürlich zu einer Verhaltensunelastizität gegenüber drogenbedingten Kosten (zwanghafte Drogensuche), die wahrscheinlich mit einem selbst beschriebenen Fehler einhergeht. Für den Fall natürlicher Belohnungen sagt unser Modell jedoch voraus, dass, obwohl sich die Verhaltensunelastizität im Laufe des Lernens erhöht, da sich auf den Hierarchieebenen keine Bewertungsinkonsistenz entwickelt, Bestrafungen, die mit Belohnungen verbunden sind, letztendlich die Suche nach Belohnungen hemmen werden.

Unser Modell konzentriert sich auf die Bewertung von Aktionen in einer "vermutlich gegebenen" Entscheidungshierarchie und lässt nicht zu, wie die abstrakten Optionen und ihre entsprechenden Unterprogramme während der Entwicklung entdeckt werden. Die Entdeckung der Entscheidungshierarchie wird als Bottom-up-Prozess vorgeschlagen, der durch das Zusammenfügen von Sequenzen von Low-Level-Aktionen und das Erstellen abstrakter Optionen erreicht wird [41]. Dieser Prozess, der sich angeblich vom dorsalen in das ventrale Striatum verlagert hat, verläuft in die entgegengesetzte Richtung des hier vorgeschlagenen Wettbewerbsmechanismus, um die Kontrolle über das Verhalten zu übernehmen.

Diskussion

Die wachsende Evidenz für die unterschiedliche Rolle verschiedener striataler Subregionen bei der Sucht wird normalerweise im Rahmen einer gewohnheitsmäßigen vs. zielgerichteten Dichotomie interpretiert [8], [14], [34]. Der hier verwendete hierarchische Entscheidungsfindungsansatz ergänzt solche Konten mit zwei Systemen. Der Dual-Prozess-Ansatz befasst sich mit unterschiedlichen Algorithmen (modellfrei vs. Modellbasis) [30]) Zur Lösung eines einzelnen Problems konzentriert sich das hierarchische RL-Framework auf verschiedene Repräsentationen desselben Problems auf verschiedenen Ebenen der zeitlichen Abstraktion. Theoretisch kann entweder ein gewohnheitsmäßiger oder ein zielgerichteter Algorithmus jede dieser unterschiedlichen Darstellungen des Problems lösen. In unserem Modell erfolgt die Anhäufung medikamenteninduzierter Verzerrungen über DA-Spiralen in einer Umgebung, in der der Algorithmus zur Wertschätzung modellfrei ist (Gewohnheitslernen). Dies schließt jedoch nicht aus, dass modellbasierte Systeme auf den obersten Hierarchieebenen arbeiten. Das PFC-abhängige zielgerichtete Bewertungs- und Entscheidungssystem kann einfach in das Modell integriert werden, indem angenommen wird, dass Aktionen auf den höchsten Abstraktionsebenen von einem zielgerichteten System bewertet werden. Während eine solche Komplikation die Art der in diesem Manuskript dargestellten Ergebnisse nicht ändert, bleibt ihre zusätzliche Flexibilität bei der Erklärung anderer Aspekte der Sucht zukünftigen Studien überlassen. In unserem Modell wächst die Diskrepanz des asymptotischen Werts der Drogensuche zwischen den beiden Extremen der Hierarchie unabhängig von der Existenz eines zielgerichteten Systems mit der Anzahl der Entscheidungsebenen, die durch den "gewöhnlichen" Prozess bestimmt werden .

Nach unserer Theorie kann der Rückfall als Wiederbelebung der unpassenden motorischen Ebene nach einer Dominanz der kognitiven Ebenen angesehen werden. In der Tat kann man sich vorstellen, dass durch kognitive Therapie (bei Menschenabhängigen) oder erzwungenes Aussterben (bei tierischen Abstinenzmodellen) der hohe Wert der Drogensucht auf der detaillierten Ebene der Hierarchie nicht ausgelöscht wird, sondern schlummern wird die Kontrolle wieder auf kognitive Ebenen zu verlagern. Da drogenbezogenes Verhalten auf abstrakten Ebenen empfindlich für negative Konsequenzen ist, kann die Drogensuche vermieden werden, solange kognitive Prozesse auf hoher Ebene die Kontrolle des Verhaltens beherrschen. Man kann sogar spekulieren, dass die beliebten 12-Step-Programme (z. B. Alcoholics Anonymous, Narcotics Anonymous usw.) zum Teil funktionieren, indem sie die Teilnehmer explizit dazu auffordern, die Inkonsistenz ihres drogenbezogenen Lebensstils zuzugeben, wodurch die abstrakten kognitiven Ebenen dazu befähigt werden, eine explizite Kontrolle über sie auszuüben Verhalten. Stressbedingte Zustände oder erneute Exposition gegenüber Drogen (Priming) können als Risikofaktoren betrachtet werden, die die Dominanz abstrakter Niveaus gegenüber dem Verhalten schwächen, was zu einem erneuten Auftreten drogenabhängiger Reaktionen führen kann (aufgrund der latent hohen nicht-kognitiven Werte) ).

Zusammenfassend schlagen wir eine kohärente Darstellung für mehrere scheinbar unterschiedliche Phänomene vor, die für die Drogenabhängigkeit charakteristisch sind. Unser Modell liefert eine normative Darstellung von Daten zu den unterschiedlichen Rollen der ventralen und dorsalen striatalen Schaltkreise bei der Suche nach Drogen und zur Gewohnheitsleistung sowie zur selektiven Rolle der Feed-Forward-DA-Konnektivität für die Wirkung von Medikamenten gegenüber natürlichen Verstärkern. Am wichtigsten ist, dass wir zeigen, wie die drogeninduzierte Pathologie in DA-Signalen von ventral nach dorsal, die die Motivationsinformationen in die Hierarchie der kognitiven Repräsentation einfließen lassen, zu einer Diskordanz zwischen den abstrakten Einstellungen von Abhängigen zur Drogensuche und dem, was sie tatsächlich tun, führen kann. Offensichtlich gibt unser Modell keinen vollständigen Überblick über die Drogenabhängigkeit und soll dies auch nicht tun. Um andere ungeklärte Aspekte der Sucht zu erklären, müssen viele andere Gehirnsysteme einbezogen werden, von denen nachgewiesen wird, dass sie von Drogenmissbrauch betroffen sind [42]. Wie diese Systeme in das formale Rechnernetz eingebunden werden können, bleibt ein Thema für weitere Untersuchungen.

zusätzliche Informationen

File_S1.pdf
 

Abbildung S1,Eine Beispielentscheidungshierarchie mit fünf Abstraktionsebenen. Abbildung S2, Die entsprechende neuronale Schaltung für die drei erörterten Wertlernalgorithmen ist eine hierarchische Entscheidungsstruktur. A, Unter Verwendung eines einfachen TD-Lernalgorithmus (Gleichung S7) wird das Vorhersagefehlersignal in jeder Abstraktionsebene unabhängig von anderen Ebenen berechnet. B, In dem von Haruno und Kawato (4) vorgeschlagenen Modell (Gleichung S8) kommt der Wert des zeitlich fortgeschrittenen Zustands von einer höheren Abstraktionsebene. C, In unserem Modell (Gleichung S9) wird der Wert des zeitlich fortgeschrittenen Zustands durch eine Kombination aus Belohnung und Q-Wert der ausgeführten Aktion auf einer höheren Abstraktionsebene ersetzt. Abbildung S3, Unser Modell sagt verschiedene Wirkungsorte von Medikamenten im Bereich Belohnungslern voraus: Standorte 1 bis 3. Im Gegensatz dazu führen Medikamente, die die Standorte 4 bis 6 betreffen, nicht zu Verhaltens- und neurobiologischen Mustern, die durch Simulation des Modells für Medikamente erzeugt werden, sondern führen zu ähnlichen Ergebnissen wie natürliche Belohnungen. Abbildung S4, Die Aufgabe, die zum Simulieren des auf Unsicherheiten basierenden Wettbewerbsmechanismus zwischen den Hierarchieebenen verwendet wird, um die Kontrolle über das Verhalten zu übernehmen. Abbildung S5, Simulationsergebnis, das eine allmähliche Verlagerung der Kontrolle über das Verhalten von höheren zu niedrigeren Ebenen der Hierarchie zeigt. Q (s, a) und Vereinigte Staaten von Amerika) zeigen den geschätzten Wert und die Unsicherheit der Zustand-Aktions-Paare.

Datei S1.

Abbildung S1,Eine Beispielentscheidungshierarchie mit fünf Abstraktionsebenen. Abbildung S2, Die entsprechende neuronale Schaltung für die drei erörterten Wertlernalgorithmen ist eine hierarchische Entscheidungsstruktur. A, Unter Verwendung eines einfachen TD-Lernalgorithmus (Gleichung S7) wird das Vorhersagefehlersignal in jeder Abstraktionsebene unabhängig von anderen Ebenen berechnet. B, In dem von Haruno und Kawato (4) vorgeschlagenen Modell (Gleichung S8) kommt der Wert des zeitlich fortgeschrittenen Zustands von einer höheren Abstraktionsebene. C, In unserem Modell (Gleichung S9) wird der Wert des zeitlich fortgeschrittenen Zustands durch eine Kombination aus Belohnung und Q-Wert der ausgeführten Aktion auf einer höheren Abstraktionsebene ersetzt. Abbildung S3, Unser Modell sagt verschiedene Wirkungsorte von Medikamenten im Bereich Belohnungslern voraus: Standorte 1 bis 3. Im Gegensatz dazu führen Medikamente, die die Standorte 4 bis 6 betreffen, nicht zu Verhaltens- und neurobiologischen Mustern, die durch Simulation des Modells für Medikamente erzeugt werden, sondern führen zu ähnlichen Ergebnissen wie natürliche Belohnungen. Abbildung S4, Die Aufgabe, die zum Simulieren des auf Unsicherheiten basierenden Wettbewerbsmechanismus zwischen den Hierarchieebenen verwendet wird, um die Kontrolle über das Verhalten zu übernehmen. Abbildung S5, Simulationsergebnis, das eine allmähliche Verlagerung der Kontrolle über das Verhalten von höheren zu niedrigeren Ebenen der Hierarchie zeigt. Q (s, a) und Vereinigte Staaten von Amerika) zeigen den geschätzten Wert und die Unsicherheit der Zustand-Aktions-Paare.

doi: 10.1371 / journal.pone.0061489.s001

(PDF)

Anerkennungen

Wir danken S. Ahmed und P. Dayan für kritische Diskussionen und M. Reinoud, D. Redish, N. Daw, E. Koechlin und A. Dezfouli für das Kommentieren des Manuskripts.

Autorenbeiträge

Konzeption und Gestaltung der Experimente: MK. Die Experimente durchgeführt: MK. Analysierte die Daten: MK BG. Beigetragene Reagenzien / Materialien / Analysewerkzeuge: MK. Schrieb das Papier: MK BG.

Bibliographie

  1. 1. Narkotika anonym (2008). 6th ed. Welt Service Büro.
  2. 2. Goldstein A (2001) Sucht: Von der Biologie zur Drogenpolitik. Oxford University Press, USA.
  3. 3. Volkow ND, Fowler JS, Wang GJ, Swanson JM (2004) Dopamin bei Drogenmissbrauch und -sucht: Ergebnisse aus bildgebenden Studien und Auswirkungen auf die Behandlung. Molekulare Psychiatrie 9: 557 – 569. doi: 10.1038 / sj.mp.4001507. Finden Sie diesen Artikel online
  4. 4. Stacy AW, Wiers RW (2010) Implizite Kognition und Sucht: ein Werkzeug, um paradoxes Verhalten zu erklären. Jährliche Überprüfung der klinischen Psychologie 6: 551 – 575. doi: 10.1146 / annurev.clinpsy.121208.131444. Finden Sie diesen Artikel online
  5. 5. Diagnose- und Statistikhandbuch für psychische Störungen (DSM-IV) (2000). 4th ed. Washington, DC: Amerikanische Psychiatrische Vereinigung.
  6. 6. Lamb RJ, Preston KL, Schindler CW, Meisch RA, Davis F., et al. (1991) Die verstärkenden und subjektiven Auswirkungen von Morphin bei Post-Abhängigen: eine Dosis-Antwort-Studie. Das Journal für Pharmakologie und experimentelle Therapeutika 259: 1165 – 1173. Finden Sie diesen Artikel online
  7. 7. Goldstein RZ, Woicik PA, Moeller SJ, Telang F, Jayne M et al. (2010) Gleicher Nutzen von Medikamenten und Nichtmedikamenten bei aktiven Kokainkonsumenten: der STRAP-R-Fragebogen. Journal für Psychopharmakologie 24: 257 – 266. doi: 10.1177/0269881108096982. Finden Sie diesen Artikel online
  8. 8. Everitt BJ, Robbins TW (2005) Neuronale Verstärkungssysteme für Drogenabhängigkeit: von Handlungen über Gewohnheiten bis hin zu Zwang. Nature Neuroscience 8: 1481 – 1489. doi: 10.1038 / nn1579. Finden Sie diesen Artikel online
  9. 9. Redish AD (2004) Sucht als Rechenprozess, der schief gelaufen ist. Wissenschaft 306: 1944 – 1947. doi: 10.1126 / science.1102384. Finden Sie diesen Artikel online
  10. 10 Dezfouli A, Piray P, Keramati MM, Ekhtiari H, Lucas C, et al. (2009) Ein neurokomputierendes Modell für die Kokainsucht. Neuronale Berechnung 21: 2869 – 2893. doi: 10.1162 / neco.2009.10-08-882. Finden Sie diesen Artikel online
  11. 11 Piray P, Keramati MM, Dezfouli A, Lucas C, Mokri A (2010) Individuelle Unterschiede bei den Nucleus Accumbens-Dopamin-Rezeptoren sagen die Entwicklung von suchtabhängigem Verhalten voraus: ein rechnerischer Ansatz. Neuronale Berechnung 22: 2334 – 2368. doi: 10.1162 / NECO_a_00009. Finden Sie diesen Artikel online
  12. 12 Dayan P (2009) Dopamin, verstärktes Lernen und Sucht. Pharmakopsychiatrie 42: 56 – 65. doi: 10.1055 / s-0028-1124107. Finden Sie diesen Artikel online
  13. 13 Takahashi Y, Schönbaum G, Niv Y (2008) Die Kritiker zum Schweigen zu bringen: Die Auswirkungen der Kokain-Sensibilisierung auf das dorsolaterale und ventrale Striatum im Kontext eines Schauspieler / Kritiker-Modells zu verstehen. Grenzen in der Neurowissenschaft 2: 86 – 99. doi: 10.3389 / neuro.01.014.2008. Finden Sie diesen Artikel online
  14. 14 Redish AD, Jensen S, Johnson A (2008) Ein einheitlicher Rahmen für Sucht: Schwachstellen im Entscheidungsprozess. Die Verhaltens- und Gehirnwissenschaften 31: 415 – 487. doi: 10.1017 / S0140525X0800472X. Finden Sie diesen Artikel online
  15. 15 Botvinick MM (2008) Hierarchische Modelle des Verhaltens und der präfrontalen Funktion. Trends in den kognitiven Wissenschaften 12: 201 – 208. doi: 10.1016 / j.tics.2008.02.009. Finden Sie diesen Artikel online
  16. 16 Haruno M, Kawato M (2006) Heterarchisches Verstärkungs-Lernmodell für die Integration mehrerer kortiko-striataler Schleifen: fMRI-Untersuchung beim Stimulus-Action-Belohnung-Assoziationslernen. Neuronale Netze 19: 1242 – 1254. doi: 10.1016 / j.neu.net.2006.06.007. Finden Sie diesen Artikel online
  17. 17 Willuhn I., Burgeno LM, Everitt BJ, Phillips PEM (2012) Hierarchische Rekrutierung phasischer Dopaminsignale im Striatum während des Fortschreitens des Kokainkonsums. Verfahren der National Academy of Sciences 109: 20703 – 20708. doi: X. Finden Sie diesen Artikel online
  18. 18 Botvinick MM, Niv Y, Barto AC (2009) Hierarchisch organisiertes Verhalten und seine neuronalen Grundlagen: eine verstärkte Lernperspektive. Erkenntnis 113: 262 – 280. doi: 10.1016 / j.cognition.2008.08.011. Finden Sie diesen Artikel online
  19. 19 Badre D, D'Esposito M (2009) Ist die rostro-kaudale Achse des Frontallappens hierarchisch? Nature Reviews Neuroscience 10: 659–669. doi: 10.1038 / nrn2667. Finden Sie diesen Artikel online
  20. 20 Koechlin E, Ody C, Kouneiher F (2003) Die Architektur der kognitiven Kontrolle im menschlichen präfrontalen Kortex. Wissenschaft 302: 1181 – 1185. doi: 10.1126 / science.1088545. Finden Sie diesen Artikel online
  21. 21 Badre D., Hoffman J., Cooney J. W., D'Esposito M. (2009) Hierarchische kognitive Kontrolldefizite nach Schädigung des menschlichen Frontallappens. Nature Neuroscience 12: 515–522. doi: 10.1038 / nn.2277. Finden Sie diesen Artikel online
  22. 22 Alexander GE, DeLong MR, Strick PL (1986) Parallele Organisation von funktionell getrennten Stromkreisen, die Basalganglien und Cortex verbinden. Jährliche Überprüfung von Neuroscience 9: 357 – 381. doi: 10.1146 / annurev.neuro.9.1.357. Finden Sie diesen Artikel online
  23. 23 Alexander GE, Crutcher MD, DeLong MR (1990) Basalganglien-Thalamocortical-Kreisläufe: Parallele Substrate für motorische, okulomotorische, präfrontale und limbische Funktionen. Fortschritte in der Hirnforschung 85: 119 – 146. Finden Sie diesen Artikel online
  24. 24 Schultz W, Dayan P, Montague PR (1997) Ein neuronales Substrat der Vorhersage und Belohnung. Wissenschaft 275: 1593 – 1599. doi: 10.1126 / science.275.5306.1593. Finden Sie diesen Artikel online
  25. 25 Belin D, Everitt BJ (2008) Kokainsuchgewohnheiten hängen von der Dopamin-abhängigen seriellen Konnektivität ab, die die ventrale mit dem dorsalen Striatum verbindet. Neuron 57: 432 – 441. doi: 10.1016 / j.neuron.2007.12.019. Finden Sie diesen Artikel online
  26. 26 Haber SN, Fudge JL, McFarland NR (2000) Striatonigrostriatalwege in Primaten bilden eine aufsteigende Spirale von der Schale zum dorsolateralen Striatum. Das Journal of Neuroscience 20: 2369 – 2382. Finden Sie diesen Artikel online
  27. 27 Haber SN (2003) Die Basalganglien der Primaten: parallele und integrative Netzwerke. Journal of Chemical Neuroanatomy 26: 317 – 330. doi: 10.1016 / j.jchemneu.2003.10.003. Finden Sie diesen Artikel online
  28. 28 Sutton RS, Barto AG (1998) Verstärkung Lernen: Eine Einführung. Cambridge: MIT Press.
  29. 29 Di Chiara G, Imperato A (1988) Vom Menschen missbrauchte Medikamente erhöhen bevorzugt die Konzentration von synaptischem Dopamin im mesolimbischen System von frei beweglichen Ratten. Verfahren der National Academy of Sciences der Vereinigten Staaten von Amerika 85: 5274 – 5278. doi: X. Finden Sie diesen Artikel online
  30. 30 Daw ND, Niv Y, Dayan P (2005) Unsicherheitsbasierter Wettbewerb zwischen präfrontalen und dorsolateralen striatalen Systemen zur Verhaltenskontrolle. Nature Neuroscience 8: 1704 – 1711. doi: 10.1038 / nn1560. Finden Sie diesen Artikel online
  31. 31 Vanderschuren LJMJ, PD Ciano, Everitt BJ (2005) Beteiligung des dorsalen Striatums an der durch Cue kontrollierten Kokainsuche. Das Journal of Neuroscience 25: 8665 – 8670. doi: 10.1523 / JNEUROSCI.0925-05.2005. Finden Sie diesen Artikel online
  32. 32 Volkow ND, Wang GJ, Telang F, Fowler JS, Logan J, et al. (2006) Kokain-Queues und Dopamin im dorsalen Striatum: Mechanismus des Verlangens bei der Kokainsucht. Das Journal of Neuroscience 26: 6583 – 6588. doi: 10.1523 / JNEUROSCI.1544-06.2006. Finden Sie diesen Artikel online
  33. 33 Kalivas PW, Volkow ND (2005) Die neuronale Basis der Sucht: eine Pathologie der Motivation und Wahl. Das amerikanische Journal der Psychiatrie 162: 1403 – 1413. doi: 10.1176 / appi.ajp.162.8.1403. Finden Sie diesen Artikel online
  34. 34 Belin D, Jonkman S, Dickinson A, Robbins TW, Everitt BJ (2009) Parallele und interaktive Lernprozesse innerhalb der Basalganglien: Relevanz für das Verständnis von Sucht. Verhaltensforschung im Gehirn 199: 89 – 102. doi: 10.1016 / j.bbr.2008.09.027. Finden Sie diesen Artikel online
  35. 35 Matsumoto M, Hikosaka O (2009) Zwei Arten von Dopaminneuronen vermitteln eindeutig positive und negative Motivationssignale. Nature 459: 837 – 841. doi: 10.1038 / nature08028. Finden Sie diesen Artikel online
  36. 36 Frank MJ, Surmeier-DJ (2009) Unterscheiden Dopaminerge-Neuronen zwischen Belohnung und Bestrafung? Journal of Molecular Cell Biology 1: 15 – 16. doi: 10.1093 / jmcb / mjp010. Finden Sie diesen Artikel online
  37. 37 Vanderschuren LJMJ, Everitt BJ (2004) Die Drogensucht wird nach längerer Kokain-Selbstverabreichung zwingend. Wissenschaft 305: 1017 – 1019. doi: 10.1126 / science.1098975. Finden Sie diesen Artikel online
  38. 38 Deroche-Gamonet V, Belin D, Piazza PV (2004) Hinweise auf suchtabhängiges Verhalten bei der Ratte. Wissenschaft 305: 1014 – 1017. doi: 10.1126 / science.1099020. Finden Sie diesen Artikel online
  39. 39 Panlilio LV, Thorndike EB, Schindler CW (2007) Blockieren der Konditionierung auf einen Kokain-gepaarten Stimulus: Testen der Hypothese, dass Kokain auf Dauer ein Signal mit einer über den Erwartungen liegenden Belohnung erzeugt. Pharmakologie, Biochemie und Verhalten 86: 774 – 777. doi: 10.1016 / j.pbb.2007.03.005. Finden Sie diesen Artikel online
  40. 40 Kamin L (1969) Berechenbarkeit, Überraschung, Aufmerksamkeit und Konditionierung. In: Campbell BA, Church RM, Redakteure. Bestrafung und aversives Verhalten. New York: Appleton-Jahrhundert-Crofts. S. 279 – 296.
  41. 41 Dezfouli A, Balleine BW (2012) Gewohnheiten, Handlungsabläufe und Verstärkungslernen. Die europäische Zeitschrift für Neurowissenschaften 35: 1036 – 1051. doi: 10.1111 / j.1460-9568.2012.08050.x. Finden Sie diesen Artikel online
  42. 42 Koob GF, Le Moal M (2005) Neurobiologie der Sucht. San Diego: Academic Press