Belohnungsgesteuertes Lernen jenseits von Dopamin im Nucleus accumbens: die integrativen Funktionen von kortiko-basalen Ganglien-Netzwerken (2008)

Eur J Neurosci. 2008 Oct;28(8):1437-48. doi: 10.1111/j.1460-9568.2008.06422.x.

Yin HH1, Ostlund SB, Balleine BW.

Abstrakt

Hier bestreiten wir die Ansicht, dass belohnungsgesteuertes Lernen ausschließlich durch den mesoaccumbens-Stoffwechselweg gesteuert wird, der von dopaminergen Neuronen im ventralen Tegmentbereich ausgeht und auf den Nucleus accumbens projiziert. Diese weithin akzeptierte Ansicht geht davon aus, dass Belohnung ein monolithisches Konzept ist, aber die jüngsten Arbeiten haben etwas anderes vorgeschlagen. Es scheint nun, dass beim belohnungsgesteuerten Lernen die Funktionen der ventralen und dorsalen Striata und der damit verbundenen Kortikobalganglien-Schaltkreise getrennt werden können. Während der Nucleus Accumbens für den Erwerb und Ausdruck bestimmter appetitlicher Pawlowschen Reaktionen erforderlich ist und zur motivationalen Kontrolle der instrumentellen Leistung beiträgt, ist das dorsale Striatum für den Erwerb und Ausdruck instrumentaler Handlungen notwendig. Diese Ergebnisse deuten auf die Existenz mehrerer unabhängiger, aber interagierender funktionaler Systeme hin, die in iterierenden und hierarchisch organisierten Kortikobalganglienetzwerken implementiert werden, die appetitanregende Verhaltensweisen aufweisen, die von Reaktionen des Pawlowschen Ansatzes bis hin zu zielgerichteten instrumentellen Aktionen reichen, die durch unvorhergesehene Ereignisse gesteuert werden.

Stichwort: Striatum, Dopamin, Basalganglien, Lernen, Nucleus Accumbens, Belohnung

In der jüngsten Literatur ist es üblich geworden, ein monolithisches Konzept der "Belohnung" zu finden, das einheitlich auf appetitliches Verhalten angewandt wird, entweder etwas Gutes für den Organismus zu bezeichnen (normalerweise aus der Perspektive des Experimentators) oder mit älteren Begriffen wie "austauschbar" verwendet "Verstärkung" oder "Anreiz". Diese Situation wird durch die Fokussierung auf ein einzelnes neuronales Substrat als "Belohnung" gefördert, das die Freisetzung von Dopamin (DA) im Nukleus accumbens (Berke und Hyman, 2000; Grace et al., 2007).

Die Verbindung zwischen Mesoaccumbens-Pfad und Belohnung, die vor Jahrzehnten erkannt wurde, wurde durch neuere Beweise wiederbelebt, die besagen, dass das phasische DA-Signal einen Belohnungsvorhersagefehler codiert, der vermutlich als Lehrsignal beim assoziativen Lernen dientg (Schultz et al., 1997). Nach der populärsten Interpretation gibt es genau wie ein einzelnes Signal für die Belohnung ein einzelnes Signal für das belohnungsgesteuerte Lernen, das in diesem Fall eine Verbindung zwischen einem Stimulus und einer Belohnung bedeutet (Montague et al., 2004). Die Frage, wie diese Art des Lernens das adaptive Verhalten steuert, wurde jedoch vernachlässigt. Es wird lediglich angenommen, dass das Dopaminsignal sowohl für das prädiktive Lernen als auch für die damit erzeugten bedingten Reaktionen und für zielgerichtete Handlungen ausreicht, die sich aus ihrer Verbindung mit Belohnung leiten. Daher liegt der Schwerpunkt der meisten Forschungen im Bereich Belohnung und Sucht auf DA-Signalisierung und damit zusammenhängender Plastizität im mesoaccumbens-Weg (Berridge und Robinson, 1998; Hyman et al., 2006; Grace et al., 2007).

Diese Ansicht des Belohnungsprozesses wird zunehmend anerkannt (Kardinal et al., 2002; Balleine, 2005; Everitt und Robbins, 2005; Hyman et al., 2006) ist sowohl unzureichend als auch irreführend. Dies ist unzureichend, da weder die Akquisition noch die Durchführung zielgerichteter Handlungen durch assoziative Prozesse erklärt werden können, die das Lernen mit Stimulus-Belohnung vermitteln. Dies ist zudem irreführend, weil der ausschließliche Fokus auf Aktivitäten im mesoaccumbens-Weg, der für zielgerichtete Aktionen weder notwendig noch ausreichend ist, die Aufmerksamkeit von der grundlegenderen Frage abgelenkt hat, was genau zielgerichtete Aktionen sind und wie sie umgesetzt werden durch das Gehirn Nach konvergierenden Beweisen aus einer Vielzahl experimenteller Ansätze kann ein bisher als einzelner Belohnungsmechanismus erscheinender Mechanismus tatsächlich mehrere Prozesse mit unterschiedlichen Verhaltenseffekten und neuronalen Substraten umfassen (Corbitet al., 2001; O'Doherty et al., 2004; Yinet al., 2004; Delgadoet al., 2005; Yin et al., 2005b; Haruno und Kawato, 2006a; Tobler et al., 2006; Jedynak et al., 2007; Robinson et al., 2007; Tobler et al., 2007).

Hier versuchen wir, einige der Probleme aufzuzeigen, die mit dem aktuellen Mesoaccumbens-Modell verbunden sind, und an deren Stelle ein anderes Modell des belohnungsgesteuerten Lernens vorzuschlagen. Wir werden argumentieren, dass das Striatum eine sehr heterogene Struktur ist, die in mindestens vier Funktionsbereiche unterteilt werden kann, von denen jeder als Knotenpunkt in einem bestimmten Funktionsnetzwerk mit anderen kortikalen, thalamischen, pallidalen und mittelhirnigen Komponenten fungiert. Die integrativen Funktionen dieser Netzwerke, die von der Erzeugung bedingungsloser Reaktionen, die durch Belohnung hervorgerufen werden, bis zur Steuerung zielgerichteter Aktionen reichen, können mit zeitgemäßen Verhaltenstests getrennt und untersucht werden.

Vorhersage und Kontrolle

Der Mesoaccumbens-Weg wird häufig als notwendig angesehen, um eine Verbindung zwischen Belohnung und Umweltreizen zu erhalten, die diese Belohnung vorhersagen. In einigen der Experimente, die die durch Belohnung hervorgerufene phasische Aktivität von DA-Zellen untersuchten, wurden beispielsweise Affen trainiert, um einen Reiz mit der Abgabe von Saft zu assoziieren (Waelti et al., 2001) und anschließend auf den Reiz mit einer bedingten Reaktion (CR) reagieren - Das Lecken des Affen könnte zielgerichtet sein, weil er der Meinung ist, dass es notwendig ist, Saft zu erhalten. Alternativ kann das Lecken durch den vorangegangenen Stimulus ausgelöst werden, mit dem der Saft verbunden ist. Welche dieser Determinanten beim Lecken der Affen kontrolliert das Verhalten in einer bestimmten Situation ist nicht bekannt a prioriund kann nicht durch oberflächliche Beobachtung bestimmt werden; Sie kann nur durch speziell für diesen Zweck entwickelte Tests bestimmt werden. Diese Tests, deren Entwicklung viele Jahrzehnte dauerte, bilden den Kern der großen modernen Fortschritte in der Erforschung von Lernen und Verhalten (Tabelle 1). Aus der Verwendung dieser Tests, die im Folgenden erläutert werden, wissen wir nun, dass dieselbe Verhaltensreaktion - ob ambulanter Ansatz, Orientieren oder Drücken eines Hebels - aus mehreren experimentell dissoziierbaren Einflüssen entstehen kann.

Tabelle 1  

Belohnungsorientiertes Lernen

Die Unempfindlichkeit gegenüber der zentralen Zweideutigkeit in den tatsächlichen Determinanten des Verhaltens ist daher das Hauptproblem bei der aktuellen neurowissenschaftlichen Analyse des belohnungsgesteuerten Lernens. TUm die Bedeutung dieses Problems zu verstehen, ist es notwendig, die Unterschiede zwischen der Art und Weise, wie vorausschauendes Lernen (oder Pavlovianisches Lernen) und zielgerichtetes (oder instrumentelles) Lernen das appetitive Verhalten steuern, zu verstehen. Wenn man beurteilt, wie oft diese beiden Prozesse in der Literatur zur Belohnung zusammengefügt wurden, scheint eine kurze Überprüfung dieser Unterscheidung ein nützlicher Ausgangspunkt für unsere Diskussion zu sein.

Bei der appetitlichen Pavlovschen Konditionierung wird die Belohnung (dh der bedingungslose Stimulus oder die USA) unabhängig vom Verhalten des Tieres mit einem Stimulus (Konditional Stimulus oder CS) gepaart, während beim instrumentellen Lernen die Belohnung von den Handlungen der Tiere abhängt. Die kritische Frage in beiden Situationen ist jedoch, ob die Stimulus-Belohnung-Assoziation oder die Aktion-Belohnung-Assoziation das Verhalten kontrolliert.

So einfach es auch scheint, diese Frage entging Ermittlern für viele Jahrzehnte weitgehend, weil die Verhaltensreaktionen in diesen Situationen identisch aussehen können.

Daher können die bedingten Reaktionen (CRs), die von der Pavlovian-Stimulus-Belohnung-Vereinigung gesteuert werden, oft eine Richtung zielgerichteter Ausrichtung aufweisen. Sogar Speichelfluss, Pavlovs Original-CR, hätte von seinen Hunden als bewusster Versuch, die Einnahme zu erleichtern, produziert werden können. Genau wegen dieser Mehrdeutigkeit hat die offensichtlichste Erklärung - nämlich, dass in der Pavlovschen Konditionierung die Stimulus-Ergebnis-Assoziation gelernt wird, während in der Instrumental-Konditionierung die Aktions-Ergebnis-Assoziation gelernt wird - viele Jahrzehnte lang keine Unterstützung gefunden (Skinner, 1938; Ashby, 1960; Bolles, 1972; Mackintosh, 1974). Obwohl viele Pavlovian CRs autonom oder konsumatorisch sind, werden andere CRs, wie das Herangehen an eine Belohnung, nicht so bequem charakterisiert (Rescorla und Solomon, 1967); in der Tat können sie leicht für instrumentelle Handlungen gehalten werden (Brown und Jenkins, 1968; Williams und Williams, 1969; Schwartz und Gamzu, 1977). Wir wissen jetzt, dass trotz einer oberflächlichen Ähnlichkeit die CRs und die zielgerichteten instrumentellen Aktionen von Pavlov in der Repräsentationsstruktur unterschiedlich sind, die die Leistung der Antwort steuert (Schwartz und Gamzu, 1977).

Das direkteste Mittel, um festzustellen, ob die Leistung einer Antwort durch eine Stimulus-Belohnung oder eine Aktion-Belohnung-Assoziation vermittelt wird, besteht in der Untersuchung der spezifischen Kontingenzsteuerungsleistung. Das Beispiel des Speichelflusses ist hier aufschlussreich. Sheffield (1965) testeten, ob der Speichelfluss in der Pavlovschen Konditionierung durch die Beziehung zur Belohnung oder durch die Stimulus-Belohnung-Assoziation gesteuert wurde. In seinem Experiment erhielten Hunde Paarungen zwischen einem Ton und einer Nahrungsbelohnung (Sheffield, 1965). Wenn sich die Hunde während des Tones jedoch salivierten, wurde das Futter in diesem Versuch nicht geliefert. Diese Vereinbarung hielt eine pavlovianische Beziehung zwischen dem Tonus und der Nahrung aufrecht, schaffte jedoch jeden direkten Zusammenhang zwischen Speichelfluss und Nahrungsmittellieferung. Wenn der Speichelfluss eine durch seine Beziehung zu Futter kontrollierte Wirkung war, sollten die Hunde aufhören zu speicheln - tatsächlich sollten sie überhaupt keinen Speichelfluss im Tonfall bekommen. Sheffield fand heraus, dass es eindeutig die pawlowsche Ton-Food-Beziehung war, die den Speichelfluss CR kontrollierte. Im Verlauf von über 800-Ton-Futter-Paarungen nahmen die Hunde den Speichelfluss auf und hielten den Tonfall aufrecht, obwohl dies dazu führte, dass sie den Großteil der Nahrung verloren hatten, die sie hätten erhalten können, wenn sie nicht Speichel bildeten. Eine ähnliche Schlussfolgerung wurde von anderen in Studien mit Menschen (Pithers, 1985) und anderen Tieren (Brown und Jenkins, 1968; Williams & Williams, 1969; Holland, 1979); In allen Fällen scheint es, dass die Antworten von Pavlov trotz ihrer großen Vielfalt nicht durch ihre Beziehung zur Belohnung - dh durch die Eventualität der Aktionsergebnisse - gesteuert werden.

Der Begriff "Eventualität" bezieht sich auf die bedingte Beziehung zwischen einem Ereignis "A" und einem anderen "B", so dass das Auftreten von B von A abhängt. Eine solche Beziehung kann leicht abgebaut werden, indem B in Abwesenheit von A präsentiert wird Eine experimentelle Manipulation, die als Kontingenzverschlechterung bezeichnet wird, wird im Allgemeinen so durchgeführt, dass eine Belohnung unabhängig vom prädiktiven Stimulus oder der Aktion präsentiert wird. Obwohl dieser Ansatz ursprünglich entwickelt wurde, um die Konditionierung von Pavlov zu untersuchen (Rescorla, 1968) ist auch die instrumentelle Kontingenzverschlechterung zu einem gängigen Instrument geworden (Hammond, 1980). Wenn diese Kontingenzen direkt manipuliert werden, wird der Lerninhalt enthüllt: Zum Beispiel wird eine Pavlovian CR, die als instrumentelle Aktion "getarnt" ist, durch Manipulationen des Pavlovian statt durch die instrumentelle Kontingenz (Schwartz und Gamzu, 1977).

Zielgerichtete instrumentelle Maßnahmen werden durch zwei Kriterien charakterisiert: 1-Empfindlichkeit gegenüber Änderungen des Ergebniswerts und 2-Empfindlichkeit gegenüber Änderungen der Kontingenz zwischen Aktion und Ergebnis (Dickinson, 1985; Dickinson und Balleine, 1993). Die Sensitivität für die Ergebnisabwertung allein reicht nicht aus, um eine Antwort als zielgerichtet zu charakterisieren, da einige pavlovianische Reaktionen auch auf diese Manipulation empfindlich sein können (Holland und Rescorla, 1975). Die Durchführung zielgerichteter instrumenteller Aktionen ist jedoch auch anfällig für Manipulationen der Aktionsergebniskontingenz, wohingegen die Reaktionen der Pavlovianer auf Manipulationen der Stimulus-Ergebniskontingenz reagieren (Rescorla, 1968; Davis und Bitterman, 1971; Dickinson und Charnock, 1985). Eine wichtige Ausnahme kann jedoch bei den Gewohnheiten (siehe unten) gefunden werden, die den Reaktionen von Pavlov in ihrer relativen Unempfindlichkeit gegenüber Änderungen der instrumentellen Kontingenz eher ähneln, aber auch für die Ergebnisabwertung unempfänglich sind, da das Ergebnis nicht Teil ist der repräsentativen Struktur zur Kontrolle der Leistung (vgl. Dickinson, 1985 und unten für weitere Diskussion).

Zusammenfassend ist es also von größter Bedeutung, dass eine bestimmte Antwort klar definiert wird, und zwar als kontrollierende Kontingenz und nicht entweder durch die Antwortform oder die Verhaltensaufgabe, mit der sie festgelegt wurde. Ohne die kontrollierende Kontingenz in einer bestimmten Situation zu untersuchen, ist es wahrscheinlich, dass sowohl das Verhalten als auch die neuronalen Vorgänge, die das Verhalten vermitteln, falsch charakterisiert werden. Wie wir später behaupten werden, steuern letztlich die durch das Lernen erworbenen und durch verschiedene neuronale Systeme implementierten tatsächlichen Kontingenzen, die das Verhalten steuern, obwohl sie den gleichen "letzten gemeinsamen Weg" haben. Die zentrale Herausforderung besteht daher darin, über das Scheinbare hinauszugehen, um das zugrunde liegende Verhalten bei der Steuerung der Eventualität aufzudecken (für eine Zusammenfassung siehe Tabelle 1). Um zu behaupten, dass bestimmte neuronale Strukturen bestimmte psychologische Fähigkeiten, z. B. Zielgerichtetheit, vermitteln, muss der Status des Verhaltens mit den entsprechenden Verhaltenstests bewertet werden. Andernfalls zu tun, bedeutet Verwirrung zu stiften, während Gruppen über die entsprechenden neuronalen Determinanten streiten, ohne zu erkennen, dass ihre Verhaltensaufgabe unterschiedliche Phänomene messen könnte. Was letztendlich zählt, ist das, was das Tier tatsächlich lernt, nicht das, was der Experimentator glaubt, dass das Tier lernt, und was das Tier tatsächlich lernt, kann nur durch Assays offenbart werden, die den Lerninhalt direkt untersuchen.

Die pavlowsche Instrumentalunterscheidung wäre trivial gewesen, wenn es dem Tier gelingen würde, dasselbe zu lernen (beispielsweise eine Verbindung zwischen Stimulus und Belohnung), unabhängig von den experimentellen Vorkehrungen. Mit den gebräuchlichsten Lernmethoden, die der Neurowissenschaft heute zur Verfügung stehen, gibt es einfach keine Möglichkeit zu sagen. Forscher behaupten daher häufig, zielgerichtetes Verhalten zu studieren, ohne zu prüfen, ob das fragliche Verhalten tatsächlich auf das Ziel ausgerichtet ist. Obwohl allgemein angenommen wird, dass unterschiedliche Lernformen aus der Verwendung unterschiedlicher "Aufgaben" oder "Paradigmen" resultieren, liefern die Forscher den Annahmen meistens keine angemessene Begründung.

Ein klassisches Beispiel für dieses Problem ist der Einsatz von Labyrinthe zum Lernen. Ein Problem bei Labyrinth-Experimenten und verwandten Assays, wie etwa der konditionierten Ortspräferenz, ist die Schwierigkeit, den Einfluss des Pavlovian (Stimulus-Belohnung) und der instrumentellen (Handlungsbelohnung) Eventualität experimentell auf das Verhalten (Dickinson, 1994; Yin und Knowlton, 2002). Wenn Sie sich durch ein T-Labyrinth bewegen, um Nahrung zu erhalten, könnte dies eine Antwortstrategie (links abbiegen) oder einfach eine konditionierte Annäherung an ein zusätzliches Labyrinth-Wahrzeichen sein, das von der Cue-Food-Vereinigung kontrolliert wird (Restle 1957). Eine Möglichkeit, zu testen, ob letztere eine Rolle bei der Leistung spielt, besteht darin, das Labyrinth umzukehren. Antwort-Lernende sollten jetzt weiterhin nach links abbiegen, wohingegen diejenigen, die zusätzliche Labyrinthe verwenden, nach rechts abbiegen. Aber wenden diejenigen, die sich weiterhin nach links wenden, tatsächlich eine Antwortstrategie an oder nähern sie sich nur einigen Intra-Mazze Queue mit Essen verbunden? Es ist keine einfache Sache, dies herauszufinden, da die üblichen Steuerelemente für die Pavlovianische Verhaltenskontrolle in Labyrinthstudien nicht ohne weiteres angewendet werden können. Eine davon, die bidirektionale Kontrolle, legt fest, dass Tiere die Kontrolle über eine bestimmte Reaktion ausüben können, indem sie eine Richtungsumkehr dieser Reaktion erfordern, um eine Belohnung zu erhalten (Hershberger, 1986; Heyes und Dawson, 1990). Leider kann die Antwortumkehrung in einem Labyrinth immer noch nicht ausreichen, um eine zielgerichtete Aktion festzulegen, da die Umkehrung dadurch erreicht werden kann, dass die bestehende Reiz-Belohnungs-Beziehung gelöscht und durch eine andere ersetzt wird. Zum Beispiel kann eine Ratte, die sich einem bestimmten Intra-Labyrinth nähert, während der Umkehrung lernen, dass sie nicht mehr mit Belohnungen gepaart ist, sondern dass ein anderer Reiz vorliegt, der dazu führt, dass eine Annäherung an den neuen Reiz entsteht. Sie können also offenbar ihre Antwort umkehren, ohne jemals die Antwort-Belohnung-Kontingenz codiert zu haben. Da diese Möglichkeit nicht in der Praxis getestet werden kann, ist der Einsatz von Labyrinthen, Platzierungspräferenzverfahren oder einfachen Bewegungsaufgaben zur Untersuchung zielgerichteter Lernprozesse besonders gefährlich und führt wahrscheinlich zu einer Fehlcharakterisierung der Prozesse, die das Verhalten steuern, zusammen mit der spezifischen Rolle eines neuralen Systems Vorgefundene Prozesse (Smith-Roe und Kelley, 2000; Hernandezet al., 2002; Atallah et al., 2007).

Nucleus accumbens ist für das instrumentelle Lernen nicht erforderlich

Die Unzulänglichkeiten der aktuellen Verhaltensanalyse werden besonders deutlich bei der Untersuchung des Nucleus accumbens. Viele Studien haben gezeigt, dass diese Struktur für die Erfassung zielgerichteter Maßnahmen von entscheidender Bedeutung ist (Hernandezet al., 2002; Goto und Gnade, 2005; Hernandezet al., 2005; Pothuizen et al., 2005; Taha und Felder, 2006; Atallah et al., 2007; Cheer ua, 2007; Lerchner et al., 2007). Diese Schlussfolgerung wurde jedoch weitgehend auf der Grundlage von Kennzahlen einer Leistungsänderung allein unter Verwendung von Aufgaben gezogen, bei denen das Kontingenzsteuerungsverhalten mehrdeutig ist. Obwohl die Beobachtung, dass eine Manipulation den Erwerb bestimmter Verhaltensreaktionen beeinträchtigt, auf ein Lerndefizit hindeuten könnte, könnte dies auch einen Einfluss auf die Initiierung oder Motivation der Reaktion widerspiegeln. Beispielsweise kann eine Beeinträchtigung bei der Akquisition von Hebeldrücken häufig einen Einfluss auf die Leistung und nicht auf das Lernen haben (Smith-Roe und Kelley, 2000). Erfassungskurven als unvollständige Repräsentationen eines Lernprozesses müssen nur mit Vorsicht interpretiert werden (Gallistel et al., 2004). Leider wird die Unterscheidung zwischen Lernen und Leistung, die vielleicht älteste Lektion des Lernens, heute oft ignoriert.

Eine detailliertere Analyse zeigt, dass das Accumbens für instrumentelles Lernen weder notwendig noch ausreichend ist. Läsionen der Accumbens-Schale ändern die Empfindlichkeit der Leistung gegenüber der Ergebnisabwertung nicht (de Borchgrave et al., 2002; Corbit et al., 2001) oder zu einem instrumentellen Notfallabbau (Corbit et al., 2001), während festgestellt wurde, dass Läsionen des Accumbens-Kerns die Empfindlichkeit für die Abwertung verringern, ohne die Empfindlichkeit der Ratten für den selektiven Abbau der instrumentellen Kontingenz zu beeinträchtigen (Corbitet al., 2001). Andere Studien, die den Effekt von Accumbens-Manipulationen auf den Erwerb einer neuen Reaktion in Studien zur konditionierten Verstärkung beurteilen, haben durchweg einen Effekt auf die belohnungsbezogene Leistung, insbesondere die Steigerung der Leistung durch Amphetamin, gefunden, nicht jedoch auf den Erwerb der Antwort per se (Parkinson) et al., 1999). In einer systematischen Studie von Cardinal und Cheung wurde ebenfalls keine Auswirkung von Accumbens-Core-Läsionen auf den Erwerb einer Hebelpresse-Reaktion unter einem kontinuierlichen Verstärkungsplan festgestellt. eine beeinträchtigte Akquisition wurde nur bei verspäteter Verstärkung beobachtet (Kardinal und Cheung, 2005).

Obwohl das Accumbens die instrumentelle Kontingenz nicht codiert (Balleine & Killcross, 1994; Corbit, Muir & Balleine, 2001) deuten beträchtliche Beweise darauf hin, dass es eine entscheidende Rolle bei Leistungeine Rolle, die wir nun anhand der jüngsten Arbeit besser definieren können. Wie aus mehreren Studien hervorgeht, ist das Accumbens für bestimmte Arten der appetitlichen Pavlovschen Konditionierung kritisch und vermittelt sowohl die unspezifischen erregenden Wirkungen, die belohnungsassoziierte Signale auf die instrumentelle Leistung haben können, als auch die ergebnisspezifischen Verzerrungen bei der erzeugten Antwortselektion durch solche Hinweise. Läsionen des Kerns oder des vorderen Cingulats, eine Hauptquelle für kortikale Eingaben in den Kern oder eine Trennung zwischen diesen beiden Strukturen, beeinträchtigen die Erlangung des Verhaltens der Pawlowschen Annäherung (Parkinson et al., 2000). Die lokale Infusion eines D1-ähnlichen Dopaminrezeptorantagonisten oder eines NMDA-Glutamatrezeptorantagonisten unmittelbar nach dem Training beeinträchtigte diese Lernform ebenfalls, ohne die Leistung zu beeinträchtigen (Dalley et al., 2005). Diese Daten stimmen mit Maßnahmen von in vivo neuronale Aktivität. Beispielsweise fanden Carelli und Kollegen heraus, dass Neuronen im Accumbens-Kern ihre Aktivität systematisch ändern können, während sie eine autonome Pawlow-Aufgabe (Day et al., 2006; Tag und Carelli, 2007).

Neuronen in der Muschelregion scheinen auf Belohnungen und aversive Reize abgestimmt zu sein, sogar vor jeder Lernerfahrung. Sie sind auch in der Lage, Antworten auf CS zu entwickeln, die diese Ergebnisse vorhersagen (Roitman et al., 2005). Arbeit von Berridge und Kollegen, außerdem hat die Möglichkeit hervorgehoben, dass bestimmte Regionen innerhalb der Nucleus Accumbens-Schale und im nachgelagerten ventralen Pallidum als „hedonische Hotspots“ bezeichnet werden können. Diese Bereiche modulieren direkt bedingungslose hedonische Reaktionen auf Belohnungen, z. B. die Geschmacksreaktivität. Zum Beispiel können Agonisten von Opioidrezeptoren in diesen Regionen die Geschmacksreaktivität gegenüber der Aufnahme von Saccharose signifikant verstärken. Solche stark lokalisierten Regionen sind jedoch in breitere Netzwerke eingebettet, die für das konsumatorische Appetitivverhalten keine Rolle spielen (Taha und Felder, 2005; Pecina et al., 2006; Taha und Felder, 2006).

Der Unterschied in den relativen Rollen von Kern und Hülle scheint zwischen vorbereitenden und konsumatorischen Appetitivitäten zu bestehen, die durch verschiedene Arten der Pavlovschen Konditionierung leicht durch Erfahrung verändert werden können. Vorbereitende Reaktionen wie die Herangehensweise sind mit allgemeinen emotionalen Qualitäten des Ergebnisses verbunden, wohingegen das konsumatorische Verhalten mit spezifischeren sensorischen Qualitäten verbunden ist. Sie sind auch unterschiedlich anfällig für verschiedene Arten von CS, z. B. sind vorbereitende Reaktionen leichter mit einem Stimulus mit langer Dauer zu konditionieren (Konorski, 1967; Dickinson und Dearing, 1979; Balleine, 2001; Dickinson und Balleine, 2002).

Auf jeden Fall sind die Beweise, die die Accumbens in einigen Aspekten der Pavlovschen Konditionierung implizieren, überwältigend. Es ist jedoch nicht die einzige Struktur, die beteiligt ist, und andere Netzwerke, wie etwa diejenigen, die die verschiedenen Amygdaloidkerne involvieren, scheinen ebenfalls eine zentrale Rolle sowohl in den vorbereitenden als auch in den konsumatorischen Komponenten der Pavlovschen Konditionierung zu spielen (Balleine und Killcross, 2006).

Eine Funktion, die eindeutig den Accumbens zugeschrieben werden kann, ist die Integration von Pavlov-Einflüssen in das instrumentale Verhalten. Pavlovianische CRs, einschließlich solcher, die die Aktivierung zentraler Motivationszustände wie Verlangen und Erregung widerspiegeln, können einen starken Einfluss auf die Durchführung instrumenteller Handlungen ausüben (Trapold und Overmier, 1972; Lovibond, 1983; Holland, 2004). Beispielsweise kann eine CS, die unabhängig voneinander die Nahrungsmittellieferung vorhersagt, die instrumentelle Reaktion für genau dieselbe Nahrung erhöhen. Dieser Effekt wird im Allgemeinen anhand des Pavlovian-Instrumental-Transfer-Paradigmas (PIT) untersucht. In PIT erhalten Tiere getrennte Pavlovianische und Instrumental-Trainingsphasen, in denen sie unabhängig lernen, einen Hinweis mit dem Essen zu verknüpfen und einen Hebel für dasselbe Futter zu drücken. Bei Probelaufversuchen wird der Cue mit verfügbarem Hebel präsentiert und die Erhöhung der Antwortraten bei Vorhandensein des CS wird gemessen. Es wurden zwei Formen der PIT identifiziert. Eine bezog sich auf den allgemein erregenden Effekt von belohnungsbezogenen Hinweisen und einen zweiten selektiveren Effekt auf die Wahlleistung, der durch den Vorhersagestatus eines Queues mit Bezug auf eine bestimmte Belohnung im Vergleich zu anderen erzeugt wurde. Die Accumbens-Hülle ist für diese letztere ergebnisspezifische Form der PIT erforderlich, jedoch weder für die erstere, allgemeinere Form noch für die Sensitivität gegenüber einer Ergebnisabwertung; Im Gegensatz dazu reduzieren Läsionen des Accumbens-Kerns die Empfindlichkeit sowohl auf die Ergebnisabwertung als auch auf die allgemeine Form der PIT, lassen jedoch die ergebnisspezifische PIT intakt (Corbitet al., 2001; (Balleine und Corbit, 2005).

Eine kürzlich durchgeführte Studie lieferte weitere Einblicke in die Rolle der Accumbens-Hülle für die ergebnisspezifische PIT (Wiltgen et al., 2007). Die kontrollierte Expression von aktiver Calcium / Calmodulin-abhängiger Proteinkinase II (CaMKII) im Striatum beeinflusste das instrumentelle oder Pavlovianische Lernen nicht, schaffte jedoch die spezifische PIT. Dieses Defizit an PIT war nicht dauerhaft und konnte durch Deaktivieren der Transgenexpression mit Doxycyclin aufgehoben werden. Dies zeigt, dass das Defizit nur mit der Leistung in Zusammenhang steht. Die künstliche Erhöhung des CaMKII-Spiegels im Striatum blockiert daher die ertragsspezifische Übertragung der Anreizmotivation vom Pavlovian zum Instrumentalsystem. Interessanterweise reduzierte das Einschalten des CaMKII-Transgens auch die Erregbarkeit von Neuronen in der Accumbens-Hülle, ohne die Basalübertragung oder die synaptische Stärke zu beeinträchtigen.

Das dorsale Striatum

Das dorsale Striatum, auch bekannt als Neostriatum oder Caudate-Putamen, erhält massive Projektionen vom sogenannten Neokortex. Es kann weiter unterteilt werden in eine assoziative Region, die bei Nagetieren medialer und durchgängiger mit dem ventralen Striatum ist, und eine sensomotorische Region, die mehr lateral ist (Groenewegen et al., 1990; Joel und Weiner, 1994). Insgesamt ist das dorsale Striatum von DA-Zellen aus der Substantia nigra pars compacta (SNc) innerviert und erhält nur magere Projektionen von den VTA-DA-Neuronen (Joel und Weiner, 2000). Frühere Arbeiten am dorsalen Striatum konzentrierten sich hauptsächlich auf seine Rolle beim Lernen mit Reizreaktionen (SR).Miller, 1981; Weiß, 1989). Diese Sichtweise basiert auf dem Gesetz der Wirkung, wonach eine Belohnung eine SR-Assoziation zwischen den Umgebungsreizen und der Reaktion, die als Folge davon durchgeführt wird, verstärkt oder verstärkt, als Folge davon, dass die Tendenz, diese Antwort auszuführen, in Gegenwart dieser zunimmt Reize (Thorndike, 1911; Rumpf, 1943; Miller, 1981). Man nimmt an, dass der kortikostriatale Weg das SR-Lernen vermittelt, wobei DA als Verstärkungssignal fungiert (Miller, 1981; Reynolds und Wickens, 2002).

SR-Modelle haben den Vorteil, dass sie eine sparsame Regel enthalten, um das Lernen in Leistung umzusetzen. Ein auf handlungsbezogenen Erwartungen basierendes Modell ist dagegen komplizierter, da der Glaube „Aktion A führt zu Outcome O“ nicht unbedingt in Aktion umgesetzt werden muss (Guthrie, 1935; Mackintosh, 1974); Informationen dieser Art können sowohl zur Ausführung von 'A' als auch zur Vermeidung von 'A' verwendet werden. Aus diesem Grund haben traditionelle Theorien die naheliegendste Erklärung gemieden - nämlich, dass Tiere eine Kontingenz für das Aktionsergebnis erhalten können, die das Wahlverhalten steuert. In den letzten Jahrzehnten wurde das Wirkgesetz jedoch grundlegend überarbeitet (Adams, 1982; Colwill und Rescorla, 1986; Dickinson, 1994; Dickinson et al., 1996). TDie Ergebnisse vieler Studien haben gezeigt, dass instrumentelle Maßnahmen wirklich zielgerichtet sein können, dh empfindlich für Änderungen des Belohnungswerts sowie für die kausale Wirksamkeit der Maßnahme (siehe Dickinson & Balleine, 1994; 2002; Balleine, 2001 für Bewertungen). Im Verlaufe des umfangreichen Trainings unter konstanten Bedingungen können jedoch auch neu erworbene Aktionen relativ automatisch und stimulusgesteuert werden - ein Vorgang, der als Gewohnheitsbildung bekannt ist (Adams und Dickinson, 1981; Adams, 1982; Yinet al., 2004). Die so definierten Gewohnheiten, die automatisch durch vorhergehende Reize ausgelöst werden, werden nicht durch die Erwartung oder Darstellung des Ergebnisses gesteuert. Sie sind folglich unempfindlich gegen Änderungen des Ergebniswerts. Aus dieser Perspektive ist das Wirkgesetz daher ein Sonderfall, der nur für gewohnheitsmäßiges Verhalten gilt.

Die derzeitige Einteilung des instrumentellen Verhaltens unterteilt es in zwei Klassen. TDie erste Klasse umfasst zielgerichtete Aktionen, die durch die instrumentelle Kontingenz gesteuert werden. das zweite, gewohnheitsmäßige Verhalten, das für Änderungen des Ergebniswerts unempfindlich ist (Tabelle 1). Mit Verhaltenstests wie Ergebnisabwertung und instrumenteller Kontingenzabbau stellten Yin et al. Eine funktionelle Dissoziation zwischen dem sensomotorischen (dorsolateralen Striatum, DLS) und assoziativen Regionen (dorsomediales Striatum, DMS) des dorsalen Striatum (Yin und Knowlton, 2004; Yinet al., 2004, 2005a; Yin et al., 2005b; Yin et al., 2006a). Läsionen des DLS beeinträchtigten die Entwicklung der Gewohnheiten und führten zu einer zielgerichteteren Verhaltenssteuerung. Läsionen des DMS haben den gegenteiligen Effekt und führen zu einer Umstellung von zielgerichteter auf gewohnheitsmäßige Kontrolle. Yin et al schlussfolgerten daraus, dass das DLS und das DMS funktional in Bezug auf die Art der assoziierten Strukturen, die sie unterstützen, getrennt werden können: Das DLS ist für die Gewohnheitsbildung kritisch, während das DMS für den Erwerb und Ausdruck zielgerichteter Maßnahmen kritisch ist. Diese Analyse sagt voraus, dass sich die Kontrolle von Aktionen unter bestimmten Bedingungen (z. B. erweitertes Training) vom DMS-abhängigen System auf das DLS-abhängige System verlagern kann. Diese Schlussfolgerung stimmt weitgehend mit der umfangreichen Literatur zu Primaten überein, einschließlich des menschlichen Neuroimaging (Hikosaka et al., 1989; Jueptner et al., 1997a; Miyachi et al., 1997; Miyachi et al., 2002; Delgadoet al., 2004; Haruno et al., 2004; Tricomi et al., 2004; Delgadoet al., 2005; Samejima et al., 2005; Haruno und Kawato, 2006a, b; Lohrenz et al., 2007; Tobler et al., 2007). Es sollte natürlich daran erinnert werden, tallein der physische Ort (z. B. dorsal oder ventral) kann keine verlässliche Orientierungshilfe beim Vergleich des Nagetierstriatum und des Primatenstriatum sein; Solche Vergleiche sollten nach sorgfältiger Abwägung der anatomischen Konnektivität mit Vorsicht erfolgen.

Die Auswirkungen dorsaler striataler Läsionen können mit denen von Accumbens-Läsionen verglichen werden (Smith-Roe und Kelley, 2000; Atallah et al., 2007). Wie bereits erwähnt, sind die Standardtests zum Festlegen eines Verhaltens als „zielgerichtet“ die Abwertung des Ergebnisses und die Beeinträchtigung der Aktions-Eventualität (Dickinson und Balleine, 1993). Läsionen des DMS machen das Verhalten unempfindlich gegen beide Manipulationen (Yin et al., 2005b), während Läsionen des Accumbens-Kerns oder der Hülle nichtCorbitet al., 2001). Darüber hinaus werden die Sondentests dieser Verhaltenstests typischerweise ohne jegliche Belohnung aussterben, um zu beurteilen, was das Tier ohne Kontamination durch neues Lernen gelernt hat. Sie untersuchen somit direkt die das Verhalten steuernde Repräsentationsstruktur. Als zusätzliche experimentelle Kontrolle ist es oft nützlich, einen separaten Abwertungstest durchzuführen, bei dem tatsächlich Belohnungen abgegeben werden - der sogenannte "Belohnungstest". Läsionen des DMS schafften die Sensitivität für eine Ergebnisabwertung im belohnenden Test nicht ab, wie zu erwarten ist, da die Abgabe eines abgewerteten Ergebnisses, das von einer Aktion abhängt, die Aktion unabhängig von der Action-Outcome-Codierung unterdrücken kann. Accumbens-Shell-Läsionen beeinträchtigten dagegen weder beim Extinktionstest noch beim Belohnungstest die Empfindlichkeit für die Ergebnisabwertung, wohingegen Accumbens-Core-Läsionen bei beiden Tests die Abwertungsempfindlichkeit abschafften (Corbitet al., 2001). Die Sensibilität für den Abbau von Kontingenz wurde jedoch durch keine der beiden Läsionen beeinflusst, was zeigt, dass die Ratten nach Accumbens-Läsionen in der Lage waren, Darstellungen der Aktionsergebnisse zu kodieren und abzurufen.

Die Rolle von Dopamin: Mesolimbic vs. Nigrostriatal

Seit den Pionierstudien zur phasischen Aktivität von DA-Neuronen bei Affen wird allgemein angenommen, dass sich alle DA-Zellen im Wesentlichen gleich verhalten (Schultz, 1998a; Montague et al., 2004). Die verfügbaren Daten sowie die anatomische Konnektivität deuten jedoch auf etwas anderes hin. Tatsächlich kann die obige Analyse der funktionellen Heterogenität im Striatum auch auf die DA-Zellen im Mittelhirn ausgedehnt werden.

DA-Zellen können in zwei Hauptgruppen unterteilt werden: VTA und Substantia Nigra Pars Compacta (SNc). Obwohl die Projektion aus dem VTA to accumbens war das Hauptaugenmerk auf dem Gebiet des belohnungsbezogenen Lernens. Der weitaus massivere nigrostriatale Weg wurde relativ vernachlässigtmit besonderem Augenmerk auf seine Rolle bei der Parkinson-Krankheit. Aktuelle Überlegungen zur Rolle von DA beim Lernen wurde stark durch den Vorschlag beeinflusst, dass die phasische Aktivität von DA-Zellen einen Fehler in der Vorhersage von Belohnungen widerspiegeltr (Ljungberg et al., 1992; Schultz, 1998b). ichBei der von Pavlovic am häufigsten angewendeten Konditionierungsaufgabe von Schultz und Kollegen feuern diese Neuronen als Antwort auf Belohnung (USA), aber mit dem Lernen verlagert sich die in den USA hervorgerufene Aktivität in die CS. Wenn die USA nach dem Lernen weggelassen werden, zeigen die DA-Zellen zum erwarteten Zeitpunkt ihrer Abgabe eine kurze Aktivitätssenkung (Waelti et al., 2001; Fiorillo et al., 2003; Tobler et al., 2003). Diese Daten bilden die Grundlage für eine Vielzahl von Rechenmodellen (Schultz et al., 1997; Schultz, 1998b; Brown et al., 1999; Montague et al., 2004).

Angesichts mehrerer Kontrollniveaus bei den Mechanismen der Synthese und Freisetzung kann das Spiking von DA-Neuronen nicht mit der DA-Freisetzung gleichgesetzt werden, obwohl man erwarten würde, dass diese beiden Maßnahmen in hohem Maße korrelieren. Wie eine kürzlich durchgeführte Studie von Carelli und Kollegen, die die zyklische Volt-Voltametrie mit schneller Abtastung verwendet, zeigt, Die tatsächliche DA-Freisetzung im Accumbens-Kern scheint mit einem Vorhersagefehler in der appetitlichen Pavlovschen Konditionierung zu korrelieren (Day et al., 2007). Sie fanden ein phasisches DA-Signal im Accumbens-Kern unmittelbar nach Erhalt der Saccharosebelohnung im autonomen Pawlowschen Auto. Nach einer längeren Pavlovschen Konditionierung wurde dieses Signal jedoch nicht mehr nach der Belohnung selbst gefunden, sondern verlagerte sich zum CS. Diese Feststellung stützt die ursprüngliche Hypothese "Vorhersagefehler". Es steht auch im Einklang mit früheren Arbeiten, die eine beeinträchtigte Leistung des Pavlovian CR nach entweder DA-Rezeptorantagonismus oder DA-Abreicherung im Accumbens-Kern zeigten (Di Ciano et al., 2001; Parkinson et al., 2002). Eine Beobachtung aus der Studie ist jedoch neu und von erheblichem Interesse: Nach einer längeren Konditionierung mit einem CS +, das eine Belohnung vorhersagt, und einer CS-, die keine Belohnung vorhersagt, wurde ein ähnliches, wenn auch geringeres DA-Signal auch nach dem CS- beobachtet Es zeigte auch einen leichten Einbruch sofort (500 ~ 800 Millisekunden nach Beginn des Cues) nach dem anfänglichen Peak (Day et al., 2007, Abbildung 4). In dieser Lernphase nähern sich Tiere fast nie dem CS−, sondern konsequent dem CS +. Das phasische DA-Signal unmittelbar nach dem Prädiktor spielt daher möglicherweise keine ursächliche Rolle bei der Erzeugung der Annäherungsantwort, da es selbst in Abwesenheit der Antwort vorhanden ist. Ob ein solches Signal noch erforderlich ist, um die Stimulus-Belohnung-Kontingenz zu erlernen, ist noch unklar, aber die beobachtete phasische Reaktion auf das CS– wird von keinem der aktuellen Modelle vorhergesagt.

Interessanterweise beeinträchtigt die lokale DA-Erschöpfung die Leistung bei dieser Aufgabe (Parkinson et al., 2002). Während nach dem CS– ein phasisches DA-Signal beobachtet wird, das überhaupt keine CRs erzeugt, beeinträchtigt die Abschaffung sowohl des phasischen als auch des tonischen DA durch lokale Erschöpfung die Leistung der CRs. Ein solches Muster legt nahe, dass ein phasisches DA-Signal in den Accumbens nicht für die Leistung des Pavlovian CR erforderlich ist, aber beim Lernen eine Rolle spielen kann, während ein langsameres, tonischeres DA-Signal (vermutlich in Abbaustudien abgeschafft) für die Leistung wichtiger ist der Anflugantwort (Cagniard et al., 2006; Yin et al., 2006b; Niv et al., 2007). Diese Möglichkeit muss noch getestet werden.

Obwohl es keinen direkten Beweis für eine kausale Rolle des phasischen DA-Signals beim Lernen gibt, hat die Hypothese "Vorhersagefehler" dennoch viel Aufmerksamkeit auf sich gezogen, da es genau die Art des Lehrsignals ist, das in bekannten Lernmodellen verwendet wird. wie das Rescorla-Wagner-Modell und seine Echtzeiterweiterung den zeitlichen Unterschiedsverstärkungslernalgorithmus (Schultz, 1998b). Gemäß dieser Interpretation wird das appetitive Lernen durch die Differenz zwischen empfangener und erwarteter Belohnung (oder zwischen zwei zeitlich aufeinanderfolgenden Belohnungsvorhersagen) bestimmt. Ein solches Lehrsignal wird durch negatives Feedback aller Prädiktoren der Belohnung geregelt (Schultz, 1998b). Wenn dem Prädiktor keine Belohnung folgt, wird der negative Rückkopplungsmechanismus als ein Einbruch der Aktivität der DA-Neuronen demaskiert. Daher beinhaltet das Lernen die fortschreitende Verringerung des Vorhersagefehlers.

Die Eleganz des Lehrsignals in diesen Modellen hat möglicherweise einige von der anatomischen Realität abgelenkt. In der Studie von Day et al (2007)Das DA-Signal in den Accumbens kommt hauptsächlich von Zellen im VTA, aber es erscheint unwahrscheinlich, dass andere DA-Zellen mit völlig unterschiedlicher anatomischer Konnektivität das gleiche Antwortprofil zeigen und dasselbe Signal liefern. Ein Gradient in dem Signal der DA-Zellen ist wahrscheinlicher, da DA-Zellen auf unterschiedliche striatale Regionen mit völlig unterschiedlichen Funktionen projizieren und wiederum unterschiedliche negative Rückkopplungssignale von verschiedenen striatalen Regionen empfangen (Joel und Weiner, 2000; Wickens et al., 2007). Die Mechanismen der Aufnahme und des Abbaus sowie die präsynaptischen Rezeptoren, die die Dopaminfreisetzung regulieren, zeigen ebenfalls erhebliche Unterschiede im gesamten Striatum (Cragget al., 2002; Reis und Cragg, 2004; Wickens et al., 2007; Reis und Cragg, 2008).

Wir schlagen daher vor, dass der Mesoaccumbens-Weg eine geringere Rolle beim Lernen von Pavlov spielt, um den Wert von Zuständen und Stimuli zu erlangen, während der nigrostriatale Weg für das instrumentelle Lernen wichtiger ist als für den Erwerb der Werte von Handlungen. TDas heißt, das phasische DA-Signal kann verschiedene Prädiktionsfehler anstelle eines einzelnen Prädiktionsfehlers codieren, wie es derzeit angenommen wird. Drei Beweislinien stützen dieses Argument. Erstens beeinträchtigt die genetische Depletion von DA im nigrostriatalen Weg die Erfassung und Durchführung instrumenteller Maßnahmen, wohingegen die Depletion von DA im mesolimbischen Weg nicht (Sotak et al., 2005; Robinson et al., 2007). Zweitens können DA-Zellen in der SNc den Wert von Aktionen codieren, ähnlich den Zellen in ihrer Ziel-Striatalregion (Morris et al., 2006). Drittens beeinträchtigt die selektive Läsion der nigrostriatalen Projektion auf das DLS die Habitusbildung (Faureet al., 2005).

Jüngste Arbeiten von Palmiter und Kollegen haben gezeigt, dass genetisch veränderte Mäuse mit unzureichendem DA-Mangel in Bezug auf instrumentelles Lernen und Leistung stark beeinträchtigt sind, ihre Leistungsfähigkeit könnte jedoch entweder durch L-DOPA-Injektion oder durch viralen Gentransfer auf den nigrostriatalen Weg (Sotak et al., 2005; Robinson et al., 2007). Im Gegensatz dazu war eine Wiederherstellung der DA im ventralen Striatum nicht notwendig, um das instrumentelle Verhalten wiederherzustellen. Obwohl DA-Signale instrumentelles Lernen ermöglichen, bleibt eine offene Frage, eine offensichtliche Möglichkeit besteht darin, dass sie den Wert von selbst initiierten Aktionen kodieren könnte, dh wie viel Belohnung bei einer bestimmten Vorgehensweise vorhergesagt wird.

Das dorsale Striatum enthält als Ganzes die höchste Expression von DA-Rezeptoren im Gehirn und erhält die massivste dopaminerge Projektion. Die DA-Projektion auf das DMS kann beim Lernen eine andere Rolle spielen als die Projektion auf das DLS, da sich diese beiden Regionen im zeitlichen Profil der DA-Freisetzung, Aufnahme und Degradation signifikant unterscheiden (Wickens et al., 2007). Wir vermuten, dass die DA-Projektion des medialen SNc auf das DMS von entscheidender Bedeutung für das Lernen der Handlungsergebnisse ist, während die DA-Projektion des lateralen SNc auf das DLS für die Gewohnheitsbildung entscheidend ist. Sollte dies der Fall sein, sollte man davon ausgehen, dass DA-Zellen in der SNc den Fehler in der Belohnungsvorhersage auf der Grundlage selbst erzeugter Aktionen - instrumenteller Vorhersagefehler - anstelle der auf dem CS basierenden Fehler codieren. Vorläufige Beweise zur Stützung dieser Behauptung stammen aus einer kürzlich von Morris et al. Durchgeführten Studie, die von SNc-Neuronen während einer instrumentellen Lernaufgabe aufgenommen wurde (Morris et al., 2006). Affen wurden darauf trainiert, ihre Arme als Reaktion auf einen diskriminierenden Stimulus zu bewegen (SD) die die entsprechende Bewegung und die Wahrscheinlichkeit der Belohnung angab. Die SD löste eine phasische Aktivität in den DA-Neuronen aus, die dem Aktionswert basierend auf der erwarteten Belohnungswahrscheinlichkeit einer bestimmten Aktion entspricht. Am interessantesten, obwohl die DA-Antwort auf die SD mit dem Aktionswert erhöht, war die Umkehrung der DA-Antwort auf die Belohnung selbst zutreffend, im Einklang mit der Idee, dass diese Neuronen einen mit diesem Wert verknüpften Vorhersagefehler codierten. Es überrascht nicht, dass das primäre striatale Ziel dieser Zellen, der Caudatkern, Neuronen enthält, die Aktionswerte kodieren (Samejima et al., 2005). Es sollte jedoch beachtet werden, dass diese Studie keine Verhaltensaufgaben verwendet hat, die den Wert von Handlungen eindeutig bewerten. Eine klare Vorhersage unseres Modells ist, dass die phasische DA-Aktivität die Ausführung von Aktionen begleitet, auch wenn kein explizites S vorhanden istD. Zum Beispiel prognostizieren wir ein Burst-Feuern von Nigral-DA-Neuronen zum Zeitpunkt einer selbst initiierten Aktion, die eine Belohnung verdient.

Unseres Erachtens spiegelt das DA-Signal des Mesoaccumbens den Wert des CS wider, während das nigrostriatale Signal, vielleicht von den Neuronen, die auf das DMS projizieren, den Wert der Aktion selbst widerspiegelt. oder von irgendeinem SD das sagt diesen Wert voraus. Darüber hinaus scheint sowohl das instrumentale als auch das pavlovianische Lernen eine Art negativer Rückkopplung zur Steuerung des effektiven Unterrichtssignals zu beinhalten. Tatsächlich sind die direkten Projektionen vom Striatum auf die DA-Neuronen im Mittelhirn (Figure 2) sind seit langem als neuronale Implementierung dieser Art von negativer Rückkopplung vorgeschlagen worden (Houk et al., 1995), und die Stärke und Art des inhibitorischen Eintrags kann von Region zu Region erheblich variieren.

Figure 2  

Die Cortico-Basalganglien-Netzwerke

Ein Vorhersagefehler ist nach aktuellen Modellen ein Lehrsignal, das bestimmt, wie viel Lernen stattfindet. Solange es vorhanden ist, wird das Lernen fortgesetzt. So naheliegend diese Behauptung auch erscheint, ein Vorhersagefehler für den Aktionswert, obwohl er syntaktisch ähnlich dem Pavlovschen Vorhersagefehler ist, weist einzigartige Merkmale auf, die nicht ausführlich untersucht wurden. In traditionellen Modellen wie dem Rescorla-Wagner-Modell, das sich ausschließlich mit der Pavlov-Konditionierung befasst (wenn auch mit begrenztem Erfolg), ist das Hauptmerkmal das negative Feedback, das den Vorhersagefehler regelt. Diese Ausgabe repräsentiert die erfasste Vorhersage, genauer die Summe aller aktuellen Prädiktoren, die von den zusammengesetzten Stimuli erfasst werden, die typischerweise in Blockierungsexperimenten verwendet werdenRescorla, 1988). Es ist diese Summe der verfügbaren Prädiktoren, um einen globalen Fehlerausdruck festzulegen, der die Hauptinnovation in dieser Modellklasse darstellt. Bei instrumentellen Aktionen scheinen jedoch einzelne Fehlerausdrücke wahrscheinlicher zu sein, denn es ist schwer zu erkennen, wie die negative Rückkopplung den Wert mehrerer Aktionen gleichzeitig darstellen würde, wenn jeweils nur eine Aktion ausgeführt werden kann. Natürlich gibt es eine Reihe möglicher Lösungen. Zum Beispiel wird ein bestimmter Zustand gegeben (experimentell durch ein bestimmtes S implementiertD) könnten die möglichen Handlungsabläufe in der Tat gleichzeitig als erlangte Vorhersagen dargestellt werden. Die Hauptschwierigkeit bei instrumentellen Vorhersagefehlern liegt jedoch in der Natur der Handlung selbst. Eine Pavlovsche Vorhersage folgt automatisch der Präsentation des Stimulus, der vom Organismus unabhängig ist. Ein instrumenteller Vorhersagefehler muss sich auf das Element der Kontrolle beziehen, da die Vorhersage selbst aktionsbedingt ist und eine bewusste Aktion spontan ausgelöst wird, basierend auf dem Streben der Tiere nach den Folgen des Handelns, anstatt durch vorausgehende Reize hervorgerufen zu werden. Letztendlich ist es gerade eine generelle Vernachlässigung der spontanen Natur zielgerichteter Handlungen, sowohl in der Neurowissenschaft als auch in der Psychologie, die die Unterscheidung zwischen Pavlovschen und instrumentellen Lernprozessen und die Art der damit verbundenen Vorhersagefehler verwischt hat. Es muss also noch festgelegt werden, welche Art von negativer Rückkopplung (falls vorhanden) die Erfassung von Aktionswerten regelt (Dayan und Balleine, 2002).

Schließlich haben jüngste Arbeiten auch die nigrostriatale Projektion von der lateralen SNc auf DLS impliziert, insbesondere bei der Habitusbildung. Faure et al. Verletzten selektiv die auf DLS projizierten DA-Zellen mit 6-OHDA und stellten fest, dass diese Manipulation überraschend wenig Einfluss auf die Hebelbetätigungsgeschwindigkeit hat, obwohl sie die Habitusbildung beeinträchtigte, gemessen anhand der Ergebnisabwertung (Faureet al., 2005). Das heißt, verletzte Tiere reagierten zielgerichtet, obwohl das Training in einer Kontrollgruppe gewohnheitsmäßiges Verhalten generierte, das auf eine Ergebnisabwertung unempfindlich war. Die lokale DA-Erschöpfung ähnelt daher exzitotoxischen Läsionen des DLS, da beide Manipulationen die Gewohnheitsbildung verzögern und den Erwerb zielgerichteter Aktionen begünstigen (Yinet al., 2004). Ein phasisches DA-Signal, das für die Habitusbildung entscheidend ist, wird bereits durch das effektive Verstärkungssignal in zeitgemäßen Differenzierungsverstärkungslernalgorithmen beschrieben, die durch die Arbeit von Hull und Spence inspiriert wurden (Rumpf, 1943; Spence, 1947, 1960; Sutton und Barto, 1998).

Cortico-Basalganglien-Netzwerke

Bisher haben wir die funktionelle Heterogenität innerhalb des Striatum diskutiert, aber es wäre irreführend anzunehmen, dass jeder Striatalbereich die Eventualität des Aktionsergebnisses in die Ausführung einer Aktion alleine umsetzen könnte. Vielmehr sind die Gehirnhälften als iterierende Funktionseinheiten aus Cortico-Basalganglienetzwerken (Swanson, 2000; Zahm, 2005). TDas Striatum ist die Eintrittsstation der gesamten Basalganglien und dient als einzigartiger Knotenpunkt im Motiv des Cortico-Basalganglienetzwerks, das kortikale, Thalamus- und Mittelhirninputs integrieren kann. Obwohl es sich um eine kontinuierliche Struktur handelt, scheinen verschiedene striatale Regionen an unterschiedlichen funktionellen Netzwerken teilzunehmen, z. B. fungieren die Accumbens als Hub im limbischen Netzwerk und das DLS im sensomotorischen Netzwerk. Aufgrund der Wiedereintrittseigenschaft solcher Netzwerke ist jedoch keine Komponente dieser Struktur in absolutem Sinne stromaufwärts oder stromabwärts angeordnet; Das thalamokortikale System ist zum Beispiel sowohl die Quelle eines wichtigen Inputs für das Striatum als auch das Ziel sowohl des striato-pallidal als auch des striato-nigralen Pfades.

Parallele wiedereintretende Basalganglienschleifen sind zwar schon lange bekannt (Alexander ua, 1986) betonen wir unterschiedliche funktionale Rollen dieser Schaltkreise, die auf operativ definierten Repräsentationsstrukturen und auf Wechselwirkungen zwischen Schaltkreisen bei der Erzeugung integrativen Verhaltens basieren. Auf dieser Basis können mindestens vier solcher Netzwerke unterschieden werden: die limbischen Netzwerke, die die Hülle bzw. den Kern der Accumbens einschließen, das assoziative Netzwerk, das das assoziative Striatum (DMS) umfasst, und das Sensomotoriknetz, das das Sensomotorische Striatum (DLS) umfasst. Ihre Funktionen reichen von der Vermittlung der Kontrolle appetitanregender Pavlovian URs und CRs bis hin zu instrumentellen Aktionen (Figure 1).

Figure 1  

Wichtige funktionelle Domänen des Striatum. Eine Darstellung des Striatum aus einem koronalen Schnitt, der die Hälfte des Gehirns zeigt (Paxinos und Franklin, 2003). Beachten Sie, dass diese vier Funktionsbereiche anatomisch kontinuierlich sind und ungefähr dem entsprechen ...

Wie bereits erwähnt, besteht das ventrale Striatum hauptsächlich aus dem Nucleus accumbens, der weiter in die Hülle und den Kern unterteilt werden kann, die jeweils in einem bestimmten funktionellen Netzwerk beteiligt sind. Die kortikalen (glutamatergischen) Vorsprünge auf die Schale stammen von infralimbischen, zentralen und lateralen Orbitalcortices.Groenewegen et al., 1990; Zahm, 2000, 2005). Im Rahmen dieser Funktionsnetzwerke deuten die oben besprochenen Erkenntnisse darauf hin, dass die Shell an URs beteiligt ist, um Belohnungen und den Erwerb von konsumierenden CRs zu erhalten; Der Kern des explorativen Verhaltens, insbesondere der Erwerb und Ausdruck von pavlowschen Ansatzantworten. Innerhalb des größeren ventralen oder limbischen Cortico-Basalganglienetzes können also mindestens zwei Hauptnetzwerke unterschieden werden, eines für konsumatorische und das andere für vorbereitende Verhaltensweisen und deren Modifikation durch Pavlovianische Konditionierung (Figure 1).

Das dorsale Striatum kann ebenfalls in mindestens zwei Hauptregionen, assoziative und sensomotorische, mit jeweils unterschiedlichen funktionellen Netzwerken unterteilt werden. Das assoziative Striatum (Caudat und Teile des vorderen Putamins bei Primaten) enthält Neuronen, die in Erwartung auf die Antwort abhängige Belohnungen abfeuern und ihre Abfeuerung entsprechend der Größe der erwarteten Belohnung ändern (Hikosaka et al., 1989; Hollerman et al., 1998; Kawagoe et al., 1998). Im assoziativen Netzwerk sind die präfrontalen und parietalen Assoziationskortizes und ihr Ziel im DMS in transientes Gedächtnis involviert, sowohl prospektiv, in Form von Ergebniserwartungen, als auch retrospektiv als Aufzeichnung der jüngsten Efferenzkopien (Konorski, 1967). Die sensomotorische Ebene umfasst dagegen die sensomotorischen Kortikale und ihre Ziele in den Basalganglien. Die Ausgänge dieser Schaltung richten sich an Motorkortices und Hirnstammmotornetzwerke. Die neuronale Aktivität im sensomotorischen Striatum wird im Allgemeinen nicht durch die Belohnungserwartung moduliert und zeigt mehr bewegungsbezogene Aktivität als Neuronen im assoziativen Striatum (Kanazawa et al., 1993; Kimura et al., 1993; Costa et al., 2004). Zusätzlich zum medial-lateralen Gradienten gibt es eine signifikante funktionelle Heterogenität entlang der anterior-posterioren Achse des dorsalen Striatum, obwohl derzeit keine ausreichenden Daten vorliegen, um eine detaillierte Klassifizierung zu ermöglichen (Yin et al., 2005b).

Studien haben sich bisher nur auf die kortikalen und striatalen Komponenten dieser Netzwerke konzentriert. Im Allgemeinen haben Läsionen eines kortikalen Bereichs ähnliche Auswirkungen wie Läsionen des striatalen Ziels (Balleine und Dickinson, 1998; Corbit und Balleine, 2003; Yin et al., 2005b). Andere Komponenten im Netzwerk könnten jedoch ähnliche Funktionen unterstützen. Beispielsweise wurde festgestellt, dass Läsionen des mediodorsalen Kerns des Thalamus, eines Bestandteils des assoziativen Netzwerks, die Sensitivität für die Abwertung des Ergebnisses und den Kontingenzabbau weitgehend auf dieselbe Weise beseitigen wie Läsionen im DMS und im Prelimbic Cortex (Corbitet al., 2003). Obwohl unser allgemeines Modell ähnliche Verhaltensdefizite nach Schädigung jeder Komponente eines Netzwerks vorhersagt, schlägt es für jede gegebene Struktur wie Pallidum oder Thalamus auch mehrere funktionelle Domänen vor.

Interaktion zwischen Netzwerken

Unter den meisten Bedingungen scheint das pawlowische und instrumentelle Lernen parallel zu erfolgen. Phänomene wie PIT zeigen jedoch, inwieweit diese ansonsten unterschiedlichen Prozesse interagieren können. Nachdem unabhängige Funktionssysteme definiert wurden, besteht der nächste Schritt darin, zu verstehen, wie diese Systeme koordiniert werden, um Verhalten zu erzeugen. Ein attraktiver Vorschlag im Einklang mit den neuesten anatomischen Arbeiten ist, dass die oben skizzierten Netzwerke hierarchisch organisiert sind und jeweils als labiler, funktionaler Vermittler in der Hierarchie dienen, der die Verbreitung von Informationen von einer Ebene zur nächsten ermöglicht. Insbesondere die kürzlich entdeckten spiralförmigen Verbindungen zwischen dem Striatum und dem Mittelhirn legen eine anatomische Organisation nahe, die möglicherweise Interaktionen zwischen Netzwerken implementieren kann (Figure 2). Wie von Haber und seinen Kollegen beobachtet, senden striatale Neuronen direkte inhibitorische Projektionen an DA-Neuronen, von denen sie wechselseitige DA-Projektionen erhalten, und projizieren auch an DA-Neuronen, die wiederum in einen anderen Striatalbereich projizieren (Haberet al., 2000). Diese Projektionen ermöglichen die Weiterleitung von Informationen in nur einer Richtung von den limbischen Netzwerken zu assoziativen und sensomotorischen Netzwerken. Zum Beispiel könnte eine Pavlovsche Vorhersage (erfasster Wert des CS) das effektive Lehrsignal auf der limbischen Ebene reduzieren, während gleichzeitig das DA-Signal auf der nächsten Ebene potenziert wird. Die Aufhebung des effektiven Lehrsignals wird normalerweise durch ein negatives Rückkopplungssignal über eine inhibitorische Projektion beispielsweise von den Spiny-Projektionsneuronen des GABAergen Mediums vom Striatum zu den DA-Neuronen implementiert. In der Zwischenzeit, wie von der anatomischen Organisation vorgeschlagen (Haberet al., 2000; Haber, 2003) Die Potenzierung des DA-Signals für das benachbarte Kortiko-Basalganglienetzwerk (die nächste Ebene in der Hierarchie) könnte über nicht hemmende Projektionen (z. B. GABAerge Striatalprojektionsneuronen auf Nigral-GABAergeInteronone auf DA-Neuronen) implementiert werden. Somit kann der gelernte Wert des limbischen Netzwerks an das assoziative Netzwerk übertragen werden, wodurch die Verhaltensanpassung mit jeder Iteration verfeinert und verstärkt werden kann (Ashby, 1960). Dieses Modell sagt daher voraus, dass verschiedene neuronale Netze in verschiedenen Lernstadien schrittweise einbezogen werden. Dies wird durch verschiedene Daten unterstützt (Jueptner et al., 1997b; Miyachi et al., 1997; Miyachi et al., 2002; Yin, 2004; Everitt und Robbins, 2005; Yin und Knowlton, 2005; Belin und Everitt, 2008).

Phänomene, die das Zusammenspiel verschiedener funktionaler Prozesse wie PIT erfordern, bieten einen fruchtbaren Testplatz für Modelle dieser Art. Tatsächlich stimmt das hierarchische Modell mit den jüngsten experimentellen Befunden zur PIT überein. Gemäß dem Modell werden Pavlovian-instrumentelle Interaktionen durch wechselseitige Verbindungen zwischen dem Striatum und den DA-Neuronen vermittelt. DA scheint kritisch für den allgemeinen Transfer zu sein, der von DA-Antagonisten und der lokalen Inaktivierung des VTA aufgehoben wird (Dickinson et al., 2000; Murschall und Hauber, 2006); in der Erwägung, dass die lokale Infusion von Amphetamin, die vermutlich die DA-Spiegel erhöht, in die Accumbens-Infusionen signifikant erhöht werden kann (Wyvell und Berridge, 2000). Auf der anderen Seite ist die Rolle des ventralen striatalen Dopamins bei der spezifischen Übertragung weniger klar. Einige Beweise deuten darauf hin, dass es nach der Inaktivierung des VTA geschont werden könnte (Corbitet al., 2007) aber Corbit und Janak (2007) kürzlich berichtet, wird der spezifische Transfer durch Inaktivierung des DLS aufgehoben, was darauf hindeutet, dass dieser Aspekt der Stimuluskontrolle über die Aktionsauswahl die nigrostriatale Projektion beinhalten kann (Corbit und Janak, 2007). Übereinstimmung mit der hierarchischen Perspektive, Corbit und Janak (2007) fand auch, dass, während die DLS-Inaktivierung die selektive exzitatorische Wirkung der palovianischen Cues abschaffte (so sehr, wie nach Läsionen der Accumbens-Shell von beobachtet wurde) Corbit et al., 2001) beseitigte die Inaktivierung des DMS nur die Endpunktselektivität des Transfers, während die allgemeine erregende Wirkung dieser Signale zu erhalten schien, ein Trend, der auch nach Läsionen des mediodorsalen Thalamus beobachtet wurde, der Teil des assoziativen kortico-basalen Ganglien-Netzwerks ist (Ostlund und Balleine, 2008). Auf der Grundlage dieser vorläufigen Ergebnisse scheint das DMS nur einen spezifischen Transfer zu vermitteln, während das DLS sowohl für die spezifischen als auch für die generellen erregenden Wirkungen der Pavlovian-Signale auf instrumentale Aktionen erforderlich sein könnte.

Interessanterweise projiziert das limbische Striatum ausgiebig auf DA-Zellen, die auf das dorsale Striatum projizieren (Nauta et al., 1978; Nauta, 1989); Die dopaminergen Projektionen auf das Striatum und die Striatalprojektionen auf das Mittelhirn sind stark asymmetrisch (Haber, 2003). Das limbische Striatum empfängt eine begrenzte Eingabe von DA-Neuronen, sendet jedoch eine umfangreiche Ausgabe an eine viel größere Anzahl von DA-Neuronen, und das Gegenteil trifft auf das sensomotorische Striatum zu. Somit sind die limbischen Netzwerke in einer perfekten Position, um die assoziativen und sensomotorischen Netzwerke zu steuern. Hier stimmt die Neuroanatomie mit den Verhaltensdaten überein, dass die Pavlovianische Erleichterung des instrumentellen Verhaltens viel stärker ist als das Gegenteil; In der Tat deuten beträchtliche Beweise darauf hin, dass instrumentale Aktionen die Pavlovianischen CRs eher hemmen als reizen - ein Befund, der noch auf eine neurobiologische Erklärung wartet (Ellison und Konorski, 1964; Williams, 1965).

Schlussfolgerungen

Das hier diskutierte hierarchische Modell unterscheidet sich sehr von anderen, die sich ausschließlich auf die Kortex- und Fernverbindungen zwischen kortikalen Bereichen stützen (Fuster, 1995). Es beinhaltet die bekannten Komponenten und die Konnektivität des Gehirns, anstatt es als Potpourri kortikaler Module zu betrachten, die auf unbestimmte Weise eine Vielzahl von kognitiven Funktionen implementieren. Es vermeidet auch Annahmen, die von 19 geerbt wurdenth Jahrhundert Neurologie, dass die Großhirnrinde im Allgemeinen und die präfrontale Kortex im Besonderen, irgendwie bildet eine "höhere" homunkuläre Einheit, die das gesamte Gehirn steuert (Miller und Cohen, 2001).

Darüber hinaus können aus dem vorliegenden Modell mehrere spezifische Vorhersagen abgeleitet werden: (i) Es sollte eindeutige Vorhersagefehler für selbst erzeugte Aktionen und für Zustände / Stimuli geben, deren Eigenschaften ihre unterschiedlichen neuronalen Substrate und funktionellen Rollen widerspiegeln. (ii) Es wird erwartet, dass die pallidalen und thalamischen Komponenten jedes diskreten Cortico-Basalganglienetzes auch für die Art der Verhaltenskontrolle notwendig sind, die für jedes Netzwerk angenommen wird, nicht nur für die kortikalen und striatalen Komponenten. (iii) In verschiedenen Lernstadien sollten verschiedene neuronale Netze schrittweise einbezogen werden. (iv) Die Accumbens-Aktivität kann DA-Neuronen und wiederum die dorsale Striatalaktivität direkt kontrollieren. Basierend auf einem Bericht von Holland (2004) was darauf hindeutet, dass die PIT mit dem instrumentellen Training zunimmt, dürfte diese "limbische" Kontrolle der assoziativen und sensomotorischen Netzwerke mit einem erweiterten Training zunehmen.

Ohne detaillierte Daten ist es noch zu früh, um das hierarchische Modell formell darzustellen. Trotzdem sollte die obige Diskussion deutlich machen, dass aktuelle Versionen der Mesoaccumbens-Belohnungshypothese auf problematischen Annahmen über die Art des Belohnungsprozesses und die Verwendung unzureichender Verhaltensmaßnahmen beruhen. Vereinheitlichende Prinzipien, die immer das Ziel des wissenschaftlichen Unternehmens sind, können nur auf der Realität experimenteller Daten gegründet werden, so schwer dies auch sein mag. Da die Funktion des Gehirns letztendlich die Erzeugung und Kontrolle des Verhaltens ist, ist eine detaillierte Verhaltensanalyse der Schlüssel zum Verständnis neuronaler Prozesse, ebenso wie eine gründliche Beschreibung der angeborenen und erworbenen Immunität die Aufklärung des Immunsystems ermöglicht. Obwohl es sich scheinbar um eine Binsenweisheit handelt, kann es kaum überbetont werden, dass wir die Gehirnmechanismen in dem Maße verstehen können, in dem ihre Funktionen genau beschrieben und gemessen werden. Wenn die Erforschung neuronaler Funktionen auf experimentell ermittelten psychologischen Fähigkeiten basiert, z. B. der Darstellung von Eventualitäten für Eventualität und Stimulus-Outcome, werden die bekannte anatomische Organisation sowie die physiologischen Mechanismen in einem neuen Licht gesehen, was zu neuen Formulierungen führt Hypothesen und das Design neuer Experimente. Als ersten Schritt in diese Richtung hoffen wir, dass der hier diskutierte Rahmen als ein nützlicher Ausgangspunkt für zukünftige Untersuchungen dient.

Anerkennungen

Wir möchten uns bei David Lovinger für hilfreiche Anregungen bedanken. HHY wurde von der Abteilung für intramurale klinische und Grundlagenforschung der NIH, NIAAA, unterstützt. SBO wird vom NIH-Zuschuss MH 17140 und BWB von den NIH-Zuschüssen MH 56446 und HD 59257 unterstützt.

Bibliographie

  1. Adams CD. Abweichungen in der Empfindlichkeit der instrumentellen Reaktion zur Verstärkung der Abwertung. Vierteljährliches Journal für experimentelle Psychologie. 1982; 33b: 109 – 122.
  2. Adams CD, Dickinson A. Instrumental reagiert auf verstärkte Abwertung. Vierteljährliches Journal of Experimental Psychology. 1981; 33: 109 – 122.
  3. Alexander GE, DeLong MR, Strick PL. Parallele Organisation von funktionell getrennten Kreisläufen zwischen Basalganglien und Cortex. Annu Rev Neurosci. 1986; 9: 357 – 381. [PubMed]
  4. Ashby WR. Design für ein Gehirn. zweite Ausgabe. Chapman & Hall; 1960.
  5. Atallah HE, Lopez-Paniagua D, Rudy JW, O'Reilly RC. Separate neuronale Substrate für das Erlernen von Fähigkeiten und die Leistung im ventralen und dorsalen Striatum. Nat Neurosci. 2007; 10: 126–131. [PubMed]
  6. Balleine BW. Anreizprozesse in der Instrumentenkonditionierung. In: Mowrer RR, Klein SB, Redakteure. Handbuch zeitgenössischer Lerntheorien. Mahwah, New Jersey, USA: Lawrence Erlbaum Associates, Inc., Publishers; 2001. S. 307 – 366.
  7. Balleine BW. Neuronale Grundlagen der Nahrungssuche: Auswirkungen, Erregung und Belohnung in kortikostriatolimbischen Kreisläufen. Physiol Behav. 2005; 86: 717 – 730. [PubMed]
  8. Balleine BW, Dickinson A. Zielgerichtetes instrumentelles Handeln: Kontingenz- und Anreizlernen und ihre kortikalen Substrate. Neuropharmakologie. 1998; 37: 407 – 419. [PubMed]
  9. Balleine BW, Corbit LH. Läsionen von Accumbens Core und Shell bewirken dissoziierbare Auswirkungen auf die allgemeinen und ergebnisspezifischen Formen des palovianischen Transfers. Jahrestagung der Gesellschaft für Neurowissenschaften; 2005.
  10. Balleine BW, Killcross S. Parallele Incentive-Verarbeitung: eine integrierte Sicht auf die Amygdala-Funktion. Trends Neurosci. 2006; 29: 272 – 279. [PubMed]
  11. Belin D, Everitt BJ. Kokain-Suchgewohnheiten hängen von Dopamin-abhängiger serieller Konnektivität ab. Verbindung des Ventrals mit dem Dorsalstriatum. Neuron. 2008; 57: 432 – 441. [PubMed]
  12. Berke JD, Hyman SE. Sucht, Dopamin und die molekularen Mechanismen des Gedächtnisses. Neuron. 2000; 25: 515-532. [PubMed]
  13. Berridge KC, Robinson TE. Welche Rolle spielt Dopamin bei der Belohnung: hedonische Wirkung, Belohnungslernen oder Incentivierung? Brain Res Brain Res Rev. 1998; 28: 309 – 369. [PubMed]
  14. Bolles R. Verstärkung, Erwartung und Lernen. Psychologische Überprüfung. 1972; 79: 394 – 409.
  15. Brown J, Bullock D, Grossberg S. Wie die Basalganglien parallele exzitatorische und hemmende Lernpfade verwenden, um selektiv auf unerwartete belohnende Hinweise zu reagieren. J Neurosci. 1999; 19: 10502 – 10511. [PubMed]
  16. Brown PL, Jenkins HM. Automatische Formung des Schlüsselpicks der Taube. Zeitschrift für experimentelle Verhaltensanalyse. 1968; 11: 1–8. [PMC freier Artikel] [PubMed]
  17. Cagniard B, Beeler JA, Britt JP, McGehee DS, Marinelli M, Zhuang X. Dopamin skaliert die Leistung ohne neues Lernen. Neuron. 2006; 51: 541 – 547. [PubMed]
  18. Kardinal RN, Cheung TH. Nucleus accumbens Core-Läsionen verzögern das instrumentelle Lernen und die Leistungsfähigkeit mit verzögerter Verstärkung bei der Ratte. BMC Neurosci. 2005; 6: 9. [PMC freier Artikel] [PubMed]
  19. Kardinal RN, Parkinson JA, Halle J, Everitt BJ. Emotion und Motivation: Die Rolle der Amygdala, des ventralen Striatums und des präfrontalen Kortex. Neurosci Biobehav Rev. 2002; 26: 321-352. [PubMed]
  20. Cheer JF, Aragona BJ, Heien ML, Seipel AT, Carelli RM, Wightman RM. Koordinierte Accumbal-Dopamin-Freisetzung und neuronale Aktivität führen zu zielgerichtetem Verhalten. Neuron. 2007; 54: 237 – 244. [PubMed]
  21. Colwill RM, Rescorla RA. Assoziative Strukturen im instrumentellen Lernen. In: Bower G, Herausgeber. Die Psychologie des Lernens und der Motivation. New York: Academic Press; 1986. S. 55 – 104.
  22. Corbit LH, Balleine BW. Die Rolle des präimbimbischen Kortex bei der instrumentellen Konditionierung. Behav Brain Res. 2003; 146: 145 – 157. [PubMed]
  23. Corbit LH, Janak, PH. Durch die Inaktivierung des lateralen, aber nicht medialen dorsalen Striatum wird der exzitatorische Einfluss der Pawlowschen Stimuli auf das instrumentelle Ansprechen eliminiert. J Neurosci. 2007; 27: 13977 – 13981. [PubMed]
  24. Corbit LH, Muir JL, Balleine BW. Die Rolle des Nucleus accumbens bei der instrumentellen Konditionierung: Nachweis einer funktionellen Dissoziation zwischen Accumbens Kern und Hülle. Journal of Neuroscience. 2001; 21: 3251 – 3260. [PubMed]
  25. Corbit LH, Muir JL, Balleine BW. Läsionen von mediodorsalem Thalamus und anteriorem Thalamuskern bewirken bei Ratten dissoziierbare Wirkungen auf die Instrumentenkonditionierung. Eur J Neurosci. 2003; 18: 1286 – 1294. [PubMed]
  26. Corbit LH, Janak PH, Balleine BW. Allgemeine und ergebnisspezifische Formen des Pavlovian-instrumentellen Transfers: die Auswirkungen von Verschiebungen im motivationalen Zustand und Inaktivierung des ventralen Tegmentbereichs. Eur J Neurosci. 2007; 26: 3141 – 3149. [PubMed]
  27. Costa RM, Cohen D., Nicolelis MA. Differenziale kortikostriatale Plastizität während des schnellen und langsamen Lernens von motorischen Fähigkeiten bei Mäusen. Curr Biol. 2004; 14: 1124 – 1134. [PubMed]
  28. Cragg SJ, Hille CJ, Greenfield SA. Funktionsbereiche im dorsalen Striatum des nicht-menschlichen Primaten werden durch das dynamische Verhalten von Dopamin definiert. J Neurosci. 2002; 22: 5705 – 5712. [PubMed]
  29. Dalley JW, Laane K, Theobald DE, HC Armstrong, Corlett PR, Chudasama Y, Robbins TW. Zeitlich begrenzte Modulation des appetitlichen Pawlowschen Gedächtnisses durch D1- und NMDA-Rezeptoren im Nucleus Accumbens. Proc Natl Acad Sci US A. 2005; 102: 6189-6194. [PMC freier Artikel] [PubMed]
  30. Davis J, Bitterman ME. Differenzielle Verstärkung des anderen Verhaltens (DRO): Ein Vergleich der Kontrollkontrolle. Journal der experimentellen Verhaltensanalyse. 1971; 15: 237 – 241. [PMC freier Artikel] [PubMed]
  31. Tag JJ, Carelli RM. Der Nucleus Accumbens und Pawlowsches Belohnungslernen. Neurowissenschaftler. 2007; 13: 148-159. [PMC freier Artikel] [PubMed]
  32. Tag JJ, Wheeler RA, MF Roitman, Carelli RM. Nucleus accumbens-Neuronen kodieren das Verhalten der Pavlovian-Ansätze: Beweise aus einem autoshaping-Paradigma. Eur J Neurosci. 2006; 23: 1341 – 1351. [PubMed]
  33. Tag JJ, Roitman MF, Wightman RM, Carelli RM. Assoziatives Lernen vermittelt dynamische Verschiebungen bei der Dopamin-Signalgebung im Nucleus Accumbens. Nat Neurosci. 2007; 10: 1020 – 1028. [PubMed]
  34. Dayan P, Balleine BW. Belohnung, Motivation und Stärkung des Lernens. Neuron. 2002; 36: 285 – 298. [PubMed]
  35. Delgado MR, Stenger VA, Fiez JA. Motivationsabhängige Reaktionen im menschlichen Caudatkern. Cereb Cortex 2004; 14: 1022 – 1030. [PubMed]
  36. Delgado MR, Miller MM, Inati S, Phelps EA. Eine fMRI-Studie zum belohnungsbezogenen Wahrscheinlichkeitslernen. Neurobild. 2005; 24: 862 – 873. [PubMed]
  37. Di Ciano P, Kardinal RN, Cowell RA, Little SJ, Everitt BJ. Unterschiedliche Beteiligung von NMDA-, AMPA / Kainat- und Dopamin-Rezeptoren im Kern des Nucleus accumbens beim Erwerb und der Durchführung des Verhaltens der pavlovianischen Annäherung. J Neurosci. 2001; 21: 9471 – 9477. [PubMed]
  38. Dickinson A. Handlungen und Gewohnheiten: Entwicklung der Verhaltensautonomie. Philosophische Transaktionen der Royal Society. 1985; B308: 67 – 78.
  39. Dickinson A. Instrumentelle Konditionierung. In: Mackintosh NJ, Editor. Tierisches Lernen und Kognition. Orlando: akademisch; 1994. S. 45 – 79.
  40. Dickinson A, Dearing MF. Appetitiv-aversive Wechselwirkungen und Hemmprozesse. In: Dickinson A, Boakes RA, Redakteure. Lernmechanismus und Motivation. Hillsadale, New Jersey: Lawrence Erlbaum Associates; 1979.
  41. Dickinson A, Charnock DJ. Kontingenzeffekte mit beibehaltener instrumenteller Verstärkung. Vierteljährliches Journal of Experimental Psychology. Vergleichende & Physiologische Psychologie. 1985; 37: 397–416.
  42. Dickinson A, Balleine B. Aktionen und Antworten: Die duale Verhaltenspsychologie. In: Eilan N., McCarthy RA et al., Herausgeber. Räumliche Darstellung: Probleme in Philosophie und Psychologie. Malden, MA, USA: Blackwell Publishers Inc .; 1993. S. 277 – 293.
  43. Dickinson A, Balleine B. Die Rolle des Lernens beim Betrieb von Motivationssystemen. In: Pashler H, Gallistel R, Herausgeber. Stevens Handbuch für experimentelle Psychologie (3. Aufl.), Bd. 3: Lernen, Motivation und Emotion. New York, NY, USA: John Wiley & Sons, Inc.; 2002. S. 497–533.
  44. Dickinson A, Smith J., Mirenowicz J. Dissoziation von Pavlovian und instrumentelles Anreizlernen unter Dopaminantagonisten. Behav Neurosci. 2000; 114: 468 – 483. [PubMed]
  45. Dickinson A, Campos J, Varga ZI, Balleine B. Bidirektionale instrumentelle Konditionierung. Vierteljährliches Journal of Experimental Psychology: Vergleichende und Physiologische Psychologie. 1996; 49: 289–306. [PubMed]
  46. Ellison GD, Konorski J. Trennung der Speichel und motorischen Reaktionen in der Instrumentenkonditionierung. Wissenschaft. 1964; 146: 1071 – 1072. [PubMed]
  47. Everitt BJ, Robbins TW. Neuronale Verstärkungssysteme für Drogenabhängigkeit: von Handlungen über Gewohnheiten zu Zwängen. Nat Neurosci. 2005; 8: 1481-1489. [PubMed]
  48. Faure A, Haberland U, Conde F, El Massioui N. Die Verletzung des nigrostriatalen Dopaminsystems unterbricht die Bildung von Reizreaktionen. J Neurosci. 2005; 25: 2771 – 2780. [PubMed]
  49. Fiorillo CD, Tobler PN, Schultz W. Diskrete Codierung der Belohnung Wahrscheinlichkeit und Unsicherheit durch Dopamin-Neuronen. Wissenschaft. 2003; 299: 1898-1902. [PubMed]
  50. Fuster JM. Erinnerung in der Großhirnrinde. Cambridge: MIT Presse; 1995.
  51. Gallistel CR, Fairhurst S, Balsam P. Die Lernkurve: Auswirkungen einer quantitativen Analyse. Proc Natl Acad Sci US A. 2004; 101: 13124-13131. [PMC freier Artikel] [PubMed]
  52. Gehe zu Y, Grace AA. Dopaminerge Modulation des limbischen und kortikalen Antriebs des Nucleus accumbens im zielgerichteten Verhalten. Nat Neurosci. 2005; 8: 805-812. [PubMed]
  53. Gnade AA, Floresco SB, Goto Y, Hütte DJ. Regulierung des Abfeuerns von dopaminergen Neuronen und Kontrolle des zielgerichteten Verhaltens. Trends Neurosci. 2007; 30: 220-227. [PubMed]
  54. Groenewegen HJ, Berendse HW, Wolters JG, Lohman AH. Die anatomische Beziehung des präfrontalen Kortex zum striatopallidalen System, zum Thalamus und zur Amygdala: Beleg für eine parallele Organisation. Prog Brain Res. 1990; 85: 95 – 116. Diskussion 116 – 118. [PubMed]
  55. Guthrie ER. Die Psychologie des Lernens. New York: Harpers; 1935.
  56. Haber SN. Die Basalganglien der Primaten: parallele und integrative Netzwerke. J Chem Neuroanat. 2003; 26: 317 – 330. [PubMed]
  57. Haber SN, Fudge JL, McFarland NR. Striatonigrostriatalwege in Primaten bilden eine aufsteigende Spirale von der Schale zum dorsolateralen Striatum. J Neurosci. 2000; 20: 2369 – 2382. [PubMed]
  58. Hammond LJ. Die Auswirkung der Kontingenz auf die appetitanregende Konditionierung von frei operierendem Verhalten. Journal der experimentellen Verhaltensanalyse. 1980; 34: 297 – 304. [PMC freier Artikel] [PubMed]
  59. Haruno M, Kawato M. Heterarchisches Verstärkungs-Lernmodell für die Integration mehrerer kortiko-striataler Schleifen: fMRI-Untersuchung beim Lernen mit Reiz-Aktions-Belohnung-Assoziationen. Neural Netw. 2006a; 19: 1242 – 1254. [PubMed]
  60. Haruno M, Kawato M. Unterschiedliche neuronale Korrelate der Belohnungserwartung und des Belohnungserwartungsfehlers im Putamen- und Caudatkern während des Stimulus-Action-Belohnung-Assoziationslernens. J Neurophysiol. 2006b; 95: 948 – 959. [PubMed]
  61. Haruno M, Kuroda T, Doya K, Toyama K, Kimura M, Samejima K, Imamizu H, Kawato M. Ein neuronales Korrelat belohnungsbasierten Verhaltenslernens im Caudatkern: eine funktionelle Kernspintomographie-Studie einer stochastischen Entscheidungsaufgabe. J Neurosci. 2004; 24: 1660 – 1665. [PubMed]
  62. Hernandez PJ, Sadeghian K, Kelley AE. Frühe Konsolidierung des instrumentellen Lernens erfordert die Proteinsynthese im Nucleus Accumbens. Nat Neurosci. 2002; 5: 1327 – 1331. [PubMed]
  63. Hernandez PJ, Andrzejewski ME, Sadeghian K, Panksepp JB, Kelley AE. AMPA / Kainat-, NMDA- und Dopamin-D1-Rezeptorfunktion im Nucleus Accumbens-Kern: eine kontextabhängige Rolle bei der Kodierung und Konsolidierung des instrumentellen Gedächtnisses. Mem lernen 2005; 12: 285 – 295. [PMC freier Artikel] [PubMed]
  64. Hershberger WA. Eine Annäherung durch den Spiegel. Tierisches Lernen & Verhalten. 1986; 14: 443–451.
  65. Heyes CM, Dawson GR. Demonstration des Beobachtungslernens bei Ratten mithilfe einer bidirektionalen Kontrolle. Das vierteljährliche Journal of Experimental Psychology. 1990; 42 (1): 59 – 71. [PubMed]
  66. Hikosaka O, Sakamoto M, Usui S. Funktionelle Eigenschaften von Affen-Caudat-Neuronen. III. Aktivitäten in Bezug auf Zielerwartung und Belohnung. J Neurophysiol. 1989; 61: 814 – 832. [PubMed]
  67. Holland PC. Beziehungen zwischen Pawlowschen Instrumentaltransfer und Verstärkung der Abwertung. J Exp Psychol Anim Behav-Prozess. 2004; 30: 104 – 117. [PubMed]
  68. Holland PC, Rescorla RA. Die Auswirkung von zwei Arten der Abwertung des unbedingten Stimulus nach appetitlicher Konditionierung erster und zweiter Ordnung. J Exp Psychol Anim Behav-Prozess. 1975; 1: 355 – 363. [PubMed]
  69. Hollerman JR, Tremblay L, Schultz W. Einfluss der Belohnungserwartung auf die verhaltensbedingte neuronale Aktivität im Primatenstriatum. J Neurophysiol. 1998; 80: 947 – 963. [PubMed]
  70. Houk JC, Adams JL, Barto AG. Ein Modell, wie die Basalganglien neuronale Signale erzeugen und verwenden, die eine Verstärkung vorhersagen. In: Houk JC, JD, DB, Redakteure. Modelle der Informationsverarbeitung in den Basalganglien. Cambridge, MA: MIT Press; 1995. S. 249 – 270.
  71. Rumpf C. Verhaltensgrundsätze. New York: Appleton-Century-Crofts; 1943.
  72. Hyman SE, Malenka RC, Nestler EJ. Neuronale Mechanismen der Sucht: die Rolle von belohnungsbezogenem Lernen und Gedächtnis. Annu Rev Neurosci. 2006; 29: 565-598. [PubMed]
  73. Jedynak JP, Uslaner JM, Esteban JA, Robinson TE. Methamphetamin-induzierte strukturelle Plastizität im dorsalen Striatum. Eur J Neurosci. 2007; 25: 847 – 853. [PubMed]
  74. Joel D, Weiner I. Die Organisation der basalganglien-thalamokortikalen Kreisläufe: offene, nicht geschlossene, sondern geschlossene. Neurowissenschaften 1994; 63: 363 – 379. [PubMed]
  75. Joel D, Weiner I. Die Verbindungen des dopaminergen Systems mit dem Striatum bei Ratten und Primaten: Eine Analyse hinsichtlich der funktionellen und kompartimentären Organisation des Striatum. Neurowissenschaften 2000; 96: 451 – 474. [PubMed]
  76. Jueptner M, Frith CD, Brooks DJ, Frackowiak RS, Passingham RE. Anatomie des motorischen Lernens. II. Subkortikale Strukturen und Lernen durch Versuch und Irrtum. J Neurophysiol. 1997a; 77: 1325 – 1337. [PubMed]
  77. Jueptner M, Stephan KM, Frith CD, Brooks DJ, Frackowiak RS, Passingham RE. Anatomie des motorischen Lernens. I. Frontalkortex und Aufmerksamkeit zum Handeln. J Neurophysiol. 1997b; 77: 1313 – 1324. [PubMed]
  78. Kanazawa I, Murata M, Kimura M. Rollen von Dopamin und seiner Rezeptoren bei der Erzeugung choreischer Bewegungen. Adv Neurol. 1993; 60: 107 – 112. [PubMed]
  79. Kawagoe R, Takikawa Y, Hikosaka O. Erwartung der Belohnung moduliert kognitive Signale in den Basalganglien. Nat Neurosci. 1998; 1: 411 – 416. [PubMed]
  80. Kimura M, Aosaki T, Ishida A. Neurophysiologische Aspekte der unterschiedlichen Rollen des Putamen und des Caudatkerns bei freiwilligen Bewegungen. Adv Neurol. 1993; 60: 62 – 70. [PubMed]
  81. Konorski J. Integrative Aktivität des Gehirns. Chicago: Universität von Chicago Press; 1967.
  82. Lerchner A, La Camera G, Richmond B. Wissen ohne zu tun. Nat Neurosci. 2007; 10: 15 – 17. [PubMed]
  83. Ljungberg T, Apicella P, Schultz W. Reaktionen von Affen-Dopamin-Neuronen beim Lernen von Verhaltensreaktionen. J Neurophysiol. 1992; 67: 145-163. [PubMed]
  84. Lohrenz T, McCabe K, Camerer CF, Montague PR. Neuronale Signatur fiktiver Lernsignale in einer sequentiellen Investitionsaufgabe. Proc Natl Acad Sci US A. 2007; 104: 9493-9498. [PMC freier Artikel] [PubMed]
  85. Lovibond PF. Erleichterung des instrumentellen Verhaltens durch einen appetitlich konditionierten Stimulus aus Pavlov. J Exp Psychol Anim Behav-Prozess. 1983; 9: 225 – 247. [PubMed]
  86. Mackintosh NJ. Die Psychologie des Tierlernens. London: Academic Press; 1974.
  87. Miller EK, Cohen JD. Eine integrative Theorie der präfrontalen Kortexfunktion. Annu Rev Neurosci. 2001; 24: 167-202. [PubMed]
  88. Miller R. Bedeutung und Zweck im intakten Gehirn. New York: Oxford University Press; 1981.
  89. Miyachi S, Hikosaka O, Lu X. Differenzielle Aktivierung von Neuronen mit striatalen Affen im frühen und späten Stadium des prozeduralen Lernens. Exp Brain Res. 2002; 146: 122 – 126. [PubMed]
  90. Miyachi S, Hikosaka O, Miyashita K, Karadi Z, Rand MK. Unterschiedliche Rollen von Affenstriatum beim Lernen der sequentiellen Handbewegung. Exp Brain Res. 1997; 115: 1 – 5. [PubMed]
  91. Montague PR, Hyman SE, Cohen JD. Computerrollen für Dopamin bei der Verhaltenskontrolle. Natur. 2004; 431: 760-767. [PubMed]
  92. Morris G., Nevet A., Arkadir D., Vaadia E., Bergman H. Midbrain-Dopaminneuronen kodieren Entscheidungen für zukünftige Maßnahmen. Nat Neurosci. 2006; 9: 1057 – 1063. [PubMed]
  93. Murschall A, Hauber W. Durch die Inaktivierung des ventralen Tegmentbereichs wurde der generelle exzitatorische Einfluss der Pawlowschen Cues auf die Instrumentalperformance aufgehoben. Mem lernen 2006; 13: 123 – 126. [PubMed]
  94. Nauta WJ, Schmied GP, Faull RL, Domesick VB. Efferente Verbindungen und nigrale Afferenzen des Nucleus accumbens septi bei der Ratte. Neurowissenschaften. 1978; 3: 385-401. [PubMed]
  95. Nauta WJH. Gegenseitige Verbindungen des Corpus striatum mit der Großhirnrinde und dem limbischen System: Ein gemeinsames Substrat für Bewegung und Denken? In: Müller, Redakteur. Neurologie und Psychiatrie: ein Treffen der Köpfe. Basel: Karger; 1989. S. 43 – 63.
  96. Niv Y, Daw ND, Joel D., Dayan P. Tonic Dopamin: Opportunitätskosten und die Kontrolle der Reaktionsstärke. Psychopharmakologie (Berl) 2007; 191: 507-520. [PubMed]
  97. O'Doherty J, Dayan P, Schultz J, Deichmann R, Friston K, Dolan RJ. Dissoziable Rollen von ventralem und dorsalem Striatum in der instrumentalen Konditionierung. Wissenschaft. 2004; 304: 452-454. [PubMed]
  98. Ostlund SB, Balleine BW. Unterschiedliche Beteiligung des basolateralen Amygdale und des mediodorsalen Thalamus bei der Auswahl der instrumentellen Maßnahmen. J Neurosci. 2008; 28: 4398 – 4405. [PMC freier Artikel] [PubMed]
  99. Parkinson JA, Willoughby PJ, Robbins TW, Everitt BJ. Die Trennung der vorderen cingulösen Kortikalis und des Nucleus accumbens beeinträchtigt das Verhalten des Pavlov-Ansatzes: weitere Beweise für limbische kortikal-ventrale striatopallide Systeme. Behav Neurosci. 2000; 114: 42 – 63. [PubMed]
  100. Parkinson JA, Dalley JW, Kardinal RN, Bamford A, Fehnert B, Lachenal G, Rudarakanchana N, Chalkerston KM, Robbins TW, Everitt BJ. Der Abbau von Nucleus accumbens Dopamin beeinträchtigt sowohl den Erwerb als auch die Leistungsfähigkeit des Verhaltens des appetitlichen Verhaltens von Pavlov: Auswirkungen auf die Funktion von Mesoaccumbens Dopamin. Behav Brain Res. 2002; 137: 149 – 163. [PubMed]
  101. Paxinos G, Franklin K. Das Gehirn der Maus in stereotaktischen Koordinaten. New York: Academic Press; 2003.
  102. Pecina S, Smith KS, Berridge KC. Hedonische Hot Spots im Gehirn. Neurowissenschaftler. 2006; 12: 500 – 511. [PubMed]
  103. Pothuizen HH, Jongen-Relo AL, Feldon J, Yee BK. Die doppelte Dissoziation der Auswirkungen des selektiven Nucleus Accumbens führt zu Kern- und Schalenläsionen auf das Verhalten bei Impulswahl und das Erlernen der Salienz bei Ratten. Eur J Neurosci. 2005; 22: 2605 – 2616. [PubMed]
  104. Rescorla RA. Schockwahrscheinlichkeit bei An- und Abwesenheit von CS bei der Angstkonditionierung. J Comp Physiol Psychol. 1968; 66: 1 – 5. [PubMed]
  105. Rescorla RA. Verhaltensstudien der Pavlovian Konditionierung. Annu Rev Neurosci. 1988; 11: 329 – 352. [PubMed]
  106. Rescorla RA, Solomon RL. Zwei-Prozess-Lerntheorie: Beziehungen zwischen Pavlovian Konditionierung und instrumentellem Lernen. Psychol Rev. 1967; 74: 151-182. [PubMed]
  107. Restle F. Diskriminierung von Hinweisen in Labyrinthen: eine Lösung der Frage „Ort gegen Antwort“. Psychologische Überprüfung. 1957; 64: 217. [PubMed]
  108. Reynolds JN, Wickens JR. Dopamin-abhängige Plastizität kortikostriataler Synapsen. Neural Netw. 2002; 15: 507 – 521. [PubMed]
  109. Reis Ich, Cragg SJ. Nikotin verstärkt belohnungsabhängige Dopaminsignale im Striatum. Nat Neurosci. 2004; 7: 583 – 584. [PubMed]
  110. Reis Ich, Cragg SJ. Dopamin-Spillover nach quantitativer Freisetzung: Umdenken der Dopamin-Übertragung im nigrostriatalen Stoffwechselweg. Brain Res Rev. 2008 [PMC freier Artikel] [PubMed]
  111. Robinson S, Regenwasser AJ, Hnasko TS, Palmiter RD. Durch die virale Wiederherstellung des Dopamin-Signals an das dorsale Striatum wird die instrumentelle Konditionierung bei Dopamin-defizienten Mäusen wiederhergestellt. Psychopharmakologie (Berl) 2007; 191: 567-578. [PubMed]
  112. Roitman MF, Wheeler RA, Carelli RM. Nucleus accumbens-Neuronen sind von Natur aus auf belohnende und aversive Geschmacksreize abgestimmt, kodieren ihre Prädiktoren und sind mit der motorischen Leistung verknüpft. Neuron. 2005; 45: 587 – 597. [PubMed]
  113. Samejima K, Ueda Y, Doya K, Kimura M. Darstellung von aktionsspezifischen Belohnungswerten im Striatum. Wissenschaft. 2005; 310: 1337-1340. [PubMed]
  114. Schultz W. Das phasische Belohnungssignal von Primaten-Dopamin-Neuronen. Adv Pharmacol. 1998a; 42: 686 – 690. [PubMed]
  115. Schultz W. Prädiktives Belohnungssignal von Dopamin-Neuronen. J Neurophysiol. 1998b; 80: 1 – 27. [PubMed]
  116. Schultz W., Dayan P., Montague PR. Ein neurales Substrat der Vorhersage und Belohnung. Wissenschaft. 1997; 275: 1593-1599. [PubMed]
  117. Schwartz B, Gamzu E. Pavlovian Kontrolle des operanten Verhaltens. In: Honig W, Staddon JER, Herausgeber. Handbuch zum operanten Verhalten. New Jersey: Prentice Hall; 1977. S. 53 – 97.
  118. Sheffield FD. Verhältnis zwischen klassischer und instrumentaler Konditionierung. In: Prokasy WF, Herausgeber. Klassische Konditionierung. New York: Appleton-Century-Crofts; 1965. S. 302 – 322.
  119. Skinner B. Das Verhalten von Organismen. New York: Appleton-Century-Crofts; 1938.
  120. Smith-Roe SL, Kelley AE. Eine koinzidente Aktivierung von NMDA- und Dopamin-D1-Rezeptoren innerhalb des Nucleus accumbens-Kerns ist für appetitliches instrumentelles Lernen erforderlich. J Neurosci. 2000; 20: 7737 – 7742. [PubMed]
  121. Sotak BN, Hnasko TS, Robinson S., Kremer EJ, Palmiter RD. Dysregulation der Dopamin-Signalgebung im dorsalen Striatum hemmt die Nahrungsaufnahme. Brain Res. 2005; 1061: 88 – 96. [PubMed]
  122. Spence K. Die Rolle der Sekundärverstärkung beim verzögerten Belohnungslernen. Psychologische Überprüfung. 1947; 54: 1 – 8.
  123. Spence K. Verhaltenstheorie und Lernen. Englewood Cliffs, NJ: Prentice-Hall; 1960.
  124. Sutton RS, Barto AG. Verstärkung lernen. Cambridge: MIT Press; 1998.
  125. Swanson LW. Hirnhemisphäre Regulation des motivierten Verhaltens. Brain Res. 2000; 886: 113 – 164. [PubMed]
  126. Taha SA, Felder HL. Kodierung der Schmackhaftigkeit und des Appetitivverhaltens durch verschiedene neuronale Populationen im Nucleus Accumbens. J Neurosci. 2005; 25: 1193 – 1202. [PubMed]
  127. Taha SA, Felder HL. Hemmungen von Nucleus Accumbens-Neuronen kodieren ein Gate-Signal für belohnungsgesteuertes Verhalten. J Neurosci. 2006; 26: 217 – 222. [PubMed]
  128. Thorndike EL. Tierintelligenz: experimentelle Studien. New York: Macmillan; 1911.
  129. Tobler PN, Dickinson A, Schultz W. Kodierung der vorhergesagten Belohnungsunterbrechung durch Dopamin-Neuronen in einem konditionierten Hemmungsparadigma. J Neurosci. 2003; 23: 10402 – 10410. [PubMed]
  130. Tobler PN, O'Doherty JP, Dolan RJ, Schultz W. Das neuronale Lernen des Menschen hängt von Belohnungsvorhersagefehlern im Blockierungsparadigma ab. J Neurophysiol. 2006; 95: 301–310. [PMC freier Artikel] [PubMed]
  131. Tobler PN, O'Doherty JP, Dolan RJ, Schultz W. Belohnungswertcodierung, die sich von der risikobezogenen Unsicherheitskodierung in menschlichen Belohnungssystemen unterscheidet. J Neurophysiol. 2007; 97: 1621–1632. [PMC freier Artikel] [PubMed]
  132. Trapold MA, Overmier JB. Klassische Konditionierung II: Aktuelle Forschung und Theorie. Appleton-Century-Crofts; 1972. Der zweite Lernprozess beim instrumentellen Lernen; S. 427 – 452.
  133. Tricomi EM, Delgado MR, Fiez JA. Modulation der Caudataktivität durch Aktionskontingenz. Neuron. 2004; 41: 281 – 292. [PubMed]
  134. Waelti P, Dickinson A, Schultz W. Die Dopamin-Antworten entsprechen grundlegenden Annahmen der formalen Lerntheorie. Natur. 2001; 412: 43-48. [PubMed]
  135. Weiß NM. Eine funktionale Hypothese bezüglich der striatalen Matrix und der Patches: Vermittlung von SR-Gedächtnis und Belohnung. Life Sci. 1989; 45: 1943 – 1957. [PubMed]
  136. Wickens JR, Budd CS, Hyland BI, Arbuthnott GW. Striatale Beiträge zur Belohnung und Entscheidungsfindung: Erkennen regionaler Unterschiede in einer wiederholten Verarbeitungsmatrix. Ann NY Acad Sci. 2007; 1104: 192 – 212. [PubMed]
  137. Williams DR. Klassische Konditionierung und Incentive-Motivation. In: Prokasy WF, Herausgeber. Klassische Konditionierung. New York: Appleton-Century-Crofts; 1965. S. 340 – 357.
  138. Williams DR, Williams H. Automaintenance in der Taube: anhaltendes Picken trotz bedingter Nichtverstärkung. Journal der experimentellen Verhaltensanalyse. 1969; 12: 511 – 520. [PMC freier Artikel] [PubMed]
  139. Wiltgen BJ, Gesetz M, Ostlund S., Mayford M., Balleine BW. Der Einfluss von Pavlovian Queues auf die Instrumentalleistung wird durch die CaMKII-Aktivität im Striatum vermittelt. Eur J Neurosci. 2007; 25: 2491 – 2497. [PubMed]
  140. Wyvell CL, Berridge KC. Intra-Accumbens-Amphetamin erhöht den konditionierten Anreiz der Saccharose-Belohnung: Steigerung des Belohnungswunsches ohne gesteigertes „Gefallen“ oder Verstärkung der Reaktion. J Neurosci. 2000; 20: 8122 – 8130. [PubMed]
  141. Yin HH. Abteilung für Psychologie. Los Angeles: UCLA; 2004. Die Rolle des dorsalen Striatum bei zielgerichteten Handlungen.
  142. Yin HH, Knowlton BJ. Die Abwertung des Verstärkers beseitigt die konditionierte Stichwortpräferenz: Hinweise auf Reiz-Reiz-Assoziationen. Behav Neurosci. 2002; 116: 174 – 177. [PubMed]
  143. Yin HH, Knowlton BJ. Beiträge striataler Subregionen zum Ort- und Antwortlernen. Mem lernen 2004; 11: 459 – 463. [PMC freier Artikel] [PubMed]
  144. Yin HH, Knowlton BJ. Sucht und Lernen. In: Stacy A, Redakteur. Handbuch der impliziten Erkenntnis und Sucht. Tausend Eichen: Salbei; 2005.
  145. Yin HH, Knowlton BJ, Balleine BW. Läsionen des dorsolateralen Striatum behalten die Ergebniserwartung bei, behindern jedoch die Gewohnheitsbildung beim instrumentellen Lernen. Eur J Neurosci. 2004; 19: 181 – 189. [PubMed]
  146. Yin HH, Knowlton BJ, Balleine BW. Die Blockade von NMDA-Rezeptoren im dorsomedialen Striatum verhindert das Lernen von Aktionsergebnissen bei der instrumentellen Konditionierung. Eur J Neurosci. 2005a; 22: 505 – 512. [PubMed]
  147. Yin HH, Knowlton BJ, Balleine BW. Die Inaktivierung des dorsolateralen Striatum erhöht die Sensitivität gegenüber Änderungen der Eventualwirkung bei der instrumentellen Konditionierung. Behav Brain Res. 2006a; 166: 189 – 196. [PubMed]
  148. Yin HH, Zhuang X, Balleine BW. Instrumentelles Lernen bei hyperdopaminergischen Mäusen. Neurobiol lernen Mem. 2006b; 85: 283 – 288. [PubMed]
  149. Yin HH, Ostlund SB, Knowlton BJ, Balleine BW. Die Rolle des dorsomedialen Striatums bei der instrumentellen Konditionierung. Eur J Neurosci. 2005b; 22: 513 – 523. [PubMed]
  150. Zahm DS. Eine integrative neuroanatomische Perspektive auf einige subkortikale Substrate der adaptiven Reaktion mit Schwerpunkt auf den Nucleus Accumbens. Neurosci Biobehav Rev. 2000; 24: 85 – 105. [PubMed]
  151. Zahm DS. Die sich entwickelnde Theorie der funktionell-anatomischen "Makrosysteme" des basalen Vorderhirns. Neurosci Biobehav Rev. 2005 [PubMed]