Belöningsstyrt lärande utöver dopamin i kärnans accumbens: integrationsfunktionerna för kortikobasala ganglia-nätverk (2008)

Eur J Neurosci. 2008 Oct;28(8):1437-48. doi: 10.1111/j.1460-9568.2008.06422.x.

Yin HH1, Ostlund SB, Balleine BW.

Abstrakt

Här utmanar vi uppfattningen att belöningsstyrd inlärning enbart styrs av mesoaccumbens väg som härrör från dopaminerga neuroner i det ventrala tegmentala området och projicerar till nucleus accumbens. Denna allmänt accepterade uppfattning förutsätter att belöning är ett monolitiskt koncept, men nyare arbete har antytt något annat. Det verkar nu som om funktionerna hos ventrala och dorsala striata, och de kortikobasala gangliernas kretsar associerade med dem, kan dissocieras vid belöningsstyrd inlärning. Medan nucleus accumbens är nödvändig för att förvärva och uttrycka vissa aptitliga Pavlovianska svar och bidrar till den motiverande kontrollen av instrumentell prestation, är ryggstriatum nödvändigt för att förvärva och uttrycka instrumentella handlingar. Sådana fynd tyder på existensen av flera oberoende men ändå interagerande funktionella system som implementeras i itererande och hierarkiskt organiserade kortiko-basala ganglia-nätverk som är engagerade i aptitretande beteenden, allt från Pavlovianska tillvägagångssättsvar till målriktade instrumentella handlingar kontrollerade av åtgärd-resultat oförutsedda händelser.

Nyckelord: striatum, dopamin, basala ganglier, inlärning, nucleus accumbens, belöning

Det har blivit vanligt i den senaste litteraturen att hitta ett monolitiskt begrepp "belöning" tillämpat enhetligt på aptitligt beteende, oavsett om det ska beteckna något som är bra för organismen (vanligtvis ur försöksledarens perspektiv), eller används omväxlande med äldre termer som t.ex. 'förstärkning' eller 'incitament'. Detta tillstånd uppmuntras av, om inte i sig självt konsekvensen av, fokuseringen på ett enda neuralt substrat för "belöning" som involverar frisättning av dopamin (DA) i nucleus accumbens (Berke och Hyman, 2000; Grace et al., 2007).

Kopplingen mellan mesoaccumbens väg och belöning, som erkändes för decennier sedan, har återupplivats av nyare bevis på att den fasiska DA-signalen kodar ett belöningsförutsägelsefel, som förmodligen fungerar som en undervisningssignal i associativ inlärningg (Schultz et al., 1997). Enligt den mest populära tolkningen, precis som det finns en enda signal för belöning, så finns det en enda signal för belöningsstyrd inlärning, vilket i det här fallet betyder samband mellan en stimulans och en belöning (Montague et al., 2004). Frågan om hur denna typ av lärande styr adaptivt beteende har dock försummats; det antas helt enkelt att dopaminsignalen är tillräcklig för både förutsägande inlärning och de villkorade svaren som alstras därav, och för målinriktade handlingar styrda av deras associering med belöning. Följaktligen är fokus för den mesta forskningen inom området belöning och beroende DA-signalering och relaterad plasticitet i mesoaccumbens-vägen (Berridge och Robinson, 1998; Hyman et al., 2006; Grace et al., 2007).

Denna syn på belöningsprocessen, som alltmer erkänns (Cardinal et al., 2002; Balleine, 2005; Everitt och Robbins, 2005; Hyman et al., 2006), är både otillräcklig och vilseledande. Det är otillräckligt eftersom varken förvärvet eller utförandet av målinriktade handlingar kan förklaras i termer av de associativa processer som förmedlar stimulans-belönande lärande. Det är dessutom missvisande eftersom den exklusiva fokuseringen på aktivitet i mesoaccumbens-vägen, som varken är nödvändig eller tillräcklig för målinriktade handlingar, har avlett uppmärksamheten från den mer grundläggande frågan om exakt vad målriktade handlingar är och hur de genomförs. av hjärnan. I själva verket, enligt konvergerande bevis från en mängd olika experimentella tillvägagångssätt, kan vad som tidigare har verkat vara en enda belöningsmekanism faktiskt omfatta flera processer med distinkta beteendeeffekter och neurala substrat (Corbit et al., 2001; O'Doherty et al., 2004; Yin et al., 2004; Delgado et al., 2005; Yin et al., 2005b; Haruno och Kawato, 2006a; Tobler et al., 2006; Jedynak et al., 2007; Robinson et al., 2007; Tobler et al., 2007).

Här försöker vi avslöja några av de problem som är förknippade med den nuvarande mesoaccumbens-modellen och att i dess ställe föreslå en annan modell för belöningsstyrt lärande. Vi ska hävda att striatum är en mycket heterogen struktur som kan delas in i minst fyra funktionella domäner, som var och en fungerar som ett nav i ett distinkt funktionellt nätverk med andra kortikala, talamus, pallidala och mellanhjärnans komponenter.. De integrerande funktionerna i dessa nätverk, allt från produktionen av ovillkorliga svar framkallade av belöning till kontroll av målinriktade handlingar, kan dissocieras och studeras med hjälp av samtida beteendeanalyser.

Förutsägelse och kontroll

Mesoaccumbens-vägen antas ofta vara nödvändig för förvärvet av ett samband mellan belöning och miljöstimuli som förutsäger den belöningen. Till exempel, i några av experimenten som undersökte den fasiska aktiviteten hos DA-celler framkallade av belöning, tränades apor att associera en stimulans med leverans av juice (Waelti et al., 2001) och svarar därefter på stimulansen med ett villkorligt svar (CR) - förutseende slickning. Apans slickande kan vara målinriktat, eftersom den anser att det är nödvändigt att skaffa juice. Alternativt kan slickning framkallas av den föregående stimulans som juice är associerad med. Vilken av dessa bestämningsfaktorer för apornas slickande styr beteendet i någon speciell situation är inte känd a priori, och kan inte bestämmas genom ytlig observation; det kan endast bestämmas med tester som utformats speciellt för detta ändamål. Dessa test, som har tagit många decennier att utveckla, utgör kärnan i de stora moderna framstegen inom studiet av lärande och beteende (Tabell 1). Från användningen av dessa tester, som kommer att diskuteras nedan, vet vi nu att samma beteenderespons – oavsett om det är ambulerande tillvägagångssätt, orientering eller att trycka på en spak – kan uppstå från flera influenser som är experimentellt dissocierbara.

Tabell 1  

Belöningsstyrt lärande

Okänslighet för den centrala tvetydigheten i beteendets faktiska bestämningsfaktorer är således huvudproblemet med nuvarande neurovetenskapliga analyser av belöningsstyrt lärande. To förstå betydelsen av detta problem är det nödvändigt att inse skillnaderna mellan hur prediktivt (eller pavlovskt) lärande och målstyrt (eller instrumentellt) lärande kontrollerar aptitbeteende. Att döma av hur ofta dessa två processer har blandats ihop i litteraturen om belöning, verkar en kort genomgång av denna distinktion vara en användbar utgångspunkt för vår diskussion.

Vid aptitlig Pavlovsk konditionering, paras belöningen (dvs. den ovillkorliga stimulansen eller US) med en stimulans (villkorlig stimulans eller CS), oavsett djurets beteende, medan belöningen vid instrumentell inlärning är beroende av djurens handlingar. Den kritiska frågan i båda situationerna är dock om föreningen stimulus-belöning eller aktion-belöning föreningen kontrollerar beteendet.

Hur enkelt det än verkar har denna fråga gäckat utredare i många decennier, till stor del eftersom beteendesvaren i dessa situationer kan verka identiska.

Således kan de villkorade svaren (CR) som kontrolleras av Pavlovian stimulus-belöningsförening ofta ha en finér av målinriktad karaktär. Till och med salivering, Pavlovs ursprungliga CR, kunde ha producerats av hans hundar som ett medvetet försök att underlätta förtäring. Det är just på grund av denna tvetydighet som den mest uppenbara förklaringen – nämligen att i Pavlovian konditionering lärs stimulus-utfall associationen, medan i instrumentell konditionering handling-outcome association lärs in – misslyckades med att få mycket stöd under många decennier (Skinner, 1938; Ashby, 1960; Bolles, 1972; Mackintosh, 1974). Ändå, även om många Pavlovska CR:er är autonoma eller fullbordande, är andra CR:er, såsom närmande beteende mot en belöning, inte så bekvämt karakteriserade (Rescorla och Solomon, 1967); faktiskt, de kan lätt misstas för instrumentella handlingar (Brun och Jenkins, 1968; Williams och Williams, 1969; Schwartz och Gamzu, 1977). Vi vet nu att, trots en ytlig likhet, skiljer sig Pavlovianska CRs och målinriktade instrumentella handlingar i den representativa strukturen som kontrollerar resultatet av svaret (Schwartz och Gamzu, 1977).

Det mest direkta sättet att fastställa huruvida utförandet av ett svar förmedlas av en stimulans-belöning eller en aktion-belöning association är att undersöka den specifika beredskapskontrollerande prestationen. Exemplet med salivutsöndring är lärorikt här. Sheffield (1965) testade om salivutsöndring i Pavlovsk konditionering kontrollerades av dess förhållande till belöning eller av stimulans-belöningsassociationen. I sitt experiment fick hundar parningar mellan en ton och en matbelöning (Sheffield, 1965). Men om hundarna saliverade under tonen levererades inte maten på det försöket. Detta arrangemang upprätthöll ett pavlovskt förhållande mellan ton och mat, men avskaffade varje direkt samband mellan salivutsöndring och matleverans. Om salivutsöndringen var en handling som kontrollerades av dess förhållande till mat, så borde hundarna sluta salivera - de borde faktiskt aldrig få salivering till tonen alls. Sheffield fann att det helt klart var det Pavlovska ton-mat-förhållandet som styrde salivutsöndringen CR. Under loppet av över 800 parningar av ton-foder, förvärvade och bibehöll hundarna salivutsöndring till tonen, även om detta resulterade i att de förlorade det mesta av maten de kunde ha fått genom att inte salivera. En liknande slutsats drogs av andra i studier med människor (Pithers, 1985) och andra djur (Brun och Jenkins, 1968; Williams & Williams, 1969; Holland, 1979); i alla fall verkar det som om Pavlovianska svar, trots deras stora variation, inte styrs av deras förhållande till belöningen – dvs.

Termen kontingens syftar på det villkorliga förhållandet mellan en händelse 'A' och en annan, 'B', så att förekomsten av B beror på A. Ett förhållande av detta slag kan lätt försämras genom att presentera B i frånvaro av A. Detta experimentell manipulation, hänvisad till som oförutsedda nedbrytning, utförs vanligtvis genom att presentera en belöning oberoende av antingen den prediktiva stimulansen eller åtgärden. Även om detta tillvägagångssätt ursprungligen utvecklades för att studera Pavlovsk konditionering (Rescorla, 1968), har instrumentell beredskapsförsämring också blivit ett vanligt verktyg (Hammond, 1980). När dessa oförutsedda händelser manipuleras direkt avslöjas innehållet i lärandet: t.ex. i autoshaping, störs en Pavlovsk CR "förklädd" som en instrumentell handling av manipulationer av den pavloviska snarare än den instrumentella kontingensen (Schwartz och Gamzu, 1977).

Målinriktade instrumentella handlingar kännetecknas av två kriterier: 1) känslighet för förändringar i värdet av resultatet och 2) känslighet för förändringar i händelsen mellan åtgärd och resultat (Dickinson, 1985; Dickinson och Balleine, 1993). Känslighet för enbart resultatdevalvering, det bör betonas, räcker inte för att karakterisera ett svar som målinriktat eftersom vissa pavlovianska svar också kan vara känsliga för denna manipulation (Holland och Rescorla, 1975). Utförandet av målinriktade instrumentella handlingar är emellertid också känsligt för manipulationer av åtgärd-resultat-kontingensen, medan Pavlovianska svar är känsliga för manipulationer av stimulus-resultat-kontingensen (Rescorla, 1968; Davis och Bitterman, 1971; Dickinson och Charnock, 1985). Ett viktigt undantag kan dock hittas i fallet med vanor (se nedan), som mer liknar Pavlovianska svar i sin relativa okänslighet för förändringar i den instrumentella beredskapen, men som också är ogenomträngliga för utfallsdevalvering eftersom resultatet inte är en del av representationsstrukturen som styr prestanda (jfr. Dickinson, 1985 och nedan för vidare diskussion).

För att sammanfatta är det alltså av yttersta vikt att ett visst svar är tydligt definierat i termer av den kontrollerande beredskapen snarare än av antingen svarsformuläret eller den beteendeuppgift som används för att fastställa den. Utan att undersöka den kontrollerande beredskapen i en given situation, kommer sannolikt både beteendet och de neurala processer som förmedlas av beteendet att vara felkarakteriserade. I slutändan, som vi ska hävda, är det de faktiska kontrollerande händelserna, förvärvade genom inlärning och implementerade av distinkta neurala system, som kontrollerar beteendet, även om de kan ha samma "slutliga gemensamma väg". Den centrala utmaningen är alltså att gå bortom det yttre för att avslöja det underliggande beredskapskontrollerande beteendet (för en sammanfattning se Tabell 1). För att hävda att specifika neurala strukturer förmedlar specifika psykologiska kapaciteter, t.ex. målinriktadhet, måste beteendets status bedömas med lämpliga beteendeanalyser. Att göra något annat är att bjuda på förvirring när grupper argumenterar om de lämpliga neurala determinanterna samtidigt som de inte inser att deras beteendeuppgifter kan vara att mäta olika fenomen. Det som i slutändan spelar roll är vad djuret faktiskt lär sig, inte vad experimenteraren tror att djuret lär sig, och vad djuret faktiskt lär sig kan bara avslöjas genom analyser som direkt undersöker innehållet i lärandet.

Den Pavlovianska-instrumentella distinktionen skulle ha varit trivial, om djuret lyckats lära sig samma sak (säg ett samband mellan stimulans och belöning) oavsett vad de experimentella arrangemangen är. Med de vanligaste inlärningsmåtten som finns tillgängliga för neurovetenskap idag, finns det helt enkelt inget sätt att säga. Således hävdar forskare ofta att de studerar målinriktat beteende utan att undersöka om beteendet i fråga faktiskt är riktat mot målet. Även om olika typer av lärande vanligtvis antas vara resultatet av användningen av olika "uppgifter" eller "paradigm", misslyckas forskare oftare än inte med att tillhandahålla en adekvat motivering för sina antaganden.

Ett klassiskt exempel på denna fråga är användningen av labyrinter för att studera lärande. Ett problem med labyrintexperiment och relaterade analyser, som betingad platspreferens, är svårigheten att experimentellt dissociera påverkan av Pavlovian (stimulus-belöning) och instrumentella (action-belöning) oförutsedda händelser på beteende (Dickinson, 1994; Yin och Knowlton, 2002). Att röra sig genom en T-labyrint för att få mat kan således spegla en svarsstrategi (sväng vänster) eller helt enkelt ett betingat tillvägagångssätt mot ett landmärke utanför labyrinten som kontrolleras av cue-food-föreningen (Restle, 1957). Ett sätt att testa om det senare spelar en roll i prestanda är att invertera labyrinten; nu bör svarsinlärare fortsätta att svänga vänster medan de som använder extra-labyrint-ledar bör svänga höger. Men använder de som fortsätter att svänga till vänster verkligen en svarsstrategi eller närmar de sig bara några intra-Maze cue associerad med mat? Det är inte en enkel sak att ta reda på, eftersom de vanliga kontrollerna för Pavlovsk kontroll av beteende inte lätt kan tillämpas i labyrintstudier. En av dessa, den dubbelriktade kontrollen, fastställer att djur kan utöva kontroll över ett visst svar genom att kräva att riktningen för det svaret vänds för att få belöning (Hershberger, 1986; Heyes och Dawson, 1990). Tyvärr, i en labyrint, kan svarsomkastning fortfarande inte vara tillräckligt för att etablera en handling som målinriktad, eftersom omkastning kan åstadkommas genom att släcka det befintliga stimulus-belöningsförhållandet och ersätta det med ett annat. Till exempel kan en råtta som närmar sig en viss intra-labyrint-cue lära sig, under reversering, att den inte längre är ihopkopplad med belöning, utan att någon annan stimulans är det, vilket resulterar i att man skaffar sig en CR mot den nya stimulansen. Sålunda kan de uppenbarligen vända på sitt svar utan att någonsin ha kodat respons-belöningskontingeniteten. Eftersom denna möjlighet inte kan testas i praktiken, är användningen av labyrinter, platspreferensprocedurer eller enkla rörelseuppgifter för att studera målinriktade inlärningsprocesser särskilt farlig och kommer sannolikt att leda till att processerna som kontrollerar beteendet felkarakteriseras tillsammans med den specifika rollen för varje neural. processer som befunnits vara involverade (Smith-Roe och Kelley, 2000; Hernandez et al., 2002; Atallah et al., 2007).

Nucleus accumbens är inte nödvändigt för instrumentellt lärande

Otillräckligheterna i nuvarande beteendeanalys blir särskilt tydliga i studiet av nucleus accumbens. Många studier har föreslagit att denna struktur är avgörande för förvärvet av målinriktade handlingar (Hernandez et al., 2002; Goto and Grace, 2005; Hernandez et al., 2005; Pothuizen et al., 2005; Taha och Fields, 2006; Atallah et al., 2007; Cheer et al., 2007; Lerchner et al., 2007). Men denna slutsats har kommit till enbart baserad på mått på en förändring i prestanda, med hjälp av uppgifter där det beredskapskontrollerande beteendet är tvetydigt. Även om observationen att en manipulation försämrar förvärvet av något beteendesvar kan tyda på ett inlärningsunderskott, kan de också återspegla en effekt på responsinitiering eller motivation. Till exempel kan en försämring i förvärvet av spakpressning ofta spegla en effekt på prestation snarare än på inlärning (Smith-Roe och Kelley, 2000). Enbart förvärvskurvor, som ofullständiga representationer av någon inlärningsprocess, måste tolkas med försiktighet (Gallistel et al., 2004). Tyvärr ignoreras skillnaden mellan lärande och prestation, kanske den äldsta lektionen i studiet av lärande, ofta idag.

En mer detaljerad analys indikerar att accumbens varken är nödvändig eller tillräcklig för instrumentellt lärande. Lesioner av accumbens-skalet förändrar inte prestationskänsligheten för resultatdevalvering (de Borchgrave et al, 2002; Corbit et al, 2001) eller till instrumentell beredskapsförsämring (Corbit et al, 2001), medan lesioner av accumbens kärna har visat sig minska känsligheten för devalvering utan att försämra råttornas känslighet för selektiv nedbrytning av den instrumentella beredskapen (Corbit et al., 2001). Andra studier som bedömer effekten av accumbens-manipulationer på förvärvet av ett nytt svar i studier av betingad förstärkning har konsekvent funnit en effekt på belöningsrelaterad prestation, särskilt förbättringen av prestandan med amfetamin, men inte på förvärvet av svar i sig (Parkinson et al, 1999). Likaså fann en systematisk studie av Cardinal och Cheung ingen effekt av accumbens kärnskador på förvärvet av ett spakpresssvar under ett kontinuerligt förstärkningsschema; försämrad förvärv observerades endast med fördröjd förstärkning (Cardinal och Cheung, 2005).

Även om accumbens inte kodar den instrumentella kontingensen (Balleine & Killcross, 1994; Corbit, Muir & Balleine, 2001), avsevärda bevis tyder på att det spelar en grundläggande roll i instrumental prestanda, en roll som vi nu bättre kan definiera i ljuset av det senaste arbetet. Som avslutats av flera studier är accumbens avgörande för vissa typer av aptitlig Pavlovian-konditionering och förmedlar både de icke-specifika excitatoriska effekterna som belöningsassocierade signaler kan ha på instrumentell prestation, såväl som de resultatspecifika fördomar på svarsval som produceras av sådana signaler. Lesioner i kärnan, eller i det främre cingulatet, en viktig källa till kortikal input till kärnan, eller en frånkoppling mellan dessa två strukturer, försämrar förvärvet av Pavlovian approach beteende (Parkinson et al., 2000). Lokal infusion av en D1-liknande dopaminreceptorantagonist eller en NMDA-glutamatreceptorantagonist omedelbart efter träning försämrade också denna form av inlärning utan att påverka prestationsförmågan (Dalley et al., 2005). Dessa uppgifter överensstämmer med mått på in vivo- neural aktivitet. Till exempel fann Carelli och kollegor att neuroner i accumbens kärna kan ändra sin aktivitet systematiskt under inlärningen av en Pavlovsk autoformningsuppgift (Day et al., 2006; Day och Carelli, 2007).

Neuroner i skalregionen verkar vara inställda på belöningar och aversiva stimuli, även innan någon lärandeupplevelse; de är också kapabla att utveckla svar på CS som förutsäger dessa resultat (Roitman et al., 2005). Arbete av Berridge och kollegor, dessutom, har tagit upp möjligheten att vissa regioner inom nucleus accumbens skal och i nedströms ventral pallidum kan karakteriseras som "hedoniska hotspots". Dessa områden modulerar direkt ovillkorliga hedoniska svar på belöningar, såsom smakreaktivitet. Till exempel kan agonister av opioidreceptorer i dessa regioner signifikant förstärka intagssmakreaktiviteten mot sackaros. Sådana starkt lokaliserade regioner är dock inbäddade i bredare nätverk som inte spelar någon roll i fullbordat aptitbeteende (Taha och Fields, 2005; Pecina et al., 2006; Taha och Fields, 2006).

Skillnaden i de relativa rollerna av kärna och skal verkar vara en mellan förberedande och fullbordande aptitbeteenden, respektive, som lätt kan modifieras av erfarenhet genom distinkta typer av Pavlovsk konditionering. Förberedande svar som tillvägagångssätt är kopplade till allmänna känslomässiga egenskaper hos resultatet, medan de fullbordande beteendena är kopplade till mer specifika sensoriska egenskaper; de är också differentiellt mottagliga för olika typer av CS, t.ex. förberedande svar är lättare betingade med en stimulans med lång varaktighet (Konorski, 1967; Dickinson och Dearing, 1979; Balleine, 2001; Dickinson och Balleine, 2002).

I vilket fall som helst är bevisen som implicerar ackumbenen i vissa aspekter av Pavlovs konditionering överväldigande. Det är dock inte den enda inblandade strukturen, och andra nätverk, såsom de som involverar de olika amygdaloidkärnorna, verkar också spela en central roll i både de förberedande och fullbordande komponenterna i Pavlovs konditionering (Balleine och Killcross, 2006).

En funktion som tydligt kan tillskrivas accumbens är integrationen av Pavlovianska influenser på instrumentellt beteende. Pavlovska CRs, inklusive de som återspeglar aktiveringen av centrala motivationstillstånd, såsom begär och upphetsning, kan utöva ett starkt inflytande på utförandet av instrumentella handlingar (Trapold och Overmier, 1972; Lovibond, 1983; Holland, 2004). Till exempel kan en CS som oberoende förutsäger matleverans öka instrumentell respons för samma mat. Denna effekt studeras vanligtvis med hjälp av Pavlovian-instrumental transfer paradigm (PIT). I PIT får djuren separata Pavloviska och instrumentella träningsfaser, där de självständigt lär sig att associera en cue med mat och att trycka på en spak för samma mat. Sedan på sondförsök presenteras signalen med spaken tillgänglig och höjningen av svarsfrekvensen i närvaro av CS mäts. Två former av PIT har identifierats; en relaterad till den allmänt upphetsande effekten av belöningsrelaterade ledtrådar och en andra mer selektiv effekt på valprestandan producerad av en signals prediktiva status med respekt för en specifik belöning i motsats till andra. Accumbens-skalet är nödvändigt för denna senare utfallsspecifika form av PIT, men är varken nödvändigt för den förra, mer allmänna formen eller för känslighet för utfallsdevalvering; däremot minskar lesioner i accumbens kärna känsligheten för både resultatdevalvering och den allmänna formen av PIT men lämnar intakt resultatspecifik PIT (Corbit et al., 2001; (Balleine och Corbit, 2005).

En nyligen genomförd studie gav ytterligare insikt om rollen av accumbens skal i resultatspecifik PIT (Wiltgen et al., 2007). Kontrollerat uttryck av aktivt kalcium/kalmodulinberoende proteinkinas II (CaMKII) i striatum påverkade inte instrumentell eller Pavlovisk inlärning, men avskaffade specifik PIT. Detta underskott i PIT var inte permanent och kunde vändas genom att stänga av transgenuttrycket med doxycyklin, vilket visar att underskottet endast var associerat med prestation. Artificiell höjning av nivån av CaMKII i striatum blockerar därför den resultatspecifika överföringen av incitamentmotivation från det pavloviska till det instrumentella systemet. Intressant nog visade sig att slå på CaMKII-transgenen också minska excitabiliteten av neuroner i accumbens skal, utan att påverka basal överföring eller synaptisk styrka.

Den dorsala striatum

Den dorsala striatum, även känd som neostriatum eller caudate-putamen, får massiva projektioner från den så kallade neocortexen. Det kan vidare delas in i en associativ region, som hos gnagare är mer medial och kontinuerlig med ventral striatum, och en sensorimotorisk region som är mer lateral (Groenewegen et al., 1990; Joel och Weiner, 1994). Som helhet innerveras dorsala striatum av DA-celler från substantia nigra pars compacta (SNc), och tar bara emot magra projektioner från VTA DA-neuronerna (Joel och Weiner, 2000). Tidigare arbete med dorsala striatum har fokuserat mest på dess roll i stimulus-respons (SR) vanelärning (Miller, 1981; Vit, 1989). Denna uppfattning är baserad på effektens lag, enligt vilken en belöning verkar för att stärka eller förstärka en SR-association mellan miljöstimulans och responsen som utförs som ett resultat av vilket tendensen att utföra den responsen ökar i närvaro av de stimuli (Thorndike, 1911; Hull, 1943; Miller, 1981). Således tros den kortikostriatala vägen förmedla SR-inlärning med DA som fungerar som förstärkningssignalen (Miller, 1981; Reynolds och Wickens, 2002).

SR-modeller har fördelen av att innehålla en sparsam regel för att översätta lärande till prestation. En modell baserad på handlingsrelaterade förväntningar är däremot mer komplicerad eftersom tron ​​"Action A leads to Outcome O" inte nödvändigtvis behöver översättas till handling (Guthrie, 1935; Mackintosh, 1974); information av detta slag kan användas både för att utföra 'A' och för att undvika att utföra 'A'. Av denna anledning undvek traditionella teorier den mest uppenbara förklaringen – nämligen att djur kan få en händelse-utfallskontingens som styr valbeteende. De senaste decennierna har dock sett en betydande revidering av lagen om effekt (Adams, 1982; Colwill och Rescorla, 1986; Dickinson, 1994; Dickinson et al., 1996). TResultaten från många studier har visat att instrumentella handlingar verkligen kan vara målinriktade, dvs. känsliga för förändringar i belöningsvärde såväl som åtgärdens orsakseffekt. (se Dickinson & Balleine, 1994; 2002; Balleine, 2001 för recensioner). Ändå, under loppet av omfattande träning under konstanta förhållanden, kan även nyförvärvade handlingar bli relativt automatiska och stimulansdrivna – en process som kallas vanebildning (Adams och Dickinson, 1981; Adams, 1982; Yin et al., 2004). Vanor som definieras på detta sätt, som automatiskt framkallas av föregående stimuli, styrs inte av förväntan eller representation av resultatet; de är följaktligen ogenomträngliga för förändringar i resultatvärde. Ur detta perspektiv är effektlagen därför ett specialfall som endast gäller vanemässigt beteende.

Den nuvarande klassificeringen av instrumentellt beteende delar upp det i två klasser. Tden första klassen omfattar målinriktade handlingar som kontrolleras av den instrumentella beredskapen; det andra, vanemässigt beteende som är ogenomträngligt för förändringar i resultatvärde (Tabell 1). Med hjälp av beteendeanalyser som utfallsdevalvering och instrumentell beredskapsnedbrytning, etablerade Yin et al en funktionell dissociation mellan de sensorimotoriska (dorsolaterala striatum, DLS) och associativa regioner (dorsomedial striatum, DMS) i dorsala striatum (Yin och Knowlton, 2004; Yin et al., 2004, 2005; Yin et al., 2005b; Yin et al., 2006a). Lesioner av DLS försämrade utvecklingen av vanor, vilket resulterade i en mer målinriktad beteendekontroll. Lesioner av DMS har motsatt effekt och resulterar i en övergång från målstyrd till vanemässig kontroll. Yin et al drog därför slutsatsen att DLS och DMS kan dissocieras funktionellt i termer av vilken typ av associativa strukturer de stödjer: DLS är avgörande för vanebildning, medan DMS är avgörande för förvärv och uttryck av målriktade handlingar. Denna analys förutspår att under vissa förhållanden (t.ex. utökad träning) kan kontrollen av åtgärderna skifta från det DMS-beroende systemet till det DLS-beroende systemet, en slutsats som är i stort överensstämmelse med den betydande litteraturen om primater, inklusive mänsklig neuroimaging (Hikosaka et al., 1989; Jueptner et al., 1997a; Miyachi et al., 1997; Miyachi et al., 2002; Delgado et al., 2004; Haruno et al., 2004; Tricomi et al., 2004; Delgado et al., 2005; Samejima et al., 2005; Haruno och Kawato, 2006a, b; Lohrenz et al., 2007; Tobler et al., 2007). Det bör naturligtvis komma ihåg, thattens fysiska placering (t.ex. dorsalt eller ventralt) kan inte ensamt vara en tillförlitlig vägledning för att jämföra gnagarens striatum och primatens striatum; sådana jämförelser bör göras med försiktighet, efter noggrant övervägande av den anatomiska anslutningen.

Effekterna av dorsala striatala lesioner kan jämföras med effekterna av accumbens lesioner (Smith-Roe och Kelley, 2000; Atallah et al., 2007). Som redan nämnts är standardtesterna för att fastställa ett beteende som "målinriktat" resultatdevalvering och försämring av åtgärd-resultat-kontingensen (Dickinson och Balleine, 1993). Lesioner i DMS gör beteende okänsligt för båda manipulationerna (Yin et al., 2005b), medan lesioner av accumbens kärna eller skal inte (Corbit et al., 2001). Dessutom utförs probtesterna av dessa beteendeanalyser vanligtvis i utrotning, utan att presentera någon belöning, för att bedöma vad djuret har lärt sig utan kontaminering av ny inlärning. De undersöker alltså direkt den representativa strukturen som kontrollerar beteendet. Som en ytterligare experimentell kontroll är det ofta användbart att genomföra ett separat devalveringstest där belöningar faktiskt levereras - det så kallade "belönade testet". Lesioner av DMS avskaffade inte känsligheten för resultatdevalvering på det belönade testet, vilket bör förväntas eftersom leveransen av ett devalverat resultat beroende på en åtgärd kan undertrycka åtgärden oberoende av action-outcome-kodning. Accumbens shell lesions, å andra sidan, försämrade inte känsligheten för utfallsdevalvering på vare sig extinktionstestet eller det belönade testet, medan accumbens core lesions avskaffade känsligheten för devalvering på båda testerna (Corbit et al., 2001). Känslighet för oförutsedda nedbrytning påverkades dock inte av någon av lesionerna, vilket visar att råttorna efter accumbens lesioner kunde koda och hämta representationer av handlingsresultat.

Dopamins roll: mesolimbisk vs. nigrostriatal

Ända sedan de banbrytande studierna på den fasiska aktiviteten av DA-neuroner hos apor är ett vanligt antagande inom området att alla DA-celler beter sig på i huvudsak samma sätt (Schultz, 1998a; Montague et al., 2004). De tillgängliga uppgifterna, såväl som den anatomiska anslutningen, tyder dock på något annat. Faktum är att ovanstående analys av funktionell heterogenitet i striatum kan utökas till DA-cellerna i mellanhjärnan också.

DA-celler kan delas in i två huvudgrupper: VTA och substantia nigra pars compacta (SNc). Även om projektionen från VTA till accumbens har varit i centrum för uppmärksamheten inom området för belöningsrelaterat lärande, den mycket mer massiva nigrostriatala vägen har varit relativt försummad, med uppmärksamheten fokuserad främst på dess roll i Parkinsons sjukdom. Aktuellt tänkande om rollen som DA i lärande har starkt påverkats av förslaget att den fasiska aktiviteten hos DA-celler återspeglar ett belöningsförutsägelsefelr (Ljungberg et al., 1992; Schultz, 1998b). jagn den vanligaste Pavlovska konditioneringsuppgiften som används av Schultz och kollegor, avfyrar dessa neuroner som svar på belöning (US), men med lärande flyttas den USA-framkallade aktiviteten till CS. När USA utelämnas efter inlärning visar DA-cellerna en kort depression i aktivitet vid den förväntade tidpunkten för dess leverans (Waelti et al., 2001; Fiorillo et al., 2003; Tobler et al., 2003). Sådana data utgör grunden för en mängd olika beräkningsmodeller (Schultz et al., 1997; Schultz, 1998b; Brown et al., 1999; Montague et al., 2004).

Med tanke på flera nivåer av kontroll i mekanismerna för syntes och frisättning, kan spikningen av DA-neuroner inte likställas med DA-frisättning, även om man skulle förvänta sig att dessa två mått är starkt korrelerade. I själva verket, som visas av en nyligen genomförd studie av Carelli och kollegor som använder snabbavsökning av cyklisk voltammetri, faktisk DA-frisättning i accumbens-kärnan verkar vara korrelerad med ett prediktionsfel i aptitlig Pavlovian-konditionering (Day et al., 2007). De hittade en fasisk DA-signal i accumbens kärna omedelbart efter mottagandet av sackarosbelöning i Pavlovian autoshaping. Efter utökad Pavlovsk konditionering hittades dock inte denna signal längre efter själva belöningen, utan flyttades till CS istället. Detta fynd stöder den ursprungliga hypotesen om "prediktionsfel". Det överensstämmer också med tidigare arbete som visar försämrad prestanda av Pavlovian CR efter antingen DA-receptorantagonism eller DA-utarmning i accumbenskärnan (Di Ciano et al., 2001; Parkinson et al., 2002). En observation från studien är dock ny och av stort intresse: efter förlängd konditionering med en CS+ som förutsäger belöning och en CS- som inte förutsäger belöning, observerades en liknande, men mindre, DA-signal också efter CS-, men den visade också en liten dipp omedelbart (500~800 millisekunder efter signalstart) efter den initiala toppen (Day et al, 2007Figur 4). I detta skede i inlärningen närmar sig djur nästan aldrig CS−, utan närmar sig konsekvent CS+. Den fasiska DA-signalen omedelbart efter prediktorn kanske inte spelar någon kausal roll för att generera närmandesvaret, eftersom det är närvarande även i frånvaro av svaret. Huruvida en sådan signal fortfarande är nödvändig för att lära sig stimulans-belöningskontingensen är fortfarande oklart, men det observerade fasiska svaret på CS− förutsägs verkligen inte av någon av de nuvarande modellerna.

Intressant nog försämrar lokal DA-utarmning prestandan på denna uppgift (Parkinson et al., 2002). Medan en fasisk DA-signal observeras efter CS−, som inte genererar CRs alls, försämrar avskaffande av både fasisk och tonisk DA genom lokal utarmning prestandan hos CRs. Ett sådant mönster tyder på att en fasisk DA-signal i acumbens inte behövs för prestanda av Pavlovian CR, men kan spela en roll i inlärningen, medan en långsammare, mer tonisk DA-signal (förmodligen avskaffad i utarmningsstudier) är viktigare för prestanda. av inställningssvaret (Cagniard et al., 2006; Yin et al., 2006b; Niv et al., 2007). Denna möjlighet återstår att pröva.

Även om det inte finns några direkta bevis för en kausal roll för den fasiska DA-signalen i inlärning, har hypotesen om "prediktionsfel" ändå väckt stor uppmärksamhet, eftersom det är just den typ av undervisningssignal som används i framstående modeller för inlärning, som Rescorla-Wagner-modellen och dess realtidsförlängning, inlärningsalgoritmen för förstärkning av tidsskillnaden (Schultz, 1998b). Enligt denna tolkning bestäms aptitlig inlärning av skillnaden mellan mottagen och förväntad belöning (eller mellan två temporärt på varandra följande belöningsförutsägelser). En sådan undervisningssignal regleras av negativ feedback från alla prediktorer av belöningen (Schultz, 1998b). Om ingen belöning följer prediktorn, avslöjas den negativa återkopplingsmekanismen som ett dopp i aktiviteten hos DA-neuronerna. Sålunda involverar inlärning en progressiv minskning av prediktionsfelet.

Elegansen i undervisningssignalen i dessa modeller har kanske distraherat vissa från den anatomiska verkligheten. I studien av Day et al (2007), kommer DA-signalen i accumbens mestadels från celler i VTA, men det verkar osannolikt att andra DA-celler, med helt annan anatomisk anslutning, skulle visa samma svarsprofil och ge samma signal. En gradient i vad DA-cellerna signalerar är mer sannolikt, eftersom DA-celler projicerar till olika striatala regioner med helt olika funktioner och tar i sin tur även distinkta negativa återkopplingssignaler från olika striatala regioner (Joel och Weiner, 2000; Wickens et al., 2007). Mekanismerna för upptag och nedbrytning, såväl som de presynaptiska receptorerna som reglerar frisättningen av dopamin, visar också avsevärd variation över striatum (Cragg et al., 2002; Rice och Cragg, 2004; Wickens et al., 2007; Rice och Cragg, 2008).

Vi föreslår därför att mesoaccumbens-vägen spelar en mer begränsad roll i Pavlovianskt lärande, när det gäller att förvärva värdet av tillstånd och stimuli, medan den nigrostriatala vägen är viktigare för instrumentellt lärande, för att förvärva handlingars värden. TDet vill säga, den fasiska DA-signalen kan koda olika prediktionsfel snarare än ett enda prediktionsfel, som för närvarande antas. Tre rader av bevis stöder detta argument. För det första försämrar genetisk utarmning av DA i den nigrostriatala vägen förvärvet och utförandet av instrumentella handlingar, medan utarmning av DA i mesolimbisk väg inte gör det (Sotak et al., 2005; Robinson et al., 2007). För det andra kan DA-celler i SNc koda värdet av åtgärder, liknande celler i deras målstriatala region (Morris et al., 2006). För det tredje, selektiv lesion av den nigrostriatala projektionen till DLS försämrar vanebildning (Faure et al., 2005).

Nyligen utförd arbete av Palmiter och kollegor visade att genetiskt modifierade möss med DA-brist är allvarligt försämrade i instrumentell inlärning och prestanda, men deras prestanda kan återställas antingen genom L-DOPA-injektion eller genom viral genöverföring till den nigrostriatala vägen (Sotak et al., 2005; Robinson et al., 2007). Däremot var DA-restaurering i det ventrala striatum inte nödvändigt för att återställa instrumentellt beteende. Även om hur DA-signaler möjliggör instrumentellt lärande förblir en öppen fråga, är en uppenbar möjlighet att det kan koda värdet av självinitierade handlingar, dvs. hur mycket belöning som förutsägs givet ett visst tillvägagångssätt.

Den dorsala striatum, som helhet, innehåller det högsta uttrycket av DA-receptorer i hjärnan och tar emot den mest massiva dopaminerga projektionen. DA-projektionen till DMS kan spela en annan roll i inlärningen än projektionen till DLS, eftersom dessa två regioner skiljer sig markant i den tidsmässiga profilen av DA-frisättning, upptag och nedbrytning (Wickens et al., 2007). Vi antar att DA-projektionen till DMS från den mediala SNc är avgörande för inlärning av handlingsresultat, medan DA-projektionen till DLS från den laterala SNc är avgörande för vanebildning. Skulle detta vara sant, bör man förvänta sig att DA-celler i SNc kodar felet i belöningsförutsägelse baserat på självgenererade åtgärder - instrumentellt förutsägelsefel - snarare än det som baseras på CS. Preliminära bevis till stöd för detta påstående kommer från en nyligen genomförd studie av Morris et al, som spelade in från SNc-neuroner under en instrumentell inlärningsuppgift (Morris et al., 2006). Apor tränades att röra sina armar som svar på en diskriminerande stimulans (SD) som indikerade lämplig rörelse och sannolikheten för belöning. SD framkallade fasisk aktivitet i DA-neuronerna motsvarande aktionsvärdet baserat på den förväntade belöningssannolikheten för en viss åtgärd. Mest intressant, även om DA:s svar på SD ökade med aktionsvärdet, det omvända var sant för DA-svaret på själva belöningen, i överensstämmelse med tanken att dessa neuroner kodade för ett förutsägelsefel associerat med det värdet. Inte överraskande är det primära striatala målet för dessa celler, caudatkärnan, känt för att innehålla neuroner som kodar för aktionsvärden (Samejima et al., 2005). Det bör dock noteras att denna studie inte använde beteendeuppgifter som entydigt bedömer värdet av handlingar. En tydlig förutsägelse av vår modell är att fasisk DA-aktivitet kommer att följa med utförandet av åtgärder, även i frånvaro av ett uttryckligt SD. Till exempel förutspår vi burst-firing av nigrala DA-neuroner vid tidpunkten för en självinitierad handling som tjänar en belöning.

Enligt vår uppfattning, medan mesoaccumbens DA-signal återspeglar värdet av CS, återspeglar den nigrostriatala signalen, kanske från de neuroner som projiceras till DMS, värdet av själva handlingen, eller av något SD som förutspår detta värde. Dessutom verkar både instrumentellt och pavlovskt lärande involvera någon form av negativ feedback för att kontrollera den effektiva undervisningssignalen. Faktum är att de direkta projektionerna från striatum till mellanhjärnans DA-neuroner (Figur 2) har länge föreslagits som den neurala implementeringen av denna typ av negativ feedback (Houk et al., 1995), och styrkan och naturen hos den hämmande insatsen kan mycket väl variera avsevärt från region till region.

Figur 2  

De kortiko-basala ganglierna nätverk

Ett prediktionsfel, enligt nuvarande modeller, är en undervisningssignal som avgör hur mycket inlärning som sker. Så länge det finns, fortsätter lärandet. Hur uppenbart detta påstående än verkar, har ett prediktionsfel för åtgärdsvärde, även om det syntaktiskt liknar det Pavlovska prediktionsfelet, unika egenskaper som inte har undersökts i stor utsträckning. I traditionella modeller som Rescorla-Wagner-modellen, som uteslutande adresserar Pavlovsk konditionering (men med begränsad framgång), är nyckelfunktionen den negativa återkopplingen som reglerar prediktionsfel. Denna utdata representerar den förvärvade förutsägelsen, mer specifikt summan av alla nuvarande prediktorer, som fångas av de sammansatta stimuli som vanligtvis används i blockeringsexperiment (Rescorla, 1988). Det är denna summering av tillgängliga prediktorer för att fastställa en global felterm som är den främsta innovationen i denna modellklass. För instrumentella handlingar verkar dock individuella feltermer mer sannolika, för det är svårt att se hur den negativa feedbacken skulle presentera värdet av flera handlingar samtidigt när endast en åtgärd kan utföras åt gången. Naturligtvis finns det ett antal möjliga lösningar. Till exempel, givet ett visst tillstånd (experimentellt implementerat av en distinkt SD), skulle de möjliga handlingssätten verkligen kunna representeras samtidigt som förvärvade förutsägelser. Men den största svårigheten med instrumentella förutsägelsefel har att göra med själva handlingens natur. En Pavlovsk förutsägelse följer automatiskt presentationen av stimulansen, som är oberoende av organismen. Ett instrumentellt förutsägelsefel måste ta itu med elementet av kontroll, eftersom förutsägelsen i sig är handlingsbetingad, och en avsiktlig handling utsänds spontant baserat på djurens strävan efter konsekvenserna av att agera snarare än framkallad av föregående stimuli. I slutändan är det just en allmän försummelse av den spontana karaktären hos målinriktade handlingar, inom både neurovetenskap och psykologi, som har suddat ut skillnaden mellan Pavlovianska och instrumentella inlärningsprocesser, och arten av de inblandade förutsägelsefelen. Det återstår därför att fastställa vilken typ av negativ återkopplingssignal, om någon, som reglerar förvärvet av åtgärdsvärden (Dayan och Balleine, 2002).

Slutligen har nyare arbeten också involverat den nigrostriatala projektionen från den laterala SNc till DLS specifikt i vanebildning. Faure et al skadade selektivt DA-cellerna som projicerade till DLS med hjälp av 6-OHDA och fann att denna manipulation har förvånansvärt liten effekt på hastigheten för spakpressning, även om det försämrade vanebildning, mätt med hjälp av resultatdevalvering (Faure et al., 2005). Det vill säga, skadade djur svarade på ett målinriktat sätt, även om träningen i en kontrollgrupp genererade vanemässigt beteende okänsligt för resultatnedvärdering. Lokal DA-utarmning liknar alltså excitotoxiska lesioner av DLS, genom att båda manipulationerna fördröjer vanebildning och gynnar förvärvet av målriktade handlingar (Yin et al., 2004). En fasisk DA-signal som är kritisk för vanebildning är redan välbeskriven av den effektiva förstärkningssignalen i samtida tidsdifferensförstärkningsalgoritmer inspirerade av Hull and Spences arbete (Hull, 1943; Spence, 1947, 1960; Sutton och Barto, 1998).

Kortiko-basala ganglia nätverk

Hittills har vi diskuterat den funktionella heterogeniteten inom striatum, men det skulle vara missvisande att antyda att vilket striatalt område som helst skulle kunna översätta åtgärd-resultat-kontingensen till utförandet av en åtgärd helt av sig själv. Hjärnhemisfärerna är snarare organiserade som itererande funktionella enheter som består av kortiko-basala ganglianätverk (Swanson, 2000; Zahm, 2005). Tstriatum, som är ingångsstationen för hela basalganglierna, fungerar som ett unikt nav i nätverksmotivet kortiko-basalganglier, som kan integrera kortikala, talamus och mellanhjärnans ingångar. Som beskrivits ovan, även om det är en kontinuerlig struktur, verkar olika striatalregioner delta i distinkta funktionella nätverk, t.ex. fungerar accumbens som ett nav i det limbiska nätverket och DLS i det sensorimotoriska nätverket. På grund av sådana nätverks återinträdande egenskaper är emellertid ingen komponent i denna struktur uppströms eller nedströms i någon absolut mening; t.ex. är det talamokortikala systemet både källan till en viktig input till striatum och målet för både striato-pallidal och striato-nigral vägar.

Även om parallella återinträdande basala gangliaslingor länge har känts igen (Alexander et al., 1986), betonar vi distinkta funktionella roller för dessa kretsar baserat på operativt definierade representationsstrukturer och på interaktioner mellan kretsar för att generera integrerande beteenden. På grundval av detta kan minst fyra sådana nätverk urskiljas: de limbiska nätverken som involverar skalet och kärnan av accumbens respektive, det associativa nätverket som involverar det associativa striatumet (DMS) och det sensorimotoriska nätverket som involverar det sensorimotoriska striatumet (DLS). Deras funktioner sträcker sig från att förmedla kontrollen av aptitliga Pavlovian UR och CR till instrumentella åtgärder (Figur 1).

Figur 1  

Huvudfunktionella domäner av striatum. En illustration av striatum från en koronal sektion som visar halva hjärnan (Paxinos och Franklin, 2003). Observera att dessa fyra funktionella domäner är anatomiskt kontinuerliga och ungefär motsvarar vad .

Som redan nämnts består den ventrala striatum mestadels av nucleus accumbens, som kan delas upp ytterligare i skalet och kärnan, som var och en deltar i ett distinkt funktionellt nätverk. De kortikala (glutamatergiska) projektionerna till skalet uppstår från infralimbiska, centrala och laterala orbitala cortex, medan projektionerna till kärnan uppstår från mer dorsala mittlinjeområden av prefrontal cortex som den ventrala och dorsala prelimbiska och främre cingulate cortexen (Groenewegen et al., 1990; Zahm, 2000, 2005). Inom dessa funktionsnätverk tyder bevis som granskats ovan att skalet är involverat i UR till belöningar och förvärv av fulländade CRs; kärnan i utforskande beteende, särskilt förvärvet och uttrycket av Pavlovianska strategisvar. Åtminstone två stora nätverk kan därför urskiljas inom det större ventrala eller limbiska kortiko-basala ganglierna, det ena för fullbordande och det andra för förberedande beteenden och deras modifiering genom Pavlovisk konditionering (Figur 1).

Den dorsala striatum kan likaså delas in i minst två huvudregioner, associativa och sensorimotoriska, med ett distinkt funktionellt nätverk associerat med var och en. Det associativa striatum (caudatum och delar av främre putamen hos primater) innehåller nervceller som skjuter i väntan på responsberoende belöningar och ändrar deras skjutning i enlighet med storleken på den förväntade belöningen (Hikosaka et al., 1989; Hollerman et al., 1998; Kawagoe et al., 1998). I det associativa nätverket är de prefrontala och parietala associeringsbarkarna och deras mål i DMS involverade i transient minne, både prospektivt, i form av förväntade resultat, och retrospektivt, som ett register över nya efferenskopior (Konorski, 1967). Den sensorimotoriska nivån, å andra sidan, omfattar de sensorimotoriska cortexerna och deras mål i basalganglierna. Utgångarna från denna krets är riktade mot motoriska cortex och hjärnstammotoriska nätverk. Neural aktivitet i det sensorimotoriska striatum moduleras i allmänhet inte av förväntad belöning, uppvisar mer rörelserelaterad aktivitet än neuroner i det associativa striatum (Kanazawa et al., 1993; Kimura et al., 1993; Costa et al., 2004). Slutligen, förutom den mediala-laterala gradienten, finns det betydande funktionell heterogenitet längs den främre-posteriora axeln av dorsala striatum, även om det för närvarande inte finns tillräckligt med data för att tillåta någon detaljerad klassificering (Yin et al., 2005b).

Studier har hittills endast fokuserat på de kortikala och striatala komponenterna i dessa nätverk. I allmänhet har lesioner i ett kortikalt område liknande effekter som lesioner av dess striatala mål (Balleine och Dickinson, 1998; Corbit och Balleine, 2003; Yin et al., 2005b). Men andra komponenter i nätverket kan tjäna liknande funktioner. Till exempel visade sig lesioner i den mediodorsala kärnan i thalamus, en komponent i det associativa nätverket, avskaffa känsligheten för utfallsdevalvering och oförutsedda nedbrytning på ungefär samma sätt som lesioner i DMS och den prelimbiska cortex (Corbit et al., 2003). Så även om vår allmänna modell förutspår liknande beteendebrister efter skada på varje komponent i ett nätverk, föreslår den också, för en given struktur som pallidum eller thalamus, flera funktionella domäner.

Interaktion mellan nätverk

Under de flesta förhållanden verkar Pavlovsk och instrumentell inlärning ske parallellt. Fenomen som PIT visar dock i vilken utsträckning dessa annars distinkta processer kan interagera. Efter att ha avgränsat oberoende funktionella system är nästa steg att förstå hur dessa system är samordnade för att generera beteende. Ett attraktivt förslag, i överensstämmelse med nyare anatomiska arbeten, är att nätverken som beskrivs ovan är hierarkiskt organiserade, var och en fungerar som en labil, funktionell mellanhand i hierarkin, vilket tillåter information att spridas från en nivå till nästa. I synnerhet antyder de nyligen upptäckta spiralkopplingarna mellan striatum och mellanhjärnan en anatomisk organisation som potentiellt kan implementera interaktioner mellan nätverk (Figur 2). Som observerats av Haber och kollegor skickar striatala neuroner direkt hämmande projektioner till DA-neuroner från vilka de tar emot ömsesidiga DA-projektioner, och projicerar även till DA-neuroner som i sin tur projicerar till ett annat striatalt område (Haber et al., 2000). Dessa projektioner tillåter feed-forward-utbredning av information i endast en riktning, från de limbiska nätverken till associativa och sensorimotoriska nätverk. Till exempel skulle en Pavlovsk förutsägelse (förvärvat värde av CS) kunna minska den effektiva undervisningssignalen på limbisk nivå, samtidigt som en tillfällighet potentierar DA-signalen på nästa nivå. Upphävandet av den effektiva inlärningssignalen implementeras normalt av en negativ återkopplingssignal via en hämmande projektion, till exempel från GABAergic medium taggiga projektionsneuroner från striatum till DA-neuroner. Under tiden, som den anatomiska organisationen föreslår (Haber et al., 2000; Haber, 2003), kan förstärkningen av DA-signalen för det angränsande kortiko-basala ganglianätverket (nästa nivå i hierarkin) implementeras via disinhibitoriska projektioner (dvs. GABAergiska striatala projektionsneuroner till nigrala GABAerga interneuroner till DA-neuroner). Således kan det inlärda värdet av det limbiska nätverket överföras till det associativa nätverket, vilket gör att beteendeanpassning kan förfinas och förstärkas med varje iteration (Ashby, 1960). Denna modell förutspår därför det progressiva engagemanget av olika neurala nätverk under olika stadier av inlärning, ett förslag som stöds av en mängd olika data (Jueptner et al., 1997b; Miyachi et al., 1997; Miyachi et al., 2002; Yin, 2004; Everitt och Robbins, 2005; Yin och Knowlton, 2005; Belin och Everitt, 2008).

Fenomen som kräver växelverkan mellan distinkta funktionella processer, såsom PIT, ger en bördig testplats för modeller av detta slag. Den hierarkiska modellen är i själva verket i överensstämmelse med de senaste experimentella rönen om PIT. Enligt modellen förmedlas Pavlovian-instrumentella interaktioner av ömsesidiga kopplingar mellan striatum och DA-neuroner. DA verkar vara avgörande för allmän överföring, som avskaffas av DA-antagonister och lokal inaktivering av VTA (Dickinson et al., 2000; Murschall och Hauber, 2006); medan lokal infusion av amfetamin, som förmodligen ökar DA-nivåerna, i ackumulatorerna kan avsevärt förbättra den (Wyvell och Berridge, 2000). Å andra sidan är rollen av ventral striatal dopamin i specifik överföring mindre tydlig. Vissa bevis tyder på att det kan sparas efter inaktivering av VTA (Corbit et al., 2007) men som Corbit och Janak (2007) rapporterades nyligen, specifik överföring avskaffas genom inaktivering av DLS, vilket tyder på att denna aspekt av stimulanskontroll över handlingsval kan involvera den nigrostriatala projektionen (Corbit och Janak, 2007). Håller med om det hierarkiska perspektivet, Corbit och Janak (2007) fann också att medan DLS-inaktivering avskaffade den selektiva excitatoriska effekten av paloviska signaler (mycket som har observerats efter lesioner av accumbens skal av Corbit et al, 2001), avskaffade inaktivering av DMS endast resultatselektiviteten för överföringen samtidigt som den verkade bevara den allmänna excitatoriska effekten av dessa signaler, en trend som också observerades efter lesioner av mediodorsal thalamus, som är en del av nätverket av associativa kortiko-basala ganglier (Ostlund och Balleine, 2008). Baserat på dessa preliminära resultat tycks DMS endast förmedla specifik överföring, medan DLS kan vara nödvändig för både de specifika och allmänna excitatoriska effekterna av Pavlovska signaler på instrumentella handlingar.

Intressant nog projicerar det limbiska striatumet i stor utsträckning till DA-celler som projicerar till dorsalstriatum (Nauta et al., 1978; Nauta, 1989); de dopaminerga projektionerna till striatum och de striatala projektionerna tillbaka till mellanhjärnan är mycket asymmetriska (Haber, 2003). Det limbiska striatumet får begränsad input från DA-neuroner men skickar ändå omfattande utdata till en mycket större uppsättning DA-neuroner, och det motsatta är sant för det sensorimotoriska striatumet. Således är de limbiska nätverken i en perfekt position för att kontrollera de associativa och sensorimotoriska nätverken. Här överensstämmer neuroanatomin med beteendedata att den pavlovska underlättandet av instrumentellt beteende är mycket starkare än det omvända; faktiskt, avsevärda bevis tyder på att instrumentella handlingar tenderar att hämma, snarare än excitera, Pavlovian CRs – ett fynd som fortfarande väntar på en neurobiologisk förklaring (Ellison och Konorski, 1964; Williams, 1965).

Slutsatser

Det bör noteras att den hierarkiska modell som diskuteras här skiljer sig mycket från andra som uteslutande förlitar sig på cortex och långväga förbindelser mellan kortikala områden (Fuster, 1995). Den innehåller de kända komponenterna och anslutningarna i hjärnan, snarare än att se den som ett potpurri av kortikala moduler som på något ospecificerat sätt implementerar ett brett utbud av kognitiva funktioner. Det undviker också antaganden, ärvt från 19th århundradets neurologi, att hjärnbarken i allmänhet, och den prefrontala cortexen i synnerhet, på något sätt bildar en "högre" homunkulär enhet som styr hela hjärnan (Miller och Cohen, 2001).

Dessutom kan flera specifika förutsägelser härledas från den föreliggande modellen: (i) Det bör finnas distinkta prediktionsfel för självgenererade handlingar och för tillstånd/stimuli med egenskaper som återspeglar deras olika neurala substrat och funktionella roller. (ii) De pallidala och thalamiska komponenterna i varje diskret kortiko-basal ganglia-nätverk förväntas också vara nödvändiga för den typ av beteendekontroll som antas för varje nätverk, inte bara de kortikala och striatala komponenterna. (iii) Det bör finnas en progressiv involvering av olika neurala nätverk under olika stadier av inlärning. (iv) Accumbens aktivitet kan direkt styra DA-neuroner och i sin tur dorsal striatal aktivitet. Baserat på en rapport av Holland (2004) vilket tyder på att PIT ökar med instrumentell träning, förväntas denna "limbiska" kontroll av de associativa och sensorimotoriska nätverken förstärkas med utökad träning.

Utan detaljerade data är det fortfarande för tidigt att ge en formell redogörelse för den hierarkiska modellen. Ändå bör diskussionen ovan göra det klart att nuvarande versioner av mesoaccumbens belöningshypotes vilar på problematiska antaganden om belöningsprocessens karaktär och användningen av otillräckliga beteendemått. Enande principer, alltid målet för det vetenskapliga företaget, kan endast grundas på verkligheten av experimentella data, hur svårhanterliga dessa än kan vara. Eftersom hjärnans funktion i slutändan är generering och kontroll av beteende, kommer detaljerad beteendeanalys att vara nyckeln till att förstå neurala processer, precis som en grundlig beskrivning av medfödd och förvärvad immunitet tillåter klargörandet av immunsystemet. Även om det till synes är en sanning, kan det knappast överbetonas att vi kan förstå hjärnmekanismer i den utsträckning som deras funktioner beskrivs och mäts med precision. När studiet av neurala funktioner är baserat på experimentellt etablerade psykologiska kapaciteter, till exempel representationen av åtgärd-utfall och stimulus-utfall oförutsedda händelser, ses den kända anatomiska organisationen såväl som fysiologiska mekanismer i ett nytt ljus, vilket leder till formuleringar av nya hypoteser och utformningen av nya experiment. Som ett första steg i denna riktning hoppas vi att det ramverk som diskuteras här kommer att fungera som en användbar utgångspunkt för framtida utredning.

Erkännanden

Vi vill tacka David Lovinger för användbara förslag. HHY fick stöd av avdelningen för intramural klinisk och grundläggande forskning vid NIH, NIAAA. SBO stöds av NIH-anslag MH 17140 och BWB av NIH-anslag MH 56446 och HD 59257.

Referensprojekt

  1. Adams CD. Variationer i känsligheten hos instrumentell respons för att förstärka devalvering. Kvartalstidskrift för experimentell psykologi. 1982;33b:109–122.
  2. Adams CD, Dickinson A. Instrumentellt svar efter förstärka devalvering. Quarterly Journal of Experimental Psychology. 1981;33:109–122.
  3. Alexander GE, DeLong MR, Strick PL. Parallell organisation av funktionellt segregerade kretsar som förbinder basala ganglier och cortex. Annu Rev Neurosci. 1986;9:357-381. [PubMed]
  4. Ashby WR. Design för en hjärna. andra upplagan. Chapman & Hall; 1960.
  5. Atallah HE, Lopez-Paniagua D, Rudy JW, O'Reilly RC. Separata neurala substrat för inlärning av färdigheter och prestanda i ventral och dorsala striatum. Nat Neurosci. 2007;10:126–131. [PubMed]
  6. Balleine BW. Incitamentsprocesser i instrumentell konditionering. I: Mowrer RR, Klein SB, redaktörer. Handbok för samtida lärandeteorier. Mahwah, NJ, USA: Lawrence Erlbaum Associates, Inc., Publishers; 2001. s. 307–366.
  7. Balleine BW. Neurala baser för matsökning: påverkan, upphetsning och belöning i kortikostriatolimbiska kretsar. Physiol Behav. 2005;86:717–730. [PubMed]
  8. Balleine BW, Dickinson A. Målriktad instrumental handling: beredskap och incitament lärande och deras kortikala substrat. Neuro. 1998; 37: 407-419. [PubMed]
  9. Balleine BW, Corbit LH. Lesioner av accumbens kärna och skal ger dissocierbara effekter på de allmänna och resultatspecifika formerna av Palovian-instrumentell överföring; Årsmöte för Society for Neuroscience; 2005.
  10. Balleine BW, Killcross S. Parallell incitamentsbehandling: en integrerad bild av amygdalafunktionen. Trender Neurosci. 2006;29:272–279. [PubMed]
  11. Belin D, Everitt BJ. Kokainsökningsvanor beror på dopaminberoende seriell anslutning som länkar ventralen med dorsalstriatum. Nervcell. 2008;57:432–441. [PubMed]
  12. Berke JD, Hyman SE. Addiction, dopamin och de molekylära mekanismerna i minnet. Nervcell. 2000; 25: 515-532. [PubMed]
  13. Berridge KC, Robinson TE. Vad är dopaminens roll i belöning: hedonisk inverkan, belöningsbelöning eller incitamentsalience? Brain Res Brain Res Rev. 1998; 28: 309-369. [PubMed]
  14. Bolles R. Förstärkning, förväntan och lärande. Psykologisk granskning. 1972;79:394–409.
  15. Brown J, Bullock D, Grossberg S. Hur basalganglierna använder parallella excitatoriska och hämmande inlärningsvägar för att selektivt svara på oväntade givande signaler. J Neurosci. 1999;19:10502–10511. [PubMed]
  16. Brown PL, Jenkins HM. Automatisk formning av duvans nyckelhack. Journal of the Experimentell analys av beteende. 1968;11:1–8. [PMC gratis artikel] [PubMed]
  17. Cagniard B, Beeler JA, Britt JP, McGehee DS, Marinelli M, Zhuang X. Dopamin skalar prestanda i frånvaro av ny inlärning. Nervcell. 2006;51:541–547. [PubMed]
  18. Kardinal RN, Cheung TH. Nucleus accumbens kärnskador hämmar instrumentell inlärning och prestation med fördröjd förstärkning hos råttan. BMC Neurosci. 2005;6:9. [PMC gratis artikel] [PubMed]
  19. Kardinal RN, Parkinson JA, Hall J, Everitt BJ. Känsla och motivation: Amygdala, ventralstriatum och prefrontal cortex. Neurosci Biobehav Rev. 2002; 26: 321-352. [PubMed]
  20. Cheer JF, Aragona BJ, Heien ML, Seipel AT, Carelli RM, Wightman RM. Koordinerad ackumbal dopaminfrisättning och neural aktivitet driver målriktat beteende. Nervcell. 2007;54:237–244. [PubMed]
  21. Colwill RM, Rescorla RA. Associativa strukturer i instrumentellt lärande. I: Bower G, redaktör. Inlärnings- och motivationspsykologi. New York: Academic Press; 1986. s. 55–104.
  22. Corbit LH, Balleine BW. Rollen av prelimbisk cortex i instrumentell konditionering. Behav Brain Res. 2003;146:145–157. [PubMed]
  23. Corbit LH, Janak PH. Inaktivering av den laterala men inte mediala dorsala striatum eliminerar den excitatoriska inverkan av Pavlovska stimuli på instrumentell respons. J Neurosci. 2007;27:13977–13981. [PubMed]
  24. Corbit LH, Muir JL, Balleine BW. Nucleus accumbens roll i instrumentell konditionering: bevis på en funktionell dissociation mellan accumbens kärna och skal. Journal of Neuroscience. 2001;21:3251–3260. [PubMed]
  25. Corbit LH, Muir JL, Balleine BW. Lesioner av mediodorsal thalamus och främre thalamuskärnor ger dissocierbara effekter på instrumentell konditionering hos råttor. Eur J Neurosci. 2003;18:1286–1294. [PubMed]
  26. Corbit LH, Janak PH, Balleine BW. Allmänna och resultatspecifika former av Pavlovian-instrumentell överföring: effekten av förändringar i motivationstillstånd och inaktivering av det ventrala tegmentala området. Eur J Neurosci. 2007;26:3141–3149. [PubMed]
  27. Costa RM, Cohen D, Nicolelis MA. Differentiell kortikostriatal plasticitet under snabb och långsam motorisk inlärning hos möss. Curr Biol. 2004;14:1124–1134. [PubMed]
  28. Cragg SJ, Hille CJ, Greenfield SA. Funktionella domäner i dorsal striatum hos den icke-mänskliga primaten definieras av dopamins dynamiska beteende. J Neurosci. 2002;22:5705–5712. [PubMed]
  29. Dalley JW, Laane K, Theobald DE, Armstrong HC, Corlett PR, Chudasama Y, Robbins TW. Tidsbegränsad modulering av appetitivt Pavlovian-minne av D1 och NMDA-receptorer i kärnan accumbens. Proc Natl Acad Sci USA A. 2005; 102: 6189-6194. [PMC gratis artikel] [PubMed]
  30. Davis J, Bitterman ME. Differentiell förstärkning av annat beteende (DRO): En jämförelse med okkontroll. Journal of the Experimentell analys av beteende. 1971;15:237–241. [PMC gratis artikel] [PubMed]
  31. Dag JJ, Carelli RM. Kärnan accumbens och Pavlovian belöna lärande. Hjärnforskare. 2007; 13: 148-159. [PMC gratis artikel] [PubMed]
  32. Dag JJ, Wheeler RA, Roitman MF, Carelli RM. Nucleus accumbens neuroner kodar Pavlovian approach beteenden: bevis från ett autoshaping paradigm. Eur J Neurosci. 2006; 23: 1341-1351. [PubMed]
  33. Day JJ, Roitman MF, Wightman RM, Carelli RM. Associativ inlärning förmedlar dynamiska förändringar i dopaminsignalering i nucleus accumbens. Nat Neurosci. 2007;10:1020–1028. [PubMed]
  34. Dayan P, Balleine BW. Belöning, motivation och förstärkning lärande. Nervcell. 2002; 36: 285-298. [PubMed]
  35. Delgado MR, Stenger VA, Fiez JA. Motivationsberoende svar i den mänskliga kaudatkärnan. Cereb Cortex. 2004;14:1022–1030. [PubMed]
  36. Delgado MR, Miller MM, Inati S, Phelps EA. En fMRI-studie av belöningsrelaterad sannolikhetsinlärning. Neurobild. 2005;24:862–873. [PubMed]
  37. Di Ciano P, kardinal RN, Cowell RA, Little SJ, Everitt BJ. Differentiell inblandning av NMDA, AMPA / kainat och dopaminreceptorer i kärnan accumbens kärna vid förvärv och prestanda av pavlovian-beteendebeteende. J Neurosci. 2001; 21: 9471-9477. [PubMed]
  38. Dickinson A. Handlingar och vanor: utvecklingen av beteendemässig autonomi. Philosophical Transactions of the Royal Society. 1985;B308:67–78.
  39. Dickinson A. Instrumentell konditionering. I: Mackintosh NJ, redaktör. Djurens inlärning och kognition. Orlando: Akademisk; 1994. s. 45–79.
  40. Dickinson A, Dearing MF. Appetitiva-aversiva interaktioner och hämmande processer. I: Dickinson A, Boakes RA, redaktörer. Mekanism för lärande och motivation. Hillsadale, NJ: Lawrence Erlbaum Associates; 1979.
  41. Dickinson A, Charnock DJ. Beredskapseffekter med bibehållen instrumentell förstärkning. Quarterly Journal of Experimental Psychology. Jämförande & Fysiologisk psykologi. 1985;37:397–416.
  42. Dickinson A, Balleine B. Handlingar och svar: Beteendets dubbla psykologi. I: Eilan N, McCarthy RA, et al., redaktörer. Rumslig representation: Problem i filosofi och psykologi. Malden, MA, USA: Blackwell Publishers Inc.; 1993. s. 277–293.
  43. Dickinson A, Balleine B. Lärandets roll i driften av motivationssystem. I: Pashler H, Gallistel R, redaktörer. Stevens handbok i experimentell psykologi (3:e upplagan), Vol. 3: Lärande, motivation och känslor. New York, NY, USA: John Wiley & Sons, Inc.; 2002. s. 497–533.
  44. Dickinson A, Smith J, Mirenowicz J. Dissociation of Pavlovian och instrumental incentive learning under dopamine antagonists. Behav Neurosci. 2000; 114: 468-483. [PubMed]
  45. Dickinson A, Campos J, Varga ZI, Balleine B. Dubbelriktad instrumentell konditionering. Quarterly Journal of Experimental Psychology: Comparative & Physiological Psychology. 1996;49:289-306. [PubMed]
  46. Ellison GD, Konorski J. Separation av saliv- och motorsvar i instrumentell konditionering. Vetenskap. 1964;146:1071–1072. [PubMed]
  47. Everitt BJ, Robbins TW. Neurala system för förstärkning av narkotikamissbruk: från handlingar till vanor till tvång. Nat Neurosci. 2005; 8: 1481-1489. [PubMed]
  48. Faure A, Haberland U, Conde F, El Massioui N. Lesion till det nigrostriatala dopaminsystemet stör bildningen av stimulus-responsvanor. J Neurosci. 2005;25:2771–2780. [PubMed]
  49. Fiorillo CD, Tobler PN, Schultz W. Diskret kodning av belöningssannolikhet och osäkerhet av dopaminneuroner. Vetenskap. 2003; 299: 1898-1902. [PubMed]
  50. Fuster JM. Minne i hjärnbarken. Cambridge: MIT press; 1995.
  51. Gallistel CR, Fairhurst S, Balsam P. Inlärningskurvan: konsekvenserna av en kvantitativ analys. Proc Natl Acad Sci US A. 2004;101:13124–13131. [PMC gratis artikel] [PubMed]
  52. Gå till Y, Grace AA. Dopaminerg modulering av limbisk och kortikal drivenhet av kärnan accumbens i målriktat beteende. Nat Neurosci. 2005; 8: 805-812. [PubMed]
  53. Grace AA, Floresco SB, Goto Y, Lodge DJ. Reglering av avfyrning av dopaminerga neuroner och kontroll av målinriktade beteenden. Trender Neurosci. 2007; 30: 220-227. [PubMed]
  54. Groenewegen HJ, Berendse HW, Wolters JG, Lohman AH. Det anatomiska förhållandet mellan den prefrontala cortex och det striatopallidala systemet, thalamus och amygdala: bevis för en parallell organisation. Prog Brain Res. 1990;85:95–116. diskussion 116–118. [PubMed]
  55. Guthrie ER. Lärandets psykologi. New York: Harpers; 1935.
  56. Haber SN. Primatens basala ganglier: parallella och integrerande nätverk. J Chem Neuroanat. 2003;26:317–330. [PubMed]
  57. Haber SN, Fudge JL, McFarland NR. Striatonigrostriatala vägar i primater bildar en stigande spiral från skalet till den dorsolaterala striatumen. J Neurosci. 2000; 20: 2369-2382. [PubMed]
  58. Hammond LJ. Effekten av oförutsedda händelser på den aptitliga konditioneringen av fritt operativt beteende. Journal of the Experimental Analysis of Behavior. 1980;34:297–304. [PMC gratis artikel] [PubMed]
  59. Haruno M, Kawato M. Heterarkisk förstärknings-inlärningsmodell för integration av flera kortiko-striatala loopar: fMRI-undersökning i stimulus-action-reward association learning. Neuralt nät. 2006a;19:1242–1254. [PubMed]
  60. Haruno M, Kawato M. Olika neurala korrelat av belöningsförväntningar och belöningsförväntningsfel i putamen och caudatkärnan under stimulus-action-reward association lärande. J Neurophysiol. 2006b;95:948–959. [PubMed]
  61. Haruno M, Kuroda T, Doya K, Toyama K, Kimura M, Samejima K, Imamizu H, Kawato M. Ett neuralt korrelat av belöningsbaserad beteendeinlärning i caudate nucleus: en funktionell magnetisk resonanstomografistudie av en stokastisk beslutsuppgift. J Neurosci. 2004;24:1660–1665. [PubMed]
  62. Hernandez PJ, Sadeghian K, Kelley AE. Tidig konsolidering av instrumentell inlärning kräver proteinsyntes i nucleus accumbens. Nat Neurosci. 2002;5:1327–1331. [PubMed]
  63. Hernandez PJ, Andrzejewski ME, Sadeghian K, Panksepp JB, Kelley AE. AMPA / kainate-, NMDA- och dopamin D1-receptorfunktionen i kärnan accumbens-kärnan: en kontextbegränsad roll vid kodning och konsolidering av instrumentalminne. Lär Mem. 2005; 12: 285-295. [PMC gratis artikel] [PubMed]
  64. Hershberger WA. Ett närmande genom glaset. Djurens lärande och beteende. 1986;14:443–451.
  65. Heyes CM, Dawson GR. En demonstration av observationsinlärning hos råttor med hjälp av en dubbelriktad kontroll. The Quarterly Journal of Experimental Psychology. 1990;42(1):59–71. [PubMed]
  66. Hikosaka O, Sakamoto M, Usui S. Funktionella egenskaper hos apa caudate neuroner. III. Aktiviteter relaterade till förväntningar på mål och belöning. J Neurophysiol. 1989;61:814-832. [PubMed]
  67. Holland PC. Relationer mellan Pavlovian-instrumentell överföring och förstärker devalvering. J Exp Psychol Animal Behav Process. 2004;30:104–117. [PubMed]
  68. Holland PC, Rescorla RA. Effekten av två sätt att devalvera den obetingade stimulansen efter första och andra ordningens aptitkonditionering. J Exp Psychol Animal Behav Process. 1975;1:355-363. [PubMed]
  69. Hollerman JR, Tremblay L, Schultz W. Inverkan av belöningsförväntningar på beteenderelaterad neuronal aktivitet i primatstriatum. J Neurophysiol. 1998;80:947–963. [PubMed]
  70. Houk JC, Adams JL, Barto AG. En modell av hur basalganglierna genererar och använder neurala signaler som förutsäger förstärkning. I: Houk JC, JD, DB, redaktörer. Modeller för informationsbehandling i basala ganglierna. Cambridge, MA: MIT Press; 1995. s. 249–270.
  71. Hull C. Beteendeprinciper. New York: Appleton-Century-Crofts; 1943.
  72. Hyman SE, Malenka RC, Nestler EJ. Neurala mekanismer för missbruk: rollen som belöningsrelaterad inlärning och minne. Annu Rev Neurosci. 2006; 29: 565-598. [PubMed]
  73. Jedynak JP, Uslaner JM, Esteban JA, Robinson TE. Metamfetamin-inducerad strukturell plasticitet i dorsala striatum. Eur J Neurosci. 2007;25:847–853. [PubMed]
  74. Joel D, Weiner I. Organisationen av de basala ganglierna-talamokortikala kretsarna: öppna sammankopplade snarare än slutna segregerade. Neurovetenskap. 1994;63:363-379. [PubMed]
  75. Joel D, Weiner I. Det dopaminerga systemets förbindelser med striatum hos råttor och primater: en analys med avseende på den funktionella och kompartmentella organisationen av striatum. Neurovetenskap. 2000;96:451–474. [PubMed]
  76. Jueptner M, Frith CD, Brooks DJ, Frackowiak RS, Passingham RE. Anatomi av motorisk inlärning. II. Subkortikala strukturer och lärande genom försök och misstag. J Neurophysiol. 1997a;77:1325–1337. [PubMed]
  77. Jueptner M, Stephan KM, Frith CD, Brooks DJ, Frackowiak RS, Passingham RE. Anatomi av motorisk inlärning. I. Frontal cortex och uppmärksamhet på handling. J Neurophysiol. 1997b;77:1313–1324. [PubMed]
  78. Kanazawa I, Murata M, Kimura M. Roller av dopamin och dess receptorer vid generering av choreiska rörelser. Adv Neurol. 1993;60:107–112. [PubMed]
  79. Kawagoe R, Takikawa Y, Hikosaka O. Förväntningar på belöning modulerar kognitiva signaler i basalganglierna. Nat Neurosci. 1998;1:411-416. [PubMed]
  80. Kimura M, Aosaki T, Ishida A. Neurofysiologiska aspekter av de olika rollerna för putamen och caudate nucleus i frivillig rörelse. Adv Neurol. 1993;60:62–70. [PubMed]
  81. Konorski J. Integrativ aktivitet i hjärnan. Chicago: University of Chicago Press; 1967.
  82. Lerchner A, La Camera G, Richmond B. Att veta utan att göra. Nat Neurosci. 2007;10:15–17. [PubMed]
  83. Ljungberg T, Apicella P, Schultz W. Svar från apa-dopaminneuroner under inlärning av beteendereaktioner. J Neurophysiol. 1992; 67: 145-163. [PubMed]
  84. Lohrenz T, McCabe K, Camerer CF, Montague PR. Neural signatur av fiktiva inlärningssignaler i en sekventiell investeringsuppgift. Proc Natl Acad Sci US A. 2007;104:9493–9498. [PMC gratis artikel] [PubMed]
  85. Lovibond PF. Underlättande av instrumental beteende av en Pavlovian appetitiv konditionerad stimulans. J Exp Psychol Anim Behav Process. 1983; 9: 225-247. [PubMed]
  86. Mackintosh NJ. Djurinlärningens psykologi. London: Academic Press; 1974.
  87. Miller EK, Cohen JD. En integrerad teori om prefrontal cortex funktion. Annu Rev Neurosci. 2001; 24: 167-202. [PubMed]
  88. Miller R. Mening och syfte i den intakta hjärnan. New York: Oxford University Press; 1981.
  89. Miyachi S, Hikosaka O, Lu X. Differentiell aktivering av apa striatala neuroner i de tidiga och sena stadierna av procedurinlärning. Exp Brain Res. 2002;146:122–126. [PubMed]
  90. Miyachi S, Hikosaka O, Miyashita K, Karadi Z, Rand MK. Differentiella roller för apans striatum vid inlärning av sekventiell handrörelse. Exp Brain Res. 1997;115:1–5. [PubMed]
  91. Montague PR, Hyman SE, Cohen JD. Beräkningsroller för dopamin vid beteendekontroll. Natur. 2004; 431: 760-767. [PubMed]
  92. Morris G, Nevet A, Arkadir D, Vaadia E, Bergman H. Dopaminneuroner i mitthjärnan kodar beslut för framtida åtgärder. Nat Neurosci. 2006;9:1057–1063. [PubMed]
  93. Murschall A, Hauber W. Inaktivering av det ventrala tegmentala området avskaffade det allmänna excitatoriska inflytandet från Pavlovska signaler på instrumentell prestanda. Lär dig Mem. 2006;13:123–126. [PubMed]
  94. Nauta WJ, Smith GP, Faull RL, Domesick VB. Efferent-anslutningar och nigrala afferenter av kärnan accumbens septi i råttan. Neuroscience. 1978; 3: 385-401. [PubMed]
  95. Nauta WJH. Reciproka länkar av corpus striatum med hjärnbarken och limbiska systemet: Ett vanligt substrat för rörelse och tanke? I: Mueller, redaktör. Neurologi och psykiatri: ett möte mellan sinnen. Basel: Karger; 1989. s. 43–63.
  96. Niv Y, Daw ND, Joel D, Dayan P. Tonisk dopamin: Kostnadskostnader och kontroll av responskraft. Psykofarmakologi (Berl) 2007; 191: 507-520. [PubMed]
  97. O'Doherty J, Dayan P, Schultz J, Deichmann R, Friston K, Dolan RJ. Dissocierbara roller av ventral och dorsal striatum i instrumentell konditionering. Vetenskap. 2004; 304: 452-454. [PubMed]
  98. Ostlund SB, Balleine BW. Differentiell involvering av basolateral amygdale och mediodorsal thalamus i instrumentell handlingsurval. J Neurosci. 2008;28:4398–4405. [PMC gratis artikel] [PubMed]
  99. Parkinson JA, Willoughby PJ, Robbins TW, Everitt BJ. Frånkoppling av den främre cingulate cortex och nucleus accumbens kärna försämrar Pavlovian approach beteende: ytterligare bevis för limbiska kortikala-ventrala striatopallidala system. Bete Neurosci. 2000;114:42–63. [PubMed]
  100. Parkinson JA, Dalley JW, Cardinal RN, Bamford A, Fehnert B, Lachenal G, Rudarakanchana N, Halkerston KM, Robbins TW, Everitt BJ. Nukleär accumbens dopaminutarmning försämrar både förvärv och prestanda av appetitivt Pavlovian-beteendebeteende: konsekvenser för mesoaccumbens dopaminfunktion. Behav Brain Res. 2002; 137: 149-163. [PubMed]
  101. Paxinos G, Franklin K. Mushjärnan i stereotaxiska koordinater. New York: Academic Press; 2003.
  102. Pecina S, Smith KS, Berridge KC. Hedoniska heta fläckar i hjärnan. Hjärnforskare. 2006;12:500–511. [PubMed]
  103. Pothuizen HH, Jongen-Relo AL, Feldon J, Yee BK. Dubbel dissociation av effekterna av selektiv nucleus accumbens kärna och skalskador på impulsivt valbeteende och framträdande inlärning hos råttor. Eur J Neurosci. 2005;22:2605–2616. [PubMed]
  104. Rescorla RA. Sannolikhet för chock i närvaro och frånvaro av CS i rädslakonditionering. J Comp Physiol Psychol. 1968;66:1–5. [PubMed]
  105. Rescorla RA. Beteendestudier av Pavlovsk konditionering. Annu Rev Neurosci. 1988;11:329-352. [PubMed]
  106. Rescorla RA, Solomon RL. Två-process lärande teori: relationer mellan Pavlovian betingning och instrumentellt lärande. Psychol Rev. 1967;74:151–182. [PubMed]
  107. Restle F. Diskriminering av ledtrådar i labyrinter: en lösning av "plats-mot-svar"-frågan. Psykologisk granskning. 1957;64:217. [PubMed]
  108. Reynolds JN, Wickens JR. Dopaminberoende plasticitet av kortikostriatala synapser. Neuralt nät. 2002;15:507–521. [PubMed]
  109. Rice ME, Cragg SJ. Nikotin förstärker belöningsrelaterade dopaminsignaler i striatum. Nat Neurosci. 2004;7:583–584. [PubMed]
  110. Rice ME, Cragg SJ. Dopaminspillover efter kvantal frisättning: Att tänka om dopaminöverföring i den nigrostriatala vägen. Brain Res Rev. 2008 [PMC gratis artikel] [PubMed]
  111. Robinson S, Rainwater AJ, Hnasko TS, Palmiter RD. Viral restaurering av dopaminsignalering till dorsala striatum återställer instrumentell konditionering till dopaminbristande möss. Psykofarmakologi (Berl) 2007;191:567–578. [PubMed]
  112. Roitman MF, Wheeler RA, Carelli RM. Nucleus accumbens-neuroner är naturligt inställda för givande och aversiva smakstimuli, kodar deras prediktorer och är kopplade till motoreffekt. Nervcell. 2005;45:587–597. [PubMed]
  113. Samejima K, Ueda Y, Doya K, Kimura M. Representation av actionspecifika belöningsvärden i striatumet. Vetenskap. 2005; 310: 1337-1340. [PubMed]
  114. Schultz W. Fasisk belöningssignal för primatdopaminneuroner. Adv Pharmacol. 1998a; 42: 686-690. [PubMed]
  115. Schultz W. Prediktiv belöningssignal för dopaminneuroner. J Neurophysiol. 1998b; 80: 1-27. [PubMed]
  116. Schultz W, Dayan P, Montague PR. Ett neuralt substrat av förutsägelse och belöning. Vetenskap. 1997; 275: 1593-1599. [PubMed]
  117. Schwartz B, Gamzu E. Pavlovian kontroll av operant beteende. I: Honig W, Staddon JER, redaktörer. Handbok för operant beteende. New Jersey: Prentice Hall; 1977. s. 53–97.
  118. Sheffield FD. Förhållandet mellan klassisk och instrumentell betingning. I: Prokasy WF, redaktör. Klassisk konditionering. New York: Appleton-Century-Crofts; 1965. s. 302–322.
  119. Skinner B. Organismers beteende. New York: Appleton-Century-Crofts; 1938.
  120. Smith-Roe SL, Kelley AE. Sammanfallande aktivering av NMDA- och dopamin D1-receptorer i nucleus accumbens kärna krävs för aptitlig instrumentell inlärning. J Neurosci. 2000;20:7737–7742. [PubMed]
  121. Sotak BN, Hnasko TS, Robinson S, Kremer EJ, Palmiter RD. Dysregulation av dopaminsignalering i dorsala striatum hämmar matning. Brain Res. 2005;1061:88–96. [PubMed]
  122. Spence K. Rollen av sekundär förstärkning i försenad belöningsinlärning. Psykologisk granskning. 1947;54:1–8.
  123. Spence K. Beteendeteori och lärande. Englewood Cliffs, NJ: Prentice-Hall; 1960.
  124. Sutton RS, Barto AG. Förstärkningsinlärning. Cambridge: MIT Press; 1998.
  125. Swanson LW. Cerebral hemisfärsreglering av motiverat beteende. Brain Res. 2000;886:113–164. [PubMed]
  126. Taha SA, Fields HL. Kodning av smaklighet och aptitretande beteenden av distinkta neuronala populationer i nucleus accumbens. J Neurosci. 2005;25:1193–1202. [PubMed]
  127. Taha SA, Fields HL. Hämningar av nucleus accumbens-neuroner kodar för en grindsignal för belöningsriktat beteende. J Neurosci. 2006;26:217–222. [PubMed]
  128. Thorndike EL. Djurintelligens: experimentella studier. New York: Macmillan; 1911.
  129. Tobler PN, Dickinson A, Schultz W. Kodning av förutspådd belöning utelämnande av dopaminneuroner i ett betingat hämningsparadigm. J Neurosci. 2003;23:10402–10410. [PubMed]
  130. Tobler PN, O'Doherty JP, Dolan RJ, Schultz W. Människans neurala inlärning beror på belöningsförutsägelsefel i blockeringsparadigmet. J Neurophysiol. 2006;95:301–310. [PMC gratis artikel] [PubMed]
  131. Tobler PN, O'Doherty JP, Dolan RJ, Schultz W. Belöningsvärdeskodning skild från riskattitydrelaterad osäkerhetskodning i mänskliga belöningssystem. J Neurophysiol. 2007;97:1621–1632. [PMC gratis artikel] [PubMed]
  132. Trapold MA, Overmier JB. Klassisk konditionering II: Aktuell forskning och teori. Appleton-Century-Crofts; 1972. Den andra lärandeprocessen i instrumentellt lärande; s. 427–452.
  133. Tricomi EM, Delgado MR, Fiez JA. Modulering av caudataktivitet genom åtgärdsberedskap. Nervcell. 2004;41:281–292. [PubMed]
  134. Waelti P, Dickinson A, Schultz W. Dopaminresponser överensstämmer med grundläggande antaganden om formell inlärningsteori. Natur. 2001; 412: 43-48. [PubMed]
  135. Vit NM. En funktionell hypotes om den striatala matrisen och plåster: förmedling av SR-minne och belöning. Life Sci. 1989;45:1943–1957. [PubMed]
  136. Wickens JR, Budd CS, Hyland BI, Arbuthnott GW. Striatala bidrag till belöning och beslutsfattande: att förstå regionala variationer i en upprepad bearbetningsmatris. Ann NY Acad Sci. 2007;1104:192–212. [PubMed]
  137. Williams DR. Klassisk konditionering och incitamentmotivation. I: Prokasy WF, redaktör. Klassisk konditionering. New York: Appleton-Century-Crofts; 1965. s. 340–357.
  138. Williams DR, Williams H. Autounderhåll i duvan: ihållande hackning trots tillfällig icke-förstärkning. Journal of the Experimentell analys av beteende. 1969;12:511–520. [PMC gratis artikel] [PubMed]
  139. Wiltgen BJ, Law M, Ostlund S, Mayford M, Balleine BW. Pavloviska signalers inflytande på instrumentell prestanda förmedlas av CaMKII-aktivitet i striatum. Eur J Neurosci. 2007;25:2491–2497. [PubMed]
  140. Wyvell CL, Berridge KC. Intra-accumbens amfetamin ökar det konditionerade incitamentet salience av sackarosbelöning: förbättring av belöningen "vill" utan förbättrad "smak" eller responsförstärkning. J Neurosci. 2000; 20: 8122-8130. [PubMed]
  141. Yin HH. Institutionen för psykologi. Los Angeles: UCLA; 2004. Ryggstriatums roll i målinriktade handlingar.
  142. Yin HH, Knowlton BJ. Förstärkningsdevalvering avskaffar betingad cue-preferens: bevis för stimulus-stimulus-föreningar. Behav Neurosci. 2002;116:174–177. [PubMed]
  143. Yin HH, Knowlton BJ. Bidrag från striatala subregioner till plats- och responsinlärning. Lär dig Mem. 2004;11:459–463. [PMC gratis artikel] [PubMed]
  144. Yin HH, Knowlton BJ. Beroende och lärande. I: Stacy A, redaktör. Handbok om implicit kognition och missbruk. Thousand Oaks: Sage; 2005.
  145. Yin HH, Knowlton BJ, Balleine BW. Lesioner av dorsolateral striatum bevarar förväntad resultat men stör vanebildningen i instrumentellt lärande. Eur J Neurosci. 2004;19:181–189. [PubMed]
  146. Yin HH, Knowlton BJ, Balleine BW. Blockad av NMDA-receptorer i dorsomedial striatum förhindrar inlärning av handlingsresultat vid instrumentell konditionering. Eur J Neurosci. 2005a;22:505–512. [PubMed]
  147. Yin HH, Knowlton BJ, Balleine BW. Inaktivering av dorsolateralt striatum ökar känsligheten för förändringar i händelse-utfallsberedskapen vid instrumentell konditionering. Behav Brain Res. 2006a;166:189–196. [PubMed]
  148. Yin HH, Zhuang X, Balleine BW. Instrumentell inlärning hos hyperdopaminerga möss. Neurobiol Lär Mem. 2006b;85:283–288. [PubMed]
  149. Yin HH, Ostlund SB, Knowlton BJ, Balleine BW. Rollen av dorsomedial striatum i instrumentell konditionering. Eur J Neurosci. 2005b;22:513–523. [PubMed]
  150. Zahm DS. Ett integrerat neuroanatomiskt perspektiv på några subkortiska substrat av adaptiv respons med betoning på kärnan accumbens. Neurosci Biobehav Rev. 2000; 24: 85-105. [PubMed]
  151. Zahm DS. Den utvecklande teorin om basala framhjärnans funktionella-anatomiska "makrosystem". Neurosci Biobehav Rev. 2005 [PubMed]