Belønningsstyrt læring utover dopamin i kjernen accumbens: integrative funksjoner av kortikobasale ganglia nettverk (2008)

Eur J Neurosci. 2008 Oct;28(8):1437-48. doi: 10.1111/j.1460-9568.2008.06422.x.

Yin HH1, Ostlund SB, Balleine BW.

Abstrakt

Her utfordrer vi synspunktet om at belønningsstyrt læring bare styres av mesoaccumbens-banen som oppstår fra dopaminerge neuroner i det ventrale tegmentale området og projiserer til kjernen accumbens. Denne allment aksepterte oppfatningen antar at belønning er et monolitisk konsept, men nylig arbeid har foreslått ellers. Det ser nå ut til at i belønningsstyrt læring kan funksjonene til ventral og dorsal striata og den cortico-basale ganglia-kretsen tilknyttet dem, bli dissociert. Mens kjernen accumbens er nødvendig for oppkjøpet og uttrykk for visse appetitive Pavlovian svar og bidrar til den motiverende kontrollen av instrumentell ytelse, er dorsal striatum nødvendig for oppkjøp og uttrykk for instrumentelle handlinger. Slike funn tyder på at det eksisterer flere uavhengige, men likevel interaktive funksjonssystemer som er implementert i iteriserende og hierarkisk organiserte cortico-basale ganglia-nettverk involvert i appetitiv atferd som spenner fra Pavlovian-tilnærmingsresponser til målrettet instrumentelle handlinger styrt av handling-utfallssituasjoner.

nøkkelord: striatum, dopamin, basal ganglia, læring, kjernen accumbens, belønning

Det har blitt vanlig i den nylige litteraturen å finne et monolitisk konsept av "belønning" anvendt jevnt på appetitiv oppførsel, enten å betegne noe som er bra for organismen (vanligvis fra eksperimentets perspektiv), eller brukt utveksling med eldre betingelser som 'forsterkning' eller 'insentiv'. Denne tilstanden oppfordres av, om ikke selve konsekvensen av, fokuset på et enkelt neuralt substrat for "belønning" som involverer frigjøring av dopamin (DA) i nukleotilførselen (Berke og Hyman, 2000; Grace et al., 2007).

Forbindelsen mellom mesoaccumbens-vei og belønning, anerkjent årtier siden, har blitt gjenopplivet av nyere bevis på at phasic DA-signalet koder for en belønningsforutsigelsesfeil, som antagelig fungerer som et undervisningssignal i associative lærerg (Schultz et al., 1997). I følge den mest populære tolkningen, akkurat som det er et enkelt signal for belønning, er det et enkelt signal for belønningsstyrt læring, som i dette tilfellet betyr forening mellom en stimulus og en belønning (Montague et al., 2004). Spørsmålet om hvordan denne typen læring styrer adaptiv atferd har imidlertid blitt neglisjert; Det antas ganske enkelt at dopaminsignalet er tilstrekkelig for både prediktiv læring og de betingede responsene som dannes derav, og for målrettede handlinger styrt av deres tilknytning til belønning. Følgelig er fokuset på de fleste forskning innen belønning og avhengighet DA-signalering og tilhørende plastisitet i mesoaccumbens-banen (Berridge og Robinson, 1998; Hyman et al., 2006; Grace et al., 2007).

Dette syn på belønningsprosessen, som det blir stadig mer anerkjent (Cardinal et al., 2002; Balleine, 2005; Everitt og Robbins, 2005; Hyman et al., 2006), er både utilstrekkelig og villedende. Det er utilstrekkelig fordi verken oppkjøpet eller utførelsen av målrettede handlinger kan forklares i forhold til de associative prosessene som formidler stimulus-belønning læring. Det er dessuten villedende fordi det eksklusive fokuset på aktivitet i mesoaccumbens-banen, som ikke er nødvendig eller tilstrekkelig for målrettede handlinger, har avviklet oppmerksomheten fra det mer grunnleggende spørsmålet om nøyaktig hvilke målrettede handlinger er og hvordan de implementeres av hjernen. Faktisk, ifølge konvergerende bevis fra en rekke eksperimentelle tilnærminger, har det som tidligere syntes å være en enkeltbelønningsmekanisme faktisk omfatte flere prosesser med forskjellige adferdseffekter og nevrale substrater (Corbit et al., 2001; O'Doherty et al., 2004; Yin et al., 2004; Delgado et al., 2005; Yin et al., 2005b; Haruno og Kawato, 2006a; Tobler et al., 2006; Jedynak et al., 2007; Robinson et al., 2007; Tobler et al., 2007).

Her prøver vi å avsløre noen av problemene knyttet til gjeldende mesoaccumbens-modellen og å foreslå en annen modell for belønningsstyrt læring. Vi skal argumentere for at striatum er en svært heterogen struktur som kan deles inn i minst fire funksjonelle domener, som hver virker som et knutepunkt i et tydelig funksjonelt nettverk med andre kortikale, thalamiske, pallidale og midterste komponenter. De integrerende funksjonene til disse nettverkene, som strekker seg fra produksjon av ubetingede svar fremkalt av belønning til kontroll av målrettede handlinger, kan dissosieres og studeres ved bruk av moderne atferdsanalyser.

Prediksjon og kontroll

Mesoaccumbens-banen er ofte antatt å være nødvendig for oppkjøpet av en sammenheng mellom belønning og miljøstimuli som forutsier den belønningen. For eksempel, i noen av forsøkene som undersøkte den fasiske aktiviteten til DA-celler fremkalt av belønning, ble apekatter trent for å forbinde en stimulus med levering av juice (Waelti et al., 2001) og deretter svare på stimulansen med en betinget respons (CR) -ansvarlig slikking. Apenes slikking kan være målrettet, fordi den mener det er nødvendig å skaffe juice. Alternativt kan slikking fremkalles av antecedent stimulusen med hvilken juice er assosiert. Hvilke av disse determinanter av apenes slikker styrer oppførselen i en bestemt situasjon er ikke kjent a priori, og kan ikke bestemmes av overfladisk observasjon; Det kan bare bestemmes ved hjelp av tester designet spesielt for dette formålet. Disse tester, som har tatt mange tiår å utvikle, danner kjernen i de store moderne fremskrittene i studiet av læring og oppførsel (Tabell 1). Fra bruken av disse testene, som skal diskuteres nedenfor, vet vi nå at samme adferdsrespons - enten det er ambulatorisk tilnærming, orientering eller trykk på en spak - kan oppstå ved flere påvirkninger som er eksperimentelt dissocierbare.

Tabell 1  

Belønningsstyrt læring

Ufølsomhet for den sentrale tvetydigheten i de faktiske determinanter av atferd er dermed hovedproblemet med dagens neurovitenskapelig analyse av belønningsstyrt læring. TÅ forstå betydningen av dette problemet, er det nødvendig å sette pris på forskjellene mellom hvordan prediktiv (eller Pavlovian) læring og målrettet (eller instrumental) læringskontroll appetitiv oppførsel. Faktisk vurderer du hvor ofte disse to prosessene har blitt sammensatt i litteraturen om belønning, en kort gjennomgang av dette skillet synes å være et nyttig utgangspunkt for vår diskusjon.

I appetitiv Pavlovian-kondisjonering er belønningen (dvs. betingelsesløs stimulus eller USA) parret med en stimulus (betinget stimulus eller CS), uansett dyrets oppførsel, mens i instrumental læring, er belønningen betinget av dyrens handlinger. Det kritiske spørsmålet i begge situasjoner er imidlertid om stimulans-belønning foreningen eller action-belønning foreningen er kontrollerende atferd.

Så enkelt som det ser ut, fjernet dette spørsmålet etterforskere i mange tiår, hovedsakelig fordi atferdsresponsene i disse situasjonene kan virke identiske.

Dermed kan de betingede responsene (CRs) styrt av Pavlovian stimulus-belønning foreningen ofte ha en finér av målrettethet om dem. Selv salivasjon, Pavlovs opprinnelige CR, kunne blitt produsert av hans hunder som et bevisst forsøk på å lette inntaket. Det er nettopp på grunn av denne tvetydigheten at den mest åpenbare forklaringen, nemlig at i Pavlovian-kondisjonen er stimulans-utfallet forening lært, mens i instrumentell kondisjonering er handlingsutfallsforeningen lært, ikke i stand til å oppnå mye støtte i mange tiår (Skinner, 1938; Ashby, 1960; Bolles, 1972; Mackintosh, 1974). Likevel, selv om mange Pavlovian-CR er autonome eller forbruksomme, er andre CR-er, som tilnærming til en belønning, ikke så gunstig karakterisert (Rescorla og Solomon, 1967); faktisk kan de lett forveksle med instrumentelle handlinger (Brown og Jenkins, 1968; Williams og Williams, 1969; Schwartz og Gamzu, 1977). Vi vet nå at, til tross for overfladisk likhet, er Pavlovian-CR og målrettet instrumentelle handlinger forskjellige i representasjonsstrukturen som styrer responsens respons (Schwartz og Gamzu, 1977).

Den mest direkte måten å fastslå om resultatet av et svar er formidlet av en stimulus-belønning eller en action-belønning forening er å undersøke den spesifikke beredskapsregulerende ytelsen. Eksemplet med salivasjon er lærerikt her. Sheffield (1965) testet om salivasjon i Pavlovian condition ble kontrollert av forholdet til belønning eller av stimulus-belønning foreningen. I sitt eksperiment fikk hunder sammenkoblinger mellom en tone og en matbelønning (Sheffield, 1965). Men hvis hundene salivated under tonen, ble maten ikke levert på den prøveperioden. Dette arrangementet opprettholdt et Pavlovian-forhold mellom tonen og maten, men avskaffet enhver direkte tilknytning mellom spytt og matlevering. Hvis salivasjonen var en handling styrt av forholdet til mat, bør hundene slutte å spyte - de burde aldri få saliv til tonen i det hele tatt. Sheffield fant at det var tydelig Pavlovian tone-mat forhold som kontrollerte salivation CR. I løpet av over 800-ton-food-paringen, kjøpte hundene opp og opprettholdt salivasjon til tonen, selv om dette resulterte i at de mistet mesteparten av maten de kunne ha oppnådd ved ikke å salivere. En lignende konklusjon ble nådd av andre i studier med mennesker (Pithers, 1985) og andre dyr (Brown og Jenkins, 1968; Williams & Williams, 1969; Holland, 1979); I alle tilfeller ser det ut til at, til tross for deres store utvalg, er Pavlovian-svarene ikke kontrollert av deres forhold til belønningen, det vil si av handlingsresultatet.

Begrepet uforutsigbarhet refererer til det betingede forholdet mellom en hendelse 'A' og en annen, 'B', slik at forekomsten av B avhenger av A. Et forhold av denne type kan lett nedbrytes ved å presentere B i fravær av A. Dette eksperimentell manipulasjon, referert til som beredskapsforringelse, utføres vanligvis ved å presentere en belønning uavhengig av enten den prediktive stimulansen eller handlingen. Selv om denne tilnærmingen ble opprinnelig utviklet for å studere Pavlovian condition (Rescorla, 1968), har instrumentell beredskapsforringelse også blitt et vanlig verktøy (Hammond, 1980). Når disse uforutsette hendelsene blir manipulert, avsløres innholdet av læring: For eksempel i autoshaping blir en Pavlovian CR "forkledd" som en instrumental handling forstyrret av manipulasjoner av Pavlovian i stedet for den instrumentelle beredskapen (Schwartz og Gamzu, 1977).

Målrettet instrumentelle handlinger er preget av to kriterier: 1) følsomhet for endringer i verdien av utfallet, og 2) følsomhet for endringer i beredskapet mellom handling og utfall (Dickinson, 1985; Dickinson og Balleine, 1993). Følsomhet for utfall devaluering alene, det bør legges vekt på, er ikke nok til å karakterisere et svar som målrettet fordi noen Pavlovian svar kan også være følsomme for denne manipulasjonen (Holland og Rescorla, 1975). Utførelsen av målrettet instrumentelle handlinger er imidlertid også følsom for manipulasjoner av handlingsresultatets beredskap, mens Pavlovian-svar er følsomme overfor manipulasjoner av stimulus-utfallssituasjonen (Rescorla, 1968; Davis og Bitterman, 1971; Dickinson og Charnock, 1985). Et viktig unntak kan imidlertid finnes når det gjelder vaner (se nedenfor), som mer ligner på Pavlovian-svarene i deres relative ufølsomhet for endringer i instrumentell beredskap, men er også ugjennomtrengelige for utfallsdevaluering fordi utfallet ikke er en del av representasjonsstrukturen som styrer ytelsen (jfr. Dickinson, 1985 og under for videre diskusjon).

For å oppsummere er det derfor av ytterste betydning at en bestemt respons klart defineres i forhold til kontrollerende uforutsigbarhet, snarere enn ved enten responsformen eller oppførselsoppgaven som brukes til å etablere den. Uten å undersøke den kontrollerende beredskapen i en gitt situasjon, vil både oppførselen og de nevrale prosessene som er funnet å formidle oppførselen trolig bli mischaracterized. Til slutt, som vi skal argumentere for, er det de faktiske kontrollerende uforutsetningene, som er oppnådd gjennom læring og implementert av forskjellige nevrale systemer, som styrer atferd, selv om de kan dele den samme "endelige fellesveien". Dermed er den sentrale utfordringen å gå utover opptredener for å avdekke den underliggende beredskapsregulerende oppførselen (for et sammendrag se Tabell 1). For å hevde at spesifikke neurale strukturer formidler spesifikke psykologiske evner, f.eks. Målrettethet, må oppførselenes status vurderes med passende adferdsanalyser. Å gjøre ellers, er å invitere forvirring når grupper argumenterer over de relevante nevrale determinanter, mens de ikke klarer å anerkjenne at deres atferdsoppgaver kunne måle forskjellige fenomener. Det som betyr noe, er det dyret faktisk lærer, ikke hva eksperimentøren mener at dyret lærer, og hva dyret egentlig lærer, kan bare avsløres av analyser som direkte sondrer innholdet i læring.

Pavlovian-instrumental skillet ville vært trivial hvis dyret klarte å lære det samme (si en sammenheng mellom stimulansen og belønningen) uansett hva eksperimentelle arrangementer er. Ved å bruke de vanligste læringsmåte som er tilgjengelig for nevrovitenskap i dag, er det ganske enkelt ingen måte å fortelle. Dermed hevder forskere ofte å studere målrettet oppførsel uten å undersøke om den aktuelle oppførelsen faktisk er rettet mot målet. Selv om ulike typer læring vanligvis antas å skyldes bruk av forskjellige "oppgaver" eller "paradigmer", gir ofte oftere enn ikke forskere en tilstrekkelig begrunnelse for deres antagelser.

Et klassisk eksempel på dette problemet er bruken av labyrinter for å studere læring. Et problem med labyrinteksperimenter og relaterte analyser, som betinget stedpreferanse, er vanskeligheten ved å eksperimentelt dissociere Pavlovians innflytelse (stimulusbelønning) og instrumentalbelønningssituasjonen for atferd (Dickinson, 1994; Yin og Knowlton, 2002). Dermed kan man bevege seg gjennom en T-labyrint for å få mat til å gjenspeile en responsstrategi (sving til venstre) eller bare en betinget tilnærming mot noe ekstra labyrint landemerke kontrollert av cue-food associationen (Restle, 1957). En måte å teste om sistnevnte spiller en rolle i ytelse er å invertere labyrinten; nå svar skal elevene fortsette å svinge til venstre, mens de som bruker ekstra labyrint-signaler, bør dreie til høyre. Men er de som fortsetter å svinge til venstre, virkelig bruker en responsstrategi, eller er de bare nærmer seg noen intra-maze cue forbundet med mat? Det er ikke enkelt å finne ut, fordi de vanlige kontrollene for Pavlovian-kontroll av atferd ikke lett kan brukes i labyrintstudier. En av disse, den toveislige kontrollen, fastslår at dyr kan utøve kontroll over et bestemt respons ved å kreve reversering av retningen til den responsen for å tjene belønning (Hershberger, 1986; Heyes og Dawson, 1990). Dessverre, i en labyrint, kan tilbakevending av respons fortsatt ikke være tilstrekkelig til å etablere en handling som målrettet, fordi reversering kan oppnås ved å slukke det eksisterende stimulus-belønningsforholdet og erstatte det med en annen. For eksempel kan en rotte som nærmer seg en bestemt intra-labyrint, lære under reversering at den ikke lenger er parret med belønning, men at en annen stimulus er, noe som resulterer i å skaffe seg en tilnærming CR mot den nye stimulansen. Dermed kan de tilsynelatende reversere sitt svar uten å ha kodet for respons-belønningssituasjonen. Fordi denne muligheten ikke kan prøves i praksis, er bruk av labyrinter, plassering av preferanseprosedyrer eller enkle lokomotoriske oppgaver for å studere målrettede læringsprosesser spesielt farlig og sannsynligvis vil føre til at prosesser som styrer oppførsel sammenliknes med den spesifikke rollen som noen nevrale prosesser funnet å være involvert (Smith-Roe og Kelley, 2000; Hernandez et al., 2002; Atallah et al., 2007).

Nucleus accumbens er ikke nødvendig for instrumentell læring

Mangler av nåværende atferdsanalyse blir spesielt tydelige i studien av nukleinsystemet. Mange studier har antydet at denne strukturen er kritisk for oppkjøpet av målrettede tiltak (Hernandez et al., 2002; Goto and Grace, 2005; Hernandez et al., 2005; Pothuizen et al., 2005; Taha og Fields, 2006; Atallah et al., 2007; Cheer et al., 2007; Lerchner et al., 2007). Men denne konklusjonen er nådd i stor grad basert på tiltak av endring i ytelse alene, ved hjelp av oppgaver der beredskapsregulerende oppførsel er tvetydig. Selv om observasjonen at en manipulasjon forringer oppkjøpet av noe atferdsrespons, kan indikere et læringsunderskudd, kan de også reflektere en effekt på responsinitiering eller motivasjon. For eksempel kan en nedskrivning i oppkjøpet av spaken trykke ofte gjenspeile en effekt på ytelse fremfor læringen (Smith-Roe og Kelley, 2000). Oppkjøpskurver alene, som ufullstendige representasjoner av en hvilken som helst læringsprosess, må tolkes med forsiktighet (Gallistel et al., 2004). Dessverre ignoreres ofte skillet mellom læring og ytelse, kanskje den eldste leksjonen i studiet av læring.

En mer detaljert analyse indikerer at accumbens ikke er nødvendig eller tilstrekkelig for instrumentell læring. Lesjoner av accumbens skallet endrer ikke følsomheten til ytelse til utfall devaluering (de Borchgrave et al, 2002; Corbit et al., 2001) eller til instrumental beredskapsforringelse (Corbit et al., 2001), mens lesjoner av accumbens-kjerne har blitt funnet å redusere følsomhet overfor devaluering uten å svekke rotternes følsomhet overfor selektiv nedbrytning av den instrumentelle beredskapen (Corbit et al., 2001). Andre studier som vurderer effekten av accumbens manipulasjoner på oppkjøpet av et nytt respons i studier av kondisjonert forsterkning har konsekvent funnet effekt på belønningsrelatert ytelse, spesielt forsterkning av ytelse med amfetamin, men ikke ved oppkjøp av å reagere i seg selv (Parkinson et al., 1999). På samme måte fant en systematisk studie av kardinal og Cheung også ingen effekt av accumbens kjernelesjoner ved oppkjøp av et spakpressrespons under en kontinuerlig forsterkningsplan; svekket anskaffelse ble kun observert med forsinket forsterkning (Kardinal og Cheung, 2005).

Selv om utstyret ikke koder for instrumental beredskap (Balleine & Killcross, 1994; Corbit, Muir & Balleine, 2001), tyder betydelig bevis på at det spiller en grunnleggende rolle i instrumentelle ytelse, en rolle som vi nå bedre kan definere i lys av det siste arbeidet. Som konkludert med flere studier, er accumbens kritisk for visse typer appetitiv Pavlovian kondisjonering, og formidler både de ikke-spesifikke eksitatoriske effekter som belønningsrelaterte signaler kan ha på instrumentell ytelse, samt de utfallsspesifikke forutsetninger for responsvalg produsert ved slike tegn. Lesjoner av kjernen, eller av det fremre cingulatet, en viktig kilde til kortikal inngang til kjernen, eller en frakobling mellom disse to strukturer, vanskeliggjør oppkjøpet av Pavlovian-tilnærming atferd (Parkinson et al., 2000). Lokal infusjon av en D1-lignende dopaminreseptorantagonist eller en NMDA-glutamatreceptorantagonist umiddelbart etter trening svekket også denne form for læring uten å påvirke ytelsen (Dalley et al., 2005). Disse dataene er enige med tiltak av in vivo neural aktivitet. For eksempel fant Carelli og kolleger at nevroner i accumbens-kjerne kan endre sin aktivitet systematisk under læring av en Pavlovian autoshaping-oppgave (Day et al., 2006; Day og Carelli, 2007).

Neuroner i skallområdet synes å være innstilt til belønninger og aversive stimuli, selv før noen lærerfaring; de er også i stand til å utvikle svar på CS'er som forutsier disse utfallene (Roitman et al., 2005). Arbeid av Berridge og kolleger, dessuten, har hevet muligheten for at visse regioner innenfor kjernebjelken og i nedstrøms ventral pallidum kan karakteriseres som "hedonske hotspots". Disse områdene modulerer direkte vilkårlige hedoniske responser til belønninger, som smaksreaktivitet. For eksempel kan agonister av opioidreceptorer i disse regionene forsterke signifikant smaksreaktivitet overfor sukrose. Slike høyt lokaliserte regioner er imidlertid innebygd i større nettverk som ikke spiller en rolle i forbruksmessig appetitiv atferd (Taha og Fields, 2005; Pecina et al., 2006; Taha og Fields, 2006).

Sondringen i de relative rollene til kjerne og skall ser ut til å være en mellom forberedende og konsumert appetitiv oppførsel, som enkelt kan modifiseres av erfaring gjennom forskjellige typer Pavlovian condition. Forberedende responser som tilnærming er knyttet til generelle følelsesmessige kvaliteter av utfallet, mens den forbruksmessige oppførsel er knyttet til mer spesifikke sensoriske kvaliteter; De er også differensielt utsatt for ulike typer CS, for eksempel er forberedende responser lettere betinget av et stimulus med lang varighet (Konorski, 1967; Dickinson og kjære, 1979; Balleine, 2001; Dickinson og Balleine, 2002).

I alle fall er bevisene som impliserer accumbens i noen aspekter av Pavlovian condition overveldende. Det er imidlertid ikke den eneste strukturen som er involvert, og andre nettverk, som de som involverer de ulike amygdaloidkjernene, synes også å spille en sentral rolle i både de forberedende og forbruksmessige komponentene i Pavlovian conditoning (Balleine og Killcross, 2006).

En funksjon som tydelig kan tilskrives accumbens er integrering av Pavlovian påvirkninger på instrumentell oppførsel. Pavlovian-CR, inkludert de som gjenspeiler aktivering av sentrale motiverende tilstander, som for eksempel trang og oppvåkning, kan utøve sterk innflytelse på utførelsen av instrumentelle handlinger (Trapold og Overmier, 1972; Lovibond, 1983; Holland, 2004). For eksempel kan en CS som selvsagt forutsetter matlevering, øke instrumental respons for den samme maten. Denne effekten blir ofte studert ved hjelp av Pavlovian-instrumental transfer paradigm (PIT). I PIT får dyrene separate pavloviske og instrumentale trener, hvor de lærer, uavhengig av hverandre, å knytte en cue med mat og å trykke en spak for samme mat. Deretter på sondeforsøk presenteres køen med håndtaket tilgjengelig, og høyden av responsraten i nærvær av CS er målt. To former for PIT har blitt identifisert; en relatert til den generelle vekselvirkningen av belønningsrelaterte signaler og en andre mer selektiv effekt på valgytelse fremstilt av en prediktiv status for en kø med respekt en bestemt belønning i motsetning til andre. Akkumulatorskallet er nødvendig for denne sistnevnte utfallsspesifikke formen for PIT, men er ikke nødvendig for den tidligere, mer generelle form eller for følsomhet overfor devaluering av utfallet; I motsetning til dette reduserer lesjonene av accumbens kjernen følsomhet for både utfall devaluering og den generelle formen av PIT, men la intakt utfallsspesifikke PIT (Corbit et al., 2001; (Balleine og Corbit, 2005).

En nylig studie ga videre innsikt i rollen til accumbens skallet i utfallsspesifikke PIT (Wiltgen et al., 2007). Kontrollert uttrykk for aktiv kalsium / kalmodulinavhengig proteinkinase II (CaMKII) i striatum påvirket ikke instrumental eller Pavlovian læring, men avskaffet spesifikk PIT. Dette underskuddet i PIT var ikke permanent og kunne reverseres ved å slå av transgenuttrykket med doxycyklin, noe som viste at underskuddet kun var knyttet til ytelse. Kunstig forbedring av CaMKII-nivået i striatumet blokkerer derfor resultatet-spesifikk overføring av insentivmotivasjon fra Pavlovian til instrumentsystemet. Interessant nok viste det seg at å slå på CaMKII-transgenet også viste å redusere excitabiliteten til nevroner i accumbens-skallet, uten å påvirke basal overføring eller synaptisk styrke.

Dorsal striatum

Dorsal striatum, også kjent som neostriatum eller caudate-putamen, mottar massive fremskrivninger fra den såkalte neocortexen. Det kan videre deles inn i en associativ region, som hos gnagere er mer medial og kontinuerlig med ventral striatum, og en sensorimotorisk region som er mer lateral (Groenewegen et al., 1990; Joel og Weiner, 1994). Som helhet er dorsalstriatum innervaset av DA-celler fra substantia nigra pars compacta (SNc), og mottar bare svake projeksjoner fra VTA DA-neuronene (Joel og Weiner, 2000). Tidligere arbeid på dorsal striatum har hovedsakelig fokusert på sin rolle i stimulus-respons (SR) vane læring (Miller, 1981; Hvit, 1989). Denne oppfatningen er basert på effektloven, ifølge hvilken en belønning virker for å styrke eller styrke en SR-sammenheng mellom miljøstimuli og responsen som utføres som et resultat av hvilken tendensen til å utføre dette svaret øker i nærvær av disse stimuli (Thorndike, 1911; Hull, 1943; Miller, 1981). Følgelig antas den kortikostriatale banen å formidle SR-læring med DA som fungerer som forsterkningssignalet (Miller, 1981; Reynolds og Wickens, 2002).

SR-modeller har fordelen av å inneholde en parsimonisk regel for å oversette læring til ytelse. En modell basert på handlingsrelaterte forventninger er derimot mer komplisert fordi troen "Aksjon A fører til Resultat O" ikke nødvendigvis må oversettes til handling (Guthrie, 1935; Mackintosh, 1974); Informasjon av denne typen kan brukes både til å utføre 'A' og for å unngå å utføre 'A'. Av denne grunn skjulte de tradisjonelle teoriene den mest åpenbare forklaringen, nemlig at dyr kan få en handling-utfallssituasjon som styrer valgadferd. De siste tiårene har imidlertid sett en vesentlig revidering av loven om virkning (Adams, 1982; Colwill og Rescorla, 1986; Dickinson, 1994; Dickinson et al., 1996). TResultatene av mange studier har vist at instrumental handlinger kan være virkelig målrettet, det vil si følsomme for endringer i belønningsverdi, så vel som årsakseffekten av handlingen (se Dickinson & Balleine, 1994; 2002; Balleine, 2001 for vurderinger). Likevel, i løpet av omfattende trening under konstante forhold, kan selv nyanskaffede handlinger bli relativt automatiske og stimulusdrevne - en prosess kjent som vanningsdannelse (Adams og Dickinson, 1981; Adams, 1982; Yin et al., 2004). Vaner som defineres slik, blir automatisk fremkalt av antecedent stimuli, blir ikke kontrollert av forventning eller representasjon av utfallet; De er følgelig ugjennomtrengelige for endringer i utfallsverdi. Fra dette perspektivet er lovloven derfor en spesiell sak som bare gjelder for vanlig oppførsel.

Den nåværende klassifikasjonen av instrumentell oppførsel deler den i to klasser. Than første klasse består av målrettede handlinger styrt av den instrumentelle beredskapen; Den andre, vanlige oppførsel ugjennomtrengelig for endringer i utfallsverdi (Tabell 1). Ved å benytte atferdsanalyser som utfallsdevaluering og instrumentell beredskapsforringelse, etablerte Yin et al en funksjonell dissosiasjon mellom den sensorimotoriske (dorsolaterale striatum, DLS) og associative regioner (dorsomedial striatum, DMS) i dorsalstriatumet (Yin og Knowlton, 2004; Yin et al., 2004, 2005a; Yin et al., 2005b; Yin et al., 2006a). Lesjoner av DLS svekket utviklingen av vaner, noe som resulterte i en mer målrettet modus for atferdskontroll. Lesjoner av DMS har motsatt effekt og resulterer i en bryter fra målrettet til vanlig kontroll. Yin et al konkluderte derfor at DLS og DMS kan være funksjonelt dissociert når det gjelder typen av tilknyttede strukturer de støtter: DLS er kritisk for vanningsdannelse, mens DMS er kritisk for oppkjøp og uttrykk for målrettede handlinger. Denne analysen forutser at under visse forhold (f.eks. Utvidet opplæring) kan kontrollen av handlinger skifte fra det DMS-avhengige systemet til det DLS-avhengige systemet, en konklusjon som er i bred enighet med den betydelige litteraturen om primater, inkludert human neuroimaging (Hikosaka et al., 1989; Jueptner et al., 1997a; Miyachi et al., 1997; Miyachi et al., 2002; Delgado et al., 2004; Haruno et al., 2004; Tricomi et al., 2004; Delgado et al., 2005; Samejima et al., 2005; Haruno og Kawato, 2006a, b; Lohrenz et al., 2007; Tobler et al., 2007). Det skal huskes, selvfølgelig, tHattens fysiske plassering (f.eks. dorsal eller ventral) alene kan ikke være en pålitelig veiledning ved sammenligning av gnagerestriatumet og primatstriatumet; slike sammenligninger bør gjøres med forsiktighet, etter nøye vurdering av anatomisk tilkobling.

Effektene av dorsale striatale lesjoner kan sammenlignes med de av accumbens lesjoner (Smith-Roe og Kelley, 2000; Atallah et al., 2007). Som allerede nevnt er standardtester for å opprette en oppførsel som "målrettet" utfallsdevaluering og nedbryting av hendelsesresultatetDickinson og Balleine, 1993). Lesjoner av DMS gjør atferd ufølsom for begge manipulasjoner (Yin et al., 2005b), mens lesjoner av accumbens kjernen eller skallet ikke (Corbit et al., 2001). Videre utføres sondetester av disse atferdsanalysene i utryddelse uten presentasjon av noen belønning for å vurdere hva dyret har lært uten forurensning ved ny læring. De sondrer dermed direkte på representasjonsstrukturen som styrer atferd. Som en ekstra eksperimentell kontroll er det ofte nyttig å gjennomføre en egen devalueringstest der belønningene faktisk leveres - den såkalte belønnede testen. Lesjoner av DMS avskaffet ikke følsomhet overfor devaluering av utfallet på den belønnede testen, som det kan forventes siden leveransen av et devaluert utfall som er betinget av at en handling kan undertrykke handlingen uavhengig av handlingsresultatkoding. Accumbens shell lesjoner, på den annen side, gjorde ikke svekkelse av følsomhet for utfall devaluering på enten utryddelse test eller belønnet test, mens accumbens core lesjoner avskaffet følsomhet for devaluering på begge testene (Corbit et al., 2001). Følsomhet for beredskapsforringelse ble imidlertid ikke påvirket av en hvilken som helst lesjon, noe som demonstrerte at rottene, etter accumbens lesjoner, var i stand til å kode og hente framfallsrepresentasjoner.

Dopaminens rolle: Mesolimbic vs nigrostriatal

Helt siden de banebrytende studiene på den phasiske aktiviteten til DA-neuroner i aper, er en felles antagelse i feltet at alle DA-celler oppfører seg i hovedsak på samme måte (Schultz, 1998a; Montague et al., 2004). Imidlertid foreslår de tilgjengelige dataene, samt den anatomiske tilkoblingsmuligheten, noe annet. Faktisk kan ovennevnte analyse av funksjonell heterogenitet i striatumet bli utvidet til DA-cellene i midbrainen også.

DA-celler kan deles inn i to hovedgrupper: VTA og substantia nigra pars compacta (SNc). Selv om projeksjonen fra VTA til accumbens har vært sentrum for oppmerksomhet innen belønningsrelatert læring, den mye mer massive nigrostriatalveien har blitt relativt neglisjert, med oppmerksomhet fokusert primært på sin rolle i Parkinsons sykdom. Nåværende tenkning på rollen som DA i læring har blitt sterkt påvirket av forslaget om at den fasiske aktiviteten til DA-celler reflekterer en belønningspåvisning error (Ljungberg et al., 1992; Schultz, 1998b). Jegn den vanligste Pavlovian-konditioneringsoppgaven som brukes av Schultz og kollegaer, brenner disse nevronene som svar på belønning (US), men med læring blir forskuddene fra USA skiftet til CS. Når USA utelates etter læring, viser DA-cellene en kort depresjon i aktivitet på forventet tidspunkt for leveransen (Waelti et al., 2001; Fiorillo et al., 2003; Tobler et al., 2003). Slike data danner grunnlaget for en rekke beregningsmodeller (Schultz et al., 1997; Schultz, 1998b; Brown et al., 1999; Montague et al., 2004).

Gitt flere nivåer av kontroll i mekanismer for syntese og utgivelse, kan spiking av DA neuroner ikke likestilles med DA-utgivelse, selv om man forventer at disse to tiltakene skal være høyt korrelerte. Faktisk, som vist av en nylig studie av Carelli og kollegaer ved hjelp av hurtig-skanning syklisk voltammetri, faktisk DA-frigjøring i accumbens-kjerne ser ut til å være korrelert med en prediksjonsfeil i appetitiv Pavlovian-kondisjonering (Day et al., 2007). De fant et phasic DA signal i accumbens kjernen umiddelbart etter mottak av sukrose belønning i Pavlovian autoshaping. Etter utvidet Pavlovian-kondisjon ble dette signalet imidlertid ikke lenger funnet etter belønningen selv, men flyttet til CS i stedet. Dette funnet støtter den opprinnelige "prediksjonsfeil" -hypotesen. Det er også i samsvar med tidligere arbeid som viser svekket ytelse av Pavlovian CR etter enten DA-reseptorantagonisme eller DA-depletjon i accumbens-kjerne (Di Ciano et al., 2001; Parkinson et al., 2002). Imidlertid er en observasjon fra studien ny og av stor interesse: etter utvidet kondisjonering med en CS + som forutser belønning og en CS-som ikke forutsier belønning, ble et lignende, men mindre DA signal også observert etter CS-, skjønt det viste også en liten dykking umiddelbart (500 ~ 800 millisekunder etter cue start) etter den første toppen (Day et al., 2007, Figur 4). Ved dette stadiet i læring nærmer dyr nesten aldri CS-, men konsekvent nærmer seg CS +. Dermed kan phasic DA-signalet umiddelbart etter prediktoren ikke spille en årsakss rolle i å generere tilnærmelsesresponsen, siden den er tilstede selv i fravær av responsen. Hvorvidt et slikt signal fremdeles er nødvendig for å lære stimulus-belønningen er uforklarlig, men det observerte fasiske svaret på CS-er absolutt ikke forutsatt av noen av de nåværende modellene.

Interessant, svekker lokal DA-utmattelse ytelse på denne oppgaven (Parkinson et al., 2002). Mens et phasic DA-signal observeres etter at CS-, som ikke genererer CR'er i det hele tatt, forringer både phasic og tonic DA ved lokal uttømming, svekker ytelsen til CRs. Et slikt mønster antyder at et phasic DA-signal i accumbens ikke er nødvendig for å utføre Pavlovian CR, men kan spille en rolle i læring, mens et langsommere, mer tonisk DA-signal (antagelig avskaffet i utarmingsstudier) er viktigere for ytelse av tilnærmingsresponsen (Cagniard et al., 2006; Yin et al., 2006b; Niv et al., 2007). Denne muligheten gjenstår å bli testet.

Selv om det ikke foreligger direkte bevis for en kausal rolle av det fasiske DA-signalet i læring, har "prediksjonsfeil" -hypotesen likevel tiltrukket mye oppmerksomhet, fordi det er nettopp typen undervisningssignal som brukes i fremtredende læringsmodeller, slik som Rescorla-Wagner-modellen og dens sanntidsforlengelse, den tidsforskjellige forsterkningsinlæringsalgoritmen (Schultz, 1998b). I følge denne tolkningen bestemmes appetitiv læring av forskjellen mellom mottatt og forventet belønning (eller mellom to midlertidige suksessive spådommer). Et slikt undervisningssignal er regulert av negativ tilbakemelding fra alle predikanter av belønningen (Schultz, 1998b). Hvis ingen belønning følger prediktoren, blir den negative tilbakemeldingsmekanismen avmasket som en dip i aktiviteten til DA-neuronene. Dermed innebærer læring den progressive reduksjonen av prediksjonsfeilen.

Elegansen av læringssignalet i disse modellene har kanskje distrahert noen fra den anatomiske virkeligheten. I studien av Day et al (2007), DA-signalet i accumbens kommer for det meste fra celler i VTA, men det synes lite sannsynlig at andre DA-celler med helt annen anatomisk tilkobling vil vise samme responsprofil og gi det samme signalet. En gradient i hva DA-cellesignalet er mer sannsynlig, da DA-celler projiserer til forskjellige striatalregioner med helt forskjellige funksjoner, og mottar i sin tur forskjellige forskjellige tilbakemeldingssignaler fra forskjellige striatalregioner også (Joel og Weiner, 2000; Wickens et al., 2007). Mekanismer for opptak og nedbrytning, samt presynaptiske reseptorer som regulerer frigivelse av dopamin, viser også betydelig variasjon over striatumet (Cragg et al., 2002; Rice and Cragg, 2004; Wickens et al., 2007; Rice and Cragg, 2008).

Vi foreslår derfor at mesoaccumbensbanen spiller en mer begrenset rolle i Pavlovsk læring, ved å skaffe seg verdien av stater og stimuli, mens nigrostriatalbanen er viktigere for instrumentell læring, ved å skaffe verdiene til handlinger. Thatten er, kan det fasiske DA-signalet kode for forskjellige prediksjonsfeil, snarere enn en enkelt prediksjonsfeil, som for tiden antas. Tre argumentasjonslinjer støtter dette argumentet. For det første hindrer genetisk utarmning av DA i nigrostriatalveien oppkjøpet og ytelsen av instrumentelle tiltak, mens uttømming av DA i mesolimbisk bane ikke (Sotak et al., 2005; Robinson et al., 2007). For det andre kan DA-celler i SNc kode for verdien av handlinger som ligner celler i deres mål-striatale region (Morris et al., 2006). Tredje selektiv lesjon av nigrostriatalprojeksjonen til DLS forringer vaneformasjon (Faure et al., 2005).

Nyere arbeid fra Palmiter og kolleger viste at genetisk utviklede DA-mangelfulle mus er sterkt svekket i instrumentell læring og ytelse, men deres ytelse kan gjenopprettes enten ved L-DOPA-injeksjon eller ved viralgenoverføring til nigrostriataleveien (Sotak et al., 2005; Robinson et al., 2007). DA-restaurering i ventral striatum var derimot ikke nødvendig for å gjenopprette instrumentell oppførsel. Selv om hvordan DA-signaler gjør at instrumental læring forblir et åpent spørsmål, er det en åpenbar mulighet at den kan kode verdien av selv initierte handlinger, det vil si hvor mye belønning som forventes gitt et bestemt tiltak.

Dorsalstriatumet som helhet inneholder det høyeste uttrykket for DA-reseptorer i hjernen, og mottar den mest massive dopaminerge projeksjonen. DA-projeksjonen til DMS kan spille en annen rolle i læring enn projeksjonen til DLS, da disse to regionene er vesentlige forskjellig i den tidlige profilen for DA-utgivelse, opptak og nedbrytning (Wickens et al., 2007). Vi antar at DA-projeksjonen til DMS fra medial SNC er kritisk for læring av action-utfall, mens DA-projeksjonen til DLS fra lateral SNC er kritisk for vanedannelse. Skulle dette være sant, bør man forvente DA-celler i SNC for å kode feilen i belønningsprognosering basert på selvopprettede handlinger-instrumental prediction error-heller enn det som er basert på CS. Foreløpig bevis til støtte for denne påstanden kommer fra en nylig studie av Morris et al, som registrert fra SNc-neuroner under en instrumentell læringsoppgave (Morris et al., 2006). Apekatter ble trent til å bevege armene som svar på diskriminerende stimulans (SD) som angitt riktig bevegelse og sannsynligheten for belønning. SD fremkalte fasisk aktivitet i DA-neuronene som svarer til virkningsverdien basert på forventet belønningssannsynlighet for en bestemt handling. Mest interessant, selv om DA-svaret på SD økt med virkningsverdien, var den inverse sant for DA-responsen på belønningen i seg selv, i tråd med ideen om at disse nevronene var kodende for en prediksjonsfeil forbundet med den verdien. Ikke overraskende, er det primære striatalmål for disse cellene, caudatekjernen, kjent å inneholde nevroner som koder for virkningsverdier (Samejima et al., 2005). Det skal imidlertid bemerkes at denne studien ikke brukte atferdsoppgaver som utvetydig vurderer verdien av handlinger. En klar forutsigelse av modellen vår er at phasic DA-aktivitet vil følge oppførelsen av handlinger, selv i fravær av en eksplisitt SD. For eksempel forutsier vi burstfire av nigral DA-neuroner på tidspunktet for en selvinitiert handling som gir en belønning.

Etter vår oppfatning, mens mesoaccumbens DA-signalet reflekterer verdien av CS, reflekterer nigrostriatal-signalet, kanskje fra de nevronene som projiserer til DMS, verdien av selve handlingen, eller av noen SD som forutsetter denne verdien. Videre synes både instrumental og Pavlovian læring å innebære noen form for negativ tilbakemelding for å kontrollere det effektive undervisningssignalet. Faktisk er de direkte projeksjonene fra striatum til midbrain DA neurons (Figur 2) har lenge blitt foreslått som den nevrale gjennomføringen av denne typen negative tilbakemeldinger (Houk et al., 1995), og styrken og naturen til den hemmende inngangen kan variere vesentlig fra region til region.

Figur 2  

De cortico-basale ganglia-nettverkene

En prediksjonsfeil, i henhold til gjeldende modeller, er et undervisningssignal som bestemmer hvor mye læring som skjer. Så lenge det er til stede fortsetter læring. Men åpenbart dette kravet vises, en prediksjonsfeil for handlingsverdi, men syntactically lik Pavlovian-prediksjonsfeilen, har unike funksjoner som ikke har blitt undersøkt i stor utstrekning. I tradisjonelle modeller som Rescorla-Wagner-modellen, som utelukkende adresserer Pavlovian-kondisjonering (men med begrenset suksess), er nøkkelfunksjonen den negative tilbakemeldingen som regulerer prediksjonsfeil. Denne utgangen representerer den overtagne prediksjonen, nærmere bestemt sum av alle nåværende prediktorer, som fanget av sammensatte stimuli som vanligvis brukes i blokkering av eksperimenter (Rescorla, 1988). Det er denne summeringen av tilgjengelige prediktorer for å etablere en global feilperiode som er den viktigste innovasjonen i denne klassen av modellen. For instrumentelle handlinger ser det imidlertid ut til at enkelte feilvilkår er mer sannsynlige, for det er vanskelig å se hvordan den negative tilbakemeldingen vil vise verdien av flere handlinger samtidig når bare én handling kan utføres av gangen. Selvfølgelig finnes det en rekke mulige løsninger. For eksempel, gitt en bestemt tilstand (eksperimentelt implementert av en distinkt SD), kan de mulige handlingene faktisk bli representert samtidig som overlevert spådommer. Men hovedproblemet med instrumentale prediksjonsfeil har å gjøre med selve handlingenes handling. En Pavlovian-prediksjon følger automatisk presentasjonen av stimulansen, som er uavhengig av organismen. En instrumental prediksjonsfeil må adressere elementet av kontroll, fordi prediksjonen er selvtiltakskontingent, og en overordnet handling utledes spontant basert på dyrets jakten på konsekvensene av å handle i stedet for fremkalt av antecedent stimuli. Til slutt er det nettopp en generell forsømmelse av den spontane karakteren av målrettede handlinger, både i nevrovitenskap og psykologi, som har sløret forskjellen mellom Pavlovian og instrumentelle læringsprosesser, og typen av prediksjonsfeilene som er involvert. Det gjenstår å bli etablert, derfor hvilken type negativt tilbakemeldingssignal, hvis noen, regulerer oppkjøpet av handlingsverdier (Dayan og Balleine, 2002).

Endelig har nylig arbeid også medført nigrostriatalprojeksjonen fra den laterale SNc til DLS spesielt i vaneformasjon. Faure et al selekterte selektivt DA-cellene som projiserer til DLS ved hjelp av 6-OHDA, og fant at denne manipulasjonen har overraskende liten effekt på hastigheten på spakenes presse, selv om det svekket vanedannelse, målt ved bruk av utgangsdevaluering (Faure et al., 2005). Det vil si at lesioned dyr reagerte målrettet, selv om treningen i en kontrollgruppe genererte vanlig oppførsel ufølsom overfor devaluering av utfallet. Lokal DA-utarming ligner da eksitotoksiske lesjoner av DLS, ved at begge manipulasjoner forsinke vaneformasjon og favoriserer oppkjøp av målrettede tiltak (Yin et al., 2004). Et phasic DA-signal som er kritisk for vaneformasjon er allerede godt beskrevet av det effektive forsterkningssignalet i samtidige tidsforskjellige forsterkningsinlæringsalgoritmer inspirert av arbeidet med Hull og Spence (Hull, 1943; Spence, 1947, 1960; Sutton og Barto, 1998).

Cortico-basale ganglia-nettverk

Så langt har vi diskutert den funksjonelle heterogeniteten i striatumet, men det ville være misvisende å foreslå at noen striatalare kan si å oversette handlingsresultatets uforutsetning til en handling som er i seg selv. Snarere er hjernehalvene organisert som itererende funksjonelle enheter som består av kortikobasale ganglia-nettverk (Swanson, 2000; Zahm, 2005). Than striatum, som er inngangsstasjonen for hele basalgangliaen, tjener som et unikt knutepunkt i cortico-basal ganglia-nettverksmotivet, som er i stand til å integrere kortikale, thalamiske og midbraine innganger. Som beskrevet ovenfor, selv om det er en kontinuerlig struktur, ser det ut til at forskjellige striatale regioner deltar i forskjellige funksjonelle nettverk, f.eks. Accumbens fungerer som et knutepunkt i det limbiske nettverket og DLS i det sensorimotoriske nettverket. På grunn av reentrantegenskapen til slike nettverk er imidlertid ingen komponent av denne strukturen oppstrøms eller nedstrøms i absolutt forstand; f.eks. det thalamocortical systemet er både kilden til en stor inngang til striatumen og målet for både striato-pallidale og striato-nigralbanene.

Selv om parallelle reentrant basale ganglia looper har lenge blitt anerkjent (Alexander et al., 1986), legger vi vekt på forskjellige funksjonelle roller i disse kretsene basert på operasjonelt definerte representasjonsstrukturer og interaksjoner mellom kretser i generering av integrerende oppførsel. På grunnlag av dette kan minst fire slike nettverk skelnes: de limbiske nettverkene som involverer skallet og kjernen til accumbens henholdsvis det associative nettverket som involverer den associative striatum (DMS) og det sensorimotoriske nettverket som involverer sensimotorisk striatum (DLS). Deres funksjoner spenner fra å formidle kontrollen av appetitive Pavlovian UR og CR til instrumentelle handlinger (Figur 1).

Figur 1  

Stort funksjonelle domener av striatumet. En illustrasjon av striatumet fra en koronalt seksjon som viser halvparten av hjernen (Paxinos og Franklin, 2003). Merk at disse fire funksjonelle domenene er anatomisk kontinuerlige, og omtrent svarer til hva ...

Som nevnt består den ventrale striatum for det meste av kjernen accumbens, som kan videre deles inn i skallet og kjernen, som hver deltar i et tydelig funksjonelt nettverk. De kortikale (glutamatergiske) projeksjonene til skallet kommer fra infralimbiske, sentrale og laterale orbitale kortikaler, mens projeksjonene til kjernen stammer fra flere dorsale midlinegrupper av prefrontal cortex som ventral og dorsal prelimbic og anterior cingulate cortices (Groenewegen et al., 1990; Zahm, 2000, 2005). Innenfor disse funksjonsnettene er det vist at bevis som er gjennomgått ovenfor, antyder at skallet er involvert i UR til belønninger og oppkjøpet av forbruksbaserte CR'er. kjernen i utforskende oppførsel, spesielt oppkjøpet og uttrykket av Pavlovian tilnærming svar. Minst to store nettverk kan da bli oppfattet i det større ventral- eller limbic-cortico-basale ganglia-nettverket, det ene for forbruksvarer og det andre for forberedende oppførsel og deres modifikasjon ved Pavlovian-condition (Figur 1).

Den dorsale striatum kan også deles inn i minst to hovedregioner, associative og sensorimotoriske, med et tydelig funksjonelt nettverk forbundet med hver. Den associative striatum (caudat og deler av de fremre putamen i primater) inneholder nevroner som brann i påvente av respons-betingede belønninger og endrer deres avfyring i henhold til størrelsen på forventet belønning (Hikosaka et al., 1989; Hollerman et al., 1998; Kawagoe et al., 1998). I det assosiative nettverket er prekliniske og parietale foreningen cortices og deres mål i DMS involvert i forbigående minne, både prospektive, i form av resultatforventninger og retrospektive, som en oversikt over nyere efference-kopier (Konorski, 1967). Sensorimotorisk nivå, derimot, omfatter de sensorimotoriske kortikene og deres mål i basalganglia. Utgangene til denne kretsen er rettet mot motor cortices og hjernestammen motor nettverk. Neural aktivitet i sensorimotorisk striatum er generelt ikke modulert av belønning forventning, viser mer bevegelsesrelatert aktivitet enn nevroner i den associative striatumen (Kanazawa et al., 1993; Kimura et al., 1993; Costa et al., 2004). Til slutt, i tillegg til medial-lateral gradient, er det betydelig funksjonell heterogenitet langs den fremre og bakre akse av dorsalstriatumet, men det foreligger ikke tilstrekkelig data for å tillate noen detaljert klassifisering (Yin et al., 2005b).

Studier har hittil bare fokusert på de kortikale og striatala komponentene i disse nettverkene. Generelt har lesjoner i et kortikalt område lignende effekter som lesjoner av dets striatale mål (Balleine og Dickinson, 1998; Corbit og Balleine, 2003; Yin et al., 2005b). Men andre komponenter i nettverket kan se etter lignende funksjoner. For eksempel ble lesjoner av thalamus mediodorsal-kjerne, en komponent i det associative nettverket, funnet å avskaffe følsomhet overfor devaluering av tilbakemeldinger og beredskapsforringelse på omtrent samme måte som lesjoner til DMS og til prelimbisk cortex (Corbit et al., 2003). Således, selv om vår generelle modell forutsetter lignende atferdsdefekter etter skade på hver komponent i et nettverk, foreslår det også, for en gitt struktur som pallidum eller talamus, flere funksjonelle domener.

Samspill mellom nettverk

Under de fleste forhold synes Pavlovian og instrumental læring å foregå parallelt. Fenomen som PIT viser imidlertid i hvilken grad disse ellers forskjellige prosessene kan samhandle. Etter å ha avgrenset uavhengige funksjonelle systemer, er neste trinn å forstå hvordan disse systemene samordnes for å generere oppførsel. Et attraktivt forslag, i tråd med det siste anatomiske arbeidet, er at nettene som er skissert ovenfor er hierarkisk organisert, hver som fungerer som en labil, funksjonell mellommann i hierarkiet, slik at informasjon kan formidles fra ett nivå til et annet. Spesielt foreslår de nylig oppdagede spiralforbindelsene mellom striatum og midbrain en anatomisk organisasjon som potensielt kan implementere interaksjoner mellom nettverk (Figur 2). Som observert av Haber og kollegaer, sender striatalneuroner direkte hemmende projeksjoner til DA-neuroner, hvorfra de mottar gjensidig DA-projeksjoner, og også prosjekterer til DA-neuroner som i sin tur projiserer til et annet striatalområde (Haber et al., 2000). Disse fremskrivningene tillater videreformidling av informasjon i bare én retning, fra limbiske nettverk til associative og sensorimotoriske nettverk. For eksempel kan en Pavlovian-prediksjon (oppkjøpt verdi av CS) redusere det effektive undervisningssignalet på limbisk nivå, mens det tilfeldigvis potensialerer DA-signalet på neste nivå. Avbestillingen av det effektive undervisningssignalet blir normalt implementert av et negativt tilbakemeldingssignal via en inhibitorisk projeksjon, for eksempel fra GABAergic medium-spiny projiseringsnekroner fra striatum til DA-neuronene. I mellomtiden, som foreslått av den anatomiske organisasjonen (Haber et al., 2000; Haber, 2003), kunne potensialet til DA-signalet for det nærliggende cortico-basale ganglia-nettverket (det neste nivået i hierarkiet) implementeres via disinhibitory projeksjoner (dvs. GABAergic striatalprojeksjonsneuroner til nigral GABAergic interneurons til DA neurons). Dermed kan den lærte verdien av det limbiske nettverket overføres til det associative nettverket, slik at atferdsmessig tilpasning blir raffinert og forsterket ved hver iterasjon (Ashby, 1960). Denne modellen spår derfor det progressive engasjementet av forskjellige neurale nettverk under ulike læringsstadier, et forslag støttet av en rekke data (Jueptner et al., 1997b; Miyachi et al., 1997; Miyachi et al., 2002; Yin, 2004; Everitt og Robbins, 2005; Yin og Knowlton, 2005; Belin og Everitt, 2008).

Fenomener som krever samspillet mellom forskjellige funksjonelle prosesser, som PIT, gir en fruktbar testmulighet for slike modeller. Faktisk er den hierarkiske modellen i tråd med de siste eksperimentelle funnene på PIT. Ifølge modellen, er Pavlovian-instrumentelle interaksjoner formidlet av gjensidige forbindelser mellom striatum og DA neurons. DA ser ut til å være kritisk for generell overføring, som avskaffes av DA-antagonister og lokal inaktivering av VTA (Dickinson et al., 2000; Murschall og Hauber, 2006); mens lokal infusjon av amfetamin, som formodentlig øker DA nivåer, inn i accumbens kan betydelig forbedre den (Wyvell og Berridge, 2000). På den annen side er rollen av ventral striatal dopamin i spesifikk overføring mindre klar. Noen bevis tyder på at det kan bli spart etter inaktivering av VTA (Corbit et al., 2007) men som Corbit og Janak (2007) rapportert nylig, er spesifikk overføring avskaffet ved inaktivering av DLS, noe som tyder på at dette aspektet av stimuluskontroll over virkningsvalg kan involvere nigrostriatalprojeksjonen (Corbit og Janak, 2007). Enighet med det hierarkiske perspektivet, Corbit og Janak (2007) fant også at mens DLS-inaktivering avskaffet den selektive excitatoriske effekten av Palovian-signaler (mye som er observert etter lesjoner av accumbens-skallet ved Corbit et al., 2001), ble inaktivering av DMS avskaffet bare utfallselektiviteten til overføringen, samtidig som den viste seg å bevare den generelle excitatoriske effekten av disse signalene, en trend som også ble observert etter lesjoner av mediodorsal thalamus, som er en del av det associative kortikobasale ganglia-nettverket (Ostlund og Balleine, 2008). Basert på disse foreløpige resultatene synes DMS å formidle kun spesifikk overføring, mens DLS kan være nødvendig for både de spesifikke og generelle excitatoriske effektene av Pavlovian-tegn på instrumentelle handlinger.

Interessant, den limbiske striatumprosjektene utvides til DA-celler som projiserer til dorsalstriatumet (Nauta et al., 1978; Nauta, 1989); De dopaminerge fremspringene til striatumet og striatalprojeksjonene tilbake til midtveiene er svært asymmetriske (Haber, 2003). Den limbiske striatumen mottar begrenset inngang fra DA-neuroner, men sender fortsatt omfattende produksjon til et mye større sett med DA-neuroner, og motsatt gjelder sansimotorisk striatum. Dermed er limbiske nettverk i en perfekt posisjon for å kontrollere de associative og sensorimotoriske nettverkene. Her er neuroanatomien enig med atferdsmessige data at Pavlovians tilrettelegging av instrumentell oppførsel er mye sterkere enn omvendt; Faktisk tyder betydelige bevis på at instrumentelle handlinger har en tendens til å hemme, i stedet for å opphisse, Pavlovian-CR-et funn som fremdeles venter på en nevrobiologisk forklaring (Ellison og Konorski, 1964; Williams, 1965).

Konklusjoner

Den hierarkiske modellen som diskuteres her, bør det bemerkes, er svært forskjellig fra andre som er avhengige av cortex og langdistanseforbindelser mellom kortikale områder (Fuster, 1995). Den inneholder de kjente komponentene og forbindelsen til hjernen, i stedet for å se den som en potpourri av kortikale moduler som på en eller annen uspesifisert måte implementerer et bredt spekter av kognitive funksjoner. Det unngår også antagelser, arvet fra 19th århundre nevrologi, at hjernebarken generelt, og prefrontal cortex spesielt, danner på en eller annen måte en "høyere" homuncular enhet som styrer hele hjernen (Miller og Cohen, 2001).

Videre kan flere spesifikke spådommer utledes av den foreliggende modellen: (i) Det bør være forskjellige prediksjonsfeil for selvgenererte virkninger og for tilstander / stimuli med egenskaper som reflekterer deres forskjellige neurale substrater og funksjonelle roller. (ii) De pallidale og talamiske komponentene i hvert enkelt kort-basisk-ganglia-nettverk forventes også å være nødvendig for den type betennelseskontroll hypotetisert for hvert nettverk, ikke bare de kortikale og striatalkomponenter. (iii) Det skal være gradvis involvering av forskjellige neurale nettverk under ulike læringsstadier. (iv) Accumbens aktivitet kan direkte kontrollere DA neuroner og i sin tur dorsal striatal aktivitet. Basert på en rapport fra Holland (2004) noe som tyder på at PIT øker med instrumentell opplæring, forventes denne "limbic" -kontrollen av de associative og sensorimotoriske nettverkene å styrke seg med utvidet trening.

Uten detaljerte data er det fortsatt for tidlig å tilby en formell redegjørelse for den hierarkiske modellen. Likevel skal diskusjonen ovenfor gjøre det klart at dagens versjoner av mesoaccumbens belønner hypotesen hviler på problematiske antagelser om belønningsprosessen og bruken av utilstrekkelige atferdsforanstaltninger. Samlende prinsipper, alltid målet for den vitenskapelige virksomheten, kan bare baseres på virkeligheten av eksperimentelle data, men uhåndterlige disse kan være. Fordi hjernens funksjon er i siste instans generering og kontroll av atferd, vil detaljert atferdsanalyse være nøkkelen til å forstå nevrale prosesser, mye som en grundig beskrivelse av medfødt og oppnådd immunitet tillater utredning av immunsystemet. Selv om det tilsynelatende er en truisme, kan det nesten ikke overemphasized at vi kan forstå hjernemekanismer i den grad at deres funksjoner blir beskrevet og målt med presisjon. Når studiet av nevralefunksjonen er basert på eksperimentelt etablerte psykologiske evner, for eksempel representasjon av virknings-utfall og stimulus-utfallssituasjoner, er den kjente anatomiske organisasjonen så vel som fysiologiske mekanismer sett i et nytt lys som fører til formuleringene av ny hypoteser og utforming av nye eksperimenter. Som et første skritt i denne retning håper vi at rammene som diskuteres her, vil tjene som et nyttig utgangspunkt for fremtidig etterforskning.

Erkjennelsene

Vi vil gjerne takke David Lovinger for nyttige forslag. HHY ble støttet av divisjonen for intramural klinisk og grunnforskning av NIH, NIAAA. SBO støttes av NIH-stipend MH 17140 og BWB av NIH tilskudd MH 56446 og HD 59257.

Referanser

  1. Adams CD. Variasjoner i følsomheten til instrumental respons på å styrke devalueringen. Kvartalsvis journal av eksperimentell psykologi. 1982, 33b: 109-122.
  2. Adams CD, Dickinson A. Instrumental reagerer etter å styrke devalueringen. Kvartalsvis Journal of Experimental Psychology. 1981, 33: 109-122.
  3. Alexander GE, DeLong MR, Strick PL. Parallell organisering av funksjonelt segregerte kretser som forbinder basal ganglia og cortex. Annu Rev Neurosci. 1986, 9: 357-381. [PubMed]
  4. Ashby WR. Design for en hjerne. andre utgave. Chapman & Hall; 1960.
  5. Atallah HE, Lopez-Paniagua D, Rudy JW, O'Reilly RC. Separate nevrale substrater for ferdighetslæring og ytelse i ventral og dorsal striatum. Nat Neurosci. 2007; 10: 126–131. [PubMed]
  6. Balleine BW. Incentive prosesser i instrumentell kondisjonering. I: Mowrer RR, Klein SB, redaktører. Håndbok av moderne lærteorier. Mahwah, NJ, USA: Lawrence Erlbaum Associates, Inc., Utgivere; 2001. pp. 307-366.
  7. Balleine BW. Neural baser av mat-søker: påvirke, opphiss og belønning i kortikostriatolimbic kretser. Fysiol Behav. 2005, 86: 717-730. [PubMed]
  8. Balleine BW, Dickinson A. Målrettet instrumental handling: beredskap og incentiv læring og deres kortikale underlag. Neuropharmacology. 1998, 37: 407-419. [PubMed]
  9. Balleine BW, Corbit LH. Lesjoner av accumbens kjernen og skallet produserer dissocierbare effekter på de generelle og utfallsspesifikke former for Palovian-instrumental overføring; Årsmøte i Samfunnet for Neurovitenskap; 2005.
  10. Balleine BW, Killcross S. Parallell insentivbehandling: En integrert visning av amygdala-funksjonen. Trender Neurosci. 2006, 29: 272-279. [PubMed]
  11. Belin D, Everitt BJ. Kokain Søkevaner Avhenger av Dopamin-avhengige Serial Connectivity Kobling av Ventral med Dorsal Striatum. Neuron. 2008, 57: 432-441. [PubMed]
  12. Berke JD, Hyman SE. Addisjon, dopamin og de molekylære mekanismene i minnet. Neuron. 2000, 25: 515-532. [PubMed]
  13. Berridge KC, Robinson TE. Hva er rollen som dopamin i belønning: hedonisk påvirkning, belønning læring eller incitament salience? Brain Res Brain Res Rev. 1998; 28: 309-369. [PubMed]
  14. Bolles R. Forsterkning, forventning og læring. Psykologisk gjennomgang. 1972, 79: 394-409.
  15. Brown J, Bullock D, Grossberg S. Hvordan de basale ganglia bruker parallelle excitatoriske og hemmende læringsveier for å selektivt reagere på uventede givende tegn. J Neurosci. 1999, 19: 10502-10511. [PubMed]
  16. Brown PL, Jenkins HM. Auto-forming av nøkkelen til duen. Journal of the Experimental analysis of Behavior. 1968; 11: 1–8. [PMC gratis artikkel] [PubMed]
  17. Cagniard B, Beeler JA, Britt JP, McGehee DS, Marinelli M, Zhuang X. Dopamin skalaer ytelse i fravær av ny læring. Neuron. 2006, 51: 541-547. [PubMed]
  18. Kardinal RN, Cheung TH. Nucleus accumbens core lesions retard instrumental læring og ytelse med forsinket forsterkning i rotte. BMC Neurosci. 2005, 6: 9. [PMC gratis artikkel] [PubMed]
  19. Kardinal RN, Parkinson JA, Hall J, Everitt BJ. Følelse og motivasjon: Rolle av amygdala, ventral striatum og prefrontal cortex. Neurosci Biobehav Rev. 2002; 26: 321-352. [PubMed]
  20. Cheer JF, Aragona BJ, Heien ML, Seipel AT, Carelli RM, Wightman RM. Koordinert akkumulert dopaminfrigivelse og nevoral aktivitet driver målrettet oppførsel. Neuron. 2007, 54: 237-244. [PubMed]
  21. Colwill RM, Rescorla RA. Associative strukturer i instrumentell læring. I: Bower G, redaktør. Psykologien til læring og motivasjon. New York: Academic Press; 1986. pp. 55-104.
  22. Corbit LH, Balleine BW. Rollen som prelimbisk cortex i instrumentell kondisjonering. Behav Brain Res. 2003, 146: 145-157. [PubMed]
  23. Corbit LH, Janak PH. Inaktivering av lateral men ikke medial dorsal striatum eliminerer den excitatoriske effekten av Pavlovian stimuli på instrumental respons. J Neurosci. 2007, 27: 13977-13981. [PubMed]
  24. Corbit LH, Muir JL, Balleine BW. Nukleins rolle i instrumental konditionering: Bevis på en funksjonell dissosiasjon mellom accumbens kjernen og skallet. Journal of Neuroscience. 2001, 21: 3251-3260. [PubMed]
  25. Corbit LH, Muir JL, Balleine BW. Lesjoner av mediodorsal thalamus og fremre thalaminkjerner produserer dissocierbare effekter på instrumental konditionering hos rotter. Eur J Neurosci. 2003, 18: 1286-1294. [PubMed]
  26. Corbit LH, Janak PH, Balleine BW. Generelle og utfallsspesifikke former for Pavlovian-instrumentell overføring: effekten av skift i motiverende tilstand og inaktivering av det ventrale tegmentale området. Eur J Neurosci. 2007, 26: 3141-3149. [PubMed]
  27. Costa RM, Cohen D, Nicolelis MA. Differensiell kortikostriatal plastisitet under rask og langsom motorisk læring i mus. Curr Biol. 2004, 14: 1124-1134. [PubMed]
  28. Cragg SJ, Hille CJ, Greenfield SA. Funksjonelle domener i dorsalstriatum av det ikke-humane primatet er definert av dopaminens dynamiske oppførsel. J Neurosci. 2002, 22: 5705-5712. [PubMed]
  29. Dalley JW, Laane K, Theobald DE, Armstrong HC, Corlett PR, Chudasama Y, Robbins TW. Tidsbegrenset modulering av appetitivt Pavlovian-minne av D1 og NMDA-reseptorer i nucleus accumbens. Proc Natl Acad Sci USA A. 2005; 102: 6189-6194. [PMC gratis artikkel] [PubMed]
  30. Davis J, Bitterman ME. Differensial forsterkning av annen oppførsel (DRO): En yoked-control sammenligning. Journal of Experimentell analyse av oppførsel. 1971, 15: 237-241. [PMC gratis artikkel] [PubMed]
  31. Dag JJ, Carelli RM. Kjernen accumbens og Pavlovian belønne læring. Hjerneforsker. 2007, 13: 148-159. [PMC gratis artikkel] [PubMed]
  32. Dag JJ, Wheeler RA, Roitman MF, Carelli RM. Nucleus accumbens nevroner koder Pavlovian tilnærming adferd: bevis fra et autoshaping paradigme. Eur J Neurosci. 2006, 23: 1341-1351. [PubMed]
  33. Dag JJ, Roitman MF, Wightman RM, Carelli RM. Associativ læring medierer dynamiske skift i dopamin-signalering i kjernen accumbens. Nat Neurosci. 2007, 10: 1020-1028. [PubMed]
  34. Dayan P, Balleine BW. Belønning, motivasjon og forsterkning læring. Neuron. 2002, 36: 285-298. [PubMed]
  35. Delgado MR, Stenger VA, Fiez JA. Motivasjonsavhengige responser i den humane caudate-kjernen. Cereb Cortex. 2004, 14: 1022-1030. [PubMed]
  36. Delgado MR, Miller MM, Inati S, Phelps EA. En fMRI-studie av belønningsrelatert sannsynlighetslæring. Neuroimage. 2005, 24: 862-873. [PubMed]
  37. Di Ciano P, Kardinal RN, Cowell RA, Little SJ, Everitt BJ. Differensiell involvering av NMDA, AMPA / kainat og dopaminreseptorer i kjernen accumbens kjernen i oppkjøpet og ytelsen av pavlovian tilnærming adferd. J Neurosci. 2001, 21: 9471-9477. [PubMed]
  38. Dickinson A. Handlinger og vaner: Utviklingen av adferdsautonomi. Filosofiske transaksjoner av Royal Society. 1985, B308: 67-78.
  39. Dickinson A. Instrumental Conditioning. I: Mackintosh NJ, redaktør. Animal læring og kognisjon. Orlando: Akademisk; 1994. pp. 45-79.
  40. Dickinson A, kjære MF. Appetitive-aversive interaksjoner og hemmende prosesser. I: Dickinson A, Boakes RA, redaktører. Mekanisme for læring og motivasjon. Hillsadale, NJ: Lawrence Erlbaum Associates; 1979.
  41. Dickinson A, Charnock DJ. Beredskapseffekter med opprettholdt instrumentell forsterkning. Quarterly Journal of Experimental Psychology. Komparativ og fysiologisk psykologi. 1985; 37: 397-416.
  42. Dickinson A, Balleine B. Handlinger og svar: Den adferdens to psykologi. I: Eilan N, McCarthy RA, et al., Redaktører. Romlig representasjon: Problemer i filosofi og psykologi. Malden, MA, USA: Blackwell Publishers Inc .; 1993. pp. 277-293.
  43. Dickinson A, Balleine B. Læringsrollen i driften av motivasjonssystemer. I: Pashler H, Gallistel R, redaktører. Stevens håndbok for eksperimentell psykologi (3. utgave), Vol. 3: Læring, motivasjon og følelser. New York, NY, USA: John Wiley & Sons, Inc .; 2002. s. 497–533.
  44. Dickinson A, Smith J, Mirenowicz J. Dissociation of Pavlovian og instrumental incentive learning under dopamine antagonists. Behav Neurosci. 2000, 114: 468-483. [PubMed]
  45. Dickinson A, Campos J, Varga ZI, Balleine B. Toveis instrumental kondisjonering. Quarterly Journal of Experimental Psychology: Comparative & Physiological Psychology. 1996; 49: 289–306. [PubMed]
  46. Ellison GD, Konorski J. Separasjon av spytt og motorrespons i instrumentell kondisjonering. Vitenskap. 1964, 146: 1071-1072. [PubMed]
  47. Everitt BJ, Robbins TW. Nevrale systemer for forsterkning av narkotikamisbruk: fra handlinger til vaner til tvang. Nat Neurosci. 2005, 8: 1481-1489. [PubMed]
  48. Faure A, Haberland U, Conde F, El Massioui N. Lesion til nigrostriatal dopaminsystemet forstyrrer stimulus-respons vaneformasjon. J Neurosci. 2005, 25: 2771-2780. [PubMed]
  49. Fiorillo CD, Tobler PN, Schultz W. Diskret koding av belønningssannsynlighet og usikkerhet ved dopaminneuroner. Vitenskap. 2003, 299: 1898-1902. [PubMed]
  50. Fuster JM. Minne i hjernebarken. Cambridge: MIT press; 1995.
  51. Gallistel CR, Fairhurst S, Balsam P. Læringsgraden: Konsekvenser av en kvantitativ analyse. Proc Natl Acad Sci USA A. 2004; 101: 13124-13131. [PMC gratis artikkel] [PubMed]
  52. Gå til Y, Grace AA. Dopaminerg modulering av limbisk og kortikal kjøring av kjernen accumbens i målrettet oppførsel. Nat Neurosci. 2005, 8: 805-812. [PubMed]
  53. Grace AA, Floresco SB, Goto Y, Lodge DJ. Regulering av avfyring av dopaminerge neuroner og kontroll av målrettet adferd. Trender Neurosci. 2007, 30: 220-227. [PubMed]
  54. Groenewegen HJ, Berendse HW, Wolters JG, Lohman AH. Det anatomiske forholdet til prefrontal cortex med striatopallidal systemet, thalamus og amygdala: bevis for en parallell organisasjon. Prog Brain Res. 1990, 85: 95-116. diskusjon 116-118. [PubMed]
  55. Guthrie ER. Læringspsykologien. New York: Harpers; 1935.
  56. Haber SN. Primate basale ganglia: parallelle og integrerende nettverk. J Chem Neuroanat. 2003, 26: 317-330. [PubMed]
  57. Haber SN, Fudge JL, McFarland NR. Striatonigrostriatalveier i primater danner en stigende spiral fra skallet til dorsolaterale striatum. J Neurosci. 2000, 20: 2369-2382. [PubMed]
  58. Hammond LJ. Effekten av beredskap ved appetitiv konditionering av fri operativ oppførsel. Journal of Experimental Analysis of Behavior. 1980, 34: 297-304. [PMC gratis artikkel] [PubMed]
  59. Haruno M, Kawato M. Heterarkisk forsterknings-læring modell for integrering av flere cortico-striatal looper: fMRI undersøkelse i stimulus-action-belønning forening læring. Neural Netw. 2006a, 19: 1242-1254. [PubMed]
  60. Haruno M, Kawato M. Ulike nevrale korrelater av belønning forventning og belønning forventning feil i putamen og caudate kjernen under stimulus-action-belønning forening læring. J Neurofysiol. 2006b, 95: 948-959. [PubMed]
  61. Haruno M, Kuroda T, Doya K, Toyama K, Kimura M, Samejima K, Imamizu H, Kawato M. En nevral korrelat av belønningsbasert atferdslæring i caudatukjerne: En funksjonell magnetisk resonansbildningsstudie av en stokastisk beslutningsoppgave. J Neurosci. 2004, 24: 1660-1665. [PubMed]
  62. Hernandez PJ, Sadeghian K, Kelley AE. Tidlig konsolidering av instrumental læring krever proteinsyntese i kjernen accumbens. Nat Neurosci. 2002, 5: 1327-1331. [PubMed]
  63. Hernandez PJ, Andrzejewski ME, Sadeghian K, Panksepp JB, Kelley AE. AMPA / kainate-, NMDA- og dopamin D1-reseptorfunksjonen i kjernen accumbens-kjerne: en kontekstbegrenset rolle i kodingen og konsolideringen av instrumentalminne. Lær Mem. 2005, 12: 285-295. [PMC gratis artikkel] [PubMed]
  64. Hershberger WA. En tilnærming gjennom glasset. Animal Learning & Behavior. 1986; 14: 443–451.
  65. Heyes CM, Dawson GR. En demonstrasjon av observasjonslæring hos rotter ved bruk av toveis kontroll. Kvartalsjournalen for eksperimentell psykologi. 1990; 42 (1): 59-71. [PubMed]
  66. Hikosaka O, Sakamoto M, Usui S. Funksjonsegenskaper hos ape caudate nevroner. III. Aktiviteter relatert til forventning om mål og belønning. J Neurofysiol. 1989, 61: 814-832. [PubMed]
  67. Holland PC. Forholdet mellom Pavlovian-instrumentoverføring og forsterkning av devaluering. J Exp Psychol Anim Behav Process. 2004, 30: 104-117. [PubMed]
  68. Holland PC, Rescorla RA. Effekten av to måter å devaluere den ubetingede stimulansen etter første og andre ordens appetitiv kondisjonering. J Exp Psychol Anim Behav Process. 1975, 1: 355-363. [PubMed]
  69. Hollerman JR, Tremblay L, Schultz W. Innflytelse av belønning forventning på atferdsrelatert nevronaktivitet i primatstriatum. J Neurofysiol. 1998, 80: 947-963. [PubMed]
  70. Houk JC, Adams JL, Barto AG. En modell for hvordan de basale ganglia genererer og bruker nevrale signaler som forutsier forsterkning. I: Houk JC, JD, DB, redaktører. Modeller av informasjonsbehandling i basalganglia. Cambridge, MA: MIT Press; 1995. pp. 249-270.
  71. Hull C. Prinsipper for atferd. New York: Appleton-århundre-krok; 1943.
  72. Hyman SE, Malenka RC, Nestler EJ. Neural mekanismer av avhengighet: rollen som belønningsrelatert læring og minne. Annu Rev Neurosci. 2006, 29: 565-598. [PubMed]
  73. Jedynak JP, Uslaner JM, Esteban JA, Robinson TE. Metamfetamin-indusert strukturell plastisitet i dorsalstriatumet. Eur J Neurosci. 2007, 25: 847-853. [PubMed]
  74. Joel D, Weiner I. Organiseringen av de basale ganglia-thalamocortical kretsene: åpen sammenkoblet i stedet for lukket segregert. Neuroscience. 1994, 63: 363-379. [PubMed]
  75. Joel D, Weiner I. Tilkoblingene til det dopaminerge systemet med striatum hos rotter og primater: En analyse med hensyn til funksjonell og kompromitterende organisering av striatum. Neuroscience. 2000, 96: 451-474. [PubMed]
  76. Jueptner M, Frith CD, Brooks DJ, Frackowiak RS, Passingham RE. Anatomi av motorlæring. II. Subcortical strukturer og læring ved prøving og feiling. J Neurofysiol. 1997a, 77: 1325-1337. [PubMed]
  77. Jueptner M, Stephan KM, Frith CD, Brooks DJ, Frackowiak RS, Passingham RE. Anatomi av motorlæring. I. Frontal cortex og oppmerksomhet til handling. J Neurofysiol. 1997b, 77: 1313-1324. [PubMed]
  78. Kanazawa I, Murata M, Kimura M. Roller av dopamin og dets reseptorer i generering av koreiske bevegelser. Adv Neurol. 1993, 60: 107-112. [PubMed]
  79. Kawagoe R, Takikawa Y, Hikosaka O. Forventning av belønning modulerer kognitive signaler i basalganglia. Nat Neurosci. 1998, 1: 411-416. [PubMed]
  80. Kimura M, Aosaki T, Ishida A. Neurofysiologiske aspekter av differensialrollene til putamen og caudate-kjernen i frivillig bevegelse. Adv Neurol. 1993, 60: 62-70. [PubMed]
  81. Konorski J. Integrerende aktivitet i hjernen. Chicago: University of Chicago Press; 1967.
  82. Lerchner A, La Camera G, Richmond B. Å vite uten å gjøre. Nat Neurosci. 2007, 10: 15-17. [PubMed]
  83. Ljungberg T, Apicella P, Schultz W. Responses of monkey dopamin neurons under læring av atferdsreaksjoner. J Neurofysiol. 1992, 67: 145-163. [PubMed]
  84. Lohrenz T, McCabe K, Camerer CF, Montague PR. Neural signatur av fiktive læringssignaler i en sekventiell investeringsoppgave. Proc Natl Acad Sci USA A. 2007; 104: 9493-9498. [PMC gratis artikkel] [PubMed]
  85. Lovibond PF. Tilrettelegging av instrumental adferd av en Pavlovian appetitiv betinget stimulus. J Exp Psychol Anim Behav Process. 1983, 9: 225-247. [PubMed]
  86. Mackintosh NJ. Psykologien til dyreopplæring. London: Academic Press; 1974.
  87. Miller EK, Cohen JD. En integrert teori om prefrontal cortex funksjon. Annu Rev Neurosci. 2001, 24: 167-202. [PubMed]
  88. Miller R. Betydning og hensikt i den intakte hjernen. New York: Oxford University Press; 1981.
  89. Miyachi S, Hikosaka O, Lu X. Differensial aktivering av abe striatalneuroner i de tidlige og sentlige stadier av prosessor læring. Exp Brain Res. 2002, 146: 122-126. [PubMed]
  90. Miyachi S, Hikosaka O, Miyashita K, Karadi Z, Rand MK. Differensielle roller av apenstriatum ved læring av sekvensiell håndbevegelse. Exp Brain Res. 1997, 115: 1-5. [PubMed]
  91. Montague PR, Hyman SE, Cohen JD. Beregningsroller for dopamin i adferdskontroll. Natur. 2004, 431: 760-767. [PubMed]
  92. Morris G, Nevet A, Arkadir D, Vaadia E, Bergman H. Midbrain dopaminneuroner koder beslutninger for fremtidig handling. Nat Neurosci. 2006, 9: 1057-1063. [PubMed]
  93. Murschall A, Hauber W. Inaktivering av det ventrale tegmentale området avskaffet den generelle eksitatoriske innflytelsen av Pavlovian-tegn på instrumentell ytelse. Lær Mem. 2006, 13: 123-126. [PubMed]
  94. Nauta WJ, Smith GP, Faull RL, Domesick VB. Egnede forbindelser og nigrale afferenter av kjernen accumbens septi i rotte. Neuroscience. 1978, 3: 385-401. [PubMed]
  95. Nauta WJH. Gjensidige koblinger av corpus striatum med cerebral cortex og limbic system: Et vanlig substrat for bevegelse og tanke? I: Mueller, redaktør. Neurologi og psykiatri: et møte i sinn. Basel: Karger; 1989. pp. 43-63.
  96. Niv Y, Daw ND, Joel D, Dayan P. Tonic dopamin: mulighetskostnader og kontroll av responskraft. Psykofarmakologi (Berl) 2007; 191: 507-520. [PubMed]
  97. O'Doherty J, Dayan P, Schultz J, Deichmann R, Friston K, Dolan RJ. Dissociable roller av ventral og dorsal striatum i instrumental condition. Vitenskap. 2004, 304: 452-454. [PubMed]
  98. Ostlund SB, Balleine BW. Differensial involvering av den basolaterale amygdale og mediodorsal thalamus i instrumental action selection. J Neurosci. 2008, 28: 4398-4405. [PMC gratis artikkel] [PubMed]
  99. Parkinson JA, Willoughby PJ, Robbins TW, Everitt BJ. Frakobling av den fremre kingulære cortex og kjernen accumbens kjernen hemmer Pavlovian tilnærming oppførsel: ytterligere bevis for limbic cortical-ventral striatopallidal systemer. Behav Neurosci. 2000, 114: 42-63. [PubMed]
  100. Parkinson JA, Dalley JW, Cardinal RN, Bamford A, Fehnert B, Lachenal G, Rudarakanchana N, Halkerston KM, Robbins TW, Everitt BJ. Nukleotilførselen dopaminutarmning hemmer både oppkjøp og ytelse av appetitiv Pavlovian tilnærming adferd: implikasjoner for mesoaccumbens dopamin funksjon. Behav Brain Res. 2002, 137: 149-163. [PubMed]
  101. Paxinos G, Franklin K. Musens hjerne i stereotaksiske koordinater. New York: Academic Press; 2003.
  102. Pecina S, Smith KS, Berridge KC. Hedoniske hotspots i hjernen. Hjerneforsker. 2006, 12: 500-511. [PubMed]
  103. Pothuizen HH, Jongen-Relo AL, Feldon J, Yee BK. Dobbelt dissosiasjon av effektene av selektiv kjernen accumbens kjernen og skallleser på impulsiv valgadferd og læring i rotter. Eur J Neurosci. 2005, 22: 2605-2616. [PubMed]
  104. Rescorla RA. Sannsynlighet for sjokk i nærvær og fravær av CS i fryktkondisjonering. J Comp Physiol Psychol. 1968, 66: 1-5. [PubMed]
  105. Rescorla RA. Behavioral studier av Pavlovian condition. Annu Rev Neurosci. 1988, 11: 329-352. [PubMed]
  106. Rescorla RA, Solomon RL. To-prosess læringsteori: forhold mellom Pavlovian condition og instrumental læring. Psykol Rev. 1967; 74: 151-182. [PubMed]
  107. Restle F. Diskriminering av signaler i labyrinter: en løsning på "sted-mot-svar" -spørsmålet. Psykologisk gjennomgang. 1957; 64: 217. [PubMed]
  108. Reynolds JN, Wickens JR. Dopamin-avhengig plastisitet av kortikostriatalsynapser. Neural Netw. 2002, 15: 507-521. [PubMed]
  109. Ris ME, Cragg SJ. Nikotin forsterker belønningsrelaterte dopaminsignaler i striatum. Nat Neurosci. 2004, 7: 583-584. [PubMed]
  110. Ris ME, Cragg SJ. Dopaminutslipp etter quantalutslipp: Renkinking av dopaminoverføring i nigrostriatalveien. Brain Res Rev. 2008 [PMC gratis artikkel] [PubMed]
  111. Robinson S, regnvann AJ, Hnasko TS, Palmiter RD. Viral restaurering av dopamin signalering til dorsal striatum gjenoppretter instrumentell kondisjonering til dopamin-mangelfulle mus. Psykofarmakologi (Berl) 2007; 191: 567-578. [PubMed]
  112. Roitman MF, Wheeler RA, Carelli RM. Nukleinsystemer med nuklear er innatrettet for å belønne og aversive smakstimuli, kode deres prediktorer, og er knyttet til motorutgang. Neuron. 2005, 45: 587-597. [PubMed]
  113. Samejima K, Ueda Y, Doya K, Kimura M. Representasjon av handlingsspesifikke belønningsverdier i striatum. Vitenskap. 2005, 310: 1337-1340. [PubMed]
  114. Schultz W. Fasisk belønningssignal av primatdopaminneuroner. Adv Pharmacol. 1998a, 42: 686-690. [PubMed]
  115. Schultz W. Prediktivt belønningssignal for dopaminneuroner. J Neurofysiol. 1998b, 80: 1-27. [PubMed]
  116. Schultz W, Dayan P, Montague PR. Et neuralt substrat av prediksjon og belønning. Vitenskap. 1997, 275: 1593-1599. [PubMed]
  117. Schwartz B, Gamzu E. Pavlovian kontroll av operant oppførsel. I: Honig W, Staddon JER, redaktører. Håndbok for operant oppførsel. New Jersey: Prentice Hall; 1977. pp. 53-97.
  118. Sheffield FD. Forholdet mellom klassisk og instrumentell kondisjonering. I: Prokasy WF, redaktør. Klassisk kondisjonering. New York: Appleton-århundre-krok; 1965. pp. 302-322.
  119. Skinner B. Oppførsel av organismer. New York: Appleton-århundre-krok; 1938.
  120. Smith-Roe SL, Kelley AE. Tilfeldig aktivering av NMDA og dopamin D1-reseptorer i kjernen accumbens kjerne er nødvendig for appetitiv instrumental læring. J Neurosci. 2000, 20: 7737-7742. [PubMed]
  121. Sotak BN, Hnasko TS, Robinson S, Kremer EJ, Palmiter RD. Dysregulering av dopamin signalering i dorsalstriatum hemmer fôring. Brain Res. 2005, 1061: 88-96. [PubMed]
  122. Spence K. Rollen av sekundær forsterkning i forsinket belønning læring. Psykologisk gjennomgang. 1947, 54: 1-8.
  123. Spence K. Oppførselsteori og læring. Englewood Cliffs, NJ: Prentice-Hall; 1960.
  124. Sutton RS, Barto AG. Forsterkning Læring. Cambridge: MIT Press; 1998.
  125. Swanson LW. Cerebral halvkule regulering av motivert oppførsel. Brain Res. 2000, 886: 113-164. [PubMed]
  126. Taha SA, Fields HL. Koding av smak og appetitiv atferd av forskjellige neuronale populasjoner i kjernen accumbens. J Neurosci. 2005, 25: 1193-1202. [PubMed]
  127. Taha SA, Fields HL. Inhibisjoner av nukleon accumbens nevroner koder et gating signal for belønnings-rettet oppførsel. J Neurosci. 2006, 26: 217-222. [PubMed]
  128. Thorndike EL. Animal intelligence: eksperimentelle studier. New York: Macmillan; 1911.
  129. Tobler PN, Dickinson A, Schultz W. Koding av forventet belønningsutelatelse av dopaminneuroner i et betinget inhiberingsparadigm. J Neurosci. 2003, 23: 10402-10410. [PubMed]
  130. Tobler PN, O'Doherty JP, Dolan RJ, Schultz W. Menneskelig nevral læring avhenger av belønningsprognosefeil i det blokkerende paradigmet. J Neurophysiol. 2006; 95: 301–310. [PMC gratis artikkel] [PubMed]
  131. Tobler PN, O'Doherty JP, Dolan RJ, Schultz W. Belønningsverdikodning skilt fra risikostillingsrelatert usikkerhetskoding i menneskelige belønningssystemer. J Neurophysiol. 2007; 97: 1621–1632. [PMC gratis artikkel] [PubMed]
  132. Trapold MA, Overmier JB. Klassisk kondisjon II: Aktuell forskning og teori. Appleton-tallet-Crofts; 1972. Den andre læringsprosessen i instrumentell læring; pp. 427-452.
  133. Tricomi EM, Delgado MR, Fiez JA. Modulasjon av caudataktivitet ved hjelp av beredskapsforstyrrelser. Neuron. 2004, 41: 281-292. [PubMed]
  134. Waelti P, Dickinson A, Schultz W. Dopaminresponser overholder grunnleggende forutsetninger for formell læringsteori. Natur. 2001, 412: 43-48. [PubMed]
  135. Hvit NM. En funksjonell hypotese angående striatalmatrisen og patcher: mekling av SR-minne og belønning. Life Sci. 1989, 45: 1943-1957. [PubMed]
  136. Wickens JR, Budd CS, Hyland BI, Arbuthnott GW. Striatale bidrag til belønning og beslutningsprosesser: Å gi følelse av regionale variasjoner i en gjentatt behandlingsmatrise. Ann NY Acad Sci. 2007, 1104: 192-212. [PubMed]
  137. Williams DR. Klassisk kondisjonering og incitament motivasjon. I: Prokasy WF, redaktør. Klassisk kondisjonering. New York: Appleton-århundre-krok; 1965. pp. 340-357.
  138. Williams DR, Williams H. Automaintenance i duen: Vedvarende hakking til tross for kontingent ikke-forsterkning. Journal of Experimentell analyse av oppførsel. 1969, 12: 511-520. [PMC gratis artikkel] [PubMed]
  139. Wiltgen BJ, lov M, Ostlund S, Mayford M, Balleine BW. Påvirkningen av Pavlovian-tegn på instrumentell ytelse er formidlet av CaMKII-aktivitet i striatumet. Eur J Neurosci. 2007, 25: 2491-2497. [PubMed]
  140. Wyvell CL, Berridge KC. Intra-accumbens amfetamin øker den betingede incitamenten salience av sukrose belønning: forbedring av belønning "ønsker" uten forbedret "smak" eller respons forsterkning. J Neurosci. 2000, 20: 8122-8130. [PubMed]
  141. Yin HH. Psykologisk Institutt. Los Angeles: UCLA; 2004. Dorsalstriatumets rolle i målrettede handlinger.
  142. Yin HH, Knowlton BJ. Reinforcer devaluering avskaffer betinget cue preference: bevis for stimulus-stimulus foreninger. Behav Neurosci. 2002, 116: 174-177. [PubMed]
  143. Yin HH, Knowlton BJ. Bidrag fra striatal subregions til å plassere og svare læring. Lær Mem. 2004, 11: 459-463. [PMC gratis artikkel] [PubMed]
  144. Yin HH, Knowlton BJ. Avhengighet og læring. I: Stacy A, redaktør. Håndbok av implisitt kognisjon og avhengighet. Tusen Oaks: Sage; 2005.
  145. Yin HH, Knowlton BJ, Balleine BW. Lesjoner av dorsolateral striatum bevare utfallet forventning, men forstyrre vaneformasjon i instrumentell læring. Eur J Neurosci. 2004, 19: 181-189. [PubMed]
  146. Yin HH, Knowlton BJ, Balleine BW. Blokkering av NMDA-reseptorer i dorsomedial striatum forhindrer action-resultatlæring i instrumentell kondisjonering. Eur J Neurosci. 2005a, 22: 505-512. [PubMed]
  147. Yin HH, Knowlton BJ, Balleine BW. Inaktivering av dorsolateral striatum øker følsomheten for endringer i hendelsesresultatet i instrumentell kondisjonering. Behav Brain Res. 2006a, 166: 189-196. [PubMed]
  148. Yin HH, Zhuang X, Balleine BW. Instrumental læring i hyperdopaminerge mus. Neurobiol Lær Mem. 2006b, 85: 283-288. [PubMed]
  149. Yin HH, Ostlund SB, Knowlton BJ, Balleine BW. Rollen til dorsomedial striatum i instrumentell kondisjonering. Eur J Neurosci. 2005b, 22: 513-523. [PubMed]
  150. Zahm DS. Et integrert neuroanatomisk perspektiv på noen subkortiske substrater av adaptiv respons med vekt på kjernen accumbens. Neurosci Biobehav Rev. 2000; 24: 85-105. [PubMed]
  151. Zahm DS. Den utviklende teorien om basale forhjernen funksjonelle-anatomiske 'makrosystemer'. Neurosci Biobehav Rev. 2005 [PubMed]