Gevoeligheid van de kern accumbens voor schendingen in afwachting van beloning (2007)

Neuroimage. 2007 Jan 1; 34 (1): 455-61. Epub 2006 Oct 17.

Spicer J, Galvan A, Hare TA, Voss H, Glover G, Casey B.

bron

Het Sackler Institute for Developmental Psychobiology, Weill Cornell Medical College of Cornell University, 1300 York Avenue, Box 140, New York, NY 10021, VS.

Abstract

Deze studie onderzocht of ventrale frontostriatale gebieden op verschillende manieren verwachte en onverwachte beloningsresultaten coderen. We hebben de kans op beloning parametrisch gemanipuleerd en de neurale respons op beloning en niet-waardewaardig onderzocht voor elke waarschijnlijkheidsconditie in het ventrale striatum en de orbitofrontale cortex (OFC). Door late proeven van het experiment toonden subjecten langzamer gedragsreacties voor de aandoening met de laagste waarschijnlijkheid van beloning, ten opzichte van de aandoening met de hoogste waarschijnlijkheid van beloning. Op neuraal niveau vertoonden zowel de nucleus accumbens (NAcc) als de OFC een grotere activering om te belonen ten opzichte van niet-beloonde trials, maar de accumbens leken het meest gevoelig voor schendingen in verwachte beloningsresultaten. Deze gegevens suggereren verschillende rollen voor frontostriatale circuits bij het voorspellen van beloningen en bij het reageren op schendingen van verwachtingen.

 

Introductie

Het vormen van nauwkeurige voorspellingen en het detecteren van overtredingen in verwachtingen over aanstaande belonende gebeurtenissen is een essentieel onderdeel van doelgericht gedrag. Niet-menselijke primaten en menselijke beeldvormingsstudies suggereren dat dopamine-rijke frontostriatale regio's betrokken zijn bij het vormen van voorspellingen over toekomstige beloningsresultaten en het dienovereenkomstig optimaliseren van gedrag. De neurale mechanismen van beloningsgerelateerde voorspellingsfouten - een weergave van de discrepantie tussen de werkelijke en verwachte beloning (Schultz et al, 1997) - zijn bestudeerd bij niet-menselijke primaten in termen van verwachte en onverwachte beloningen en / of weglatingen van beloningen (Hollerman et al, 1998, Leon en Shadlen, 1999; Tremblay en Schultz, 1999). De huidige studie gebruikte een eenvoudige spatiale delay match-to-sample taak, vergelijkbaar met een taak die eerder werd gebruikt met niet-menselijke primaten (Fiorillo et al, 2003), die de kans op resultaat van de beloning manipuleerde, om neurale reacties op verwachte en onverwachte beloningen te onderzoeken.

Convergerend bewijsmateriaal impliceert dat het dopaminesysteem van cruciaal belang is voor voorspelling en beloningsverwerking (Olds en Milner, 1954; Montague et al, 2004, Schultz, 2002 ter beoordeling). Niet-menselijke experimenten met primaten hebben aangetoond dat dopamine-neuronen reageren op onverwachte primaire beloningen en uiteindelijk op de stimuli die die beloningen voorspellen (Mirencowicz & Schultz, 1994, Tobler et al, 2005). Dopamine-neuronen in het ventrale tegmentale gebied (VTA) van de aap zullen schieten als reactie op een primaire beloning die onvoorspelbaar is (of voorspeld met een lage waarschijnlijkheid) meer dan op een beloning die volledig is voorspeld (Fiorillo et al, 2003;Tobler et al, 2005). Omgekeerd wordt de activiteit van dezelfde neuronen onderdrukt wanneer een verwachte beloning niet wordt geleverd ten opzichte van een verwachte weglating van beloning (Fiorillo et al, 2003; Tobler et al, 2005). Zo coderen dopamine-neuronen voor voorspellingsfouten door de discrepantie tussen de werkelijke en de voorspelde uitkomst weer te geven (Schultz et al, 1997; Tobler et al, 2005), zodanig dat onverwachte weergave van beloningen resulteert in verhoogde activiteit en onverwachte weglatingen van beloningen resulteert in verminderde activiteit.

Veranderingen in het vuren van dopamine als reactie op veranderingen in het resultaat van de beloning worden parallel aan veranderingen in het gedrag. Niet-menselijke primaatstudies hebben gevonden dat een aap zijn anticiperende likken zal vergroten als een functie van de waarschijnlijkheid waarmee een geconditioneerde stimulus wordt geassocieerd met daaropvolgende ongeconditioneerde stimulus (sapafgifte). Als zodanig wekken stimuli die een hoge waarschijnlijkheid van latere sapafgifte vertegenwoordigen, meer anticiperende likken op (Fiorillo et al., 2003).

Er zijn wederkerige anatomische verbindingen tussen regio's geassocieerd met doelgericht gedrag (bijv. Prefrontale cortex) en die verbonden zijn met meer automatisch appetijtgedrag (bijv. Ventraal striatum) waar voorspellingen kunnen worden berekend (Shultz et al., 1997; Haber et al., 2003). Deze regio's zijn zwaar geïnnerveerd met dopamine door projecties van dopamineneuronen uit de middenhersenen en deze verbindingen kunnen een functioneel neuroanatomisch circuit vormen dat optimalisatie van gedrag ondersteunt bij het bevorderen van acties die resulteren in de grootste winst.

Onlangs hebben humane functionele magnetische resonantie beeldvorming (fMRI) studies twee gebieden van dit circuit, de nucleus accumbens en orbitofrontale cortex, geïmpliceerd in de representatie van voorspellingsfouten. Er is bijvoorbeeld aangetoond dat onvoorspelbare sequenties van sap- en waterafgifte verhoogde activiteit in de NAcc veroorzaken ten opzichte van voorspelbare afgifte (Berns et al, 2001). Voorspellingsfout op basis van temporele (McClure et al, 2003) en stimulus (O'Doherty et al, 2003 O'Doherty et al, 2004) overtredingen activeren ook het ventrale striatum.

De rol van de OFC in beloningsvoorspelling was minder duidelijk. Hoewel sommige studies de gevoeligheid van de OFC hebben gemeld in omstandigheden van voorspellingsfouten (Berns et al., 2001; O'Doherty et al., 2003; Ramnini et al., 2004; Dreher et al., 2005) anderen hebben niet (McClure et al., 2003; O'Doherty et al., 2004; Delgado et al., 2005). Studies met minder nadruk op voorspellingsfouten laten een grotere OFC-activering zien die gunstig is in vergelijking met ongunstige uitkomsten (O'Doherty et al, 2001; Elliott et al, 2003; Galvan et al, 2005) in studies van de beloningswaarde (Gottfried et al, 2003) en valentie (Cox et al, 2005; O'Doherty, 2000 O'Doherty, 2003 O'Doherty, 2004). Kort geleden, Kringelbach and Rolls (2004) integreerde de neuroimaging en neuropsychologische literatuur om verschillende functies van de orbitofrontale cortex te verklaren. Ze suggereren een mediaal-lateraal onderscheid en een onderscheid tussen voor en achter. De mediale en laterale orbitofrontale cortex bewaken respectievelijk de waarde van de beloning en de evaluatie van de bestraffers (bijv O'Doherty et al, 2001 ; Rolls et al, 2003). Er wordt gedacht dat de voorste orbitofrontale cortex meer betrokken is bij de representatie van abstracte versterkers (O'Doherty et al, 2001) over eenvoudigere gerelateerd aan smaak (bijv De Araujo et al, 2003) en pijn (bijv Craig et al, 2000).

Deze ventrale frontostriatale regio's hebben recentelijk (Knutson et al, 2005) in verband gebracht met de weergave van de verwachte waarde (het product van de verwachte waarschijnlijkheid en de uitkomstmaten) tijdens anticiperen op rendement. Gezien het elegante, maar complexe ontwerp met 18-aanwijzingen die tal van combinaties van grootte, waarschijnlijkheid en / of valentie vertegenwoordigden, beperkte een gebrek aan statistische kracht de auteurs van het onderzoeken van hersenactivering in verband met incentives. resultaten. In de huidige studie gebruikten we drie verschillende aanwijzingen, die elk werden geassocieerd met 33%, 66% of 100% -beloning voor de juiste proeven. De nadruk van deze studie lag op beloning resultaat in plaats van anticipatie te belonen, om gevoeligheid op neuraal niveau te onderzoeken voor schendingen van beloningsverwachtingen, in plaats van te anticiperen op een beloning voorafgaand aan de uitkomst. Deze analyse is van cruciaal belang voor het begrijpen van voorspelbaarheid van beloningen vanwege de veranderingen in het vuren van dopamine die optreden bij beloningsuitkomsten wanneer schendingen van voorspelde verwachtingen plaatsvinden (Fiorillo et al, 2003). De a priori voorspellingen over de accumbens en de OFC-respons op verwachte en onverwachte monetaire beloning waren gebaseerd op eerdere beeldvormende werkzaamheden die deze regio's impliceren in beloningsverwerking (Knutson et al, 2001; 2005; O'Doherty et al, 2001; Galvan et al, 2005). We gebruikten een eenvoudige ruimtelijke vertraagde overeenkomst om een ​​voorbeeldparadigma te nemen dat vergelijkbaar is met dat van Fiorillo et al (2003) in elektrofysiologische studies van dopamine-neuronen bij niet-menselijke primaten. We veronderstelden dat de activiteit in het ventrale striatum, in het bijzonder de NAcc, zou toenemen wanneer een onverwachte beloning werd afgeleverd en zou afnemen wanneer een verwachte beloning niet werd behaald. Gedacht werd dat gedrag parallel liep met deze veranderingen met snellere gemiddelde reactietijden naar aanwijzingen die beloning het vaakst voorspellen, maar langzamere reactietijden naar het signaal dat beloning het minst vaak voorspelt. Verder stelden we de hypothese op dat de OFC gevoelig zou zijn voor de beloning (beloning of niet), maar dat de accumbens het meest gevoelig zou zijn voor veranderingen in beloningsvoorspellingen. Deze hypothesen waren gebaseerd op rapporten van eerdere beeldvormende onderzoeken (Galvan et al 2005, in druk) en niet-humaan primaatwerk dat een grotere striatale betrokkenheid toont bij beloningskansparameters, ten opzichte van de beloningsgesloten activiteit van de OFC (Schultz, et al, 2000) en op de vaste in plaats van variërende hoeveelheid beloning over de waarschijnlijkheidsvoorwaarden.

Methoden

Deelnemers

Twaalf rechtshandige gezonde volwassenen (7-vrouw), leeftijden 19-27 (gemiddelde leeftijd 24-jaren), werden opgenomen in het fMRI-experiment. De proefpersonen hadden geen voorgeschiedenis van neurologische of psychiatrische aandoeningen en alle proefpersonen werden voorafgaand aan de deelname ingestemd met het door de Institutional Review Board goedgekeurde onderzoek.

Experimentele taak

Deelnemers werden getest met een gemodificeerde versie van een eerder beschreven uitgestelde antwoordtaak met twee keuzes (Galvan et al, 2005) in een aan een gebeurtenis gerelateerd fMRI-onderzoek (Figuur 1). In deze taak waren drie cues elk gekoppeld aan een verschillende waarschijnlijkheid (33%, 66% en 100%) voor het verkrijgen van een vast bedrag aan beloning. De proefpersonen werden geïnstrueerd om hun wijsvinger of middelvinger in te drukken om aan te geven aan welke kant een keu verscheen wanneer daarom werd gevraagd en om zo snel mogelijk te reageren zonder fouten te maken. Een van de drie cartoonbeelden van piraat werd gepresenteerd in willekeurige volgorde aan de linker- of rechterkant van een gecentreerde fixatie voor 1000 msec (zie Figuur 1). Na een vertraging van 2000 msec kregen de proefpersonen een antwoordprompt met twee schatkisten aan beide kanten van de fixatie (2000 msec) en kregen ze de instructie om met hun rechterwijsvinger op een knop te drukken als de piraat aan de linkerkant van de fixatie zat of hun rechter middelvinger als de piraat aan de rechterkant van de fixatie was. Na nog een 2000 msec-vertraging werd ofwel reward-feedback (cartoon-munten) ofwel een lege schatkist in het midden van het scherm (1000 msec) weergegeven op basis van de beloningskans van dat proeftype. Er was een 12 sec intertrial interval (ITI) vóór het begin van de volgende proef.

Figuur 1  

Taakontwerp

Er waren drie beloningswaarschijnlijkheidsvoorwaarden: een 33%, 66% en 100% -beloningskans. In de 33% -voorwaarde werden proefpersonen beloond op 33% van de proeven en er vond geen beloning (een lege schatkist) plaats op het andere 66% van de proeven in die toestand. In de 66% -voorwaarde werden proefpersonen beloond op 66% van de onderzoeken en er trad geen beloning op voor het andere 33% van de onderzoeken. In de 100% -voorwaarde werden proefpersonen beloond voor alle correcte onderzoeken.

Onderwerpen waren gegarandeerd $ 50 voor deelname aan de studie en kregen te horen dat ze tot $ 25 meer konden verdienen, afhankelijk van de prestaties (zoals geïndexeerd door reactietijd en nauwkeurigheid) van de taak. Stimuli werden gepresenteerd met het geïntegreerde functionele afbeeldingssysteem (IFIS) (PST, Pittsburgh) met behulp van een LCD-videodisplay in de boring van de MR-scanner en een vezeloptische responsverzamelaar.

Het experiment bestond uit vijf 18-testreeksen (6, elk van de 33%, 66% en 100% kans op beloningsproeftypen), die elk 6 min en 8 s duurden. Elke run had 6-trials van elke mogelijke beloning in willekeurige volgorde. Aan het einde van elke run werden proefpersonen geïnformeerd over hoeveel geld ze tijdens die run hadden verdiend. Voorafgaand aan het begin van het experiment ontvingen proefpersonen gedetailleerde instructies, waaronder vertrouwdheid met de gebruikte stimuli en een oefenrun om het begrip van de taak te garanderen. Hen werd verteld dat er een relatie bestond tussen de signalen en de monetaire uitkomsten, maar de precieze aard van die relatie werd niet onthuld.

Image Acquisition

Beeldvorming werd uitgevoerd met behulp van een 3T General Electric MRI-scanner met behulp van een kwadratuurkopspoel. Functionele scans werden verkregen met behulp van een spiraalvormige in en uit-reeks (Glover & Thomason, 2004). De parameters omvatten een TR = 2000, TE = 30, 64 x 64 matrix, 29 coronale plakjes van 5 mm, 3.125 x 3.125 mm in-plane resolutie, draai 90 °) voor 184 herhalingen, waaronder vier verworpen acquisities aan het begin van elke run. Anatomische T1-gewogen scans in het vlak werden verzameld (TR = 500, TE = min, 256 X 256, FOV = 200 mm, plakdikte van 5 mm) op dezelfde locaties als de functionele afbeeldingen, naast een 3D-dataset van SPGR-afbeeldingen met hoge resolutie (TR = 25, TE = 5, plakdikte van 1.5 mm, 124 plakjes).

Foto analyse

Het softwarepakket Brainvoyager QX (Brain Innovations, Maastricht, Nederland) werd gebruikt om een ​​willekeurige effectenanalyse van de beeldgegevens uit te voeren. Vóór de analyse werden de volgende voorbewerkingprocedures uitgevoerd op de onbewerkte beelden: 3D-bewegingscorrectie om kleine hoofdbewegingen te detecteren en te corrigeren door ruimtelijke volumes van het gehele volume naar het eerste volume te verplaatsen door rigide lichaamstransformatie, slice-scantijdcorrectie (met sinc-interpolatie), lineaire trendverwijdering, high-pass temporele filtering om niet-lineaire afwijkingen van 3 of minder cycli per tijdsverloop te verwijderen, en ruimtelijke gegevensafronding met behulp van een Gauss-kernel met een 4mm FWHM. Geschatte rotatie- en translatiebewegingen overschreden nooit 2mm voor onderwerpen die in deze analyse zijn opgenomen.

Functionele gegevens werden samen geregistreerd met het anatomische volume door overeenkomstige punten en handmatige aanpassingen uit te lijnen om een ​​optimale pasvorm te verkrijgen door visuele inspectie en werden vervolgens getransformeerd in Talairach-ruimte. Tijdens Talairach-transformatie werden functionele voxels geïnterpoleerd tot een resolutie van 1 mm3 voor uitlijndoeleinden, maar de statistische drempels waren gebaseerd op de oorspronkelijke acquisitie voxel-grootte. De nucleus accumbens en de orbitale frontale cortex werden gedefinieerd door een GLM met de gehele lengte van de hersenen met beloning als de primaire voorspeller (zie hieronder) en vervolgens gelokaliseerd door Talairach-coördinaten in combinatie met verwijzing naar de Duvernoy-breinatlas (Talairach en Tournoux, 1988; Duvernoy, 1991).

Statistische analyses van de beeldgegevens werden uitgevoerd op de hele hersenen met behulp van een algemeen lineair model (GLM) bestaande uit 60 (5 voert X 12-onderwerpen uit) z-genormaliseerde functionele runs. De primaire voorspeller was beloning (beloning versus niet-test-trials) voor alle beloningskansen bij beloningsresultaten. De voorspeller werd verkregen door convolutie van een ideale boxcar-respons (uitgaande van een waarde 1 voor het volume van taakpresentatie en een volume van 0 voor resterende tijdspunten) met een lineair model van de hemodynamische respons (Boynton et al, 1996) en gebruikt om de ontwerpmatrix van elk tijdsverloop in het experiment te bouwen. Alleen correcte proeven werden opgenomen en er werden afzonderlijke voorspellers gemaakt voor foutonderzoek. Post hoc contrastanalyses op de interessegebieden werden vervolgens uitgevoerd op basis van t-tests op de beta-gewichten van voorspellers. Monte Carlo-simulaties werden uitgevoerd met behulp van het AlphaSim-programma binnen AFNI (Cox, 1996) om passende drempels te bepalen om een ​​gecorrigeerd alfa-niveau van p <0.05 te bereiken op basis van zoekvolumes van respectievelijk ongeveer 25,400 mm3 en 450 mm3 voor de orbitale frontale cortex en nucleus accumbens. Percentage veranderingen in het MR-signaal ten opzichte van de basislijn (interval onmiddellijk voorafgaand aan de 20 seconden-proef) in de nucleus accumbens en orbitale frontale cortex werden berekend met behulp van gebeurtenisgerelateerde middeling over significant actieve voxels verkregen uit de contrastanalyses.

Het GLM voor de hele hersenen was gebaseerd op 50-beloningsonderzoeken per onderwerp (n = 12) voor een totaal van 600-trials en 30 niet-ingewikkelde proeven per onderwerp (n = 12) voor een totaal van niet-geretourneerde 360-trials voor het gehele experiment. Daaropvolgende contrasten van de beloningswaarschijnlijkheidsvoorwaarden bestonden uit verschillende aantallen belonings- en geen beloningsonderzoeken. Voor de 100% beloningskans voorwaarde waren 6 beloningsproeven per run (5) per onderwerp (12) voor een totaal van 360 beloningsonderzoeken en geen niet-ingewikkelde proeven. Voor de 66% -beloningskans voorwaarde waren 4 beloningsproeven per run (5) per onderwerp (12) voor een totaal van 240 beloningsproeven en 120 niet-ingewikkelde proeven. Voor de 33% -beloningskansconditie waren er 2-beloningspogingen per run (5) per onderwerp (12) voor een totaal van 120-beloningsproeven en 240 niet-ingewikkelde proeven.

Resultaten

Gedragsgegevens

De effecten van beloningskans en tijd op taak werden getest met een 3 (33%, 66%, 100%) x 5 (loopt 1-5) herhaalde metingen analyse van variantie (ANOVA) voor de afhankelijke variabelen van de gemiddelde reactietijd (RT ) en gemiddelde nauwkeurigheid.

Er waren geen hoofdeffecten of interacties van kans op beloning (F [2,22] =. 12, p <.85) tijd op taak (F [4,44] = 2.02, p <.14) of beloningskans X tijd op taak (F [8, 88] = 1.02, p <41) voor gemiddelde nauwkeurigheid. Dit was te verwachten aangezien de nauwkeurigheid van de deelnemers bijna het plafond bereikte voor alle waarschijnlijkheden van het experiment (33% conditie = 97.2%; 66% conditie = 97.5%; 100% conditie = 97.7%).

Er was een significante interactie tussen kans op beloning en tijd op taak (F [8,88] = 3.5, p <01) op gemiddelde RT, maar geen hoofdeffecten van tijd op taak (F [4,44] = .611 , p <0.59) of kans op beloning (F [2,22] = 2.84, p <0.08). Post-hoc t-tests van de significante interactie toonden aan dat er een significant verschil was tussen de 33% en 100% beloningskanscondities tijdens late proeven van het experiment (run 5) (t (11) = 3.712, p <.003), met snellere gemiddelde RT voor de 100% beloningskansconditie (gemiddelde = 498.30, sd = 206.23) ten opzichte van de 33% -conditie (gemiddelde = 583.74, sd = 270.23).

Het verschil in gemiddelde reactietijd tussen de 100% en 33% -omstandigheden nam tweevoudig toe van vroege tot late onderzoeken (zie Figuur 2a). Om het leren verder te tonen, hebben we een omkering geïntroduceerd, waarbij de kansen op beloning voor de 33% en 100% -voorwaarden aan het einde van het experiment zijn gewijzigd. Een 2 (waarschijnlijkheid) X XUMUMX (omkering en niet-omkering) ANOVA voor late proeven toonde een significante interactie (F (2) = 1,11, p = 18.97), met een afname van RT in de conditie waarin de kans op 0.001% was in de niet-omkering (gemiddelde = 33, sd = 583.74) en 270.24% in de omkering (gemiddelde = 100, sd = 519.89) (Figuur 2b).

Figuur 2  

Gedragsresultaten (RT)

Resultaten van beeldvorming

Een GLM voor correcte onderzoeken waarbij beloningskans werd gebruikt als de primaire voorspeller, werd gemodelleerd op het moment waarop de proefpersoon feedback van beloning kreeg of niet (dwz uitkomst). Deze analyse identificeerde de regio's van de NAcc (x = 9, y = 6, z = -1 en x = -9, y = 9, z = -1) en OFC (x = 28, y = 39, z = - 6) (zie Figuur 3a, b). Post-hoc t-tests tussen de bèta-gewichten van de beloonde versus niet-beloonde onderzoeken vertoonden een grotere activering in beide regio's om te belonen (NAcc: t (11) = 3.48, p <0.01; OFC x = 28, y = 39, z = −6, t (11) = 3.30, p <0.02)1.

Figuur 3  

Grotere activering naar beloonde of niet-beloonde resultaten in de a) nucleus accumbens (x = 9, y = 6, z = -1; x = -9, y = 9, z = -1) en b) orbitale frontale cortex (x = 28, y = 39, z = -6).

Er waren twee mogelijke uitkomsten (beloning of geen beloning) voor de twee intermitterende beloningsschema's (33% en 66% waarschijnlijkheid) en slechts één uitkomst voor het continue beloningsschema (100% beloningskans), dat werd gebruikt als vergelijkingsvoorwaarde. Terwijl er een hoofdeffect was van beloning (beloning versus geen beloning-proeven) in de OFC die hierboven is beschreven, varieerde OFC-activiteit niet als een functie van de beloningskans in de huidige studie [F (2,10) = 0.84, p = 0.46) . Daarentegen vertoonde de NAcc duidelijke veranderingen in activiteit naar uitkomst als een functie van de manipulatie van de beloningswaarschijnlijkheid [F (2,10) = 9.32, p <0.005]. Specifiek nam NAcc-activiteit toe om resultaten te belonen, wanneer de beloning onverwacht was (33% beloningskansconditie) ten opzichte van verwacht (100% basislijnconditie) [t (11) = 2.54, p <.03 zie Figuur 4a]. Ten tweede was er een verminderde NAcc-activiteit tot geen beloning, wanneer een beloning werd verwacht en niet werd ontvangen (66% beloningskansvoorwaarde) ten opzichte van beloning die niet werd verwacht of ontvangen (33% beloningskansvoorwaarde; t (59) = 2.08, 04, p <.XNUMX; zie Figuur 4b). Merk op dat er geen significante verschillen in activering waren tussen de 33% en 66% beloningswaarschijnlijkheidsvoorwaarden [t (11) =. 510, p = .62] of tussen de 66% en 100% beloonde waarschijnlijkheidsvoorwaarden [t (11) = 1.20, p = .26] in beloonde resultaten. MR-signaal als een functie van beloningsuitkomst en -kans wordt getoond in Figuur 4.

Figuur 4  

Percentage MR-signaal verandert als een functie van beloningsuitkomst en waarschijnlijkheid in de nucleus accumbens naar a) beloond en b) niet-beloonde resultaten.

Discussie

Deze studie onderzocht de effecten van schendingen in verwachte beloningsresultaten op gedrag en neurale activiteit in de accumbens en de orbitale frontale cortex (OFC), waarvan eerder werd aangetoond dat het betrokken was bij het anticiperen op de uitkomst van de beloning (McClure et al 2004; Knutson et al, 2005). We toonden aan dat zowel de nucleus accumbens als OFC werden gerekruteerd tijdens beloonde studies in vergelijking met niet-beloonde trials, maar alleen de nucleus accumbens vertoonde gevoeligheid voor schendingen in de voorspelde beloningsresultaten in deze studie. Een grotere gevoeligheid van de accumbens voor beloningswaarde (bijv. Magnitude) ten opzichte van de OFC is aangetoond in eerdere werken (Galvan et al 2005), en samen suggereren deze bevindingen dat deze regio mogelijk betrokken is bij de berekening van zowel de omvang als de kans op beloning. Het gebrek aan gevoeligheid in de OFC voor deze manipulaties kan een meer absolute weergave van beloning of ambiguïteit in de uitkomst weerspiegelen (Hsu et al., 2005). Als alternatief, aangezien het MR-signaal in dit gebied meer variabel was, kunnen deze effecten in het huidige onderzoek zijn verzwakt.

In elektrofysiologische studies bij dieren is aangetoond dat dopamine-neuronen in de middenhersenen (die naar de nucleus accumbens projecteren) weinig tot geen respons hebben op voorspelde beloningresultaten (waarschijnlijkheid = 1.0), maar fasisch schieten vertonen wanneer beloning wordt geleverd met minder dan 100 % kans, zelfs na uitgebreide training (Fiorillo et al, 2003). In de huidige studie toonden we grotere accumbens-activiteit om te belonen wanneer de beloning onverwacht was (33% voorwaarde) in vergelijking met de verwachte (100% -voorwaarde) in overeenstemming met deze bevindingen. Verder, elektrofysiologische studies van dopamine neuronen bij dieren (bijv. Fiorillo et al, 2003) hebben aangetoond dat voor proeven waarbij beloning werd voorspeld, maar niet plaatsvond, de neuronale activiteit afnam. De huidige studie toonde een vergelijkbaar patroon in de accumbens, met een afname van activiteit in deze regio in de niet-beloonde trials voor de 66% -beloningskansconditie ten opzichte van de 33% -voorwaarde.2

Dopamine-neuronen zijn betrokken bij het leren op twee manieren. Ten eerste coderen ze voorwaardelijke voorvallen tussen stimuli (of respons) en uitkomsten door middel van voorspellingsfouten die signalen detecteren in verwachtingen (Schultz et al, 1997; Mirencowicz en Schultz, 1998; Fiorillo et al, 2003). Dus lijkt de voorspellingsfout een lerend signaal te leveren dat overeenkomt met de leerprincipes die aanvankelijk beschreven zijn Rescorla en Wagner (1972). Ten tweede dienen ze om gedragsreacties te veranderen (Schultz et al, 1997; McClure et al, 2004) zodanig dat acties bevooroordeeld zijn in de richting van de signalen die het meest voorspellend zijn. In de huidige studie laten we zien dat bij late proeven van het experiment de meest optimale prestatie is voor de aandoening met de hoogste waarschijnlijkheid van beloning (100% -beloningskans) en minst optimaal voor de laagste waarschijnlijkheidstoestand (33% -beloningskans). Deze gedragsmatige bevinding komt overeen met eerder waarschijnlijkheidswerk dat de minst optimale prestaties laat zien met de laagste waarschijnlijkheid van resultaat van de beloning, wat suggereert dat onvoorziene gebeurtenissen met beloning werden geleerd (Delgado et al, 2005). Om het leren verder te tonen, hebben we een omkering geïntroduceerd, waarbij de kansen op beloning voor de 33% en 100% -voorwaarden aan het einde van het experiment zijn gewijzigd. Deze manipulatie resulteerde in verzwakking van verschillen tussen deze condities waardoor de leereffecten verder werden versterkt.

Een belangrijk doel van beloningsgerelateerde onderzoeken is om te bepalen hoe beloningen invloed hebben en gedrag beïnvloeden (bijv Robbins en Everitt, 1996; Schultz, 2004) naast het karakteriseren van de onderliggende neurale verwerking. Talrijke factoren dragen bij tot de vraag hoe snel en krachtig beloningen gedrag beïnvloeden, inclusief schema's van wapening (Skinner, 1958), beloningswaarde (Galvan et al, 2005), en voorspelbaarheid van beloningen (Fiorillo et al, 2003; Delgado et al, 2005). De verwachte waarde, die het product is van de omvang en de waarschijnlijkheid van een beloning (Pascal, ca 1600s), beïnvloedt gedragskeuzes (von Frisch, 1967; Montague et al, 1995; Montague en Berns, 2002). Met behulp van een zeer vergelijkbare taak waarin alleen de uitkomst (grootte in plaats van waarschijnlijkheid) verschilde van de huidige studie, toonden we aan dat de nucleus accumbens gevoelig was voor discrete beloningswaarden (Galvan et al, 2005). Tezamen met het hier en elders gepresenteerde bewijsmateriaal (Tobler et al, 2005), stellen we voor dat het ventrale striatum waarschijnlijk bijdraagt ​​aan de berekening van de verwachte beloningswaarde, gezien de gevoeligheid voor zowel de belkans als de magnitude.

De rol van de orbitale frontale cortex in beloningsvoorspelling is consistent met functionele onderverdelingen van deze regio Kringelbach and Rolls (2004). Ze suggereren dat meer anterieure en mediale delen van OFC gevoelig zijn voor abstracte beloningmanipulaties. De OFC-activering in dit onderzoek werd waargenomen op deze algemene locatie. Elektrofysiologische onderzoeken impliceren de OFC bij het coderen van de subjectieve waarde van een beloningsstimulus (ter beoordeling, O'Doherty, 2004). Bijvoorbeeld, OFC-neuronen schieten op een bepaalde smaak wanneer een dier honger heeft, maar verminderen hun vuurtempo zodra het dier verzadigd is en de beloningswaarde van het voedsel is afgenomen (Critchley and Rolls, 1996). Als zodanig hebben anderen gesuggereerd dat de OFC het meest gevoelig is voor relatieve beloningen (Tremblay en Schultz, 1999) en beloningsvoorkeur (Schultz et al, 2000). Neuroimaging-onderzoeken hebben een analoog patroon bij de mens aangetoond met een verscheidenheid aan stimuli, waaronder smaak (O'Doherty et al, 2001; Kringelbach et al, 2003), olfaction (Anderson et al, 2003; Rolls et al, 2003), en geld (Elliott et al, 2003; Galvan et al, 2005), waarbij elke activatie varieert in de locatie van de activiteit van het anterior naar het posterior en van mediale naar laterale OFC. De OFC is geïmpliceerd in afwachting van beloning (O'Doherty et al 2002), maar alleen voor zover de voorspellende waarde van het antwoord is gekoppeld aan het specifieke waarde van de bijbehorende beloning, in plaats van in de waarschijnlijkheid van die beloning (O'Doherty, 2004 ). In de huidige studie zagen we geen gevoeligheid voor schendingen in beloningsvoorspelling in de OFC. Knutson en collega's (2005) hebben correlaties gerapporteerd tussen waarschijnlijkheidsramingen en hersenactivering in afwachting van een beloning in de mesiale prefrontale cortex (Knutson et al 2005), maar niet specifiek in de orbitale frontale cortex. In tegenstelling tot, Ramnani et al (2004 ) rapporteerde een OFC-gevoeligheid voor een positieve voorspellingsfout in de mediale orbitale frontale cortex met behulp van een passieve kijktaak en Dreher et al. (2005) gerapporteerde OFC-foutvoorspelling in een taak die zowel de waarschijnlijkheid als de omvang van voorspellende aanwijzingen manipuleerde, maar deze onvoorziene omstandigheden werden voorafgaand aan het scannen geleerd. Het is daarom nog steeds houdbaar dat OFC voorspelde beloningen kan berekenen, maar misschien zijn deze berekeningen grover (dat wil zeggen gesommeerd over een reeks waarschijnlijkheden) of langzamer te vormen ten opzichte van de precieze berekeningen die lijken plaats te vinden in de NAcc. Als alternatief kan dit gebied gevoeliger zijn voor het detecteren van stimuli van onzekere en / of dubbelzinnige waarde, zoals voorgesteld door Hsu et al (2005), dan om overtredingen in beloningsvoorspelling te detecteren. Hsu et al (2005) laten zien dat het niveau van ambiguïteit in keuzes (onzekere keuzes vanwege ontbrekende informatie) positief correleert met activering in de OFC. Ten slotte kan de grotere variabiliteit in het MR-signaal in dit gebied ons vermogen om deze effecten te detecteren mogelijk hebben verminderd.

De fundamentele vraag van de huidige studie was hoe de accumbens en OFC op verschillende wijze voorspelde beloningsresultaten coderen ten opzichte van onvoorspelbare uitkomsten (dat wil zeggen schendingen in verwachtingen). We hebben de kans op beloning parametrisch gemanipuleerd en de neurale respons op belonings- en niet-ingewikkelde trials onderzocht voor elke kans op beloning. Onze gegevens komen overeen met eerdere humane imaging en niet-humane elektrofysiologische studies (Fiorillo et al, 2003; Schultz, 2002) en suggereren dat de accumbens en OFC gevoelig zijn voor beloningsresultaten (beloning of niet). De activiteit in deze regio's, met name de accumbens, lijkt echter te worden gemoduleerd door voorspellingen over de waarschijnlijkheid van beloningsresultaten die worden gevormd door het leren in de loop van de tijd. Dit dynamische activeringspatroon kan wijzigingen in de dopamine-activiteit binnen of naar deze regio's voorstellen, aangezien informatie over voorspelde beloning wordt geleerd en bijgewerkt.

voetnoten

1De NAcc [t (11) = 3.2, p <0.04] en OFC [t (11) = 3.5, p <0.02] vertoonden verhoogde activiteit in afwachting van beloning voor de intermitterende maar niet de continue beloningsconditie

2Weglating van het resultaat van de beloning in de 33% -voorwaarde resulteerde in een lichte toename van de NAcc-activiteit in plaats van een afgenomen, vergelijkbaar met die waargenomen door Knutson et al., 2001. Een mogelijke interpretatie van dit resultaat is dat proefpersonen intrinsiek gemotiveerd of beloond werden als ze voorspelden dat er geen beloning voor die rechtszaak zou komen, en geen van hen wel. Als alternatief, omdat de uitkomst van de beloning voor deze onderzoeken het minste was in het experiment, kan de activiteit een weerspiegeling zijn van voortdurend leren voor deze aandoening.

Disclaimer uitgever: Dit is een PDF-bestand van een onbewerkt manuscript dat is geaccepteerd voor publicatie. Als service aan onze klanten bieden wij deze vroege versie van het manuscript. Het manuscript zal een copy-editing ondergaan, een typografie en een review van het resulterende bewijs voordat het in zijn definitieve citeervorm wordt gepubliceerd. Houd er rekening mee dat tijdens het productieproces fouten kunnen worden ontdekt die van invloed kunnen zijn op de inhoud en alle wettelijke disclaimers die van toepassing zijn op het tijdschrift.

Referenties

  • Anderson A, Christoff K, Stappen I, Panitz D, Ghahremani D, Glover G, Gabrieli JD, Sobel N. Gedissocieerde neurale representaties van intensiteit en valentie bij menselijke reukzin. Nature Neuroscience. 2003;6: 196-202.
  • Berns GS, McClure SM, Pagnoni G, Montague PR. Voorspelbaarheid moduleert de respons van het menselijk brein op beloning. Journal of Neuroscience. 2001;21: 2793-2798. [PubMed]
  • Boynton GM, Engel SA, Glover GH, Heeger DJ. Lineaire systeemanalyse van functionele magnetische resonantie beeldvorming in humaan V1. Journal of Neuroscience. 1996;16: 4207-4221. [PubMed]
  • Cox RW. AFNI: Software voor analyse en visualisatie van neurochimagen voor functionele magnetische resonantie. Computaties in biomedisch onderzoek. 1996;29: 162-173.
  • Cox SM, Andrade A, Johnsrude IS. Leren lusten: een rol voor de menselijke orbitofrontale cortex bij geconditioneerde beloning. Journal of Neuroscience. 2005;25: 2733-2740. [PubMed]
  • Craig AD, Chen K, Bandy D, Reiman EM. Thermosensorische activering van de insulaire cortex. Nature Neuroscience. 2000;3: 184-190.
  • Critchley HD, Rolls ET. Honger en verzadiging modificeren de reacties van olfactorische en visuele neuronen in de primitieve orbitofrontale cortex. Journal of Neurophysiology. 1996;75: 1673-1686. [PubMed]
  • De Araujo IET, Kringelbach ML, Rolls ET, McGlone F. Menselijke corticale reacties op water in de mond en de effecten van dorst. Journal of Neurophysiology. 2003;90: 1865-1876. [PubMed]
  • Delgado MR, Miller M, Inati S, Phelps EA. Een fMRI-studie van beloningsgerelateerd leerproces. Neuroimage. 2005;24: 862-873. [PubMed]
  • Dreher JC, Kohn P, Berman KF. Neurale codering van verschillende statistische eigenschappen van beloningsinformatie bij mensen. Cerebrale cortex. 2005 E-publicatie voorafgaand aan druk.
  • Elliott R, Newman JL, Longe OA, Deakin JFW. Differentiële responspatronen in het striatum en orbitofrontale cortex tot financiële beloning bij de mens: een parametrische functionele magnetische resonantie beeldvormingsstudie. Journal of Neuroscience. 2003;23: 303-307. [PubMed]
  • Fiorillo CD, Tobler PN, Schultz W. Discrete codering van beloningskans en onzekerheid door dopamineneuronen. Science. 2003;299: 1898-1902. [PubMed]
  • Galvan A, Hare TA, Davidson M, Spicer J, Glover G, Casey BJ. De rol van ventrale frontostriatale circuits in op beloning gebaseerd leren bij mensen. The Journal of Neuroscience. 2005;25: 8650-8656. [PubMed]
  • Galvan A, Hare TA, Parra C, Penn J, Voss H, Glover G, Casey BJ. Vroegere ontwikkeling van de accumbens ten opzichte van de orbitofrontale cortex kan ten grondslag liggen aan het nemen van risico's bij adolescenten. The Journal of Neuroscience. 2006;26: 6885-6892. [PubMed]
  • Gottfried JA, O'Doherty J, Dolan RJ. Coderen van voorspellende beloningswaarde in menselijke amygdala en orbitofrontale cortex. Science. 2003;301: 1104-1107. [PubMed]
  • Haber SN. Basale ganglia van de primaten: parallelle en integratieve netwerken. Journal of Chemical Neuroanatomy. 2003;26: 317-330. [PubMed]
  • Hollerman J, Schultz W. Dopamine neuronen melden een fout in de temporele voorspelling van beloning tijdens het leren. Nature Neuroscience. 1998;1: 304-309.
  • Hsu M, Bhatt M, Adolphs R, Tranel D, Camerer CF. Neurale systemen reageren op een mate van onzekerheid in de menselijke besluitvorming. Science. 2005;310: 1680-1683. [PubMed]
  • Knutson B, Adams CM, Fong GW, Hommer D. Anticiperen op het verhogen van de geldbeloning trekt selectief nucleus accumbens aan. Journal of Neuroscience. 2001;21: 1-5.
  • Knutson B, Taylor J, Kaufman M, Peterson R, Glover G. Distribueerde neurale representatie van verwachte waarde. The Journal of Neuroscience. 2005;25: 4806-4812. [PubMed]
  • Kringelbach ML, O'Doherty J, Rolls ET, Andrews C. Activering van de menselijke orbitofrontale cortex tot een vloeibare voedselstimulus is gecorreleerd met zijn subjectieve aangenaamheid. Cerebrale cortex. 2003;13: 1064-1071. [PubMed]
  • Kringelbach ML, Rolls ET. De functionele neuroanatomie van de menselijke orbitofrontale cortex: evidentie van neuroimaging en neuropsychologie. Vooruitgang in de neurobiologie. 2004;72: 341-372. [PubMed]
  • Leon MI, Shadlen MN. Effect van verwachte beloningsgrootheid op de respons van neuronen in de dorsolaterale prefrontale cortex van de makaak. Neuron. 1999;24: 415-425. [PubMed]
  • McClure SM, Berns GS, Montague PR. Temporele voorspellingsfouten in een passieve leertaak activeren het menselijk striatum. Neuron. 2003;38: 339-346. [PubMed]
  • McClure SM, Laibson DI, Loewenstein G, Cohen JD. Afzonderlijke neurale systemen waarderen onmiddellijke en vertraagde geldelijke beloningen. Science. 2004;306: 503-507. [PubMed]
  • Mirenowicz J, Schultz W. Belang van onvoorspelbaarheid voor beloningsreacties in dopamine-neuronen van primaten. Journal of Neurophysiology. 1994;72: 1024-1027. [PubMed]
  • Montague PR, Berns GS. Neurale economie en de biologische substraten van waardering. Neuron. 2002;36: 265-284. [PubMed]
  • Montague PR, Hyman SE, Cohen JD. Computationele rollen voor dopamine in gedragscontrole. Natuur. 2004;431: 379-387.
  • O'Doherty JP. Beloningsrepresentaties en beloningsgerelateerd leren in het menselijk brein: inzichten uit neuroimaging. Huidige mening in de neurobiologie. 2004;14: 769-776. [PubMed]
  • O'Doherty JP, Dayan P, Friston K, Critchley H, Dolan RJ. Temporele verschillenmodellen en beloningsgerelateerd leren in het menselijk brein. Neuron. 2003;38: 329-337. [PubMed]
  • O'Doherty JP, Deichmann R, Critchley HD, Dolan RJ. Neurale reacties tijdens het anticiperen op een primaire smaakbeloning. Neuron. 2002;33: 815-826. [PubMed]
  • O'Doherty J, Kringelbach M, Rolls ET, Hornak J, Andrews C.Abstracte representaties van beloning en straf in de menselijke orbitofrontale cortex. Nature Neuroscience. 2001;4: 95-102.
  • O'Doherty J, Rolls ET, Francis S, Bowtell R, McGlone F, Kobal G, Renner B, Ahne G. Sensorisch-specifieke verzadigingsgerelateerde olfactorische activering van de menselijke orbitofrontale cortex. Neuroreport. 2000;11: 893-897. [PubMed]
  • Olds J, Milner P. Positieve versterking veroorzaakt door elektrische stimulering van het septumgebied en andere gebieden van het brein van de rat. Journal of Comparative Physiology and Psychology. 1954;47: 419-427.
  • Ramnani N, Elliott R, Athwal B, Passingham R. Voorspellingsfout voor gratis geldelijke beloning in de menselijke prefrontale cortex. NeuroImage. 2004;23: 777-786. [PubMed]
  • Rescorla R, Wagner A. In: Klassieke conditionering 2: huidig ​​onderzoek en theorie. Black A, Prokasy W, editors. Appleton Century-Crofts; New York: 1972. pp. 64-69.
  • Robbins TW, Everitt BJ. Neurobehaviorale mechanismen van beloning en motivatie. Huidige meningen in Neurobiology. 1996;6: 228-235.
  • Rolls E, Kringelbach M, DeAraujo I. Verschillende voorstellingen van aangename en onaangename geuren in het menselijk brein. European Journal of Neuroscience. 2003;18: 695-703. [PubMed]
  • Schultz W, Dayan P, Montague PR. Een neuraal substraat van voorspelling en beloning. Science. 1997;275: 1593-1599. [PubMed]
  • Schultz W, Tremblay L, Hollerman JR. Beloningsverwerking in primitieve orbitofrontale cortex en basale ganglia. Cereb Cortex. 2000;10: 272-284. [PubMed]
  • Schultz W. Formeel worden met dopamine en belonen. Neuron. 2002;36: 241-263. [PubMed]
  • Schultz W. Neurale codering van elementaire beloningstermen van dierleren-theorie, speltheorie, micro-economie en gedragsecologie. Huidige mening in de neurobiologie. 2004;14: 139-147. [PubMed]
  • Skinner BF. Diagrammen van wapening. Journal of Experimental Analysis of Behavior. 1958;1: 103-107.
  • Sutton RS, Barto AG. Reinforcement Learning: een inleiding. MIT Druk op; Cambridge, MA: 1998.
  • Schultz W, Tremblay L, Hollerman J. Beloningsverwerking in primitieve orbitofrontale cortex en basale ganglia. Cerebrale cortex. 2000;10: 272-284. [PubMed]
  • Talairach J, Tournoux P. Co-planaire stereotaxische atlas van het menselijk brein. Thieme; New York: 1988.
  • Tobler PN, Fiorillo CD, Schultz W. Adaptieve codering van beloningswaarde door dopamineneuronen. Science. 2005;307: 1642-1645. [PubMed]
  • Tremblay L, Schultz W. Relatieve beloningsvoorkeur in primitieve orbitofrontale cortex. Natuur. 1999;398: 704-708. [PubMed]
  • von Frisch K. De danstaal en oriëntatie van bijen. Harvard University Press; Cambridge, Massachusetts: 1967.