Wrażliwość jądra półleżącego od naruszeń w oczekiwaniu na nagrodę (2007)

Neuroimage. 2007 Jan 1; 34 (1): 455-61. Epub 2006 Oct 17.

Spicer J, Galvan A, Hare TA, Voss H, Glover G, Casey B.

Źródło

The Sackler Institute for Developmental Psychobiology, Weill Cornell Medical College z Cornell University, 1300 York Avenue, Box 140, Nowy Jork, NY 10021, USA.

Abstrakcyjny

W badaniu tym zbadano, czy regiony frontostriatalne brzuszne różnie kodują oczekiwane i nieoczekiwane wyniki nagrody. Zmodyfikowaliśmy parametrycznie prawdopodobieństwo nagrody i zbadaliśmy odpowiedź neuronalną na nagrodę i nieodwracalną dla każdego warunku prawdopodobieństwa w prążkowiu brzusznym i korze oczodołowo-czołowej (OFC). W późnych próbach eksperymentu, pacjenci wykazywali wolniejsze reakcje behawioralne dla stanu o najniższym prawdopodobieństwie nagrody, w stosunku do stanu z najwyższym prawdopodobieństwem nagrody. Na poziomie neuronowym zarówno jądro półleżące (NAcc), jak i OFC wykazywały większą aktywację nagradzaną w porównaniu z próbami niestrzeżonymi, ale półleżący wydawał się być najbardziej wrażliwy na naruszenia oczekiwanych wyników nagrody. Dane te sugerują wyraźne role obwodów czołowych w przewidywaniu nagrody i reagowaniu na naruszenia oczekiwań.

Wprowadzenie

Tworzenie dokładnych przewidywań i wykrywanie naruszeń oczekiwań dotyczących nadchodzących satysfakcjonujących wydarzeń jest podstawowym elementem zachowania ukierunkowanego na cel. Badania obrazowe u naczelnych innych niż ludzie i ludzi sugerują, że bogate w dopaminę regiony czołowo-prążkowe biorą udział w tworzeniu prognoz dotyczących przyszłych wyników nagrody i odpowiedniej optymalizacji zachowania. Neuronalne mechanizmy błędu przewidywania związanego z nagrodą - reprezentacja rozbieżności między rzeczywistą a oczekiwaną nagrodą (Schultz i in., 1997) - zostały przebadane na naczelnych innych niż ludzie pod względem oczekiwanych i nieoczekiwanych nagród i / lub pominięć nagrody (Hollerman i in., 1998, Leon i Shadlen, 1999; Tremblay i Schultz, 1999). W bieżącym badaniu wykorzystano proste zadanie dopasowania opóźnienia przestrzennego do próbki, podobne do tego stosowanego wcześniej u naczelnych innych niż ludzie (Fiorillo i in., 2003), który manipulował prawdopodobieństwem wyniku nagrody, aby zbadać reakcje neuronalne na oczekiwane i nieoczekiwane nagrody.

Zbieżne dowody wskazują, że układ dopaminowy ma kluczowe znaczenie dla przewidywania i przetwarzania nagrody (Olds i Milner, 1954; Montague i in., 2004, Schultz, 2002 do wglądu). Badania na zwierzętach naczelnych wykazały, że neurony dopaminowe reagują na nieoczekiwane nagrody pierwotne, a ostatecznie na bodźce, które przewidują te nagrody (Mirencowicz & Schultz, 1994, Tobler i in., 2005). Neurony dopaminowe w brzusznym obszarze nakrywkowym (VTA) małpy będą strzelać w odpowiedzi na pierwotną nagrodę, która jest nieprzewidziana (lub przewidywana z małym prawdopodobieństwem) bardziej niż nagroda, która jest w pełni przewidywana (Fiorillo i in., 2003;Tobler i in., 2005). I odwrotnie, aktywność tych samych neuronów jest tłumiona, gdy oczekiwana nagroda nie jest dostarczana w stosunku do oczekiwanego pominięcia nagrody (Fiorillo i in., 2003; Tobler i in., 2005). Zatem neurony dopaminowe kodują błąd predykcji, reprezentując rozbieżność między rzeczywistym a przewidywanym wynikiem (Schultz i in., 1997; Tobler i in., 2005), tak, że niespodziewana prezentacja nagrody skutkuje zwiększoną aktywnością, a nieoczekiwane pominięcia nagród powodują zmniejszenie aktywności.

Zmiany w wypalaniu dopaminy w odpowiedzi na zmiany w wyniku nagrody są połączone ze zmianami w zachowaniu. Badania na naczelnych, które nie są ludźmi, wykazały, że małpa zwiększy swoje lizanie antycypacyjne w funkcji prawdopodobieństwa, z jakim bodziec uwarunkowany jest powiązany z kolejnym bodźcem bezwarunkowym (dostarczanie soku). Jako takie, bodźce reprezentujące wysokie prawdopodobieństwo późniejszego dostarczania soku wywołują bardziej przewidujące lizanie (Fiorillo i in., 2003).

Wzajemne połączenia anatomiczne istnieją między regionami związanymi z zachowaniem ukierunkowanym na cel (np. Kora przedczołowa) i tymi związanymi z bardziej automatycznymi zachowaniami apetycznymi (np. Prążkowiem brzusznym), gdzie można obliczyć prognozy (Shultz i in., 1997; Haber i in., 2003). Regiony te są silnie unerwione dopaminą poprzez projekcje z neuronów dopaminowych śródmózgowia i te połączenia mogą tworzyć funkcjonalny obwód neuroanatomiczny, który wspiera optymalizację zachowania, sprzyjając działaniom, które skutkują największymi zyskami.

Niedawno badania nad ludzkim funkcjonalnym rezonansem magnetycznym (fMRI) wykazały, że dwa regiony tego obwodu, jądro półleżące i kora oczodołowo-czołowa, reprezentują błąd przewidywania. Na przykład wykazano, że nieprzewidywalne sekwencje dostarczania soku i wody wywołują zwiększoną aktywność NAcc w stosunku do przewidywalnej dostawy (Berns i in., 2001). Błąd prognozowania oparty na czasowym (McClure i in., 2003) i bodziec (O'Doherty i in., 2003 O'Doherty i in., 2004) naruszenia również aktywują prążkowia brzuszne.

Rola OFC w przewidywaniu nagród jest mniej jasna. Podczas gdy niektóre badania wykazały czułość OFC w warunkach błędu prognozowania (Berns i in., 2001; O'Doherty i wsp., 2003; Ramnini i in., 2004; Dreher i in., 2005) inni nie (McClure i in., 2003; O'Doherty i wsp., 2004; Delgado i in., 2005). Badania z mniejszym naciskiem na błąd przewidywania pokazują większą aktywację OFC na korzystną w stosunku do niekorzystnych wyników (O'Doherty i in., 2001; Elliott i in., 2003; Galvan i in., 2005) w badaniach wartości nagrody (Gottfried i in., 2003) i wartościowość (Cox i in., 2005; O'Doherty, 2000 O'Doherty, 2003 O'Doherty, 2004). Niedawno, Kringelbach i Rolls (2004) zintegrował neuroobrazowanie i literaturę neuropsychologiczną w celu uwzględnienia różnych funkcji kory oczodołowo-czołowej. Sugerują rozróżnienie przyśrodkowo-boczne i rozróżnienie przednio-tylne. Przyśrodkowa i boczna kora oczodołowo-czołowa monitoruje wartość nagrody i ocenę karaczy, odpowiednio (np O'Doherty i in., 2001 ; Rolls i in., 2003). Uważa się, że przednia kora oczodołowo-czołowa jest bardziej zaangażowana w reprezentację abstrakcyjnych wzmacniaczy (O'Doherty i in., 2001) nad prostszymi związanymi ze smakiem (np De Araujo i in., 2003) i ból (np Craig i in., 2000).

Te brzuszne regiony frontostriatalne mają ostatnio (Knutson i in., 2005) było związane z reprezentacją oczekiwanej wartości (iloczynem oczekiwanego prawdopodobieństwa i wielkości wyniku) podczas oczekiwanie na wynik nagrody. Biorąc pod uwagę elegancki, ale złożony projekt, który zawiera wskazówki 18 reprezentujące liczne kombinacje wielkości, prawdopodobieństwa i / lub wartościowości, brak mocy statystycznej uniemożliwia autorom badanie aktywacji mózgu związanej z zachętą wyniki. W niniejszym badaniu użyliśmy trzech różnych wskazówek, z których każda była związana z nagrodą 33%, 66% lub 100% za prawidłowe próby. Nacisk na to badanie został położony wynik nagrody zamiast nagradzać antycypację, aby zbadać wrażliwość na poziomie neuronowym na naruszenia oczekiwań związanych z nagrodami, a nie na przewidywanie nagrody przed jej osiągnięciem. Analiza ta ma kluczowe znaczenie dla zrozumienia przewidywalności nagród ze względu na zmiany w strzelaniu dopaminą, które występują w wyniku nagrody, gdy dochodzi do naruszenia przewidywanych oczekiwań (Fiorillo i in., 2003) apriorycznie przewidywania dotyczące odkładania się i odpowiedzi OFC na oczekiwaną i nieoczekiwaną nagrodę pieniężną opierały się na wcześniejszych pracach obrazowych implikujących te regiony w przetwarzaniu nagrody (Knutson i in., 2001; 2005; O'Doherty i in., 2001; Galvan i in., 2005). Użyliśmy prostego przestrzennego opóźnionego dopasowania do paradygmatu próbki podobnego do używanego przez Fiorillo i in. (2003) w badaniach elektrofizjologicznych neuronów dopaminowych u naczelnych innych niż ludzie. Postawiliśmy hipotezę, że aktywność w prążkowiu brzusznym, w szczególności NAcc, wzrośnie, gdy zostanie wydana nieoczekiwana nagroda i zmniejszy się, gdy oczekiwana nagroda nie zostanie dostarczona. Oczekiwano, że zachowanie będzie równoległe do tych zmian z szybszymi średnimi czasami reakcji na sygnały przewidujące nagrodę najczęściej, ale wolniejsze czasy reakcji na cue przewidujące nagrodę najrzadziej. Co więcej, postawiliśmy hipotezę, że OFC byłby wrażliwy na wynik nagrody (nagrodę lub nie), ale że accumbens byłby najbardziej wrażliwy na zmiany w prognozach wynagrodzeń. Hipotezy te opierały się na raportach z poprzednich badań obrazowych (Galvan i in. 2005, w prasie) i praca naczelnych nieludzkich wykazująca większe zaangażowanie prążkowia w parametrach prawdopodobieństwa nagrody, w stosunku do zablokowanej nagrodą działalności OFC (Schultz i in., 2000) i na stałej, a nie zmiennej wysokości nagrody w warunkach prawdopodobieństwa.

Metody

Uczestnicy

Dwunastu praworęcznych zdrowych dorosłych (kobieta 7), w wieku 19 – 27 (średni wiek 24 lat), włączono do eksperymentu fMRI. Pacjenci nie chorowali na chorobę neurologiczną lub psychiatryczną, a wszyscy uczestnicy zostali zatwierdzeni do zatwierdzonego badania Institutional Review Board przed uczestnictwem.

Zadanie eksperymentalne

Uczestnicy zostali przetestowani przy użyciu zmodyfikowanej wersji zadania z podwójnym wyborem o opóźnionym działaniu opisanego wcześniej (Galvan i in., 2005) w badaniu fMRI związanym ze zdarzeniem (Rysunek 1). W tym zadaniu trzy cue były powiązane z różnym prawdopodobieństwem (33%, 66% i 100%) uzyskania stałej kwoty nagrody. Pacjenci zostali poinstruowani, aby nacisnęli palec wskazujący lub środkowy, aby wskazać stronę, na której pojawiła się wskazówka, i odpowiedzieć tak szybko, jak to możliwe, bez popełniania błędów. Jeden z trzech pirackich obrazów z kreskówek został przedstawiony w losowej kolejności po lewej lub prawej stronie centrowanego mocowania dla 1000 msec (patrz Rysunek 1). Po 2000 msec opóźnieniu, uczestnicy zostali poproszeni o odpowiedź dwóch skrzyń skarbów po obu stronach fiksacji (2000 msec) i poinstruowano ich, aby nacisnęli przycisk prawym palcem wskazującym, jeśli pirat był po lewej stronie fiksacji lub ich prawy środkowy palec, jeśli pirat był po prawej stronie fiksacji. Po kolejnym opóźnieniu 2000 msec, na środku ekranu (1000 msec) została przedstawiona nagroda zwrotna (monety z kreskówek) lub pusta skrzynia skarbów w oparciu o prawdopodobieństwo nagrody dla tego typu próby. Przed rozpoczęciem następnej próby był interwał międzyprocesowy (ITI) 12.

Projekt zadania

Były trzy warunki prawdopodobieństwa nagrody: prawdopodobieństwo nagrody 33%, 66% i 100%. W warunku 33% uczestnicy zostali nagrodzeni w 33% prób, a żadna nagroda (pusta skrzynia skarbów) nie wystąpiła w innych 66% prób w tym stanie. W warunku 66%, pacjenci byli nagradzani w 66% prób i nie było żadnej nagrody dla innych 33% prób. W warunku 100% uczestnicy zostali nagrodzeni za wszystkie prawidłowe próby.

Pacjenci mieli zagwarantowane $ 50 za udział w badaniu i powiedziano im, że mogą zarobić do $ 25 więcej, w zależności od wydajności (indeksowanej przez czas reakcji i dokładność) w zadaniu. Bodźce prezentowano za pomocą zintegrowanego systemu obrazowania funkcjonalnego (IFIS) (PST, Pittsburgh) z wykorzystaniem wyświetlacza LCD w otworze skanera MR i urządzenia do zbierania odpowiedzi światłowodowych.

Eksperyment składał się z pięciu serii prób 18 (6 każdy z prawdopodobieństwa 33%, 66% i 100% typów prób nagrody), które trwały 6 min i 8 s każdy. Każdy przebieg miał próby 6 dla każdego prawdopodobieństwa nagrody przedstawione w losowej kolejności. Pod koniec każdego biegu uczestnicy byli informowani o tym, ile pieniędzy zarobili podczas tego biegu. Przed rozpoczęciem eksperymentu badani otrzymywali szczegółowe instrukcje, które obejmowały zapoznanie się z zastosowanymi bodźcami i wykonanie ćwiczenia praktycznego w celu zapewnienia zrozumienia zadania. Powiedziano im, że istnieje związek między sygnałami a wynikami pieniężnymi, ale dokładny charakter tego związku nie został ujawniony.

Akwizycja obrazu

Obrazowanie wykonano za pomocą skanera 3T General Electric MRI przy użyciu kwadraturowej cewki głowicy. Skany czynnościowe uzyskano za pomocą spiralnej sekwencji wejścia i wyjścia (Glover i Thomason, 2004). Parametry obejmowały macierz TR = 2000, TE = 30, 64 X 64, 29 wycinków czołowych 5 mm, rozdzielczość w płaszczyźnie 3.125 x 3.125 mm, obrót o 90 °) dla 184 powtórzeń, w tym cztery odrzucone akwizycje na początku każdy bieg. Zebrano anatomiczne skany w płaszczyźnie T1 ważone (TR = 500, TE = min, 256 x 256, FOV = 200 mm, grubość warstwy 5 mm) w tych samych lokalizacjach, co obrazy czynnościowe, oprócz zestawu danych 3-D obrazów SPGR o wysokiej rozdzielczości (TR = 25, TE = 5, grubość wycinka 1.5 mm, 124 wycinki).

Analiza obrazu

Pakiet oprogramowania Brainvoyager QX (Brain Innovations, Maastricht, Holandia) został wykorzystany do przeprowadzenia analizy losowych danych obrazowych. Przed analizą wykonano następujące procedury przetwarzania wstępnego na surowych obrazach: korekcja ruchu 3D w celu wykrycia i skorygowania małych ruchów głowy poprzez wyrównanie przestrzenne wszystkich objętości do pierwszej objętości poprzez transformację ciała sztywnego, korekta czasu skanowania wycinka (przy użyciu interpolacji sinc), liniowe usuwanie trendów, górnoprzepustowe filtrowanie czasowe w celu usunięcia nieliniowych dryfów 3 lub mniej cykli w czasie przebiegu, a wygładzanie danych przestrzennych przy użyciu jądra Gaussa z 4mm FWHM. Szacowane obroty i ruchy translacyjne nigdy nie przekroczyły 2mm dla przedmiotów uwzględnionych w tej analizie.

Dane funkcjonalne były rejestrowane wspólnie z objętością anatomiczną poprzez wyrównanie odpowiednich punktów i ręczne regulacje w celu uzyskania optymalnego dopasowania przez kontrolę wzrokową, a następnie przekształcono w przestrzeń Talairach. Podczas transformacji Talairacha woksele funkcjonalne interpolowano do rozdzielczości 1 mm³ dla celów wyrównania, ale progi statystyczne były oparte na pierwotnym rozmiarze woksela. Jądro półleżące i orbitalna kora czołowa zostały zdefiniowane przez voxelwise całego mózgu GLM z nagrodą jako pierwotnym predyktorem (patrz poniżej), a następnie zlokalizowane przez współrzędne Talairacha w połączeniu z odniesieniem do atlasu mózgu Duvernoya (Talairach i Tournoux, 1988; Duvernoy, 1991).

Analizy statystyczne danych obrazowania przeprowadzono na całym mózgu przy użyciu ogólnego modelu liniowego (GLM) składającego się z 60 (5 prowadzi X 12 pacjentów) znormalizowanych przebiegów funkcjonalnych. Podstawowym predyktorem była nagroda (nagrody w porównaniu z próbami nieuczestniczącymi) dla wszystkich prawdopodobieństw nagrody w wyniku nagrody. Predyktor uzyskano przez splot idealnej odpowiedzi boxcar (przyjmując wartość 1 dla objętości prezentacji zadania i objętość 0 dla pozostałych punktów czasowych) z liniowym modelem odpowiedzi hemodynamicznej (Boynton i in., 1996) i wykorzystane do zbudowania matrycy projektowej dla każdego przebiegu w eksperymencie. Uwzględniono tylko poprawne próby i stworzono osobne predyktory do prób błędów. Następnie przeprowadzono analizę kontrastu post hoc w regionach będących przedmiotem zainteresowania w oparciu o testy t dla wag beta czynników predykcyjnych. Symulacje Monte Carlo zostały przeprowadzone przy użyciu programu AlphaSim w ramach AFNI (Cox, 1996) w celu określenia odpowiednich progów, aby osiągnąć skorygowany poziom alfa p <0.05 na podstawie przeszukiwań około 25,400 3 mm450 i 3 mm20 odpowiednio dla kory czołowej oczodołu i jądra półleżącego. Procentowe zmiany sygnału MR w stosunku do linii podstawowej (odstęp bezpośrednio poprzedzający XNUMX-sekundową próbę) w jądrze półleżącym i korze czołowej oczodołu obliczono przy użyciu uśrednienia związanego ze zdarzeniem dla istotnie aktywnych wokseli uzyskanych z analiz kontrastowych.

GLM całego mózgu oparto na próbach nagrody 50 na osobnika (n = 12) w celu przeprowadzenia łącznie badań 600 i badań nierewardowych 30 na osobnika (n = 12) w celu przeprowadzenia wszystkich badań nierewardowych 360 w całym eksperymencie. Kolejne kontrasty dotyczące warunków prawdopodobieństwa nagrody składały się z różnych liczb prób nagród i prób bez nagrody. Dla warunku prawdopodobieństwa nagrody 100% istniały testy nagrody 6 na bieg (5) na temat (12) dla całkowitej liczby prób nagrody 360 i żadnych prób nieodwoławczych. Dla warunku prawdopodobieństwa nagrody 66% istniały testy nagrody 4 na bieg (5) na temat (12) dla całkowitej liczby prób nagrody 240 i prób nierewardowych 120. Dla warunku prawdopodobieństwa nagrody 33% występowały próby nagrody 2 na jeden bieg (5) na podmiot (12) dla całkowitej liczby prób nagrody 120 i prób nierewardowych 240.

Efekt

Dane behawioralne

Efekty prawdopodobieństwa nagrody i czasu na zadanie przetestowano za pomocą 3 (33%, 66%, 100%) x 5 (uruchamia 1 – 5) analiza wariancji powtarzanych pomiarów (ANOVA) dla zmiennych zależnych średniego czasu reakcji (RT ) i średnia dokładność.

Nie było efektów głównych ani interakcji prawdopodobieństwa nagrody (F [2,22] = 12, p <85) czasu wykonywania zadania (F [4,44] = 2.02, p <14) lub prawdopodobieństwa nagrody X czas na zadaniu (F [8, 88] = 1.02, p <41) dla średniej dokładności. Należało się tego spodziewać, ponieważ dokładność uczestników osiągnęła poziomy zbliżone do pułapu dla wszystkich prawdopodobieństw eksperymentu (stan 33% = 97.2%; stan 66% = 97.5%; stan 100% = 97.7%).

Wystąpiła istotna interakcja między prawdopodobieństwem nagrody a czasem wykonywania zadania (F [8,88] = 3.5, p <01) przy średniej RT, ale nie było głównego wpływu czasu na zadanie (F [4,44] = 611 , p <0.59) lub prawdopodobieństwo nagrody (F [2,22] = 2.84, p <0.08). Testy post-hoc t istotnej interakcji wykazały istotną różnicę między 33% a 100% warunkami prawdopodobieństwa nagrody podczas późnych prób eksperymentu (przebieg 5) (t (11) = 3.712, p <003), z szybszym średnim RT dla warunku 100% prawdopodobieństwa nagrody (średnia = 498.30, sd = 206.23) w stosunku do warunku 33% (średnia = 583.74, sd = 270.23).

Różnica w średnim czasie reakcji między warunkami 100% i 33% wzrosła dwukrotnie od wczesnych do późnych prób (patrz Rysunek 2a). Aby dalej pokazywać naukę, wprowadziliśmy odwrócenie, przełączając prawdopodobieństwa nagrody dla warunków 33% i 100% pod koniec eksperymentu. ANOVA 2 (prawdopodobieństwo) X 2 (odwrócenie i nieodwrócenie) dla późnych prób wykazała znaczącą interakcję (F (1,11) = 18.97, p = 0.001), ze spadkiem RT do stanu, w którym 33% prawdopodobieństwo w nieodwracalne (średnia = 583.74, sd = 270.24) i 100% w odwróceniu (średnia = 519.89, sd = 180.46) (Rysunek 2b).

Wyniki behawioralne (RT)

Wyniki obrazowania

Model GLM do prawidłowych prób z wykorzystaniem prawdopodobieństwa nagrody jako podstawowego predyktora modelowano w punkcie, w którym podmiot otrzymał informację zwrotną o nagrodach lub nie (tj. Wyniku). Analiza ta zidentyfikowała regiony NAcc (x = 9, y = 6, z = -1 i x = -9, y = 9, z = -1) i OFC (x = 28, y = 39, z = - 6) (patrz Rysunek 3a, b). Testy t post-hoc między wagami beta prób z nagrodą i bez nagrody wykazały większą aktywację w obu tych regionach w celu nagrodzenia (NAcc: t (11) = 3.48, p <0.01; OFC x = 28, y = 39, z = −6, t (11) = 3.30, p <0.02)¹.

Większa aktywacja do nagradzanych w porównaniu do wyników nieodrzuconych w a) jądrze półleżącym (x = 9, y = 6, z = -1; x = -9, y = 9, z = -1) ib) orbitalnej kory czołowej (x = 28, y = 39, z = −6).

Były dwa możliwe wyniki (nagroda lub brak nagrody) dla dwóch przerywanych harmonogramów nagród (prawdopodobieństwo 33% i 66%) i tylko jeden wynik dla ciągłego harmonogramu nagród (100% prawdopodobieństwo nagrody), który został użyty jako warunek porównawczy. Podczas gdy w opisanym powyżej OFC wystąpił główny efekt nagrody (nagroda versus brak nagrody), aktywność OFC nie zmieniała się jako funkcja prawdopodobieństwa nagrody w obecnym badaniu [F (2,10) = 0.84, p = 0.46) . W przeciwieństwie do NAcc wykazał wyraźne zmiany w aktywności do wyniku jako funkcję manipulacji prawdopodobieństwem nagrody [F (2,10) = 9.32, p <0.005]. Konkretnie, aktywność NAcc wzrosła do wyników nagrody, gdy nagroda była nieoczekiwana (warunek prawdopodobieństwa nagrody 33%) w stosunku do oczekiwanego (warunek wyjściowy 100%) [t (11) = 2.54, p <03 patrz Rysunek 4a]. Po drugie, aktywność NAcc była zmniejszona do braku nagrody, gdy oczekiwano nagrody, a nie otrzymano (66% warunek prawdopodobieństwa nagrody) w stosunku do nagrody, której nie oczekiwano lub nie otrzymano (33% warunek prawdopodobieństwa nagrody; t (59) = 2.08, p <04; patrz Rysunek 4b). Zauważ, że nie było znaczących różnic w aktywacji między warunkami prawdopodobieństwa nagrody 33% i 66% [t (11) =. 510, p = .62] lub między 66% a 100% warunkami prawdopodobieństwa nagrodzonego [t (11) = 1.20, p = .26] w nagrodzonych wynikach. Sygnał MR jako funkcja wyniku nagrody i prawdopodobieństwa pokazano w Rysunek 4.

Procentowy sygnał MR zmienia się w funkcji wyniku nagrody i prawdopodobieństwa w jądrze półleżącym do a) nagrodzonego i b) wyników nieodrzuconych.

Dyskusja

W badaniu tym zbadano wpływ naruszeń oczekiwanych wyników nagród na zachowanie i aktywność neuronalną kory półksiężycowej i oczodołowej kory czołowej (OFC), pokazane wcześniej jako związane z przewidywaniem wyników nagrody (McClure i in. 2004; Knutson i in., 2005). Pokazaliśmy, że zarówno jądro półleżące, jak i OFC zostały zrekrutowane podczas nagradzanych prób w odniesieniu do prób niepodatnych, ale tylko jądro półleżące wykazało wrażliwość na naruszenia przewidywanego wyniku nagrody w tym badaniu. Większa wrażliwość półleżących na nagradzanie wartości (np. Wielkości) w stosunku do OFC została pokazana w poprzedniej pracy (Galvan i in. 2005) i razem te ustalenia sugerują, że ten region może być zaangażowany w obliczanie zarówno wielkości, jak i prawdopodobieństwa nagrody. Brak wrażliwości OFC na te manipulacje może odzwierciedlać bardziej bezwzględną reprezentację nagrody lub niejasności w wyniku (Hsu i in., 2005). Alternatywnie, ponieważ sygnał MR był bardziej zmienny w tym regionie, efekty te mogły zostać osłabione w obecnym badaniu.

W badaniach elektrofizjologicznych na zwierzętach wykazano, że neurony dopaminowe w śródmózgowiu (które przemieszczają się do jądra półleżącego) mają niewielką lub żadną odpowiedź na przewidywane wyniki nagrody (prawdopodobieństwo = 1.0), ale wykazują fazowe odpalanie, gdy nagroda jest dostarczana z mniej niż 100 % prawdopodobieństwa, nawet po intensywnym szkoleniu (Fiorillo i in., 2003). W obecnym badaniu wykazaliśmy większą aktywność półleżącą nagradzania, gdy nagroda była nieoczekiwana (warunek 33%) w stosunku do tego, kiedy oczekiwano (warunek 100%) zgodny z tymi wynikami. Dalsze badania elektrofizjologiczne neuronów dopaminowych u zwierząt (np. Fiorillo i in., 2003) wykazały, że dla prób, na których przewidywano nagrodę, ale nie nastąpiła, aktywność neuronalna zmniejszyła się. Obecne badanie wykazało podobny wzorzec w półleżących, ze spadkiem aktywności w tym regionie w nie nagradzanych próbach dla warunku prawdopodobieństwa nagrody 66% w stosunku do warunku 33%.²

Neurony dopaminowe odgrywają rolę w uczeniu się na dwa sposoby. Po pierwsze, kodują przypadki między bodźcami (lub odpowiedziami) a wynikami poprzez sygnały błędów prognozowania, które wykrywają naruszenia oczekiwań (Schultz i in., 1997; Mirencowicz i Schultz, 1998; Fiorillo i in., 2003). Zatem błąd przewidywania wydaje się dostarczać sygnał dydaktyczny, który odpowiada zasadom uczenia się opisanym początkowo przez Rescorla i Wagner (1972). Po drugie służą do zmiany reakcji behawioralnych (Schultz i in., 1997; McClure i in., 2004) takie, że działania są ukierunkowane na sygnały, które są najbardziej predykcyjne. W obecnym badaniu wykazujemy, że w późnych próbach eksperymentu najbardziej optymalna wydajność dotyczy stanu o najwyższym prawdopodobieństwie nagrody (prawdopodobieństwo nagrody 100%) i najmniej optymalnego warunku najniższego prawdopodobieństwa (prawdopodobieństwo nagrody 33%). To odkrycie behawioralne jest zgodne z poprzednią pracą z prawdopodobieństwem, wykazującą najmniej optymalną wydajność z najniższym prawdopodobieństwem wyniku nagrody, co sugeruje, że przypadkowe nagrody zostały poznane w czasie (Delgado i in., 2005). Aby dalej pokazywać naukę, wprowadziliśmy odwrócenie, przełączając prawdopodobieństwa nagrody dla warunków 33% i 100% pod koniec eksperymentu. Ta manipulacja spowodowała osłabienie różnic między tymi warunkami, co dodatkowo potwierdziło efekty uczenia się.

Głównym celem badań związanych z nagrodami jest określenie wpływu nagrody i zachowania stronniczości (np Robbins i Everitt, 1996; Schultz, 2004) oprócz scharakteryzowania podstawowego przetwarzania neuronowego. Liczne czynniki wpływają na to, jak szybko i solidnie nagrody wpływają na zachowanie, w tym harmonogramy wzmocnienia (Skinner, 1958), wartość nagrody (Galvan i in., 2005) i przewidywalność nagrody (Fiorillo i in., 2003; Delgado i in., 2005). Oczekiwana wartość, która jest iloczynem wielkości i prawdopodobieństwa nagrody (Pascal, ca 1600), wpływa na wybory behawioralne (von Frisch, 1967; Montague i in., 1995; Montague i Berns, 2002). Używając bardzo podobnego zadania, w którym tylko wynik (wielkość zamiast prawdopodobieństwa) różnił się od obecnego badania, pokazaliśmy, że jądro półleżące było wrażliwe na dyskretne wartości nagrody (Galvan i in., 2005). Razem z dowodami przedstawionymi tutaj i gdzie indziej (Tobler i in., 2005) sugerujemy, że prążkowie brzuszne prawdopodobnie przyczynia się do obliczenia oczekiwanej wartości nagrody, biorąc pod uwagę jej wrażliwość zarówno na prawdopodobieństwo nagrody, jak i na wielkość.

Rola orbitalnej kory czołowej w przewidywaniu nagrody jest zgodna z podziałami funkcjonalnymi tego regionu Kringelbach i Rolls (2004). Sugerują, że bardziej przednie i środkowe części OFC są wrażliwe na abstrakcyjne manipulacje nagrodami. Aktywacja OFC w tym badaniu zaobserwowano w tej ogólnej lokalizacji. Badania elektrofizjologiczne implikują OFC w kodowaniu subiektywnej wartości bodźca nagrody (do przeglądu, O'Doherty, 2004). Na przykład neurony OFC strzelają do określonego smaku, gdy zwierzę jest głodne, ale zmniejszają szybkość wypalania, gdy zwierzę jest nasycone, a wartość nagrody żywności zmniejsza się (Critchley i Rolls, 1996). W związku z tym inni sugerowali, że OFC jest najbardziej wrażliwy na relatywne nagrody (Tremblay i Schultz, 1999) i preferencja nagrody (Schultz i in., 2000). Badania neuroobrazowe wykazały analogiczny wzorzec u ludzi z różnymi bodźcami, w tym ze smakiem (O'Doherty i in., 2001; Kringelbach i in., 2003), węch (Anderson i in., 2003; Rolls i in., 2003), i pieniądze (Elliott i in., 2003; Galvan i in., 2005), przy czym każda aktywacja różni się lokalizacją aktywności od przedniej do tylnej i od środkowej do bocznej OFC. OFC jest zamieszany w przewidywanie nagrody (O'Doherty i in. 2002), ale tylko o tyle, o ile wartość predykcyjna odpowiedzi jest powiązana z konkretną wartość związanej z tym nagrody, a nie prawdopodobieństwa wystąpienia tej nagrody (O'Doherty, 2004 ). W obecnym badaniu nie widzieliśmy wrażliwości na naruszenia przewidywania nagrody w OFC. Knutson i współpracownicy (2005) opisali korelacje między szacunkami prawdopodobieństwa a aktywacją mózgu w oczekiwaniu na nagrodę w mezjalnej korze przedczołowej (Knutson i wsp. 2005), ale nie specyficznie w orbitalnej korze czołowej. W przeciwieństwie, Ramnani i in. (2004 ) zgłosił czułość OFC na błąd przewidywania dodatniego w przyśrodkowej korze czołowej oczodołu za pomocą pasywnego zadania obserwacyjnego i Dreher i in. (2005) zgłosił przewidywanie błędów OFC w zadaniu, które manipulowało zarówno prawdopodobieństwem, jak i wielkością wskaźników prognostycznych, ale te przypadki zostały poznane przed skanowaniem. Jest więc nadal możliwe, że OFC może obliczyć przewidywane nagrody, ale być może te obliczenia są bardziej zwięzłe (tj. Zsumowane w pewnym zakresie prawdopodobieństw) lub wolniejsze, aby utworzyć się w stosunku do dokładnych obliczeń, które wydają się występować w NAcc. Alternatywnie, region ten może być bardziej czuły przy wykrywaniu bodźców o niepewnej i / lub niejednoznacznej wartości, jak zaproponował Hsu i in. (2005), niż wykrywanie naruszeń w przewidywaniu nagrody. Hsu i in. (2005) pokazują, że poziom niejednoznaczności w wyborach (niepewne wybory dokonane z powodu braku informacji) koreluje dodatnio z aktywacją w OFC. Wreszcie, większa zmienność sygnału MR w tym regionie mogła również zmniejszyć naszą zdolność do wykrywania tych efektów.

Podstawową kwestią obecnego badania było to, w jaki sposób accumbens i OFC różnie kodują przewidywane wyniki nagród w stosunku do nieprzewidzianych wyników (tj. Naruszeń oczekiwań). Zmodyfikowaliśmy parametrycznie prawdopodobieństwo nagrody i zbadaliśmy reakcję neuronalną na próby nagrody i nie-wartościowe dla każdego warunku nagrody. Nasze dane są zgodne z wcześniejszymi badaniami elektrofizjologicznymi przeprowadzanymi na ludziach i nieludzkimi (Fiorillo i in., 2003; Schultz, 2002) i sugerują, że accumbens i OFC są wrażliwi na wynik nagrody (nagrodę lub nie). Jednak aktywność w tych regionach, zwłaszcza w regionach półleżących, wydaje się być modulowana przez prognozy dotyczące prawdopodobieństwa osiągnięcia rezultatów nagrody, które powstają w wyniku uczenia się w czasie. Ten dynamiczny wzorzec aktywacji może reprezentować modyfikacje aktywności dopaminy wewnątrz lub rzutowania na te regiony, ponieważ informacje o przewidywanej nagrodzie są zdobywane i aktualizowane.

Przypisy

¹NAcc [t (11) = 3.2, p <0.04] i OFC [t (11) = 3.5, p <0.02] wykazały zwiększoną aktywność w oczekiwaniu na nagrodę za przerywany, ale nie ciągły warunek nagrody

²Pominięcie wyniku nagrody w stanie 33% spowodowało raczej niewielki wzrost aktywności NAcc niż zmniejszony, podobny do obserwowanego przez Knutson i wsp., 2001. Jedną z możliwych interpretacji tego wyniku jest to, że badani byli wewnętrznie motywowani lub nagradzani, jeśli przewidywali, że na tę próbę nie przyjdzie żadna nagroda, a żadna nie. Alternatywnie, ponieważ wynik nagrody dla tych prób był najmniejszy w liczbie w całym eksperymencie, aktywność może odzwierciedlać ciągłą naukę dla tego warunku.

Zastrzeżenie wydawcy: Jest to plik PDF z nieedytowanym manuskryptem, który został zaakceptowany do publikacji. Jako usługa dla naszych klientów dostarczamy tę wczesną wersję manuskryptu. Rękopis zostanie poddany kopiowaniu, składowi i przeglądowi wynikowego dowodu, zanim zostanie opublikowany w ostatecznej formie cytowania. Należy pamiętać, że podczas procesu produkcyjnego mogą zostać wykryte błędy, które mogą wpłynąć na treść, a wszystkie zastrzeżenia prawne, które odnoszą się do czasopisma, dotyczą.

Referencje

Anderson A, Christoff K, Stappen I, Panitz D, Ghahremani D, Glover G, Gabrieli JD, Sobel N. Zdysocjowane neuronowe reprezentacje intensywności i wartościowości w ludzkiej węchowości. Natura Neuroscience. 2003;6: 196-202.
Berns GS, McClure SM, Pagnoni G, Montague PR. Przewidywalność moduluje odpowiedź ludzkiego mózgu na nagrodę. Journal of Neuroscience. 2001;21: 2793-2798. [PubMed]
Boynton GM, Engel SA, Glover GH, Heeger DJ. Analiza układów liniowych funkcjonalnego rezonansu magnetycznego w ludzkim V1. Journal of Neuroscience. 1996;16: 4207-4221. [PubMed]
Cox RW. AFNI: Oprogramowanie do analizy i wizualizacji neuroobrazów z rezonansem magnetycznym. Obliczenia w badaniach biomedycznych. 1996;29: 162-173.
Cox SM, Andrade A, Johnsrude IS. Nauka lubienia: rola ludzkiej kory oczodołowo-czołowej w warunkowej nagrodzie. Journal of Neuroscience. 2005;25: 2733-2740. [PubMed]
Craig AD, Chen K, Bandy D, Reiman EM. Termoczuła aktywacja kory wyspowej. Natura Neuroscience. 2000;3: 184-190.
Critchley HD, Rolls ET. Głód i sytość modyfikują odpowiedzi neuronów węchowych i wzrokowych w korze oczodołowo-czołowej naczelnych. Journal of Neurophysiology. 1996;75: 1673-1686. [PubMed]
De Araujo IET, Kringelbach ML, Rolls ET, McGlone F. Ludzkie reakcje korowe na wodę w ustach i skutki pragnienia. Journal of Neurophysiology. 2003;90: 1865-1876. [PubMed]
Delgado MR, Miller M, Inati S, Phelps EA. Badanie fMRI dotyczące uczenia się prawdopodobieństwa związanego z nagrodami. Neuroimage. 2005;24: 862-873. [PubMed]
Dreher JC, Kohn P, Berman KF. Kodowanie neuronowe różnych statystycznych właściwości informacji o nagrodzie u ludzi. Kora mózgowa. 2005 Wydanie elektroniczne przed papierowym.
Elliott R, Newman JL, Longe OA, Deakin JFW. Wzory odpowiedzi różnicowej w prążkowiu i korze oczodołowo-czołowej na korzyść finansową u ludzi: parametryczne badanie funkcjonalnego rezonansu magnetycznego. Journal of Neuroscience. 2003;23: 303-307. [PubMed]
Fiorillo CD, Tobler PN, Schultz W. Dyskretne kodowanie prawdopodobieństwa nagrody i niepewności przez neurony dopaminowe. Science. 2003;299: 1898-1902. [PubMed]
Galvan A, Hare TA, Davidson M, Spicer J, Glover G, Casey BJ. Rola obwodowych przedsionków brzusznych w uczeniu się opartym na nagradzaniu u ludzi. The Journal of Neuroscience. 2005;25: 8650-8656. [PubMed]
Galvan A, Hare TA, Parra C, Penn J, Voss H, Glover G, Casey BJ. Wcześniejszy rozwój półleżących w stosunku do kory oczodołowo-czołowej może być podstawą zachowań ryzykownych u młodzieży. The Journal of Neuroscience. 2006;26: 6885-6892. [PubMed]
Gottfried JA, O'Doherty J, Dolan RJ. Kodowanie wartości predykcyjnej nagrody w ludzkiej ciele migdałowatym i korze oczodołowo-czołowej. Science. 2003;301: 1104-1107. [PubMed]
Haber SN. Zwoje podstawne naczelnych: sieci równoległe i integracyjne. Journal of Chemical Neuroanatomy. 2003;26: 317-330. [PubMed]
Hollerman J., Schultz W. Neurony dopaminowe zgłaszają błąd w przewidywaniu czasowym nagrody podczas uczenia się. Natura Neuroscience. 1998;1: 304-309.
Hsu M, Bhatt M, Adolphs R, Tranel D, Camerer CF. Systemy neuronowe reagujące na stopnie niepewności w podejmowaniu decyzji przez człowieka. Science. 2005;310: 1680-1683. [PubMed]
Knutson B, Adams CM, Fong GW, Hommer D. Przewidywanie rosnącej nagrody pieniężnej selektywnie rekrutuje jądro półleżące. Journal of Neuroscience. 2001;21: 1-5.
Knutson B, Taylor J, Kaufman M, Peterson R, Glover G. Distrbuted neuronowa reprezentacja wartości oczekiwanej. The Journal of Neuroscience. 2005;25: 4806-4812. [PubMed]
Kringelbach ML, O'Doherty J, Rolls ET, Andrews C. Aktywacja ludzkiej kory oczodołowo-czołowej na płynny bodziec pokarmowy jest skorelowana z jej subiektywną przyjemnością. Kora mózgowa. 2003;13: 1064-1071. [PubMed]
Kringelbach ML, Rolls ET. Funkcjonalna neuroanatomia ludzkiej kory oczodołowo-czołowej: dowody z neuroobrazowania i neuropsychologii. Postęp w neurobiologii. 2004;72: 341-372. [PubMed]
Leon MI, Shadlen MN. Wpływ oczekiwanej wielkości nagrody na odpowiedź neuronów w grzbietowo-bocznej korze przedczołowej makaka. Neuron. 1999;24: 415-425. [PubMed]
McClure SM, Berns GS, Montague PR. Błędy prognoz czasowych w pasywnym zadaniu aktywują ludzkie prążkowie. Neuron. 2003;38: 339-346. [PubMed]
McClure SM, Laibson DI, Loewenstein G, Cohen JD. Oddzielne systemy neuronowe cenią natychmiastowe i opóźnione nagrody pieniężne. Science. 2004;306: 503-507. [PubMed]
Mirenowicz J, Schultz W. Znaczenie nieprzewidywalności dla odpowiedzi nagrody w neuronach dopaminowych naczelnych. Journal of Neurophysiology. 1994;72: 1024-1027. [PubMed]
Montague PR, Berns GS. Ekonomia neuronowa i biologiczne substraty wyceny. Neuron. 2002;36: 265-284. [PubMed]
Montague PR, Hyman SE, Cohen JD. Role obliczeniowe dopaminy w kontroli behawioralnej. Natura. 2004;431: 379-387.
O'Doherty JP. Reprezentacje nagród i uczenie się związane z nagrodami w ludzkim mózgu: spostrzeżenia z neuroobrazowania. Aktualna opinia w neurobiologii. 2004;14: 769-776. [PubMed]
O'Doherty JP, Dayan P, Friston K, Critchley H, Dolan RJ. Modele różnic czasowych i uczenie się związane z nagrodami w ludzkim mózgu. Neuron. 2003;38: 329-337. [PubMed]
O'Doherty JP, Deichmann R, Critchley HD, Dolan RJ. Reakcje neuronowe podczas oczekiwania na główną nagrodę smakową. Neuron. 2002;33: 815-826. [PubMed]
O'Doherty J, Kringelbach M, Rolls ET, Hornak J, Andrews C. Abstrakcyjne reprezentacje nagrody i kary w ludzkiej korze oczodołowo-czołowej. Natura Neuroscience. 2001;4: 95-102.
O'Doherty J, Rolls ET, Francis S, Bowtell R, McGlone F, Kobal G, Renner B, Ahne G. Sensoryczna aktywacja węchowa związana z sytością ludzkiej kory oczodołowo-czołowej. Neuroreport. 2000;11: 893-897. [PubMed]
Olds J, Milner P. Pozytywne wzmocnienie wytworzone przez elektryczną stymulację obszaru przegrody i innych obszarów mózgu szczura. Journal of Comparative Physiology and Psychology. 1954;47: 419-427.
Ramnani N, Elliott R, Athwal B, Passingham R. Błąd prognozowania dla darmowej nagrody pieniężnej w ludzkiej korze przedczołowej. NeuroImage. 2004;23: 777-786. [PubMed]
Rescorla R, Wagner A. W: Klasyczna klimatyzacja 2: aktualne badania i teoria. Czarny A, Prokasy W, redaktorzy. Appleton Century-Crofts; Nowy Jork: 1972. str. 64 – 69.
Robbins TW, Everitt BJ. Neurobehawioralne mechanizmy nagrody i motywacji. Aktualne opinie w neurobiologii. 1996;6: 228-235.
Rolls E, Kringelbach M, DeAraujo I. Różne reprezentacje przyjemnych i nieprzyjemnych zapachów w ludzkim mózgu. European Journal of Neuroscience. 2003;18: 695-703. [PubMed]
Schultz W, Dayan P, Montague PR. Neuronowy substrat przewidywania i nagrody. Science. 1997;275: 1593-1599. [PubMed]
Schultz W, Tremblay L, Hollerman JR. Przetwarzanie nagród w kory mózgowo-oczodołowej naczelnych i zwojach podstawnych naczelnych. Cereb Cortex. 2000;10: 272-284. [PubMed]
Schultz W. Uzyskiwanie formalności z dopaminą i nagrodą. Neuron. 2002;36: 241-263. [PubMed]
Schultz W. Neural kodowanie podstawowych warunków nagrody teorii uczenia się zwierząt, teorii gier, mikroekonomii i ekologii behawioralnej. Aktualna opinia w neurobiologii. 2004;14: 139-147. [PubMed]
Skinner BF. Schematy diagramów zbrojenia. Journal of Experimental Analysis of Behaviour. 1958;1: 103-107.
Sutton RS, Barto AG. Reinforcement Learning: Wprowadzenie. MIT Press; Cambridge, MA: 1998.
Schultz W, Tremblay L, Hollerman J. Przetwarzanie nagród w korze oczodołowo-czołowej i zwojach podstawy mózgu naczelnych. Kora mózgowa. 2000;10: 272-284. [PubMed]
Talairach J, Tournoux P. Współpłaszczyznowy stereotaktyczny atlas ludzkiego mózgu. Thieme; Nowy Jork: 1988.
Tobler PN, Fiorillo CD, Schultz W. Adaptacyjne kodowanie wartości nagrody przez neurony dopaminowe. Science. 2005;307: 1642-1645. [PubMed]
Tremblay L, Schultz W. Względna preferencja nagrody w korze oczodołowo-czołowej naczelnych. Natura. 1999;398: 704-708. [PubMed]
von Frisch K. Język tańca i orientacja pszczół. Harvard University Press; Cambridge, Massachusetts: 1967.