Kontekstowe nowości Zmiany Reprezentacje nagrody w prążkowi (2010)

Pełne studium: nowości kontekstowe zmieniają reprezentacje nagród w prążkowiu

J Neurosci. Rękopis autora; dostępny w PMC 2010 Aug 3.

Opublikowany w końcowym edytowanym formularzu jako:

J Neurosci. 2010 Feb 3; 30 (5): 1721 – 1726.

doi: 10.1523 / JNEUROSCI.5331-09.2010

Marc Guitart-Masip,^*,^1,² Nico Bunzeck,^*,¹ Klaas E Stephan,^2,³ Raymond J Dolan,² i Emrah Düzel^1,⁴

Informacje o autorze ► Informacje o prawach autorskich i licencji ►

Ostateczna, zredagowana wersja tego artykułu jest dostępna bezpłatnie pod adresem J Neurosci

Zobacz inne artykuły w PMC, że cytować opublikowany artykuł.

Abstrakcyjny

Reprezentacja nagród w prążkowiu brzusznym jest wzmocniona przez nowość percepcyjną, chociaż mechanizm tego efektu pozostaje nieuchwytny. Badania na zwierzętach wskazują na funkcjonalną pętlę (Lisman i Grace, 2005) który obejmuje hipokamp, prążkowia brzusznego i śródmózgowia, jak ważne w regulowaniu atrybucji salience w kontekście nowych bodźców. Zgodnie z tym modelem, odpowiedzi nagrody w prążkowiu brzusznym lub śródmózgowiu powinny być wzmocnione w kontekście nowości, nawet jeśli nagroda i nowość stanowią niepowiązane, niezależne wydarzenia. Używając fMRI, pokazujemy, że próby z sygnałami przewidującymi nagrodę i późniejszymi wynikami wywołują wyższe odpowiedzi w prążkowiu, jeśli poprzedza je niepowiązany nowatorski obraz wskazujący, że reprezentacja nagrody jest wzmocniona w kontekście nowości. Warto zauważyć, że efekt ten obserwowano jedynie wtedy, gdy występowanie nagrody, a co za tym idzie, zależność od nagrody, była niska. Odkrycia te potwierdzają pogląd, że nowość kontekstualna wzmacnia odpowiedzi neuronalne leżące u podstaw reprezentacji nagrody w prążkowiu i zgadza się z efektami przetwarzania nowości, jak przewidywał model Lisman and Grace (2005).

Słowa kluczowe: nowość, nagroda, prążkowie, hipokamp, śródmózgowie, fMRI

Wprowadzenie

Zwoje podstawne, wraz z ich dopaminergicznymi aferentami, zapewniają mechanizm uczenia się o wartości nagrody różnych opcji behawioralnych (Berridge i Robinson, 2003; Frank i in., 2004; Pessiglione i in., 2006). Zgodnie z tym poglądem, badania fMRI pokazują, że nagrody i nagrody predykcyjne wywołują aktywność mózgu w prążkowiu (np.Delgado i in., 2000; Knutson i wsp., 2000; O'Doherty i wsp., 2003; O'Doherty i wsp., 2004) i śródmózgowia (Aron i in., 2004; Wittmann i in., 2005). Jednak układ dopaminergiczny śródmózgowia również reaguje na nie nagradzające nowe bodźce u małp (Ljungberg i in., 1992) i ludzi (Bunzeck i Duzel, 2006; Wittmann i in., 2007). Z perspektywy obliczeniowej zasugerowano, że sama nowość może działać jako sygnał motywacyjny, który zwiększa reprezentację nagrody i napędza eksplorację nieznanej, nowatorskiej opcji wyboru (Kakade i Dayan, 2002).

Chociaż przetwarzanie nowości i nagrody ma wspólne mechanizmy neuronowe, podłoże neuronowe, które wspiera interakcję między nowością a nagrodą, pozostaje słabo poznane. Badania na zwierzętach ujawniają, że hipokampowe sygnały nowości regulują zdolność neuronów dopaminowych do wykazywania aktywności strzelania wybuchowego. Biorąc pod uwagę, że wypalanie impulsowe jest głównym kodowaniem wzorca odpowiedzi dopaminergicznej dla nagród i prawdopodobnie innych istotnych zdarzeń, istnieje dobry powód, aby podejrzewać, że hipokampowe sygnały nowości mają potencjał regulowania przetwarzania nagród i przypisywania salience (Lisman i Grace, 2005). Sygnały nowości hipokampa są przenoszone do VTA przez podświadomość, prążkowie brzuszne i bladość brzuszną, gdzie powodują odhamowanie cichych neuronów dopaminowych w celu wywołania trybu aktywności tonicznej (Lisman i Grace, 2005; Grace i Bunney, 1983). Co ważne, tylko tonicznie aktywne, ale nie ciche neurony dopaminowe przechodzą w tryb strzelania impulsowego i wykazują reakcje fazowe (Floresco i in., 2003). W ten sposób hipokampowe sygnały nowości mają potencjał do wzmocnienia fazowych sygnałów dopaminowych i ułatwienia kodowania nowych informacji w pamięci długoterminowej.

Chociaż ostatnie badania wykazały, że nowość stymulująca zwiększa błąd przewidywania nagrody prążkowia (Wittmann i in., 2008), odkrycie to nie odnosi się do hipotezy fizjologicznej, że kontekstowa nowość wywiera wpływ wzmacniający na kolejne sygnały nagrody (Lisman i Grace, 2005). Testowanie tego wymaga niezależnej manipulacji poziomem nowości i nagrody, tak aby nowość (i znajomość) działały jako czasowo rozszerzone konteksty poprzedzające nagrody. Zbadaliśmy ekspresję modulacji prążkowia przetwarzania nagrody w kontekście nowości, prezentując nowy bodziec poprzedzający prezentację wskazówek przewidujących nagrody. Ponadto manipulowaliśmy obydwoma czynnikami (nowością i nagrodą) niezależnie; To pozwoliło nam rozróżnić odpowiadające im reprezentacje neuronowe. Przedstawiliśmy tematy z jednym z trzech różnych obrazów fraktalnych, które wskazywały na nagradzanie z określonym prawdopodobieństwem (brak nagrody (p = 0), niskie (p = 0.4) i wysokie prawdopodobieństwo nagrody (p = 0.8)). W ten sposób nasz projekt umożliwił nam również zbadanie, czy na wpływy kontekstowe nowości na reakcje na nagrody wpłynęło prawdopodobieństwo wystąpienia nagrody. Zależny od prawdopodobieństwa wpływ nowości na przetwarzanie wynagrodzeń stanowiłby silne wsparcie dla przewidywania, że nowość i przetwarzanie wynagrodzeń funkcjonalnie współdziałają. W przeciwieństwie do tego, wpływ nowości na aktywność mózgu związaną z nagrodą, która jest niezależna od prawdopodobieństwa i wielkości nagrody, wskazywałaby, że nowość i nagroda dzielą regiony mózgu i wytwarzają addytywną aktywność neuronalną bez funkcjonalnej interakcji.

Materiał i metody

Tematy

W eksperymencie uczestniczyli dorośli 16 (samica 9 i samiec 7; przedział wiekowy 19-32 lat; średnia 23.8, SD = 3.84 lat). Wszyscy pacjenci byli zdrowi, praworęczni i mieli prawidłową lub skorygowaną do normalnej ostrość. Żaden z uczestników nie zgłosił historii zaburzeń neurologicznych, psychicznych lub medycznych ani żadnych bieżących problemów medycznych. Wszystkie eksperymenty przeprowadzono z pisemną świadomą zgodą każdego uczestnika i zgodnie z lokalnymi przepisami dotyczącymi etyki (University College London, UK).

Projekt eksperymentalny i zadanie

Zadanie zostało podzielone na fazy 3. W fazie 1 uczestnicy zapoznali się z zestawem obrazów 10 (5 indoor, 5 outdoor). Każdy obraz był prezentowany 10 razy dla 1000ms z interwałem między bodźcami (ISI) 1750 ± 500ms. Badani wskazywali stan wewnętrzny / zewnętrzny za pomocą prawego wskaźnika i środkowego palca. W fazie 2 obrazy fraktalne 3 zostały sparowane z różnymi prawdopodobieństwami (0, 0.4 i 0.8), z nagrodą pieniężną za pensję 10 w sesji warunkowej. Każdy obraz fraktalny był prezentowany razy 40. W każdej próbie jeden z obrazów fraktalnych 3 był prezentowany na ekranie dla 750ms, a badani wskazywali na wykrycie prezentacji bodźca za pomocą przycisku. Wynik probabilistyczny (pensa 10 lub 0) został przedstawiony jako liczba na ekranie 750ms później dla innego 750ms, a badani wskazali, czy wygrali jakiekolwiek pieniądze, czy nie, używając palca wskazującego i środkowego. Interwał między próbami (ITI) wynosił 1750 ± 500ms. Wreszcie w fazie testowej (faza 3) wpływ nowości kontekstowych na odpowiedzi związane z nagrodami określono w czterech jedenastominutowych sesjach (Rysunek 1). Tutaj prezentowano obraz dla 1000ms, a osoby wskazywały status wewnątrz / na zewnątrz za pomocą prawego palca wskazującego i środkowego. Odpowiedzi można było uzyskać, gdy obraz sceny i kolejny obraz fraktalny były wyświetlane na ekranie (łącznie 1750 ms). Obraz pochodził ze znanego zestawu zdjęć z fazy 1 (określanych jako „znajome obrazy”) lub z innego zestawu zdjęć, które nigdy nie były prezentowane (zwane „nowymi obrazami”). W sumie nowatorskie obrazy 240 zostały zaprezentowane każdemu uczestnikowi. Następnie jeden z obrazów fraktalnych 3 z fazy 2 (określany jako cue przewidujący nagrodę) był prezentowany dla 750ms (tutaj, pacjenci zostali poinstruowani, aby nie odpowiadali). Podobnie jak w drugiej fazie, wynik probabilistyczny (10 lub 0 pens) został przedstawiony 750ms później dla innego 750ms, a badani wskazali, czy wygrali pieniądze, czy nie, używając palca wskazującego i środkowego. Odpowiedzi można było uzyskać, gdy wynik był wyświetlany na ekranie i podczas kolejnego interwału międzyoperacyjnego (łącznie 2500 ± 500 ms). ITI to 1750 ± 500ms. Podczas każdej sesji każdy obraz fraktalny był prezentowany w czasach 20 po nowatorskim obrazie, a czasy 20 po znanym obrazie, co skutkowało próbami 120 na sesję. Kolejność prezentacji sześciu typów prób została w pełni randomizowana. Wszystkie trzy fazy eksperymentalne zostały wykonane wewnątrz skanera MRI, ale dane BOLD zostały uzyskane tylko podczas fazy testowej (faza 3). Pacjenci zostali poinstruowani, aby odpowiadali tak szybko i poprawnie, jak to możliwe, i że otrzymają wynagrodzenie do £ 20. Uczestnicy zostali poinformowani, że pensja 10 zostanie odjęta za każdą nieprawidłową odpowiedź - próby te zostały wykluczone z analizy. Łączne zarobki były wyświetlane na ekranie tylko na końcu bloku 4th.

Rysunek 1

Projekt eksperymentalny

Wszystkie obrazy były skalowane na szaro i normalizowane do średniej wartości szarej 127 i odchylenia standardowego 75. Żadna ze scen nie przedstawia ludzi ani części ludzkiego ciała (w tym twarzy) na pierwszym planie. Bodźce rzutowano na środek ekranu, a badani obserwowali je przez system luster zamontowany na cewce głowicy skanera fMRI.

akwizycja danych fMRI

fMRI przeprowadzono na skanerze rezonansu magnetycznego 3-Tesla Siemens (Siemens, Erlangen, Niemcy) z obrazowaniem echa planarnego (EPI). W sesji funkcjonalnej uzyskano obrazy ważone 48 T2 * na objętość (pokrywającą całą głowę) z kontrastem zależnym od poziomu utlenowania krwi (BOLD) (macierz: 64 × 64; skośne osiowe przekroje 48 na objętość ustawioną pod kątem −30 ° w przednio-tylnej) oś, rozdzielczość przestrzenna: 3 × 3 × 3 mm; TR = 2880 ms; TE = 30 ms). Protokół akwizycji fMRI został zoptymalizowany w celu zmniejszenia strat czułości BOLD indukowanych podatnością w dolnych obszarach płatów czołowych i skroniowych (Weiskopf i in., 2006). Dla każdego tematu dane funkcjonalne uzyskano w czterech sesjach skanowania zawierających woluminy 224 na sesję. Uzyskano sześć dodatkowych objętości na początku każdej serii, aby umożliwić namagnesowanie w stanie ustalonym, a następnie odrzucono. Anatomiczne obrazy mózgu każdego badanego zostały zebrane za pomocą wielokrotnego echa 3D FLASH do mapowania gęstości protonów (PD), T1 i transferu magnetyzacji (MT) w 1mm³ rozdzielczość (Weiskopf i Helms, 2008) oraz przez T1 ważone odzyskiwanie inwersji przygotowane sekwencje EPI (IR-EPI) (rozdzielczość przestrzenna: 1 × 1 × 1 mm). Dodatkowo rejestrowano indywidualne mapy pól przy użyciu sekwencji podwójnego echa FLASH (rozmiar macierzy = 64 × 64; plasterki 64; rozdzielczość przestrzenna = 3 × 3 × 3 mm; odstęp = 1 mm; krótki TE = 10 ms; długi TE = 12.46 ms; ; TR = 1020 ms) do korekcji zniekształceń uzyskanych obrazów EPI (Weiskopf i in., 2006). Korzystanie z „Przybornika FieldMap” (Hutton i in., 2002) mapy pola oszacowano na podstawie różnicy faz między obrazami uzyskanymi przy krótkim i długim TE.

analiza danych fMRI

Wstępne przetwarzanie obejmowało wyrównanie, usuwanie ostrzeżeń przy użyciu pojedynczych map pól, normalizację przestrzenną do przestrzeni Instytutu Neurologii w Montrealu (MNI), a na koniec wygładzanie jądrem Gaussa 4mm. Dane szeregów czasowych fMRI były filtrowane górnoprzepustowo (cutoff = 128 s) i wybielane przy użyciu modelu AR (1). Dla każdego badanego obliczono model statystyczny, stosując kanoniczną funkcję odpowiedzi hemodynamicznej (HRF) w połączeniu z pochodnymi czasu i dyspersji (Friston i in., 1998).

Nasz projekt czynnikowy 2 × 3 zawierał interesujące 6 warunki, które były modelowane jako oddzielne regresory: znajomy obraz z prawdopodobieństwem nagrody 0, znajomy obraz z prawdopodobieństwem nagrody 0.4, znany obraz z prawdopodobieństwem nagrody 0.8, nowatorski obraz z nagrodą -probability 0, nowatorski obraz z prawdopodobieństwem nagrody 0.4, nowatorski obraz z prawdopodobieństwem nagrody 0.8. Czasowa bliskość wskazówek przewidujących nagrodę (tj. Obrazu fraktalnego) i samego wyniku nagrody stwarza problemy z oddzieleniem sygnałów BOLD wynikających z tych dwóch zdarzeń. Dlatego modelowaliśmy każdą próbę jako zdarzenie złożone, używając mini-wagonu, który obejmował zarówno prezentację, jak i wynik. To techniczne ograniczenie nie stanowiło problemu dla naszej analizy czynnikowej, która koncentrowała się na interakcji między przetwarzaniem nowości i nagradzaniem a współwystępowaniem efektów nagrody i nowości. Próby błędów były modelowane jako regresor bez zainteresowania. Aby uchwycić resztkowe artefakty związane z ruchem, uwzględniono sześć zmiennych towarzyszących (trzy przesunięcia ciała sztywnego i trzy obroty wynikające z wyrównania) jako regresory bez zainteresowania. Regionalne specyficzne efekty warunków były testowane przy użyciu liniowych kontrastów dla każdego pacjenta i każdego warunku (analiza pierwszego poziomu). Uzyskane obrazy kontrastu zostały wprowadzone do analizy efektów losowych drugiego poziomu. W tym przypadku efekty hemodynamiczne każdego stanu oceniono za pomocą analizy wariancji 2 × 3 (ANOVA) z czynnikami „nowość” (nowość, znajomość) i prawdopodobieństwo nagrody (0, 0.4, 0.8).

Skoncentrowaliśmy naszą analizę na anatomicznie zdefiniowanych obszarach zainteresowania 3 (prążkowiu, śródmózgowiu i hipokampie), gdzie hipotezy między interakcjami między przetwarzaniem nowości a nagrodą opierały się na wcześniejszych badaniach (Lisman i Grace, 2005; Wittmann i in., 2005; Bunzeck i Duzel, 2006). W celu uzyskania kompletności podajemy również wyniki całego mózgu w materiale uzupełniającym. Zarówno obszary zainteresowania prążkowia, jak i hipokampa (ROI) zostały zdefiniowane na podstawie przybornika Pick Atlas (Maldjian i in., 2003; Maldjian i in., 2004). Podczas gdy ROI prążkowia obejmował głowę jądra ogoniastego, ciało ogoniaste i skorupę, ROI hipokampa wykluczało ciało migdałowate i otaczającą ją korę. Wreszcie, ręcznie zdefiniowano ROI SN / VTA, używając oprogramowania MRIcro i średniego obrazu MT dla grupy. Na obrazach MT SN / VTA można odróżnić od otaczających struktur jako jasny pasek (Bunzeck i Duzel, 2006). Należy zauważyć, że u naczelnych neurony dopaminergiczne reagujące na nagrodę są rozmieszczone w kompleksie SN / VTA i dlatego właściwe jest rozważenie aktywacji całego kompleksu SN / VTA zamiast skupiania się na nim podjednostek (Duzel i in., 2009). W tym celu rozdzielczość 3mm³, jak zastosowano w niniejszym eksperymencie, pozwala na próbkowanie wokseli 20-25 kompleksu SN / VTA, który ma objętość 350 do 400 mm³.

Efekt

Zachowawczo badani wykazywali wysoką dokładność wykonywania zadań podczas zadania dyskryminacji wewnątrz / na zewnątrz (średni wskaźnik trafień 97.1%, SD = 2.8% dla znanych zdjęć; średni wskaźnik trafień 96.8%, SD = 2.1% dla nowych obrazów;₁₅= 0.38, ns), jak również dla dyskryminacji typu wygrana / brak wygranej w czasie wyniku (średni wskaźnik trafienia 97.8%, SD = 2.3% dla zdarzeń wygranych; średni wskaźnik trafień 97.7%, SD = 2.2% dla zdarzeń bez wygranej; t₁₅= 0.03, ns). Pacjenci szybciej rozpoznawali status wewnętrzny i zewnętrzny w porównaniu z nowymi obrazami (średni czas reakcji (RT) RT = 628.2 ms, SD = 77.3ms dla znanych zdjęć; średnia RT = 673.8 ms, SD = 111 ms dla nowatorskich obrazów;₁₅= 4.43, P = 0.0005). Nie było różnicy RT dla dyskryminacji wygrana / brak wygranej w czasie wyniku (średnia RT = 542ms, SD = 82.2 ms dla prób wygranych; średnia RT = 551 ms, SD = 69 ms dla prób bez zwycięstwa;₁₅= 0.82, ns). Podobnie, podczas kondycjonowania nie było różnic RT dla różnych obrazów fraktalnych 3 (prawdopodobieństwo 0.8: RT = 370.1 ms, SD = 79 ms; prawdopodobieństwo 0.4: RT = 354.4, SD = 73.8ms; prawdopodobieństwo 0: RT = 372.2ms; SD = 79.3ms; F (1,12) = 0.045, ns). Ta ostatnia analiza RT wykluczyła trzy podmioty z powodu problemów technicznych podczas gromadzenia danych.

W analizie danych fMRI, ANOVA 2 × 3 z czynnikami „nowość” (nowość, znajomość) i prawdopodobieństwo nagrody (p = 0, p = 0.4, p = 0.8) wykazały główny efekt nowości obustronnie w hipokampie (Rysunek 2A) i prążkowia, skorygowane o FDR pod kątem liczby wyszukiwań w obszarach ROI. Prosty efekt główny nagrody („p = 0.8> p = 0”) zaobserwowano w lewym zespole SN / VTA (Rysunek 2B) oraz w obrębie dwustronnego prążkowia (Rysunek 2C). Widzieć Tabela 1 dla wszystkich aktywowanych regionów mózgu.

Rysunek 2

Wyniki fMRI

Wyniki fMRI

Podczas korygowania wielokrotnych testów w całej objętości wyszukiwania naszych ROI nie zaobserwowaliśmy interakcji prawdopodobieństwa nagrody x nowości. Jednakże, wykonując analizę post hoc (test t) trzech szczytowych wokseli wykazujących główny efekt nagrody w prążkowiu, odkryliśmy (ortogonalne) efekty nowości i jej interakcji z nagrodą: jeden woksel również wykazywał główny efekt nowość i nowość × interakcja nagradzająca, podczas gdy inny woksel również wykazywał główny efekt nowości.

Jak pokazano w rysunek 2C (środek), w pierwszym wokselu ([8 10 0]; efekt główny nagrody F (2,30) = 8.12, P = 0.002; efekt główny nowości F (1,15) = 7.03, P = 0.02; nowość × interakcja z nagrodą F (2,30) = 3.29, P = 0.05) efekt ten był spowodowany wyższymi odpowiedziami BOLD na próby z prawdopodobieństwem nagrody 0.4 i poprzedzony nowym obrazem (test t post-hoc: t (15) = 3.48 , P = 0.003). W drugim wokselu (po prawej 2C) ([−10 14 2] efekt główny nagrody F (2,30) = 13.13, P <0.001; efekt główny nowości F (1,15) = 9.19, P = 0.008; nie istotna interakcja F (2,30) = 1.85, ns) post-hoc t-testy ponownie wykazały, że głównym efektem nowości były różnice między nowymi i znanymi obrazami przy dwóch niskich prawdopodobieństwach dostarczenia nagrody (t (15) = 2.79, P = 0.014; it (15) = 2.19, P = 0.045, odpowiednio dla prawdopodobieństwa p = 0 i p = 0.4), (patrz rysunek 2C). Natomiast trzeci woksel (2C opuścił [−22 4 0] główny efekt nagrody, F (2,30) = 9.1, P = 0.001) ani nie wykazał głównego efektu nowości (F (1,15) = 2.33, ns) ani interakcja (F (2,30) = 1.54, ns).

W śródmózgowiu woksel z maksymalnymi odpowiedziami związanymi z nagrodą ([−8 −14 −8], F (2,30) = 12.19, P <0.001), również wykazywał trend w kierunku głównego efektu nowości (F (1,15 , 4.18) = 0.059, P = 2,30) przy braku istotnej interakcji (F (0.048) = XNUMX, ns).

Dyskusja

Nowatorskie obrazy scen wzmocniły reakcje nagrody prążkowia wywołane przez kolejne i niepowiązane wydarzenia nagradzające (przewidywanie abstrakcyjnych wskazówek i dostarczanie nagrody). Zgodnie z oczekiwaniami, nowe obrazy aktywowały hipokamp. Odkrycia te dostarczają, zgodnie z naszą wiedzą, pierwszego dowodu na przewidywanie fizjologiczne, że nowość związana z aktywacją hipokampa powinna wywierać kontekstualny wpływ na przetwarzanie nagrody w prążkowiu brzusznym (Lisman i Grace, 2005; Bunzeck i Duzel, 2006).

Ze względu na właściwości sygnału BOLD, czasowa bliskość przewidywania nagrody i dostarczenia wyników uniemożliwiła oszacowanie wpływu nowości na te zdarzenia oddzielnie. Zamiast tego uważaliśmy sekwencję cue-result za zdarzenie złożone i stwierdziliśmy, że wpływ nowości na przetwarzanie nagrody zmienia się w zależności od prawdopodobieństwa wystąpienia nagrody. Ulepszenie zaobserwowano tylko wtedy, gdy prawdopodobieństwo przewidywanej nagrody było niskie (0 lub 0.4) i było nieobecne dla wysokiego prawdopodobieństwa nagrody (0.8) (Rysunek 2C). Ważne jest, aby zauważyć, że ten wzór wyników nie może być wyjaśniony przez niezależne efekty nowości i nagrody w tym samym regionie. Efekty BOLD powodowane przez dwie funkcjonalnie odrębne, ale przestrzennie nakładające się populacje neuronowe byłyby addytywne niezależnie od prawdopodobieństwa nagrody, a zatem prowadzą do efektu nowości także w warunku prawdopodobieństwa 0.8. Dlatego te, zależne od prawdopodobieństwa, efekty nowości w przetwarzaniu nagrody przemawiają przeciwko możliwości, że odzwierciedlają one zanieczyszczenie przez odpowiedzi BOLD wywołane przez same nowe bodźce. Odkrycia wskazują raczej, że kontekstowa nowość zwiększyła przetwarzanie wynagrodzeń jako takie, aczkolwiek tylko w warunkach niskiego prawdopodobieństwa.

Jak wyjaśniono powyżej, nie mogliśmy ujednoznacznić odpowiedzi BOLD między oczekiwaniem na nagrodę (wskazówki) a dostarczeniem nagrody (wyniki). Nowość mogła selektywnie zwiększyć przetwarzanie wyników nie nagradzających (próby bez wygranej). Byłoby to zgodne z faktem, że nie zaobserwowaliśmy żadnego znaczącego wpływu nowości na próby z wysokim prawdopodobieństwem nagrody, ponieważ 80% tych prób spowodował dostarczenie nagrody. Alternatywnie, nowość mogła wpłynąć na przewidywanie nagród dla sygnałów, które przewidywały dostarczanie nagrody z małym prawdopodobieństwem (tj. 0 i 0.4). W obu przypadkach kontekstowa nowość zwiększyła reprezentację mózgu dla zdarzeń, które były obiektywnie mniej satysfakcjonujące. Ponadto mało prawdopodobne jest, aby brak modulacji sygnałów nagradzania w warunkach wysokiego prawdopodobieństwa był spowodowany efektem pułapu w przetwarzaniu nagród. Wcześniejsze prace wykazały, że reakcje związane z nagrodami w prążkowiu ludzkim są skalowane adaptacyjnie w różnych kontekstach, co skutkuje sygnałem, który reprezentuje, czy wynik jest korzystny czy niekorzystny w określonym otoczeniu (Nieuwenhuis et al 2004). Można zatem oczekiwać, że odpowiedzi na nagrodę powinny być również w stanie przyjąć premię nowości w warunkach wysokiego prawdopodobieństwa nagrody.

Powszechnie wiadomo, że mózg naczelnych uczy się wartości różnych bodźców połączonych z nagrodą w klasycznych eksperymentach warunkujących, mierzonej przez zwiększone przewidywanie wyniku (np. Zwiększone lizanie). W niniejszym eksperymencie zmierzyliśmy czasy reakcji podczas fazy warunkowania, ale nie znaleźliśmy różnic na różnych poziomach predykcyjnych sił sygnałów. Biorąc pod uwagę prostotę zadania i szybkość, z jaką badani odpowiadali (<375 ms dla wszystkich warunków), ten brak zróżnicowanej odpowiedzi może wynikać z efektu sufitu. Pomimo braku obiektywnej miary behawioralnej do warunkowania, pomyślne wykorzystanie tego typu wskazówek w poprzednich badaniach (np O'Doherty i wsp., 2003) sugeruje, że badani nadal utworzyli związek między sygnałami i różnymi prawdopodobieństwami dostarczenia nagrody.

W poprzednich pracach sygnały nagrody w prążkowiu zostały powiązane z różnymi właściwościami związanymi z nagrodami, zarówno u ludzi, jak iu naczelnych innych niż człowiek, w tym prawdopodobieństwo (Preuschoff i in., 2006; Tobler i in., 2008), wielkość (Knutson i wsp., 2005), niepewność (Preuschoff i in., 2006) i wartość akcji (Samejima i in., 2005). Ta różnorodność zmiennych związanych z nagrodami wyrażonych w prążkowiu dobrze pasuje do jego roli jako interfejsu limbicznego / sensomotorycznego z kluczową rolą w organizacji zachowań ukierunkowanych na cel (Wickens i in., 2007). Zarówno SN / VTA, jak i prążkowie, jedno z głównych miejsc projekcji układu dopaminowego śródmózgowia, również reagują na wskazówki przewidujące nagrodę i nagrodę w klasycznych paradygmatach warunkowania (np.Delgado i in., 2000; Knutson i wsp., 2000; Fiorillo i in., 2003; Knutson i wsp., 2005; Tobler i in., 2005; Wittmann i in., 2005; D'Ardenne i in., 2008). Zgodnie z kilkoma perspektywami obliczeniowymi, transmisja dopaminy pochodząca z SN / VTA uczy prążkowia o wartości bodźców warunkowych poprzez sygnał błędu prognozowania (Schultz i wsp., 1997).

Chociaż w klasycznych badaniach warunkujących, reprezentacje nagrody i nagrody nie wyrażone w prążkowiu nie zawsze mają oczywiste konsekwencje behawioralne (O'Doherty i wsp., 2003; den Ouden i in., 2009), badania fMRI systematycznie wykazały, że zmiany aktywności prążkowia BOLD korelują z błędami predykcyjnymi związanymi z wartością opcji wyboru scharakteryzowanych przez modele obliczeniowe pasujące do danych behawioralnych (O'Doherty i wsp., 2004; Pessiglione i in., 2006). Reprezentacje stanu-wartości prążkowia niezwiązane z działaniem mogą być związane z sygnałami dostępności nagrody, które przekładają się na odpowiedzi przygotowawcze, na przykład podejście lub ożywcze efekty, jak widać w transferze pawilon-instrument (PIT) (Cardinal i wsp., 2002; Talmi i in., 2008). Nasze dane sugerują, że nowość moduluje takie reprezentacje wartości stanowej, zwiększając oczekiwaną nagrodę lub odpowiedź na wyniki nie nagradzające. Konsekwencją tej interakcji między nowością a nagrodą może być generowanie bezwarunkowych odpowiedzi przygotowawczych. W rzeczywistym świecie takie reakcje prowadziłyby do ulepszonego podejścia, gdy nowość jest identyfikowana za pomocą wskazówki (Wittmann i in., 2008) lub przypadkowa eksploracja środowiska, gdy wykryta jest nowość, ale nie jest związana z konkretną wskazówką, jak zaobserwowano w literaturze zwierzęcej (Haki i Kalivas, 1994). Ten pogląd jest również zgodny z wpływowymi modelami obliczeniowymi (Kakade i Dayan, 2002).

Jedną krytyczną strukturą, która prawdopodobnie bierze udział w kontekstowo zwiększonych odpowiedziach nagrody w prążkowiu, jest hipokamp. Podobnie jak w poprzednich badaniach (Tulving i in., 1996; Strange i in., 1999; Bunzeck i Duzel, 2006; Wittmann i in., 2007) pokazujemy, że nowość kontekstowa aktywowała hipokampa silniej niż znajomość. Biorąc pod uwagę jego silne (pośrednie) projekcje do SN / VTA, sugerujemy, że ta struktura jest prawdopodobnym źródłem sygnału nowości dla układu dopaminergicznego śródmózgowia (Lisman i Grace, 2005; Bunzeck i Duzel, 2006). Dopaminergiczny śródmózgowia również otrzymuje dane z innych obszarów mózgu, takich jak kora przedczołowa, które mogłyby również przekazywać do niego nowe sygnały (Fields i wsp., 2007). Biorąc jednak pod uwagę dotychczasowe dowody, uważamy hipokamp za najbardziej prawdopodobnego kandydata do napędzania nowatorskiego odhamowania neuronów dopaminowych śródmózgowia, co wyjaśniałoby wzmocnienie sygnałów nagrody prążkowia w kontekście nowości. Z drugiej strony, zależne od prawdopodobieństwa moderowanie kontekstowego efektu nowości może z kolei wynikać z kory przedczołowej (PFC). Badania fizjologiczne pokazują, że zwiększenie napędu PFC do neuronów SN / VTA zwiększa modulację dopaminergiczną tylko regionów PFC, ale nie dopaminergiczne wejście do prążkowia brzusznego (Margolis i in., 2006). Dzięki takiemu mechanizmowi PFC może regulować zależne od prawdopodobieństwa kontekstowe efekty nowości w SN / VTA i brzusznej reprezentacji nagrody prążkowia.

Podsumowując, obecne wyniki pokazują, że nowość kontekstowa zwiększa przetwarzanie nagrody w prążkowiu w odpowiedzi na niepowiązane sygnały i wyniki. Odkrycia te są zgodne z przewidywaniami modelu szlaku polisynaptycznego (Lisman i Grace, 2005) w którym hipokampowe sygnały-nowości zapewniają mechanizm kontekstowej regulacji przypisywania istotności do niepowiązanych zdarzeń.

Materiał uzupełniający

Supp1

Kliknij tu by zobaczyc.^{(168K, doc)}

Podziękowania

Praca ta była wspierana przez grant projektowy Wellcome Trust (dla ED i RJD 81259; www.wellcome.ac.uk; RD jest wspierany przez grant programu Wellcome trust. MG posiada stypendium Marie Curie (www.mariecurie.org.uk). KES potwierdza wsparcie projektu NEUROCHOICE SystemsX.chh.

List referencyjny

Aron AR, Shohamy D, Clark J, Myers C, Gluck MA, Poldrack RA. Czułość śródmózgowia człowieka na sprzężenie poznawcze i niepewność podczas uczenia się klasyfikacji. J Neurophysiol. 2004; 92: 1144 – 1152. [PubMed]
Berridge KC, Robinson TE. Nagroda za przetworzenie. Trendy Neurosci. 2003; 26: 507 – 513. [PubMed]
Bunzeck N, Duzel E. Bezwzględne kodowanie nowości bodźców w istocie ludzkiej nigra / VTA. Neuron. 2006; 51: 369 – 379. [PubMed]
Cardinal RN, Parkinson JA, Hall J, Everitt BJ. Emocje i motywacja: rola ciała migdałowatego, prążkowia brzusznego i kory przedczołowej. Neurosci Biobehav Rev. 2002; 26: 321 – 352. [PubMed]
D'Ardenne K, McClure SM, Nystrom LE, Cohen JD. Odpowiedzi BOLD odzwierciedlające sygnały dopaminergiczne w ludzkim brzusznym obszarze nakrywkowym. Nauka. 2008; 319: 1264 – 1267. [PubMed]
Delgado MR, Nystrom LE, Fissell C, Noll DC, Fiez JA. Śledzenie reakcji hemodynamicznych na nagrodę i karę w prążkowiu. J Neurophysiol. 2000; 84: 3072 – 3077. [PubMed]
den Ouden HE, Friston KJ, Daw ND, McIntosh AR, Stephan KE. Podwójna rola błędu prognozowania w uczeniu asocjacyjnym. Cereb Cortex. 2009; 19: 1175 – 1185. [Artykuł bezpłatny PMC] [PubMed]
Duzel E, Bunzeck N, Guitart-Masip M, Wittmann B, Schott BH, Tobler PN. Obrazowanie funkcjonalne ludzkiego dopaminergicznego śródmózgowia. Trendy Neurosci. 2009 [PubMed]
Fields HL, Hjelmstad GO, Margolis EB, Nicola SM. Neurony obszaru brzusznej nakrywki w nauce zachowania apetycznego i pozytywnego wzmocnienia. Annu Rev Neurosci. 2007; 30: 289 – 316. [PubMed]
Fiorillo CD, Tobler PN, Schultz W. Dyskretne kodowanie prawdopodobieństwa nagrody i niepewności przez neurony dopaminowe. Nauka. 2003; 299: 1898 – 1902. [PubMed]
Floresco SB, West AR, Ash B, Moore H, Grace AA. Zróżnicowana modulacja wypalania neuronów dopaminowych reguluje w różny sposób toniczną i fazową transmisję dopaminy. Nat Neurosci. 2003; 6: 968 – 973. [PubMed]
Frank MJ, Seeberger LC, O'Reilly RC. Przez marchew lub kija: uczenie się wzmacniania poznawczego w parkinsonizmie. Nauka. 2004; 306: 1940 – 1943. [PubMed]
Friston KJ, Fletcher P, Josephs O, Holmes A, Rugg MD, Turner R. Wydarzenie związane z fMRI: charakteryzowanie reakcji różnicowych. Neuroimage. 1998; 7: 30 – 40. [PubMed]
Grace AA, Bunney BS. Wewnątrzkomórkowa i zewnątrzkomórkowa elektrofizjologia nigralnych neuronów dopaminergicznych – 1. Identyfikacja i charakterystyka. Neuroscience. 1983; 10: 301–315. [PubMed]
Haczyki MS, Kalivas PW. Udział dopaminy i przenoszenia pobudzających aminokwasów w indukowanej nowością aktywności ruchowej. J Pharmacol Exp Ther. 1994; 269: 976 – 988. [PubMed]
Hutton C, Bork A, Josephs O, Deichmann R, Ashburner J, Turner R. Korekcja zniekształceń obrazu w fMRI: Ocena ilościowa. Neuroimage. 2002; 16: 217 – 240. [PubMed]
Kakade S, Dayan P. Dopamina: uogólnienie i premie. Sieć neuronowa. 2002; 15: 549 – 559. [PubMed]
Knutson B, Westdorp A, Kaiser E, Hommer D. FMRI wizualizacja aktywności mózgu podczas pieniężnego zadania motywacyjnego. Neuroimage. 2000; 12: 20 – 27. [PubMed]
Knutson B, Taylor J, Kaufman M, Peterson R, Glover G. Rozproszona reprezentacja neuronowa wartości oczekiwanej. J Neurosci. 2005; 25: 4806 – 4812. [PubMed]
Lisman JE, Grace AA. Pętla hipokampa-VTA: kontrolowanie wprowadzania informacji do pamięci długoterminowej. Neuron. 2005; 46: 703 – 713. [PubMed]
Ljungberg T, Apicella P, Schultz W. Odpowiedzi małpich neuronów dopaminowych podczas uczenia się reakcji behawioralnych. J Neurophysiol. 1992; 67: 145 – 163. [PubMed]
Maldjian JA, Laurienti PJ, Burdette JH. Precentralna niezgodność zakrętu w elektronicznych wersjach atlasu Talairach. Neuroimage. 2004; 21: 450 – 455. [PubMed]
Maldjian JA, Laurienti PJ, Kraft RA, Burdette JH. Zautomatyzowana metoda badania neuroanatomicznego i cytoarchitektonicznego atlasu zbiorów danych fMRI. Neuroimage. 2003; 19: 1233 – 1239. [PubMed]
Margolis EB, Lock H, Chefer VI, Shippenberg TS, Hjelmstad GO, Fields HL. Opioidy Kappa selektywnie kontrolują neurony dopaminergiczne wystające do kory przedczołowej. Proc Natl Acad Sci US A. 2006; 103: 2938 – 2942. [Artykuł bezpłatny PMC] [PubMed]
O'Doherty J, Dayan P, Schultz J, Deichmann R, Friston K, Dolan RJ. Dysocjujące role prążkowia brzusznego i grzbietowego w kondycjonowaniu instrumentalnym. Nauka. 2004; 304: 452 – 454. [PubMed]
O'Doherty JP, Dayan P, Friston K, Critchley H, Dolan RJ. Modele różnic czasowych i nauka związana z nagrodami w ludzkim mózgu. Neuron. 2003; 38: 329 – 337. [PubMed]
Pessiglione M, Seymour B, Flandin G, Dolan RJ, Frith CD. Błędy predykcyjne zależne od dopaminy są podstawą zachowania poszukującego nagrody u ludzi. Natura. 2006; 442: 1042 – 1045. [Artykuł bezpłatny PMC] [PubMed]
Preuschoff K, Bossaerts P, Quartz SR. Neuronowe zróżnicowanie oczekiwanej nagrody i ryzyka w ludzkich strukturach podkorowych. Neuron. 2006; 51: 381 – 390. [PubMed]
Samejima K, Ueda Y, Doya K, Kimura M. Reprezentacja specyficznych dla akcji wartości nagrody w prążkowiu. Nauka. 2005; 310: 1337 – 1340. [PubMed]
Schultz W, Dayan P, Montague PR. Neuronowy substrat przewidywania i nagrody. Nauka. 1997; 275: 1593 – 1599. [PubMed]
Dziwne BA, Fletcher PC, Henson RN, Friston KJ, Dolan RJ. Segregacja funkcji ludzkiego hipokampa. Proc Natl Acad Sci US A. 1999; 96: 4034 – 4039. [Artykuł bezpłatny PMC] [PubMed]
Talmi D, Seymour B, Dayan P, Dolan RJ. Ludzki transfer pawłowo-instrumentalny. J Neurosci. 2008; 28: 360 – 368. [Artykuł bezpłatny PMC] [PubMed]
Tobler PN, Fiorillo CD, Schultz W. Adaptacyjne kodowanie wartości nagrody przez neurony dopaminowe. Nauka. 2005; 307: 1642 – 1645. [PubMed]
Tobler PN, Christopoulos GI, O'Doherty JP, Dolan RJ, Schultz W. Neuronalne zniekształcenia prawdopodobieństwa nagrody bez wyboru. J Neurosci. 2008; 28: 11703 – 11711. [Artykuł bezpłatny PMC] [PubMed]
Tulving E, Markowitsch HJ, Craik FE, Habib R, Houle S. Aktywności nowości i znajomości w badaniach PET nad kodowaniem i odzyskiwaniem pamięci. Cereb Cortex. 1996; 6: 71 – 79. [PubMed]
Weiskopf N, Helms G. Wieloparametrowe mapowanie ludzkiego mózgu przy rozdzielczości 1mm w czasie krótszym niż 20; ISMRM 16; Toronto Kanada. 2008.
Weiskopf N, Hutton C, Josephs O, Deichmann R. Optymalne parametry EPI dla zmniejszenia strat czułości wywołanej wrażliwością BOLD: analiza całego mózgu w 3 T i 1.5 T. Neuroimage. 2006; 33: 493 – 504. [PubMed]
Wickens JR, Horvitz JC, Costa RM, Killcross S. Dopaminergiczne mechanizmy w działaniach i nawykach. J Neurosci. 2007; 27: 8181 – 8183. [PubMed]
Wittmann BC, Bunzeck N, Dolan RJ, Duzel E. Przewidywanie nowości rekrutuje system nagradzania i hipokampa, jednocześnie promując skupienie. Neuroimage. 2007; 38: 194 – 202. [Artykuł bezpłatny PMC] [PubMed]
Wittmann BC, Daw ND, Seymour B, Dolan RJ. Aktywność prążkowia leży u podstaw wyboru opartego na nowości u ludzi. Neuron. 2008; 58: 967 – 973. [Artykuł bezpłatny PMC] [PubMed]
Wittmann BC, Schott BH, Guderian S, Frey JU, Heinze HJ, Duzel E. Aktywacja dopaminergicznego śródmózgowia związana z FMRI związana z nagrodą jest związana ze zwiększoną zależną od hipokampa długoterminową formacją pamięci. Neuron. 2005; 45: 459 – 467. [PubMed]