Koszt uzyskania nagrody zwiększa sygnał błędu prognozowania neuronów dopaminy śródmózgowia (2019)

Nature Communications

Tom 10, Numer artykułu: 3674 (2019) | Pobierz cytat

Abstrakcyjny

Wiadomo, że neurony dopaminy śródmózgowia kodują błędy przewidywania nagrody (RPE) wykorzystywane do aktualizacji prognoz wartości. Tutaj badamy, czy sygnały RPE kodowane przez neurony dopaminy śródmózgowia są modulowane kosztem zapłaconym za uzyskanie nagród, poprzez rejestrację z neuronów dopaminy u obudzonych zachowujących się małp podczas wykonywania trudnego zadania sakkady. Odpowiedzi neuronu dopaminowego na wskazówki przewidujące nagrodę i na dostarczenie nagrody wzrosły po wykonaniu kosztownego działania w porównaniu do mniej kosztownego działania, co sugeruje, że RPE są zwiększone po wykonaniu kosztownego działania. Na poziomie behawioralnym skojarzenia bodźców i nagród są uczone szybciej po wykonaniu kosztownego działania w porównaniu do mniej kosztownego działania. Zatem informacje o koszcie działania są przetwarzane w systemie nagrody dopaminy w sposób, który wzmacnia następujący sygnał dopaminy RPE, co z kolei sprzyja szybszemu uczeniu się w sytuacjach wysokiego kosztu.

Wprowadzenie

Ludzie i zwierzęta wolą nagrodę otrzymaną po wysiłku, aby ją zdobyć, w porównaniu z tą samą nagrodą po mniejszym wysiłku^1,2,3. Przedstawiono wiele wyjaśnień tego efektu, takich jak uzasadnienie wysiłku^4,5 i efekt kontrastu⁶, w którym większą wartość przypisuje się wynikowi uzyskanemu po opłaconym wysiłku. Pozostaje jednak niejasne, czy i jak przetwarzanie informacji o nagrodzie w mózgu jest modulowane przez wysiłek włożony w uzyskanie nagrody.

Skoncentrowaliśmy się szczególnie na układzie dopaminy śródmózgowia, biorąc pod uwagę rolę tego systemu w promowaniu adaptacji behawioralnej do nagród^7,8,9. Wiadomo, że neurony dopaminy reprezentują sygnały błędu przewidywania nagrody (RPE), które mogą ułatwić naukę przewidywania nagrody przez zwoje podstawy mózgu^{10,11,12,13,14,15,16,17}. Siła RPE zależy od ilości, jakości oraz subiektywnej wartości lub użyteczności nagrody^{7,18,19,20,21}. Ponadto aktywność dopaminergiczna jest modulowana przez koszty i / lub wysiłek^22,23. Na tej podstawie postulowaliśmy, że dopaminergiczny sygnał RPE będzie bezpośrednio modulowany przez koszt zapłacony za uzyskanie nagrody. Ponadto, ponieważ sygnał RPE jest przyczynowo zaangażowany w pośredniczenie w nauce związków bodźców i nagród^24,25,26, wysunęliśmy hipotezę, że koszt zapłacony za uzyskanie nagrody bezpośrednio zwiększyłby szybkość uczenia się skojarzeń bodziec-nagroda.

Aby przetestować nasze hipotezy, zmierzyliśmy zarówno zachowanie, jak i aktywność dopaminergiczną u dwóch japońskich małp podczas wykonywania zadania wysiłkowego opartego na sakadzie. Małpy reagują szybciej na wskazówkę dotyczącą nagrody, która jest prezentowana po akcji o wysokim koszcie (HC) w porównaniu z tą po akcji o niskim koszcie (LC). Aktywność neuronów dopaminergicznych w stosunku do wskazówek przewidujących nagrody jest zwiększana o opłacony koszt. Dodatkowo, szybkość uczenia się do powiązania bodziec-nagroda jest również zwiększona przez opłacony koszt. Dlatego sugerujemy, że koszt zapłacony za uzyskanie nagród zwiększa sygnał RPE w neuronach dopaminy, a tym samym wzmacnia skojarzenia bodziec-nagroda.

Efekt

Zadanie sakralne o wysokim i niskim koszcie (HLC)

Aby zbadać wpływ opłaconego kosztu na zachowanie i aktywność neuronu dopaminowego, małpy wykonały zadanie sakkadowe z dwoma warunkami kosztowymi (ryc. 1a, patrz Metody). W próbach HC małpy szybko wykonały sakadę do celu i patrzyły na nią bez mrugnięcia przez dłuższy czas (ryc. 1b; zielone linie). Natomiast w próbach LC małpy najpierw rozglądały się swobodnie przed fiksacją przez krótszy okres (ryc. 1b, fioletowe linie). Ponieważ utrzymywanie długiej fiksacji jest trudne dla małp, popełniły one więcej błędów podczas opóźnień na próbach HC (ryc. 1c). Aby kontrolować wynikającą z tego różnicę w prawdopodobieństwie nagrody między próbami HC i próbami LC, umieściliśmy wymuszone przerwanie w części prób LC, aby wyrównać szanse powodzenia i prawdopodobieństwo nagradzania między typami prób (ryc. 1d).

Płatny koszt zwiększa wartość wskazówek przewidujących nagrody

Aby uzyskać dorozumiany dowód na różnicę w subiektywnej ocenie sygnałów przez małpę, przetestowaliśmy czasy reakcji małp (RT). W szczególności spodziewaliśmy się, że jeśli małpy przypiszą wyższą wartość subiektywną jednej opcji niż drugiej, powinny pokazać szybsze RT dla opcji o większej wartości.²⁷. Kiedy RT porównano między wskaźnikami kosztu, obie małpy wykazały szybsze RT do LC w porównaniu do wskaźnika HC (ryc. 1e), wykazując domyślną preferencję dla warunku LC. Kiedy RT porównywane były między wskazówkami nagrody, obie małpy wykazywały szybsze RT, aby nagradzać wskazówki (R +) niż brak wskazówek (R−) 1f), co wskazuje, że woleli sygnały R + niż R-cues. Ponadto obie małpy wykazywały szybsze RT do R._HC+ cue w porównaniu z R._LC+ cue i do R._HC- cue w porównaniu z R._LC- wskazówka (ryc. 1f), co wskazuje, że bardziej cenili wskazówki przewidujące nagrody w HC niż w warunku LC.

Ponadto włączyliśmy próby wyboru do zadania sakramentu HLC w celu przetestowania jawnych preferencji małp między wskazówkami (rysunek uzupełniający. 1a). Małpy preferencyjnie wybrały wskaźnik LC, wybierając między wskaźnikami kosztów (rysunek uzupełniający. 1b). Monkey S preferencyjnie wybrał R._HC+ cue podczas wykonywania zadania wyboru między R._HC+ i R_LC+ wskazówka, ale brak preferencji między R._HC- i R._LC- wskazówki (rys. Uzupełniający 1c, d). Natomiast małpa P nie wykazywała jawnej preferencji między R._HC+ i R_LC+ wskazówki, ale mimo to wolał R_HC- cue przy wyborze pomiędzy R._HC- i R._LC- wskazówki (rys. Uzupełniający 1c, d).

Wyniki elektrofizjologiczne w zadaniu sakramentalnym HLC

Rejestrowaliśmy aktywność pojedynczej jednostki z neuronów znajdujących się w obrębie istoty czarnej pars compacta (SNc) i brzusznej okolicy nakrywkowej (VTA) podczas zadania sakkady HLC. Zidentyfikowaliśmy neurony dopaminowe 70 u dwóch małp (rysunek uzupełniający. 2a; 18 i neurony 52 odpowiednio z Monkey P i S.). Badanie histologiczne potwierdziło, że neurony były zlokalizowane w SNc / VTA lub wokół niego (rysunek uzupełniający. 2b).

Na ryc. 2, pokazujemy aktywność reprezentatywnego neuronu dopaminy. Neuron ten wykazywał niewielką aktywację do wskaźnika LC oraz fazową aktywację lub supresję do nagrody (R_HC+ i R_LC+) lub brak wskazówek dotyczących nagrody (R_HC- i R._LC-) odpowiednio (ryc. 2, Rysunek uzupełniający 3). Neuron wykazywał także fazową aktywację nieprzewidywalnej nagrody, a także fazową supresję w odpowiedzi na bodziec awersyjny, nieprzewidywalny wdech (ryc. 2, prawy panel). Ponadto neuron wykazywał niewielką supresję do sygnału początkowego, ale nie reagował na dostarczenie nagrody. Cała populacja zarejestrowanych przez nas neuronów dopaminowych wykazywała podobne odpowiedzi na początkową wskazówkę i dostarczenie nagrody (uzupełniające ryc. 4a, b). W zadaniu Saccade HLC zapłacono koszt wysiłku przed uzyskaniem nagrody. Ponieważ przewidywany koszt obniżył aktywność neuronu dopaminowego^22,23, odpowiedzi neuronu dopaminowego byłyby tłumione w momencie rozpoczęcia prezentacji wskazówki¹⁶.

Neurony dopaminy kodują informacje dotyczące zarówno nagrody, jak i kosztu

Neurony reagowały fazowo na sygnał LC, ale mniej niezawodnie na sygnał HC (ryc. 3a, b). Wywołane odpowiedzi na sygnały warunku kosztu wykazywały mniejszą odpowiedź na sygnał HC niż wskaźnik LC (dwustronny test rang Wilcoxona, P <3.2 × 10^-4, n = 70). Oceniliśmy ilościowo wpływ przewidywanego kosztu na odpowiedzi neuronalne za pomocą analizy charakterystyki operacyjnej odbiornika (ROC). Rozkład powierzchni pod krzywą ROC (auROC) był istotnie <0.5 (ryc. 3c; dwustronny test Wilcoxona z podpisaną rangą; P = 5.4 × 10^-4, n = 70), co wskazuje, że odpowiedzi wskazówki HC były mniejsze niż odpowiedzi LC. Wcześniej stwierdzono, że przewidywany koszt zmniejsza aktywność neuronów dopaminowych, co jest zgodne z naszymi wynikami^22,23. Ponadto populacja neuronów dopaminowych wykazywała znaczącą aktywację do wskaźnika LC, nie wykazując przy tym znaczącej supresji do sygnałów HC (Uzupełnienie ryc. 4c, d). Wyniki te sugerują, że neurony dopaminy kodują i integrują informacje dotyczące zarówno nagrody, jak i kosztu w momencie prezentacji wskaźnika kosztu.

Wcześniej opisano dwa różne podtypy neuronów dopaminowych: wartość motywacyjną i neurony istotności^28,29. Znaleźliśmy dowody w naszej populacji neuronów dopaminowych na wzorce odpowiedzi zgodne z oboma podtypami. Neurony typu wartości wykazywały fazowe tłumienie awersyjnych bodźców powietrznych (ryc. 3d, e). Natomiast neurony salience wykazywały fazową aktywację bodźców awersyjnych (ryc. 3g, godz). Długie utrwalenie w próbie HC jest również nieprzyjemne i awersyjne; dlatego możliwe jest, że dwa podtypy neuronu dopaminowego wykażą różne wzorce odpowiedzi na sygnały warunku kosztu. Jeśli neurony dopaminy reprezentują bodźce awersyjne i kosztują w podobny sposób, to neurony wartości powinny wykazywać zmniejszoną aktywność w stosunku do wskazówki HC z powodu swojej awersji. Z drugiej strony neurony salience powinny zwiększać aktywność w stosunku do wskazówki HC, ponieważ zwiększają się również do nieprzyjemnych bodźców. Jednak wywołane odpowiedzi obu typów neuronów były mniejsze niż wskaźnik HC w porównaniu z sygnałem LC (dwustronny test rang Wilcoxona; P = 0.021, n = 41 i P = 0.0044, n = 29 odpowiednio dla wartości i typów istotności), a analiza ROC wykazała mniejsze odpowiedzi na HC w porównaniu z wskaźnikiem LC w obu podtypach (ryc. 3f, i; dwustronny test Wilcoxona z podpisaną rangą; P = 0.030, n = 41 i P = 0.0058, n = 29 odpowiednio dla typów wartości i istotności). W związku z tym przewidziano zmniejszenie kosztów aktywności obu podtypów neuronów dopaminowych. Wyniki te wskazują, że informacje o kosztach są przetwarzane przez neurony dopaminowe w jakościowo inny sposób niż bodźce awersyjne.

W zadaniu sakkadowym HLC wstawiliśmy wymuszone przerwanie w części prób LC, aby wyrównać wskaźniki sukcesu i prawdopodobieństwo nagrody między typami prób. Ta manipulacja zwiększyła niepewność uzyskania nagrody lub ryzyko braku nagrody w warunku LC. Dlatego wyższa aktywność neuronów dopaminowych i zwiększona wycena małp dla LC w stosunku do HC może wynikać z różnicy w ryzyku lub niepewności między warunkami kosztowymi. Jednak nie znaleźliśmy związku między liczbą wymuszonych poronień a różnicą w RT (uzupełniający ryc. 5a, b) i znaleźliśmy pozytywną korelację między liczbą przymusowych przerw a auROC (rys. uzupełniający. 5c). Porównaliśmy również odpowiedzi dopaminy na wskaźniki kosztów po przerwaniu leczenia po prawidłowych próbach, ale nie znaleźliśmy żadnej różnicy w obu warunkach kosztów (rysunek uzupełniający. 5d). Wyniki te wskazują, że liczba wymuszonych przerw w stanie LC nie tłumaczy ani wzrostu wyceny, ani zwiększonej aktywacji dopaminergicznej do wskaźnika LC.

Zwiększona odpowiedź dopaminy na nagradzanie za pomocą opłaconego kosztu

Stwierdzono, że zarejestrowane neurony dopaminy wykazują fazową aktywację i supresję w celu nagradzania i bez wskazówek przewidujących nagrody (ryc. 2). Następnie oceniliśmy, czy odpowiedzi te były modulowane przez wcześniej poniesione koszty. Przykład reprezentatywnego neuronu i neuronów uśrednionych w populacji wykazujących większą aktywację do R._HC+ cue niż R._LC+ cue pokazano na rysunku Odpowiednio 4a i b. (dwustronny test rang ze znakiem Wilcoxona; P = 7.4 × 10^-5, n = 70). Rozkład auROC był> 0.5, co wskazuje, że odpowiedź na R._HC+ wskazówka była większa niż w R._LC+ wskazówka (ryc. 4c; dwustronny test Wilcoxona z podpisaną rangą; P = 1.4 × 10^-4, n = 70). Wyniki te wskazują, że odpowiedź na wskazówkę przewidującą nagrodę w stanie HC jest znacznie większa niż w warunku LC. Dlatego nasze odkrycia sugerują, że dodatni sygnał RPE reprezentowany przez neurony dopaminowe jest zwiększony o wcześniej poniesiony koszt.

Neurony dopaminy wykazywały również fazową supresję do R-cue (ryc. 4d, e). Jednak odpowiedzi neuronów dopaminowych na R-cue nie wykazały znaczącej różnicy w funkcji poniesionych kosztów (dwustronny test rang Wilcoxona; P = 0.25, n = 70), a analiza ROC nie ujawniła żadnych dowodów na błąd w rozkładzie odpowiedzi (ryc. 4f; Test rang Wilcoxona, P = 0.35; n = 70). Zatem zapłacony koszt nie został odzwierciedlony w sygnale ujemnym RPE wywołanym przez sygnały nie przewidujące nagrody. Może to być spowodowane efektem podłogowym: spontaniczna aktywność neuronu dopaminy jest niska (około 5 Hz); iw konsekwencji może nie być wystarczającego zakresu dynamiki, aby odpowiednio zakodować każdą taką różnicę w kosztach wydatkowanych na ujemną odpowiedź RPE (ryc. 4d, e).

Zbadaliśmy również oddzielnie wpływ zapłaconego kosztu na wskaźniki nagrody dla neuronów dopaminy typu wartość i salience, ale oba typy neuronów dopaminy wykazywały podobny wzorzec odpowiedzi (rysunek uzupełniający. 6a – h). Dlatego opłacony koszt przejawia podobny wpływ na odpowiedź na sygnały nagrody zarówno w neuronach dopaminy typu wartościowego, jak i salience.

Rzeczywisty czas trwania fiksacji małp nie był stały, ale zmieniał się w zależności od próby (ryc. 1b). Dlatego możliwe było, że odpowiedzi dopaminy na sygnały nagrody są modulowane przez rzeczywisty czas trwania fiksacji na zasadzie prób po próbie. Nie mogliśmy jednak znaleźć żadnej istotnej korelacji między nimi dla każdego warunku kosztu i nagrody (rysunek uzupełniający. 7ogłoszenie). Ponadto RT do wskazówek dotyczących nagrody były również modulowane przez warunki kosztów i nagrody (ryc. 1f). Jedną z możliwości jest to, że reakcje neuronów dopaminowych mogą być wyjaśnione przez RT na wskazówki nagradzające na zasadzie prób po próbie. Jednak nie mogliśmy znaleźć żadnej istotnej korelacji między RT i znormalizowanymi odpowiedziami dopaminy na wskazówki nagradzające (Uzupełniający ryc. 7e – h). Wyniki te sugerują, że odpowiedzi dopaminy są niezależne zarówno od czasu RT, jak i od czasu trwania fiksacji w każdej próbie, ale modulowane przez wysokość wymaganego kosztu i oczekiwanej nagrody, które są ustalone dla każdego rodzaju prób.

Ponadto jest również możliwe, że wymuszone przerwanie w stanie LC generowało zarówno preferencje małp, jak i zwiększoną aktywację neuronów dopaminowych do wskazówki nagrody w stanie HC. Jeśli tak, liczba wymuszonych przerw powinna być związana zarówno z preferencjami, jak i stopniem wzmocnionej aktywacji. Jednak liczba przymusowych przerywań nie miała wpływu ani na preferencje małp, ani na aktywację neuronów dopaminowych do wskazówek nagrody (Uzupełnienie ryc. 8). Dlatego szybsze RT i wyższe odpowiedzi DA na R_HC+ cue niż R._LC+ cue nie wynika z wprowadzonych wymuszonych przerw w stanie LC.

Ponoszone koszty zwiększają reakcje dopaminy na dostarczanie nagrody

Odpowiedź neuronów dopaminowych na sygnały R + powinna wynikać z odpowiedzi na samą nagrodę, ponieważ neurony dopaminowe zmieniają swoją odpowiedź na wskazówki przewidujące nagrodę w odniesieniu do powiązania bodziec-nagroda^8,30. Dlatego spodziewaliśmy się, że neurony dopaminy wykażą płatne ulepszenie odpowiedzi zależne od kosztów w celu dostarczenia nagrody. Aby zmierzyć aktywność neuronu dopaminowego do dostarczenia nagrody, małpy wykonały niepewne zadanie HLC z dwoma nowymi wskazówkami nagrody (ryc. 5a). Ponieważ nagrody zostały dostarczone tylko w połowie prezentacji wskazówek o nagrodach, wskazówki o nagrodach nie przewidywały w sposób wiarygodny ani w różny sposób dostarczenia nagrody. Dokonano tego, aby zmaksymalizować reaktywność neuronu dopaminowego na otrzymanie (nieprzewidzianej) nagrody, aby zwiększyć naszą wrażliwość na wykrywanie modulacji reaktywności neuronów w zależności od poniesionych kosztów.

Kiedy RT porównano między wskaźnikami kosztów, małpa P wykazała szybszą RT do wskaźnika LC niż wskaźnik HC (ryc. 5b). U żadnej małpy nie było żadnej różnicy w RT do wskaźników nagrody między warunkami HC i LC (ryc. 5c).

W niepewnym zadaniu HLC neurony dopaminy wykazywały niewielką aktywację do wskaźnika LC, ale nie reagowały na sygnały nagrody, ponieważ nie były predykcyjne dla nagrody (ryc. 6a). W całej populacji wywołane odpowiedzi były mniejsze od wskazań HC niż LC (ryc. 6b; dwustronny test Wilcoxona z podpisaną rangą; P = 2.7 × 10^-3, n = 19), a analizy ROC wykazały mniejsze odpowiedzi na wskazówkę HC (ryc. 6c; dwustronny test Wilcoxona z podpisaną rangą; P = 5.5 × 10^-3, n = 19). Odpowiedź neuronalna na dostarczenie nagrody w stanie HC była większa niż LC (ryc. 6d; dwustronny test Wilcoxona z podpisaną rangą; P = 0.036, n = 19). Rozkład auROC wynosił> 0.5, co wskazuje na większą odpowiedź w postaci nagrody w HC w porównaniu z próbami LC (ryc. 6e; dwustronny test Wilcoxona z podpisaną rangą; P = 0.049, n = 19). Wyniki te wskazują, że reakcja dostarczania nagrody jest wzmocniona w badaniu HC i że zapłacony koszt zwiększa sygnał dodatniego RPE przy dostarczaniu nagrody.

Ponadto porównaliśmy odpowiedzi dopaminy po braku nagrody. AuROC nie wykazywały tendencyjnego rozkładu, co wskazuje, że opłacone koszty nie miały wpływu na ujemne RPE w momencie wyniku (rysunek uzupełniający. 9a). Neurony dopaminy nie wykazały różnicy między odpowiedziami na R_HC i R_LC wskazówki (rys. uzupełniający 9b).

Poniesione koszty zwiększają szybkość uczenia się

Biorąc pod uwagę, że koszty RPE do nagradzania są zwiększane przez zapłacony koszt, przy założeniu, że RPE są bezpośrednio zaangażowane w pośredniczenie w uczeniu się bodziec-nagroda, spodziewaliśmy się, że ulepszone RPE znajdą odzwierciedlenie w zachowaniach związanych z uczeniem się poprzez zwiększoną szybkość uczenia²⁴. Aby sprawdzić wpływ opłaconego kosztu na naukę, małpy wykonały zadanie eksploracji HLC (ryc. 7a; patrz Metody). W tym zadaniu dwa symbole nagrody (R + i R−) zostały przedstawione jednocześnie i małpy musiały wybrać jeden. Wyrównaliśmy wskaźniki powodzenia i prawdopodobieństwo nagrody w zależności od rodzaju próby (sparowanie dwustronne) t test; t₄₈ = 0.15, P = 0.89, n = 49 dla małpy P; t₈₅ = 1.2, P = 0.25, n = 86 dla małpy S). Kiedy porównano RT pod kątem wskazówek dotyczących kosztów, obie małpy wykazały szybsze RT względem wskazówki LC niż wskazówka HC (ryc. 7b; dwustronny sparowany t test; t₄₈ = 12.9, P ≈ 0, n = 49 dla małpy P; t₈₅ = 3.4, P = 9.4 × 10^-4, n = 86 dla małpy S). Porównując RT z sygnałami nagrody, małpa S wykazywała szybsze RT w stanie HC niż LC (ryc. 7c; dwustronny sparowany t test; t₄₈ = 1.3, P = 0.19, n = 49 dla małpy P; t₈₅ = 2.8, P = 6.8 × 10^-3, n = 86 dla małpy S). Porównując oddzielnie RT podczas pierwszej i drugiej połowy sesji uczenia, RT do cue LC były szybsze niż do cue HC w pierwszej (Dodatkowy ryc. 10) i druga połowa sesji (rys. uzupełniający. 10c). Przeciwnie, RT małpy S do wskazówki nagrody w stanie HC były szybsze niż w stanie LC podczas tylko drugiej połowy sesji (ryc. Uzupełniająca. 10d), ale nie pierwsza połowa (rys. uzupełniający. 10b).

W zadaniu eksploracji HLC wskazówki dotyczące nagrody były generowane losowo w każdej sesji uczenia się. Dlatego małpy musiały nauczyć się związku między wskazówkami nagrody a nagrodami w każdej sesji. W miarę postępu prób w trakcie sesji małpy częściej wybierały sygnały R + w każdym warunku kosztu (ryc. 8a). Aby obliczyć prędkość uczenia się, dopasowujemy do danych skumulowaną funkcję wykładniczą, zawierającą dwa wolne parametry, a i b, wskazując odpowiednio stromość krzywej i plateau (rys. uzupełniający 11a, b). Stosunek logu między parametrami stromości (log a_HC/a_LC) był znacznie większy od zera, co wskazuje na większy parametr stromości w HC niż w próbach LC (ryc. 8b; dwustronny t test; t₄₈ = 2.1, P = 0.042, średnia = 0.58, n = 49 dla małpy P; t₈₅ = 2.5, P = 0.013, średnia = 0.19, n = 86 dla małpy S). Stosunek logarytmów między parametrami plateau (log b_HC/b_LC), nie różnił się od zera, co wskazuje na brak różnicy między warunkami kosztów (ryc. 8c; dwustronny t test; t₄₈ = 0.76, P = 0.45, średnia = -0.0024, n = 49 dla małpy P; t₈₅ = 0.56, P = 0.58, średnia = 0.010, n = 86 dla małpy S). Wyniki te wskazują, że prędkość uczenia się jest szybsza w próbach HC. Następnie zamodelowaliśmy krzywe uczenia się za pomocą modelu uczenia się ze wzmocnieniem (RL) (zobacz Metody). Ten model obejmuje parametry szybkości uczenia się (α_HC i α_LC) i wskaźniki poszukiwań (β_HC i β_LC) dla obu warunków kosztowych (rysunek uzupełniający 11c, d). Dopasowując się do zachowania, stwierdziliśmy, że stosunek logu między parametrami szybkości uczenia się (log α_HC/α_LC) był większy od zera, co wskazuje na znacznie wyższy parametr szybkości uczenia się w HC niż w próbach LC (ryc. 8d; dwustronny t test; t₄₈ = 2.3, P = 0.026, średnia = 0.50, n = 49 dla małpy P; t₈₅ = 2.2, P = 0.034, średnia = 0.25, n = 86 dla małpy S), podczas gdy parametr β nie wykazał różnicy (ryc. 8e; dwustronny t test; t₄₈ = 0.77, P = 0.44, średnia = 0.0097, n = 49 dla małpy P; t₈₅ = 0.64, P = 0.52, średnia = 0.038, n = 86 dla małpy S). Tutaj oszacowaliśmy parametry współczynnika uczenia się dla każdego warunku kosztu (α_HC i α_LC) osobno w celu wyjaśnienia szybszych prędkości uczenia się w warunkach HC. Jeżeli jednak współczynniki uczenia się są identyczne między warunkami kosztów, stosunek między parametrami szacowanego współczynnika uczenia się (α_HC/α_LC) można uznać za wartość wzmocnienia dla RPE w warunkach HC. Dlatego wyniki te sugerują, że wzmocnienie RPE może wyjaśnić szybsze prędkości uczenia się w warunkach HC.

Próbowaliśmy także wyjaśnić proces uczenia się za pomocą alternatywnych modeli RL, które uwzględniają możliwość, że małpy znają antykorelację między bodźcami i nagrodą w każdej próbie. W tych modelach wartość niezaznaczonej opcji jest aktualizowana wraz z wybraną (rys. Uzupełniający. 12). Nawet przy zastosowaniu takich alternatywnych modeli do danych parametr szybkości uczenia się był znacznie większy w HC w porównaniu do warunku LC (rysunek uzupełniający. 12b, f) podczas gdy parametr β nie wykazał żadnej różnicy (rysunek uzupełniający 12d, h). Zatem nasze stwierdzenie dotyczące wzmocnienia sygnału RPE w warunkach HC jest solidne w formie modelu RL dopasowanego do danych.

Dyskusja

Zbadaliśmy wpływ opłaconego kosztu na wartość wskazówek przewidujących nagrody oraz na reakcje fazowe neuronów dopaminy śródmózgowia. Małpy wykazały zwiększoną wycenę pod kątem przewidywania nagród po wykonaniu akcji, która poniosła większy koszt. Neurony dopaminy wykazywały zwiększoną odpowiedź zarówno na wskazówkę, jak i na dostarczenie nagrody, po poniesieniu wyższego kosztu. Co więcej, małpy wykazywały większe prędkości uczenia się, gdy do uzyskania nagrody wymagany był wyższy koszt.

Kilka badań wykazało, że opłacony koszt zwiększa preferencje dotyczące wskazówek przewidujących nagrody^1,2,3. W niniejszym badaniu małpy wykazywały szybsze RT do wskazówek przewidywania nagrody w stanie HC w porównaniu do tych w stanie LC, zgodnie z możliwością, że wartość wskazówki nagrody zostanie zwiększona o opłacony koszt²⁷. Alternatywną możliwością jest to, że dłuższy czas fiksacji związany ze zwiększoną uwagą na cel saccade w stanie HC, a zatem zmniejszenie RT po dłuższym fiksacji w próbie HC. Jednak nie znaleźliśmy żadnej różnicy między RT do sygnałów R w próbach HC i LC w niepewnym zadaniu HLC. Ponadto w pierwszej połowie sesji eksploracyjnej HLC. RT dla sygnałów R nie różniły się istotnie między próbami HC i LC. Odkrycia te wskazują zatem, że dłuższe utrwalenie nie jest prawdopodobnym wyjaśnieniem krótszych RT obserwowanych dla wskazówek przewidujących nagrody. Oprócz wpływu opłaconego kosztu na RT z nagrodą, koszt wpłynął również na RT na wskazówki nie przewidujące niespodzianki, pomimo faktu, że po prezentacji wskazówek nie dostarczono żadnej nagrody. Poprzednie badanie zgłosiło podobne zjawisko, polegające na tym, że osobniki małp wykazywały krótsze czasy RT w nieuzbrojonych próbach, gdy w alternatywnych próbach w każdym bloku zastosowano bardziej korzystne nagrody³⁰. Jedną z możliwych interpretacji efektu w tym badaniu jest to, że ogólnie wyższa motywacja do odpowiedzi w bloku z bardziej preferowanymi nagrodami wpływała na RT również na wskazówkę braku nagrody w bloku. Podobnie w niniejszym badaniu oczekiwanie na bardziej wartościową nagrodę w próbach HC mogło zmodulować RT do wskazania braku nagrody w próbach HC w naszym zadaniu. Co więcej, wpływ zapłaconego kosztu na RT na wskazówki nagradzające był mniejszy niż wpływ na wskazówki nieprzewidywające nagrody. Jest to najprawdopodobniej artefakt tego, że ponieważ małpy wykonały sakkadę szybciej do R._LC+ cue w pierwszej kolejności, istnieje ograniczony zakres wykrywania skracania RT do R_HC+ wskazówka Dlatego różnica w RT między sygnałami R + byłaby w konsekwencji niewielka.

Małpy przeprowadziły również próby wyboru między R._HC i R_LC wskazówki w zadaniu HLC. Jednak podczas gdy małpa S wykazywała preferencję dla R._HC+ wskazówka do R._LC+ wskazówka, małpa P nie wykazywała takich preferencji. Ta rozbieżność może być wyjaśniona kontekstową różnicą między sakkadą HLC a próbami wyboru. W próbach wyboru przedstawiono dwie wskazówki przewidujące nagrody zamiast jednej wskazówki przewidywania nagrody. Co więcej, małpy nie otrzymały żadnej nagrody po swoim wyborze, nawet jeśli wybrały wskazówkę przewidującą nagrodę, dlatego test wyboru przeprowadzono na wyginięciu. Wdrożono procedurę wyginięcia, aby upewnić się, że wybór małpy był uzależniony od tego, czego nauczył się podczas prób wysiłkowych, w przeciwieństwie do bycia mylonym z nową wiedzą na temat prób wyboru. Jednak ta procedura może mieć taki efekt uboczny, że małpa może szybko nauczyć się rozpoznawać procedurę wyginięcia w kontekście wyboru i że nie ma powodu, aby wybierać bardziej preferowane bodźce. Niemniej jednak jedna z małp w rzeczywistości preferowała wskazówkę dotyczącą nagrody w stanie HC.

W momencie przedstawienia wskazówki, która przewidywała kolejne wymaganie zapłaty kosztu, aktywność neuronów dopaminowych została zmniejszona, zgodnie z wcześniejszymi badaniami^22,23. W naszym badaniu nie zaobserwowaliśmy ogólnego spadku neuronu dopaminy odpowiadającego na sygnały zarówno HC, jak i LC w stosunku do wartości wyjściowej. Sugeruje to, że sygnał ujemnego RPE nie występuje w tym momencie czasowym, pomimo następujących kosztów. Brak ujemnego RPE prawdopodobnie odzwierciedla integrację prognozy przyszłej nagrody oczekiwanej w dalszej części procesu. Neurony dopaminy wykazały znaczną aktywację w próbie LC, a aktywność była wyższa w porównaniu z próbą HC. Sugeruje to, że informacja o kosztach jest włączona do sygnału RPE przenoszonego przez neurony dopaminy. Zatem neurony dopaminy kodują zarówno informacje o nagrodach, jak i kosztach, a odpowiedź RPE odzwierciedla sumę kosztów i korzyści.

Wykazaliśmy, że sygnał RPE reprezentowany przez neurony dopaminowe jest wzmocniony przez opłacony koszt w punkcie prezentacji wskazówki nagrody (w zadaniu sakramentalnym HLC) i dostarczeniu nagrody (w niepewnym zadaniu HLC). Obiektywna kwota nagrody dostarczonej w badaniach HC i LC była równa; dlatego modyfikacja sygnałów RPE powinna być spowodowana niesensownym procesem. Możliwość tę potwierdzają liczne badania wskazujące kontekstowy wpływ na sygnały RPE dopaminy spójne z przetwarzaniem subiektywnej wartości i / lub użyteczności w neuronach dopaminy^{11,19,20,21,31,32,33,34}. Jeżeli sygnał RPE jest większy, powinno to spowodować szybszą aktualizację wartości cue, co w konsekwencji wpłynęłoby na szybkość uczenia się skojarzeń bodziec-nagroda. Poprzednie badania wykazały modyfikację szybkości uczenia się przez czynniki nieczułe^24,35. Zgodnie z tym, małpy wykazywały wyższe prędkości uczenia się w HC w stosunku do warunków LC. Odkryliśmy, że zwiększoną szybkość uczenia się przez opłacony koszt można wyjaśnić modelem RL ze wzmocnionym RPE. Trudno było oddzielić efekty wzmocnionego RPE i zwiększonej szybkości uczenia się w naszych eksperymentach; jednak znaleźliśmy wzmocniony dopaminergiczny sygnał RPE w stanie HC. Ponadto wcześniejsze badanie fMRI wykazało, że parametr szybkości uczenia się jest reprezentowany w przedniej korze obręczy i że aktywność VTA nie jest związana z parametrem szybkości uczenia się w niestabilnych środowiskach³⁶. Dlatego argumentujemy, że sygnał RPE kodowany przez neurony dopaminowe jest wzmacniany przez opłacony koszt, a zwiększony sygnał RPE zwiększa prędkość uczenia się.

Kiedy sygnał RPE został wygenerowany w momencie prezentacji wskazówki nagrody i dostarczenia nagrody, małpy już pokryły koszty. Dlatego jednym z możliwych mechanizmów ulepszonego sygnału RPE jest to, że nagroda uzyskana po HC może być bardziej satysfakcjonująca. Zwiększone oczekiwanie na bardziej wartościową nagrodę po HC może zwiększyć motywację do ukończenia próby, tym samym skracając RT do wskazówek dotyczących nagrody w próbach HC.

Inną możliwą interpretacją naszych wyników jest to, że ulga związana z zakończeniem kosztownego działania może działać jako nagroda dla małp. Badania funkcjonalnego rezonansu magnetycznego (fMRI) wykazały, że uśmierzenie bólu może być nagrodą dla uczestników^37,38; dlatego koszt może odgrywać podobną rolę jako awersyjny bodziec do bólu. Jeśli zwolnienie z kosztów jest satysfakcjonujące i jeśli znajduje to odzwierciedlenie w aktywności dopaminergicznej, spodziewalibyśmy się, że neurony dopaminy zareagują pod koniec długiej fiksacji, która jest momentem prezentacji wskazówki nagrody. Jednak nie zaobserwowaliśmy żadnej różnicy w aktywności dopaminergicznej w czasie prezentacji wskazówek nagradzających ani żadnej różnicy w RT do sygnałów R między próbami HC i LC w niepewnym zadaniu HLC. Dlatego sugerujemy, że zwolnienie z kosztów nie zapewnia odpowiedniego wyjaśnienia efektu, jaki zaobserwowaliśmy w neuronach dopaminy.

Ponadto neurony dopaminy wykazywały jakościowo różne odpowiedzi na bodziec awersyjny w porównaniu z sygnałem przewidywania kosztów. Jednym z możliwych wyjaśnień tego jest to, że koszt wysiłku był mniejszy niż dmuchanie powietrza lub nagroda, ponieważ koszt wysiłku został tymczasowo wydłużony o kilka sekund, ponieważ małpy wykonały fiksację, a nie nakłuły. Dlatego neurony dopaminy mogły nie zostać aktywowane w celu uzyskania niższych wskaźników kosztów. Inną możliwością jest to, że neurony dopaminy typu salience reagują na zdarzenia, po których wywołane zostały pewne ruchy. Kiedy nagroda lub wdech został dostarczony małpom, wykonują one pewne ruchy, takie jak lizanie lub mruganie okiem. Jednak w zadaniu HLC saccade małpy musiały patrzeć na cel fiksacji bez żadnego ruchu jako kosztu. W rzeczywistości ostatnie badanie wykazało, że uwalnianie dopaminy w jądrze półleżącym po podpowiedzi przewidującej nagrodę jest osłabione, chyba że ruch zostanie poprawnie zainicjowany³⁹. Ponieważ koszt w naszych eksperymentach nie obejmował inicjacji ruchu, może to potencjalnie spowodować niespójną reakcję neuronów dopaminowych typu salience. Tak czy inaczej możemy stwierdzić, że informacje o kosztach są przetwarzane inaczej niż informacje awersyjne.

Podsumowując, sugerujemy, że opłacony koszt zwiększa wartość wskazówek przewidujących nagrody, a to z kolei zwiększa sygnał RPE kodowany w neuronach dopaminy śródmózgowia. Efekt ten doprowadził do prognozy behawioralnej, że tempo uczenia się zwierząt zostanie zwiększone w celu przewidywania nagród po doświadczeniu HC. Rzeczywiście to zaobserwowaliśmy. Zatem nasze obserwacje dotyczące aktywności neuronów dopaminowych doprowadziły nas do postawienia hipotezy o istnieniu efektu behawioralnego, a także przypuszczalnego mechanizmu obliczeniowego leżącego u podstaw tego efektu, który następnie potwierdziliśmy. Nasze odkrycia stanowią zatem przykład tego, jak może dojść do triangulacji między pomiarami danych neuronowych, teorią obliczeniową i zachowaniem: pogłębione zrozumienie przetwarzania neuronalnego w mózgu może dać wgląd w zachowanie i leżące u jego podstaw podstawy obliczeniowe.

Metody

Zwierzęta

Użyliśmy dwóch samców japońskich małp (Macaca fuscata; masa ciała, 6.5 kg = małpa P; masa ciała, 9.0 kg = Monkey S). Wszczepiliśmy sztycę na czubku czaszki małpy, aby można ją było później przymocować do krzesła. Wszczepiono także komorę rejestrującą, aby umożliwić montaż mikromanipulatora elektrodowego. Komorę rejestracyjną przechylono 45 ° poprzecznie w płaszczyźnie wieńcowej i ustawiono na współrzędnych stereotaktycznych: 15 mm przed kanałem zewnętrznym. Po okresie rekonwalescencji małpy przeszkolono do wykonywania zadania sakkady. Po zakończeniu treningu wywierciliśmy otwór przez czaszkę w komorze rejestrującej w celu wprowadzenia elektrody. Wszystkie protokoły opieki nad zwierzętami zostały zatwierdzone przez Komitet Eksperymentów Zwierząt na Uniwersytecie Tamagawa i zgodne z Narodowym Instytutem Zdrowia Przewodnik po opiece i wykorzystaniu zwierząt laboratoryjnych.

Zadanie behawioralne

Małpy były szkolone do wykonywania zadania sakralnego HLC (ryc. 1a), Niepewne zadanie HLC (ryc. 5a) oraz zadanie eksploracji HLC (ryc. 7a). Wszystkie zadania wykonywano w ciemnym pomieszczeniu. Małpy siedziały na krześle przed 22-calowym. Monitor LCD (S2232W, Eizo) z wszczepionymi głowicami przymocowanymi do krzesła. Odległość między oczami a wyświetlaczem wynosiła 70 cm. Kiedy wskazówka startowa (białe kółko, średnica 0.3 °) została przedstawiona na środku wyświetlacza, małpa musiała wpatrywać się w wskazówkę. Wskazówka startowa zniknęła po 750 ms, a następnie została zaprezentowana wskazówka dotycząca kosztu (odpowiednio gwiazda i wiatrak dla prób HC i LC). Małpy musiały przejść do kosztu w czasie 750 ms prezentacji wskazówki. Jeśli nie wykonali sakkady na sygnał, rozprawa została przerwana i ta sama próba rozpoczęła się od nowa. Podczas prób HC cel fiksacji (biały kwadrat 0.3 ° × 0.3 °) był prezentowany tuż po zniknięciu wskaźnika kosztu przez 2000 ms (sakkada HLC i niepewne zadania HLC) lub 1500 ms (zadanie eksploracyjne HLC) i wymagane były małpy sakkadować do niego i wpatrywać się w niego. Jeśli małpy przeniosły swój wzrok poza okno fiksacji 4 ° × 4 °, zadanie było przerywane. Okno fiksacji zostało aktywowane 400 ms po prezentacji punktu fiksacyjnego, ponieważ małpy potrzebowały czasu na przygotowanie się do sakkady i dostosowanie ich fiksacji. Dlatego małpy musiały wykonywać fiksację przez co najmniej 1600 ms (zadania sakadowe HLC i niepewne zadania HLC) lub 1100 ms (zadanie eksploracyjne HLC) w próbach HC. W próbach LC pusty ekran był wyświetlany przez 1500 ms (sakkada HLC i niepewne zadania HLC) lub 1000 ms (zadanie eksploracji HLC), a następnie cel fiksacji pojawiał się na 500 ms. Ponieważ okno fiksacji było aktywowane 400 ms po prezentacji punktu fiksacji, małpy musiały utrwalać się na celu przez co najmniej 100 ms w próbach LC. Małpy wykazały więcej błędów w próbie HC; dlatego wymuszone przerwanie było losowo wstawiane 100 ms przed prezentacją wskazówki nagrody (400 ms po prezentacji celu fiksacji, która jest momentem początku okna fiksacji) w próbie LC, aby wyrównać wskaźnik powodzenia. Po utrwaleniu celu, jedna lub dwie wskazówki dotyczące nagrody były prezentowane i małpy były zmuszane do sakkadowania do wskazówki. Jeśli pomyślnie wykonali sakkadę do wskazówki nagrody, po 750 ms po prezentacji wskazówki dotyczącej nagrody rozlegał się sygnał dźwiękowy. Kiedy małpy wykonały sakadę na sygnał R +, w tym samym czasie, co sygnał dźwiękowy, podano 0.3 ml wody. Żadna nagroda nie została dostarczona, gdy wykonali sakkadę na cue R− cue.

W zadaniu HLC saccade, cztery kolorowe koła zostały użyte jako wskazówki nagrody (R_HC+: żółty; R_HC-: zielony; R_LC+: różowy; R_LC-: niebieski; Figa. 1a). Jedna sesja eksperymentalna składała się z 80 prób sakkadowych, 20 prób z nieprzewidywalną nagrodą, 20 prób z nieprzewidywalnym zaciągiem powietrza i 5 prób wyboru. Próby sakkadowe obejmowały 40 prób HC i 40 prób LC, z których obie obejmowały 20 prób z nagrodą i 20 prób bez nagrody. W nieprzewidywalnych próbach z nagrodą lub zaciągnięciami powietrza 0.3 ml nagrody w postaci wody lub 0.2 MPa podmuchu powietrza (150 ms dla małpy P; 200 ms dla małpy S) podano na twarz małpy bez poprowadzenia. Próby wyboru obejmowały próbę, w której małpy dokonywały wyboru między wskazówkami R + (R._HC+ vs. R._LC+) w próbie HC między R-cues (R_HC- vs. R._LC-) w próbie HC, pomiędzy R + (R_HC+ vs. R._LC+) sygnały w próbie LC, pomiędzy R− (R_HC- vs. R._LC-) wskazówki w próbie LC i między wskaźnikami kosztów (rysunek uzupełniający. 1). W próbach z wyborem między wskazówkami nagrody struktura zadań była identyczna jak zadanie saccade przed przedstawieniem wskazówek nagrody. Następnie, zamiast przedstawiać nagrodę, w próbach wyboru zostały przedstawione dwie wskazówki nagrody, a po prezentacji wskazówek nagrody nie dostarczono żadnej nagrody, nawet jeśli małpy dokonały wyboru między wskazówkami R +.

Aby przetestować odpowiedź neuronów dopaminowych na dostarczenie nagrody, małpy wykonały niepewne zadanie HLC (ryc. 5a). To zadanie było podobne do zadania sakramentu HLC, z wyjątkiem wskazówek dotyczących nagrody. W tym zadaniu wykorzystaliśmy dwa wskaźniki nagrody (zamiast czterech wskaźników nagrody używanych w zadaniu HLC do sakkady), jeden dla próby HC, a drugi dla próby LC. Nagroda została dostarczona w połowie prób po prezentacji wskazówek dotyczących nagrody. Jedna sesja eksperymentalna składała się z prób sakkadowych 80, nieprzewidywalnych prób nagradzania 20 i nieprzewidywalnych prób nawiewu powietrza 20. Próby saccade obejmowały próby 40 HC i próby 40 LC, przy czym obie obejmowały próby premiowe 20 i próby próbne 20 bez nagrody. W nieprzewidywalnych próbach nagroda lub wdech został dostarczony bez żadnej wskazówki.

W zadaniu eksploracji HLC dwa sygnały nagrody (R_HC+, R_HC- lub R._LC+, R_LC-) były prezentowane jednocześnie, a małpy były zobowiązane do sakkady do jednego z sygnałów nagrody (ryc. 7a). Jeśli wybiorą wskazówkę R +, otrzymają nagrodę za wodę. Cztery wskazówki nagrody (R_HC +, R_HC-, R_LC +, R_LC-) generowano dla każdej sesji eksploracyjnej, a małpy musiały poznać związek między wskazówkami a nagrodą za próbę. Jedna sesja eksperymentalna składała się z prób 100 HC i prób 100 LC. Stwierdziliśmy, że w przypadku zadania eksploracji, jeśli ustawimy czas trwania naprawy na 2000 ms w stanie HC, tak aby pasował on do czasu trwania warunku HC w innych zadaniach, małpy wykonały zadanie z bardzo niskim wskaźnikiem powodzenia, prawdopodobnie trudność zadania i / lub wynikająca z tego niska stopa nagród. Dlatego, aby zmniejszyć trudności zadania i zwiększyć wskaźnik powodzenia, zastosowaliśmy czas trwania naprawy ms 1500 jako koszt zadania eksploracji HLC.

Zadania kontrolowano za pomocą dostępnego w handlu pakietu oprogramowania (TEMPO, Reflective Computing, St. Louis, MO, USA). Do prezentacji bodźców wizualnych wykorzystano niestandardowy program wykorzystujący interfejs programowania aplikacji (OpenGL). Autorzy stworzyli bodźce wizualne do wskaźników kosztów i nagród.

Rejestracja i akwizycja danych

Lokalizację istoty czarnej oszacowano na podstawie zdjęć MR. Epoksydową elektrodę wolframową (średnica trzonu, 0.25 mm, 0.5 – 1.5 MΩ mierzone przy 1000 Hz, FHC) włożono do istoty czarnej za pomocą mikromanipulatora (MO-972, Narishige, Tokio, Japonia) zamontowanego na komorze rejestracyjnej rura prowadząca ze stali nierdzewnej. Sygnały napięciowe zostały wzmocnione (× 10,000) i przefiltrowane (0.5 – 2 kHz). Potencjały czynnościowe z pojedynczego neuronu izolowano za pomocą algorytmu dopasowującego szablon (OmniPlex, Plexon, Dallas, TX, USA). Ruch oczu monitorowano za pomocą systemu kamery na podczerwień z częstotliwością próbkowania 500 Hz (iView X Hi-Speed Primate, SMI, Teltow, Niemcy). Czas potencjałów czynnościowych i zdarzeń behawioralnych rejestrowano z rozdzielczością czasową 1 kHz.

Analiza danych

Aby przeanalizować zachowanie małp, RT określono jako odstęp czasu między początkiem bodźca a czasem, w którym małpy zainicjowały sakadę. Inicjację sakkady określono przez obliczenie czasu, w którym pozycja spojrzenia przekroczyła odchylenia standardowe 5 od średniej pozycji spojrzenia przed prezentacją wskazówki.

W zadaniu eksploracji HLC zachowanie małp w zakresie wyboru zostało określone ilościowo poprzez dopasowanie skumulowanej funkcji wykładniczej. Funkcja (P) opisuje proporcje prawidłowego wyboru w następujący sposób:

P = 1 2 + (1 2 - 1 2 \cdot exp (- a \cdot t)) \cdot b,

(1)

gdzie t oznacza próbę, a i b wskazują odpowiednio nachylenie i plateau krzywej. Ta funkcja została dopasowana niezależnie do danych dla dwóch warunków kosztowych. Parametry funkcji zostały przeszukane, aby zmaksymalizować prawdopodobieństwo obserwacji danych z pojedynczej sesji i danych uśrednionych. Zastosowano metodę ładowania początkowego, aby oszacować przedziały ufności przy dopasowywaniu do uśrednionych danych. Do kwantyfikacji danych behawioralnych zastosowano również standardowy model RL. Wartości bodźców V_j(t) dla wybranego wyboru j (j = 1 dla warunku HC; j = 2 dla warunku LC) zostały zaktualizowane w następujący sposób:

V j (t + 1) = V j (t) + α j \cdot (R (t) - V j (t)),

(2)

gdzie α_j wskazują wskaźniki uczenia się, które były ograniczone do wartości między 0 a 1. R(t) wskazuje kwotę nagrody (1: nagrodzony, 0: brak nagrody) na okres próbny t.

Prawdopodobieństwo P_j(t) wyboru bodźca j z dwóch bodźców podczas próby t jest podany przez regułę softmax

P j (t) = e x p (V j ( t ) β j) / \sum 2 i = 1 e x p (V i ( t ) β i),

(3)

gdzie β_j wskazuje zakres eksploracji.

Zarejestrowaliśmy aktywność neuronalną podczas sakkady HLC i niepewnego zadania HLC, ale nie podczas zadania eksploracyjnego HLC. Zadanie eksploracyjne KŁS zostało zrealizowane jako badanie czysto behawioralne. Neurony dopaminy zostały zidentyfikowane, jeśli wykazywały każdą z następujących właściwości: niską częstotliwość wyładowań tonicznych (<6 Hz), długi czas trwania fali szczytowej (> 300 μs) i fazową odpowiedź na nieprzewidywalną nagrodę (ryc. 2a). Przeanalizowaliśmy próby, w których małpy mogły ukończyć próbę bez żadnych błędów (utrwalenie hamowania, brak sakady lub sztucznego przerwania). Średnią szybkość wyzwalania neuronu obliczono za pomocą przedziałów ms 1 i wygładzono za pomocą jądra Gaussa (σ = 30 ms, szerokość = 4σ) w celu uzyskania funkcji gęstości skoków. Odpowiedzi neuronów dopaminowych na każde zdarzenie zadania obliczono jako znormalizowaną szybkość wyzwalania w stosunku do spontanicznej aktywności (średnia szybkość wyzwalania podczas 500 ms przed rozpoczęciem początku sygnalizacji). Szybkości strzelania zostały obliczone w ramach czasowych określonych dla każdego zdarzenia zadania i przedmiotu. Te przedziały czasowe zostały określone na podstawie aktywności uśrednionej dla populacji. Zdefiniowaliśmy punkt początkowy i końcowy przedziałów czasowych określonych na podstawie czasu wzrostu i spadku odpowiedzi uśrednionej w populacji, korzystając z wcześniejszych badań nad dopaminą u małp jako odniesień (rys. Uzupełniający. 3). Okno czasowe dla początku cue zostało zdefiniowane jako 200 – 400 ms po rozpoczęciu cue startu dla neuronów zarejestrowanych od małp P i S. Okno czasowe dla cue warunku zostało zdefiniowane jako 150 – 300 ms po początku cue warunku dla małpy P i 200 – 400 ms dla małpy S. Okno czasowe dla wskazówki nagrody zostało zdefiniowane jako 140 – 350 ms po rozpoczęciu wskazówki dla małpy P i 220 – 420 ms dla małpy S. Okno czasu dla dostawy nagrody zdefiniowano jako 225– 475 ms po nadejściu sygnału dźwiękowego dla małpy P i 200 – 450 ms dla małpy S. Okno czasowe nieprzewidywalnego dostarczenia nagrody zdefiniowano jako 100 – 300 ms po dostarczeniu nagrody dla małpy P i 150 – 300 ms dla małpy S. okno czasowe dla nieprzewidywalnego wdechu zdefiniowano jako 30 – 230 ms po dostarczeniu wdechu u małpy P i 50 – 200 ms dla małpy S.

Sklasyfikowaliśmy wszystkie zarejestrowane neurony dopaminy na dwie odrębne kategorie, wartości motywacyjne i typy istotności. Jeśli odpowiedź neuronu na bodźce z podmuchu powietrza była mniejsza niż aktywność spontaniczna, neuron klasyfikowano jako należący do typu motywacyjnego (ryc. 3d, e). W przeciwieństwie do tego, jeśli odpowiedź neuronu na bodźce pneumatyczne była większa niż aktywność spontaniczna, neuron został sklasyfikowany jako typu salience (ryc. 3g, godz).

Aby określić ilościowo zróżnicowaną aktywność neuronalną między warunkami zadaniowymi, przeprowadzono analizę ROC. Obliczyliśmy auROC dla każdego neuronu. Wartość auROC mniejsza lub większa niż 0.5 wskazuje odpowiednio na mniejszą lub większą odpowiedź w badaniu HC. Ponieważ liczba neuronów w niektórych zestawach danych neuronalnych była niewielka, zastosowaliśmy test rangowanych znaków Wilcoxona, aby zmniejszyć wpływ wartości odstających na ilościowe określenie tendencyjnego rozkładu auROC.

Do przeprowadzenia wszystkich analiz danych wykorzystano dostępne w handlu oprogramowanie MATLAB (MathWorks, Natick, MA, USA).

Badanie histologiczne

Po eksperymencie z rejestracją obie małpy uśmiercono i przeprowadzono analizę histologiczną w celu zweryfikowania pozycji zapisu (ryc. 2b). Małpy uśmiercano przez podanie śmiertelnej dawki pentobarbitalu sodu (70 mg kg^-1) i perfundowane 4% formaldehydem w buforze fosforanowym. Szeregowe skrawki wieńcowe (grubość, 10 μm) wycięto i wybarwiono immunologicznie przeciwciałem przeciw hydroksylazie anty-tyrozynowej (TH) (co każde skrawki 25; przeciwciało anty-TH, 1: 500; Merck, Darmstadt, Niemcy) lub barwienie Nissl (każde przekroje 25) .

Podsumowanie raportowania

Dalsze informacje na temat projektu badań są dostępne w Podsumowanie raportowania badań przyrodniczych powiązane z tym artykułem.

Dostępność danych

Dane wykorzystane w analizie tego badania są dostępne od odpowiedniego autora na uzasadnione żądanie. Podsumowanie raportu dla tego artykułu jest dostępne jako plik informacji uzupełniających. Dane źródłowe leżące u podstaw Ryc. 1, 3-8 i dodatkowe rysunki. 1, 4-12 są dostarczane jako plik danych źródłowych.

Dostępność kodu

Kody Matlab użyte w analizie tego badania są dostępne od odpowiedniego autora na uzasadnione żądanie.

Referencje

1.
Clement, TS, Feltus, JR, Kaiser, DH & Zentall, TR „Etyka pracy” u gołębi: wartość nagrody jest bezpośrednio związana z wysiłkiem lub czasem wymaganym do uzyskania nagrody. Psychon. Byk. Obrót silnika. 7, 100 – 106 (2000).
- CAS
- Artykuł
- Google Scholar
2.
Klein, ED, Bhatt, RS & Zentall, TR Kontrast i uzasadnienie wysiłku. Psychon. Byk. Obrót silnika. 12, 335 – 339 (2005).
- Artykuł
- Google Scholar
3.
Zentall, TR & Singer, RA Kontrast wewnątrzpróbkowy: gołębie preferują kondycjonowane wzmocnienia, które następują po relatywnie bardziej niż mniej awersyjnym wydarzeniu. J. Exp. Analny. Behav. 88, 131 – 149 (2007).
- Artykuł
- Google Scholar
4.
Aronson, E. & Mills, J. Wpływ nasilenia inicjacji na sympatię do grupy. J. Abnorm. Soc. Psychol. 59, 177 – 181 (1959).
- Artykuł
- Google Scholar
5.
Festinger, L. Teoria dysonansu poznawczego. (Stanford University Press, Kalifornia, 1957).
- Google Scholar
6.
Alessandri, J., Darcheville, JC, Delevoye-Turrell, Y. & Zentall, TR Preferowane nagrody za większy wysiłek i większe opóźnienie. Learn Behav. 36, 352 – 358 (2008).
- Artykuł
- Google Scholar
7.
Schultz, W., Carelli, RM i Wightman, RM Fazowe sygnały dopaminy: od subiektywnej wartości nagrody do formalnej użyteczności ekonomicznej. Curr. Opin. Behav. Sci. 5, 147 – 154 (2015).
- Artykuł
- Google Scholar
8.
Schultz, W., Dayan, P. i Montague, PR Neuronowy substrat przewidywania i nagrody. nauka 275, 1593 – 1599 (1997).
- CAS
- Artykuł
- Google Scholar
9.
Bromberg-Martin, ES, Matsumoto, M. & Hikosaka, O. Dopamine w kontroli motywacyjnej: nagradzająca, awersyjna i alarmująca. Neuron 68, 815 – 834 (2010).
- CAS
- Artykuł
- Google Scholar
10.
Bayer, HM & Glimcher, PW Midbrain neurony dopaminowe kodują ilościowy sygnał błędu przewidywania nagrody. Neuron 47, 129 – 141 (2005).
- CAS
- Artykuł
- Google Scholar
11.
Nakahara, H., Itoh, H., Kawagoe, R., Takikawa, Y. & Hikosaka, O. Neurony dopaminowe mogą reprezentować zależny od kontekstu błąd przewidywania. Neuron 41, 269 – 280 (2004).
- CAS
- Artykuł
- Google Scholar
12.
Tobler, PN, Fiorillo, CD & Schultz, W. Adaptacyjne kodowanie wartości nagrody przez neurony dopaminowe. nauka 307, 1642 – 1645 (2005).
- ADS
- CAS
- Artykuł
- Google Scholar
13.
Nomoto, K., Schultz, W., Watanabe, T. & Sakagami, M. Czasowo rozszerzone odpowiedzi dopaminy na wymagające percepcyjnie bodźce przewidujące nagrodę. J. Neurosci. 30, 10692 – 10702 (2010).
- CAS
- Artykuł
- Google Scholar
14.
Watabe-Uchida, M., Zhu, L., Ogawa, SK, Vamanrao, A. & Uchida, N. Całomózgowe mapowanie bezpośrednich wejść do neuronów dopaminowych śródmózgowia. Neuron 74, 858 – 873 (2012).
- CAS
- Artykuł
- Google Scholar
15.
Tanaka, SC i in. Przewidywanie nagród bezpośrednich i przyszłych w różny sposób rekrutuje pętle zwojów korowo-podstawnych. Nat. Neurosci. 7, 887 – 893 (2004).
- CAS
- Artykuł
- Google Scholar
16.
Haber, SN, Kim, KS, Mailly, P. & Calzavara, R. Rekordowe dane wejściowe związane z nagrodami definiują duży obszar prążkowia u naczelnych, który styka się z asocjacyjnymi połączeniami korowymi, zapewniając podłoże do uczenia się opartego na zachętach. J. Neurosci. 26, 8368 – 8376 (2006).
- CAS
- Artykuł
- Google Scholar
17.
Doya, K. Modulatory podejmowania decyzji. Nat. Neurosci. 11, 410 – 416 (2008).
- CAS
- Artykuł
- Google Scholar
18.
Roesch, MR, Calu, DJ & Schoenbaum, G. Neurony dopaminowe kodują lepszą opcję u szczurów decydujących o różnie opóźnionej lub wielkości nagrody. Nat. Neurosci. 10, 1615 – 1624 (2007).
- CAS
- Artykuł
- Google Scholar
19.
Lak, A., Stauffer, WR i Schultz, W. Odpowiedzi na błąd przewidywania dopaminy integrują subiektywne wartości z różnych wymiarów nagrody. Proc. Natl Acad. Sci. USA 111, 2343 – 2348 (2014).
- ADS
- CAS
- Artykuł
- Google Scholar
20.
Stauffer, WR, Lak, A. & Schultz, W. Odpowiedzi na błąd przewidywania nagrody dopaminy odzwierciedlają marginalną użyteczność. Curr. Biol. 24, 2491 – 2500 (2014).
- CAS
- Artykuł
- Google Scholar
21.
Noritake, A., Ninomiya, T. & Isoda, M. Monitorowanie i wycena nagród społecznych w mózgu makaków. Nat. Neurosci. 21, 1452 – 1462 (2018).
- CAS
- Artykuł
- Google Scholar
22.
Pasquereau, B. & Turner, RS Ograniczone kodowanie wysiłku neuronów dopaminowych w zadaniu koszt-korzyść. J. Neurosci. 33, 8288 – 8300 (2013).
- CAS
- Artykuł
- Google Scholar
23.
Varazzani, C., San-Galli, A., Gilardeau, S. & Bouret, S. Noradrenaline and dopamine neurons in the wynagrodzenie / wysiłek: bezpośrednie porównanie elektrofizjologiczne zachowań małp. J. Neurosci. 20, 7866 – 7877 (2015).
- Artykuł
- Google Scholar
24.
Watanabe, N., Sakagami, M. & Haruno, M. Sygnał błędu przewidywania nagrody wzmocniony przez interakcję prążkowia-ciało migdałowate wyjaśnia przyspieszenie probabilistycznego uczenia się nagrody przez emocje. J. Neurosci. 33, 4487 – 4493 (2013).
- CAS
- Artykuł
- Google Scholar
25.
Di Ciano, P., Cardinal, RN, Cowell, RA, Little, SJ & Everitt, B.Różne zaangażowanie receptorów NMDA, AMPA / kainianu i dopaminy w rdzeniu jądra półleżącego w nabywaniu i wykonywaniu zachowania podejścia Pawłowa. J. Neurosci. 21, 9471 – 9477 (2001).
- Artykuł
- Google Scholar
26.
Flagel, SB i in. Selektywna rola dopaminy w uczeniu się nagrody-bodźca. Natura 469, 53 – 57 (2011).
- ADS
- CAS
- Artykuł
- Google Scholar
27.
Blough, DS Wpływ gruntowania, dyskryminacji i wzmocnienia na składniki czasu poszukiwań gołębi w czasie reakcji. J. Exp. Psychol. Anim. Behav. Proces. 26, 50 – 63 (2000).
- CAS
- Artykuł
- Google Scholar
28.
Matsumoto, M. i Hikosaka, O. Dwa typy neuronów dopaminowych wyraźnie przekazują pozytywne i negatywne sygnały motywacyjne. Natura 459, 837 – 841 (2009).
- ADS
- CAS
- Artykuł
- Google Scholar
29.
Matsumoto, M. & Takada, M. Wyraźne reprezentacje sygnałów poznawczych i motywacyjnych w neuronach dopaminowych śródmózgowia. Neuron 79, 1011 – 1024 (2013).
- CAS
- Artykuł
- Google Scholar
30.
Watanabe, M. i in. Reakcje behawioralne odzwierciedlające zróżnicowane oczekiwania dotyczące nagrody u małp. Exp. Brain Res. 140, 511 – 518 (2001).
- CAS
- Artykuł
- Google Scholar
31.
Takikawa, Y., Kawagoe, R. & Hikosaka, O. Możliwa rola śródmózgowia neuronów dopaminowych w krótko- i długoterminowej adaptacji sakkad do mapowania pozycji i nagrody. J. Neurophysiol. 92, 2520 – 2529 (2004).
- Artykuł
- Google Scholar
32.
Kobayashi, S. & Schultz, W. Wpływ opóźnienia nagrody na odpowiedzi neuronów dopaminowych. J. Neurosci. 28, 7837 – 7846 (2008).
- CAS
- Artykuł
- Google Scholar
33.
Enomoto, K. i in. Neurony dopaminy uczą się kodować długoterminową wartość wielu przyszłych nagród. Proc. Natl Acad. Sci. USA 108, 15462 – 15467 (2011).
- ADS
- CAS
- Artykuł
- Google Scholar
34.
Lak, A., Nomoto, K., Keramati, M., Sakagami, M. & Kepecs, A. Midbrain Neurony dopaminowe sygnalizują wiarę w trafność wyboru podczas podejmowania decyzji percepcyjnej. Curr. Biol. 27, 821 – 832 (2017).
- CAS
- Artykuł
- Google Scholar
35.
Williams, BA i McDevitt, MA Hamowanie i nadwarunkowanie. Psychol. Sci. 13, 454 – 459 (2002).
- Artykuł
- Google Scholar
36.
Behrens, TE, Woolrich, MW, Walton, ME & Rushworth, MF Poznanie wartości informacji w niepewnym świecie. Nat. Neurosci. 10, 1214 – 1221 (2007).
- CAS
- Artykuł
- Google Scholar
37.
Seymour, B. i in. Procesy neuronalne przeciwdziałające apetycji i niechęci są podstawą predykcyjnego uczenia się łagodzenia bólu. Nat. Neurosci. 8, 1234 – 1240 (2005).
- CAS
- Artykuł
- Google Scholar
38.
Kim, H., Shimojo, S. & O'Doherty, JP Czy unikanie awersyjnego wyniku jest satysfakcjonujące? Neuronalne substraty uczenia się unikania w ludzkim mózgu. PLoS Biol. 4, e233 (2006).
- Artykuł
- Google Scholar
39.
Syed, EC i in. Inicjacja akcji kształtuje mezolimbiczne kodowanie dopaminy przyszłych nagród. Nat. Neurosci. 19, 34 – 36 (2016).
- CAS
- Artykuł
- Google Scholar

Pobierz odniesienia

Podziękowania

Ta praca była wspierana przez MEXT / JSPS Grants-in-Aid for Research Research (Kakenhi) Numery grantów JP16H06571 i JP18H03662 dla MS Te badania były częściowo wspierane przez Strategiczny Program Badań Nauk o Mózgu wspierany przez Japońską Agencję Badań Medycznych i Rozwoju (AMED ) oraz japońsko-amerykański program współpracy w zakresie badań mózgu. Badania te zostały wsparte przez National Bio-Resource Project w National Institute of Physiological Science (NBRP at NIPS) z Japan Agency for Medical Research and Development, AMED. Dziękujemy Bernardowi W. Balleine i Andrew R. Delamaterowi za pomoc w napisaniu pracy.

Autor informacji

przynależność

Brain Science Institute, Tamagawa University, 6-1-1 Tamagawagakuen, Machida, Tokio, 194-8610, Japonia
- Shingo Tanaka
- & Masamichi Sakagami
Zakład Nauk Humanistycznych i Społecznych, California Institute of Technology, 1200 E California Blvd, Pasadena, Kalifornia, 91125, USA
- John P. O'Doherty
Systemy obliczeniowe i neuronowe, California Institute of Technology, 1200 E California Blvd, Pasadena, CA, 91125, USA
- John P. O'Doherty

Wpłaty na siódmą tradycję

ST, JPO i MS zaprojektowały eksperymenty. ST przeprowadził eksperymenty i przeanalizował dane. JPO i MS dopracowały eksperymenty i analizy danych. ST, JPO i MS napisali manuskrypt.

Odpowiedni autor

Korespondencja do Masamichi Sakagami.

Koszt uzyskania nagrody zwiększa sygnał błędu prognozowania nagrody neuronów dopaminy śródmózgowia (2019)