Sygnały Dopamine dla nagrody i wartości oraz podstawowe i nowe dane (2010)

Wolfram Schultz 1

Behav Brain Funct. 2010; 6: 24.

Opublikowano w Internecie 2010 April 23. doi: 10.1186 / 1744-9081-6-24.

PEŁNE STUDIUM: Sygnały dopaminowe dla wartości nagrody i ryzyka Podstawowe i najnowsze dane

1 Katedra Fizjologii, Rozwoju i Neurologii, Uniwersytet Cambridge, Downing Street, Cambridge CB2 3DY, UK

Autor korespondujący.

Wolfram Schultz: [email chroniony]

Abstrakcyjny

tło

Poprzednie zmiany, elektryczne autostymulacja i badania nad uzależnieniem od narkotyków sugerują, że układy dopaminowe śródmózgowia są częścią układu nagrody w mózgu. Niniejszy przegląd zawiera zaktualizowany przegląd podstawowych sygnałów neuronów dopaminowych na bodźce środowiskowe.

Metody

Opisane eksperymenty wykorzystywały standardowe metody behawioralne i neurofizjologiczne do rejestrowania aktywności pojedynczych neuronów dopaminowych u przebudzonych małp podczas określonych zadań behawioralnych.

wyniki

Neurony dopaminowe wykazują aktywację fazową na bodźce zewnętrzne. Sygnał odzwierciedla nagrodę, wyostrzenie fizyczne, ryzyko i karę, w porządku malejącym ułamków odpowiadających neuronów. Oczekiwana wartość nagrody jest kluczową zmienną decyzyjną dla wyborów gospodarczych. Kody odpowiedzi na nagrodę to wartość nagrody, prawdopodobieństwo i zsumowany produkt, wartość oczekiwana. Wartość kodu neuronów nagradza się, ponieważ różni się od predykcji, spełniając tym samym podstawowy wymóg dla dwukierunkowego błędu nauczania sygnału prognozowania postulowanego przez teorię uczenia się. Ta odpowiedź jest skalowana w jednostkach odchylenia standardowego. W przeciwieństwie do tego, stosunkowo niewiele neuronów dopaminowych wykazuje aktywację fazową po punisherach i uwarunkowanych bodźcach awersyjnych, co sugeruje brak związku odpowiedzi nagrody na ogólną uwagę i pobudzenie. Duże proporcje neuronów dopaminowych są również aktywowane przez intensywne, fizycznie istotne bodźce. Ta odpowiedź jest wzmocniona, gdy bodźce są nowe; wydaje się, że różni się od sygnału wartości nagrody. Neurony dopaminowe wykazują również niespecyficzne aktywacje bodźców nie nagradzających, które prawdopodobnie są spowodowane uogólnieniem przez podobne bodźce i pseudokonserwację przez nagrody pierwotne. Aktywacje te są krótsze niż odpowiedzi nagradzające i często następuje depresja aktywności. Oddzielny, wolniejszy sygnał dopaminy informuje o ryzyku, innej ważnej zmiennej decyzyjnej. Odpowiedź błędu przewidywania występuje tylko z nagrodą; jest skalowane przez ryzyko przewidywanej nagrody.

wnioski

Badania neurofizjologiczne ujawniają fazowe sygnały dopaminy, które przekazują informacje związane głównie, ale nie wyłącznie, z nagrodą. Chociaż sygnał nie jest całkowicie jednorodny, sygnał dopaminy jest bardziej ograniczony i stereotypowy niż aktywność neuronów w większości innych struktur mózgu zaangażowanych w zachowanie ukierunkowane na cel.

tło

Wyniki badań zmian i badań psychofarmakologicznych sugerują szeroki zakres funkcji behawioralnych dla układów dopaminowych śródmózgowia. Kluczowe pytanie brzmi: która z tych wielu funkcji jest aktywnie kodowana przez fazowy sygnał dopaminowy zgodny z szybkimi mechanizmami neuronalnymi? Dobre podpowiedzi pochodzą z uzależnienia od narkotyków i elektrycznej autostymulacji, co sugeruje, że aktywność dopaminy przynosi satysfakcję i przynosi efekty [1,2].

Możemy definiować nagrody jako obiekty lub zdarzenia, które generują podejście i zachowania konsumpcyjne, powodują uczenie się takich zachowań, reprezentują pozytywne wyniki decyzji ekonomicznych i angażują pozytywne emocje i uczucia hedoniczne. Nagrody są kluczowe dla przetrwania jednostek i genów oraz wspierają podstawowe procesy, takie jak picie, jedzenie i rozmnażanie. Ta definicja behawioralna przypisuje funkcję nagradzania także pewnym niealicjalnym i nieseksualnym podmiotom, w tym pieniądzom, artefaktom technicznym, estetycznym atrybutom bodźców i zdarzeniom psychicznym. Nagrody angażują agentów w tak różnorodne zachowania, jak żerowanie i handel na giełdach.

Podstawowe pojęcia

Nagrody mają określoną wielkość i występują z określonym prawdopodobieństwem. Agenci dążą do optymalizacji wyborów pomiędzy opcjami, których wartości są określone przez rodzaj obiektu wyboru oraz jego wielkość i prawdopodobieństwo [3]. Dlatego nagrody można odpowiednio opisać rozkładami prawdopodobieństwa wartości nagród. W idealnym świecie te rozkłady spełniają funkcję Gaussa, z ekstremalnymi nagrodami występującymi rzadziej niż wyniki pośrednie. Testy eksperymentalne często używają binarnych rozkładów prawdopodobieństwa z wartościami równoważnymi (każda wartość nagrody występuje przy p = 0.5). Rozkłady prawdopodobieństwa Gaussa i binarne są w pełni opisane przez matematyczną wartość oczekiwaną (pierwszy moment rozkładu prawdopodobieństwa) oraz dyspersje lub odchylenia wartości od średniej, a mianowicie (oczekiwaną) wariancję (drugi moment) lub (oczekiwane) odchylenie standardowe (pierwiastek kwadratowy) wariancji). Wariancja i odchylenie standardowe są często uważane za miary ryzyka. W ekonomii behawioralnej termin „ryzyko” odnosi się do pewnej postaci niepewności, w której rozkład prawdopodobieństwa jest znany, podczas gdy „niejednoznaczność” wskazuje na niepełną wiedzę o prawdopodobieństwach i jest często nazywana po prostu „niepewnością”. Ryzyko odnosi się do szansy na wygraną lub przegraną, a nie do węższego, zdroworozsądkowego skojarzenia ze stratą.

Przewidywania mają fundamentalne znaczenie dla podejmowania świadomych decyzji poprzez dostarczanie zaawansowanych informacji na temat dostępnych opcji wyboru, w przeciwieństwie do domysłów, które występują, gdy wyniki są nieznane. Ponieważ nagrodę można określić ilościowo za pomocą rozkładów prawdopodobieństwa wartości, przewidywania nagrody określają wartość oczekiwaną i (oczekiwaną) wariancję lub odchylenie standardowe rozkładu.

Presja ewolucyjna sprzyja energooszczędnemu przetwarzaniu informacji. Jednym z potencjalnych rozwiązań jest przechowywanie prognoz dotyczących przyszłych zdarzeń w wyższych ośrodkach mózgowych i obliczanie w niższych ośrodkach mózgowych różnicy między nowymi informacjami środowiskowymi a przechowywanymi prognozami. Rozbieżność między faktycznym zdarzeniem a jego przewidywaniem nazywa się błędem przewidywania zdarzeń. Nadążanie za zmieniającą się sytuacją środowiskową przez wyższe centra mózgowe wymagałoby po prostu aktualizacji prognoz z mniejszą ilością informacji zawierających i mniej energochłonnych błędów prognozowania niż przetwarzanie pełnych informacji peryferyjnych za każdym razem, gdy zmieniła się jedna mała rzecz [4]. W ten sposób ośrodki wyższego mózgu mają dostęp do pełnej informacji o świecie zewnętrznym w celu postrzegania, podejmowania decyzji i reakcji behawioralnych przy znacznie niższym koszcie energii. Ta podstawowa właściwość prognoz prowadzi do obserwowalnego zjawiska uczenia się, określonego przez zmiany w zachowaniu w oparciu o zaktualizowane prognozy.

Teoria uczenia się zwierząt i efektywne modele wzmacniania różnic czasowych postulują, że błędy przewidywania wyników są kluczowe dla warunkowania Pawłowa i warunkowania instrumentalnego [5,6]. Obecne poglądy konceptualizują uczenie się Pawłowa jako jakąkolwiek formę przewidywania, która prowadzi do zmienionych reakcji wegetatywnych lub skurczów mięśni poprzecznie prążkowanych, o ile wynik nie jest uzależniony od reakcji behawioralnej. W ten sposób prognozy nagród Pawłowa dostarczają informacji nie tylko o wartości nagrody (wartości oczekiwanej), ale także o ryzyku (wariancji) przyszłych nagród, co stanowi ważne rozszerzenie koncepcji zaproponowanej przez Pawłowa sto lat temu. Znaczenie błędów przewidywania opiera się na efekcie blokującym Kamina [7], który pokazuje, że uczenie się i wygaszanie postępują tylko w takim stopniu, w jakim wzmacniacz jest lepszy lub gorszy niż przewidywano; uczenie się zwalnia stopniowo, gdy przewidywanie zbliża się asymptotycznie do wartości wzmacniacza.

Odpowiedź dopaminy na nagrodę za przyjęcie

Większość neuronów dopaminowych śródmózgowia (75-80%) wykazuje raczej stereotypowe, fazowe aktywacje z opóźnieniami <100 ms i czasem trwania <200 ms po chwilowo nieprzewidywalnych nagrodach pożywieniu i płynach (ryc. 1A) .1A). Ta odpowiedź typu burst zależy od aktywacji i plastyczności receptorów glutaminergicznych NMDA i AMPA zlokalizowanych na neuronach dopaminowych [8-12]. Wybuch jest krytyczny dla behawioralnego uczenia się zadań apetytywnych, takich jak uwarunkowana preferencja miejsca i wybór labiryntu T dla nagrody pożywienia lub kokainy oraz warunkowych reakcji strachu [9].

Rysunek 1

Fazowe aktywacje neurofizjologicznej aktywności impulsowej neuronów dopaminy. O: Aktywacje fazowe po nagrodach podstawowych. B: Aktywacje fazowe następujące po warunkowych, przewidujących nagrodę bodźcach. C: U góry: Brak aktywacji fazowej po pierwotnej (więcej…)

Kodowanie błędów przewidywania nagród

Odpowiedź dopaminy na dostarczenie nagrody wydaje się kodować błąd przewidywania; nagroda, która jest lepsza od przewidywanej, wywołuje aktywację (błąd przewidywania dodatniego), w pełni przewidywana nagroda nie wywołuje odpowiedzi, a nagroda, która jest gorsza niż przewidywana, wywołuje depresję (błąd negatywny) [13-24]. Zatem reakcja dopaminy realizuje w pełni kluczowy termin modelu uczenia się Rescorla-Wagnera i bardzo przypomina sygnał dydaktyczny efektywnych modeli uczenia się wzmacniających różnicę czasową [6,23].

Odpowiedź błędu zmienia się ilościowo wraz z różnicą między otrzymaną wartością nagrody a oczekiwaną wartością nagrody [18-23]. Odpowiedź błędu prognozowania jest wrażliwa na czas nagrody; opóźniona nagroda powoduje depresję w pierwotnym czasie i aktywację w nowym czasie [24,25]. Ilościowe kodowanie błędów jest oczywiste dla aktywacji odzwierciedlających błędy prognozowania dodatniego. Natomiast depresja występująca z błędami przewidywania negatywnego wykazuje naturalnie węższy zakres dynamiczny, ponieważ aktywność neuronowa nie może spaść poniżej zera, a odpowiednia ocena ilościowa wymaga uwzględnienia pełnego okresu depresji [26].

Zatem neurony dopaminowe reagują na nagrodę tylko w takim stopniu, w jakim różni się od przewidywania. Ponieważ przewidywanie pochodzi z wcześniej doświadczonej nagrody, neurony dopaminowe są aktywowane tylko wtedy, gdy obecna nagroda jest lepsza niż poprzednia nagroda. Ta sama nagroda nie uruchomi neuronów dopaminowych. Jeśli aktywacja neuronów dopaminowych ma pozytywnie wzmacniający wpływ na zachowanie, tylko zwiększenie nagród zapewni ciągłe wzmocnienie poprzez mechanizmy dopaminergiczne. Może to być jeden z powodów, dla których stałe, niezmienne nagrody wydają się tracić stymulujący wpływ i dlatego zawsze potrzebujemy więcej nagród.

Surowe testy kodowania błędów przewidywania nagrody

Teoria uczenia się zwierząt opracowała formalne paradygmaty do testowania błędów przewidywania nagrody. W teście blokowania [7], bodziec, który jest sparowany z w pełni przewidywaną nagrodą, nie może być nauczony, a zatem nie staje się ważnym predyktorem nagrody. Brak nagrody po zablokowanym bodźcu nie stanowi błędu przewidywania i nie prowadzi do odpowiedzi w neuronach dopaminowych, nawet po rozległym parowaniu bodźca z nagrodą [27]. Przeciwnie, dostarczenie nagrody po zablokowanym bodźcu stanowi pozytywny błąd przewidywania i odpowiednio wywołuje aktywację dopaminy.

Uwarunkowany paradygmat hamowania [28] oferuje dodatkowy test błędów prognozowania. W zadaniu stosowanym w naszych eksperymentach, bodziec testowy jest prezentowany jednocześnie z ustalonym bodźcem przewidującym nagrodę, ale nie otrzymuje nagrody po związku, co sprawia, że ​​bodziec testowy jest predyktorem braku nagrody. Pominięcie nagrody po takim kondycjonowanym inhibitorze nie stanowi błędu przewidywania ujemnego i dlatego nie wywołuje depresji w neuronach dopaminowych [29]. Natomiast dostarczenie nagrody po tym, jak inhibitor wywołuje silny pozytywny błąd predykcji i odpowiednio silną aktywację dopaminy.

Wyniki tych dwóch formalnych testów potwierdzają, że neurony dopaminowe wykazują dwukierunkowe kodowanie błędów przewidywania nagrody.

Adaptacyjne kodowanie błędów przewidywania nagrody

W ogólnym sensie bodziec przewidywania nagrody określa wartość przyszłych nagród poprzez informowanie o rozkładzie prawdopodobieństwa wartości nagrody. Zatem bodziec wskazuje wartość oczekiwaną (pierwsza chwila) i (oczekiwaną) wariancję (drugi moment) lub odchylenie standardowe rozkładu.

Odpowiedź błędu przewidywania wartości dopaminy jest wrażliwa zarówno na pierwszy, jak i drugi moment przewidywanego rozkładu nagrody w dwie sekundy po bodźcu. W eksperymencie różne bodźce wzrokowe mogą przewidywać określone binarne rozkłady prawdopodobieństwa równych wielkości nagród o różnych oczekiwanych wartościach i wariancjach. Ponieważ odpowiedź błędu prognozowania odzwierciedla różnicę między otrzymaną i oczekiwaną wartością nagrody, identyczna wielkość otrzymanej nagrody powoduje albo zwiększenie, albo zmniejszenie aktywności dopaminy, zależnie od tego, czy nagroda ta jest większa, czy mniejsza niż jej przewidywanie, odpowiednio [23]. Wynik ten sugeruje, że kodowanie błędu przewidywania wartości dostarcza informacji w odniesieniu do wartości odniesienia lub wartości kotwicy.

Kodowanie dopaminowe błędu przewidywania wartości nagrody dostosowuje się do wariancji lub odchylenia standardowego rozkładu. W rozkładzie binarnym równych szans, dostarczenie nagrody o większej wielkości w obrębie każdego rozkładu wywołuje tę samą aktywację dopaminy z każdym rozkładem, pomimo różnic 10 krotności między otrzymanymi wielkościami nagrody (i wynikającymi z tego błędami przewidywania wartości) [23]. Obliczenia numeryczne pokazują, że odpowiedź dopaminowa koduje błąd predykcji wartości podzielony przez odchylenie standardowe przewidywanego rozkładu. Stanowiło to skuteczną normalizację lub skalowanie odpowiedzi błędu przewidywania wartości w kategoriach odchylenia standardowego, wskazując, ile uzyskana wartość nagrody różni się od wartości oczekiwanej w jednostkach odchylenia standardowego. Rozważania teoretyczne sugerują, że sygnały nauczania błędów, które są skalowane przez wariancję lub odchylenie standardowe, a nie średnie, mogą pośredniczyć w stabilnym uczeniu się, które jest odporne na przewidywane ryzyko wyników [30].

Odpowiedź dopaminy na bodźce przewidujące nagrodę

Neurony dopaminy wykazują aktywacje („pobudzenia”) w następstwie nagrody przewidującej bodźce wzrokowe, słuchowe i somatosensoryczne (rysunek (rysunek 1B) 1B) [31-33]. Reakcje zachodzą niezależnie od modalności sensorycznych i przestrzennych położeń bodźców oraz niezależnie od efektorów, czyli ruchów ramion, ust lub oczu.

Aktywacje wzrastają monotonicznie z prawdopodobieństwem nagrody [18] i wielkością nagrody, taką jak objętość cieczy [23]. Jednak reakcje dopaminy nie rozróżniają prawdopodobieństwa nagrody i wielkości, o ile oczekiwana wartość jest identyczna [23]. W ten sposób aktywacje wydają się kodować oczekiwaną wartość przewidywanych rozkładów prawdopodobieństwa nagrody. Oczekiwana wartość jest bardziej oszczędnym wyjaśnieniem, a szum w odpowiedziach neuronalnych uniemożliwia charakterystykę pod względem oczekiwanej (subiektywnej) użyteczności. Należy zauważyć, że opisane poniżej dyskontowanie czasowe ujawnia subiektywne kodowanie i może dostarczyć trochę światła na ten problem.

Wielkość odpowiedzi rośnie wraz ze spadkiem czasu reakcji behawioralnej, co wskazuje, że odpowiedź dopaminy jest wrażliwa na motywację zwierzęcia [19]. W wyborach między różnymi wartościami nagrody lub opóźnieniami, odpowiedzi dopaminy na prezentację opcji wyboru odzwierciedlają przyszłą wybraną nagrodę zwierzęcia [34] lub najwyższą możliwą nagrodę z dwóch dostępnych opcji wyboru [35].

W trakcie nauki aktywacja dopaminy do nagrody zmniejsza się stopniowo w kolejnych próbach uczenia się, a aktywacja bodźca przewidującego nagrodę rozwija się w tym samym czasie [36,37]. Nabycie warunkowej odpowiedzi jest wrażliwe na blokowanie, co wskazuje, że błędy predykcyjne odgrywają rolę w nabywaniu odpowiedzi dopaminowych na bodźce warunkowe [27]. Transfer odpowiedzi na bodźce przewidujące nagrodę jest zgodny z podstawową charakterystyką sygnałów nauczania efektywnych modeli wzmocnienia czasowej różnicy [38]. Przesunięcie odpowiedzi nie obejmuje wstecznej propagacji błędów predykcji w przedziale bodziec-nagroda wcześniejszych modeli różnic czasowych [27,38], ale jest odtwarzane w oryginalnym modelu różnic czasowych oraz w oryginalnych i nowszych implementacjach różnic czasowych [6,37,39].

Subiektywne kodowanie wartości nagrody przedstawione przez dyskontowanie czasowe

Obiektywny pomiar wartości subiektywnej nagrody według preferencji wyboru ujawnia, że ​​nagrody tracą część swojej wartości, gdy są opóźnione. W rzeczywistości szczury, gołębie, małpy i ludzie często wolą wcześniejsze mniejsze nagrody niż późniejsze większe nagrody [40-42]. Zatem subiektywna wartość nagrody wydaje się zanikać wraz z rosnącymi opóźnieniami czasowymi, nawet jeśli fizyczna nagroda, a tym samym obiektywna wartość nagrody, jest taka sama.

Miary psychometryczne międzyokresowych wyborów behawioralnych między wcześniejszymi i późniejszymi nagrodami dostosowują wielkość wczesnej nagrody do wystąpienia obojętności wyboru, zdefiniowanej jako prawdopodobieństwo wyboru każdej opcji z p = 0.5. Zatem niższa obojętność wczesnej nagrody z wyboru wskazuje na niższą subiektywną wartość późniejszej nagrody. W naszym ostatnim eksperymencie na małpach wartości obojętności wyboru dla nagród opóźnionych przez 4, 8 i 16 s zmniejszyły się monotonicznie odpowiednio o około 25%, 50% i 75%, w porównaniu z nagrodą po 2 s [43]. Spadek pasuje do funkcji dyskontowania hiperbolicznego.

Odpowiedzi dopaminowe na bodźce przewidujące nagrodę zmniejszają się monotonicznie przez opóźnienia nagrody 2 do 16 s [25,43], pomimo tej samej fizycznej ilości nagrody dostarczanej po każdym opóźnieniu. Dane te sugerują, że opóźnienia czasowe wpływają na reakcje dopaminy na nagrody przewidujące bodźce w podobny sposób, ponieważ wpływają one na subiektywną wartość nagrody ocenianą przez wybory międzyokresowe. Co ciekawe, spadek odpowiedzi na dopaminę z opóźnieniem nagrody jest nie do odróżnienia od spadku odpowiedzi przy niższej wielkości nagrody. To podobieństwo sugeruje, że opóźnienia czasowe wpływają na reakcje dopaminy poprzez zmiany wartości nagrody. Zatem dla neuronów dopaminowych opóźnione nagrody wyglądają tak, jakby były mniejsze.

Zatem neurony dopaminowe wydają się kodować raczej subiektywną niż fizyczną, obiektywną wartość opóźnionych nagród. Biorąc pod uwagę, że użyteczność jest miarą raczej subiektywnej niż obiektywnej wartości nagrody, spadek odpowiedzi przy dyskontowaniu czasowym może sugerować, że neurony dopaminowe kodują nagrodę jako (subiektywną) użyteczność, a nie jako (obiektywną) wartość. Dalsze eksperymenty mogą pomóc bardziej bezpośrednio przetestować kodowanie narzędzi.

Odpowiedź dopaminy na bodźce awersyjne

Awersyjne bodźce, takie jak podmuchy powietrza, hipertoniczna sól fizjologiczna i porażenie prądem wywołują reakcje aktywujące („pobudzające”) w niewielkim odsetku neuronów dopaminowych u przytomnych zwierząt (14% [33]; 18-29% [44]; 23% [45]) ; 11% [46]), a większość neuronów dopaminowych jest albo zahamowana w swojej aktywności, albo nie jest pod wpływem zdarzeń awersyjnych (ryc. (Rysunek 1C1C u góry). W przeciwieństwie do nagród, podmuchy powietrza nie wywołują dwukierunkowych odpowiedzi błędu przewidywania typowych dla nagrody przewidywanie tylko moduluje awersyjne aktywacje [45,46].

Stymulacja awersyjna u znieczulonych zwierząt wytwarza różne, ale często niskie stopnie głównie wolniejszych, aktywujących odpowiedzi (50% [47]; 18% [48]; 17% [49]; 14% [50]) i często depresje aktywności. Neurofizjologiczne ponowne badania z lepszą identyfikacją neuronów dopaminowych potwierdziły ogólną niską częstość niepożądanych aktywacji dopaminy u znieczulonych zwierząt [51] i zlokalizowały niechętnie odpowiadające neurony dopaminowe w brzuszno-przyśrodkowym obszarze nakrywkowym śródmózgowia [52].

Uwarunkowane bodźce prognozujące puff powietrza u obudzonych małp wywołują aktywacje w mniejszości neuronów dopaminowych i depresje w większej części neuronów dopaminowych (11% [33]; 13% [45]; 37% [46]). Odpowiedzi depresyjne anulują kilka aktywacji uśrednionych odpowiedzi populacji neuronów dopaminowych na bodźce awersyjne [33] (patrz rysunek na rysunku Rysunek 1C1C, czarny). W jednym z badań uwarunkowany bodziec awersyjny aktywował więcej neuronów niż sam puff powietrza (37% vs. 11% [46]), chociaż bodziec warunkowy jest mniej awersyjny niż pierwotne przewidywane zdarzenie awersyjne, takie jak puff powietrza. Większa liczba aktywacji bodźca warunkowego w porównaniu z zaciągnięciem się powietrza sugeruje odwrotną zależność między awersyjnością a aktywacją (im bardziej awersyjny bodziec, tym mniej aktywna) lub dodatkowy, nie-awersyjny składnik bodźca odpowiedzialny za zwiększenie odsetka aktywowanego neurony od 11% do 37%. Chociaż aktywacje bodźców korelowały dodatnio z prawdopodobieństwem puff powietrza w populacji, nie były one oceniane w poszczególnych neuronach [46]. Korelacja populacyjna może wynikać ze stosunkowo niewielkiej liczby neuronów dodatnio skorelowanych w tej populacji, a prawdziwie awersyjne aktywacje bodźców mogą być bliższe 11% niż 37%. W innym badaniu duże proporcje neuronów dopaminowych wykazały fazowe aktywacje uwarunkowanych bodźców awersyjnych, gdy były one prezentowane losowo na przemian z bodźcami przewidującymi nagrodę o tej samej modalności sensorycznej (rysunek (spód Figure1C1C, szary) (65% [33]); aktywacje były znacznie rzadsze, gdy dwa rodzaje bodźców warunkowych miały różne modalności sensoryczne (rysunek (rysunek Figure1C1C, czarny) (11%). Następny rozdział omówi czynniki, które prawdopodobnie leżą u podstaw tych niewyjaśnionych aktywacji do awersyjnych i innych niewymagających bodźców.

Chociaż niektóre neurony dopaminowe są aktywowane przez zdarzenia awersyjne, największa aktywacja dopaminy wiąże się z nagrodą. Dane uzyskane innymi metodami prowadzą do podobnych wniosków. Szybka woltamperometria w zachowujących się szczurach wykazuje uwalnianie dopaminy z prążkowia indukowane przez nagrodę i przejście na nagrody przewidujące bodźce po warunkowaniu [53], co sugeruje, że odpowiedzi impulsowe neuronów dopaminowych prowadzą do odpowiedniego uwalniania dopaminy z żylaków prążkowia. Wzrost dopaminy trwa zaledwie kilka sekund, a zatem ma najkrótszy przebieg wszystkich metod neurochemicznych, najbliższy aktywacji elektrofizjologicznej. Uwalnianie dopaminy jest zróżnicowane dla nagrody (sacharozy) i nie występuje z karą (chinina) [54]. Ponieważ woltamperometria ocenia lokalne średnie stężenia dopaminy, brak mierzalnego uwalniania za pomocą chininy może ukryć kilka aktywacji anulowanych przez obniżenie odpowiedzi populacji dopaminy [33]. Badania z zastosowaniem bardzo czułej mikrodializy in vivo wykrywają uwalnianie dopaminy po bodźcach awersyjnych [55].

Ta odpowiedź może odzwierciedlać zmianę dopaminy indukowaną przez kilka neuronów aktywowanych przez bodźce awersyjne, chociaż przebieg czasowy pomiarów mikrodializy jest o 300-500 razy wolniejszy niż odpowiedź impulsowa i może być wystarczający do umożliwienia oddziaływaniom presynaptycznym wpływania na uwalnianie dopaminy [56] . Zakłócenie wybuchu neuronów dopaminowych zakłóca kilka apetycznych zadań uczenia się, ale także warunkowanie strachu [9]. Wynik może sugerować funkcję uczenia się niepożądanych odpowiedzi dopaminowych, jeśli wykluczone jest niespecyficzne, ogólnie uniemożliwiające działanie niższego stężenia dopaminy, które pozostaje do wykazania. Specyficzna stymulacja neuronów dopaminowych metodami optogenetycznymi za pośrednictwem genetycznie wstawionego kanału rodopsyny indukuje warunkowanie preferencji miejsca Pawłowa u myszy [57]. W przeciwieństwie do tego, netto awersyjny efekt stymulacji dopaminą mógłby stworzyć uczenie się unikania miejsca. Wyniki te potwierdzają koncepcję globalnej pozytywnej funkcji wzmacniającej układy dopaminowe pochodzące z wcześniejszego uszkodzenia, elektrycznej autostymulacji i pracy z uzależnieniem od narkotyków [1,2]. Jednak argumenty te nie zakładają ani, że nagroda jest jedyną funkcją układów dopaminowych, ani że wszystkie funkcje nagrody dotyczą neuronów dopaminowych.

Fazowe aktywacje dopaminy nie kodują nagrody

Bodźce mogą wywoływać reakcje ostrzegawcze i uwagi, gdy są ważne fizycznie (znaczenie fizyczne) lub gdy są związane ze wzmocnieniami (znaczenie „motywacyjne” lub „uczuciowe”). Reakcje behawioralne na najistotniejsze bodźce są stopniowane odpowiednio na podstawie fizycznej intensywności bodźca i wartości wzmacniacza. Istotność fizyczna wcale nie zależy od wzmocnienia, a istotność motywacyjna nie zależy od wartościowości wzmocnień (nagroda i kara).

Odpowiedzi na bodźce najistotniejsze fizycznie

Fizycznie intensywne bodźce wzrokowe i słuchowe indukują aktywacje neuronów dopaminowych (rysunek (Figure1D) .1D). Odpowiedzi te są wzmocnione nowością bodźca [58-60], ale utrzymują się na niższym poziomie przez kilka miesięcy, pod warunkiem, że bodźce są wystarczająco intensywne fizycznie. Odpowiedzi są stopniowane zgodnie z rozmiarem bodźców (rysunek 4 w [15]). Istotność fizyczna może również częściowo wyjaśniać reakcje na pierwotnych karających ze znaczną intensywnością fizyczną [45]. Odpowiedzi te mogą stanowić oddzielny typ odpowiedzi dopaminowej związany z fizycznym znaczeniem uwagi wywołującym bodźce środowiskowe lub mogą być związane z pozytywnie motywującymi i wzmacniającymi cechami intensywnych i nowych bodźców.

Aktywacje na fizycznie istotne bodźce nie wydają się odzwierciedlać ogólnej tendencji neuronów dopaminowych do aktywacji przez jakiekolwiek zdarzenie generujące uwagę. W szczególności inne silne wydarzenia generujące uwagę, takie jak pominięcie nagrody, uwarunkowane inhibitory i bodźce awersyjne, wywołują głównie depresje i rzadko prawdziwe aktywacje dopaminy [14,29]. Zatem aktywacja dopaminy przez fizycznie istotne bodźce może nie stanowić ogólnej odpowiedzi alarmowej. Reakcja na nagrodę prawdopodobnie będzie stanowić osobną odpowiedź, która może nie odzwierciedlać uwagi generowanej przez motywacyjną istotność nagrody.

Inne aktywacje kodowania bez wynagrodzenia

Inne bodźce indukują aktywację neuronów dopaminowych bez wyraźnego kodowania wartości nagrody. Aktywacje te są mniejsze i krótsze niż odpowiedzi na bodźce przewidujące nagrodę i często następuje depresja, gdy bodźce nie są brane pod uwagę (rysunek (Figure1E1E).

Neurony dopaminowe wykazują aktywację po bodźcach kontrolnych, które są prezentowane w pseudolosowej przemianie z nagrodzonymi bodźcami [27,29,32]. Częstość aktywacji zależy od liczby alternatywnych, nagradzanych bodźców w zadaniu behawioralnym; aktywacje są częste, gdy trzy z czterech bodźców zadaniowych są nagradzane (25% -63% [27]) i stają się rzadkie, gdy tylko jeden z czterech bodźców zadania jest nieodebrany (1% [29]). Ta zależność przemawia przeciwko czysto zmysłowej naturze odpowiedzi.

Neurony dopaminowe wykazują raczej stereotypowy początkowy składnik aktywacji na bodźce przewidujące nagrody, które występują po różnych opóźnieniach [43]. Początkowa aktywacja zmienia się bardzo niewiele z opóźnieniem nagrody, a zatem wydaje się, że nie koduje wartości nagrody. Natomiast kolejny składnik odpowiedzi zmniejsza się wraz ze wzrostem opóźnień, a zatem kodów (subiektywnych) wartości nagrody (patrz wyżej).

Neurony dopaminowe wykazują częste aktywacje po uwarunkowanych bodźcach awersyjnych prezentowanych losowo na przemian z bodźcami przewidującymi nagrodę; aktywacje znikają w znacznym stopniu, gdy stosowane są różne modalności sensoryczne (65% vs. 11% neuronów [33]), sugerując kodowanie nie-awersyjnych składników bodźca. Nawet jeśli bodźce awersyjne i apetyczne są rozdzielone na różne bloki próbne, neurony dopaminowe są znacznie aktywowane przez uwarunkowane bodźce awersyjne. Jednak częstsze aktywacje bodźców warunkowych w porównaniu z bardziej awersyjnym zaciągnięciem powietrza pierwotnego (37% w porównaniu z 11% [46]) sugerują odwrotną zależność od awersji bodźców i prawdopodobnie nie-awersyjnych komponentów odpowiedzi.

Przyczyny tych różnych aktywacji dopaminy mogą leżeć w generalizacji, pseudokonserwacji lub bodźcu motywacyjnym. Generalizacja wynika z podobieństw między bodźcami. Może to wyjaśniać aktywacje dopaminy w wielu sytuacjach, a mianowicie aktywacje niewykorzystanych bodźców wzrokowych, gdy naprzemiennie z przewidywaniem bodźców wzrokowych (Rysunek (lewy Rysunek 11E) [27,29,32] i początkowy, słabo stopniowany komponent aktywacji nagradzają bodźce przewidujące opóźnienie (Rysunek (Rysunek 1E1E po prawej) [43]. Uogólnienie może odgrywać rolę, gdy bodźce o różnych modalnościach czuciowych wytwarzają mniej aktywacji dopaminy na nieodebrane bodźce niż bodźce o takich samych modalnościach, jak w przypadku wizualnych awersyjnych i dźwiękowych bodźców apetycznych (rysunek (spód Figure1C1C) [33] .

Pseudo-kondycjonowanie może powstać, gdy podstawowe wzmocnienie tworzy kontekstowe tło i prowokuje niespecyficzne reakcje behawioralne na wszelkie zdarzenia w tym kontekście [61]. Ponieważ neurony dopaminowe są bardzo wrażliwe na nagrodę, satysfakcjonujący kontekst może wywołać pseudo-warunkowanie bodźców ustawionych w tym kontekście, a zatem aktywację neuronalną. Mechanizm ten może leżeć u podstaw aktywacji neuronalnych bodźców nie nagradzających występujących w satysfakcjonującym kontekście, takim jak laboratorium, w którym zwierzę otrzymuje codzienne nagrody, niezależnie od bodźców prezentowanych w losowej przemianie z nagrodzonymi bodźcami lub w oddzielnych blokach próbnych [46]. Pseudokonserwacja może wyjaśniać aktywacje nieodebranych bodźców kontrolnych [27,29,32], większość aktywacji po bodźcach awersyjnych [33,45,46] i początkowy, słabo stopniowany komponent aktywacyjny, aby nagradzać bodźce przewidujące opóźnienie [43]. Tak więc pseudokonserwacja może wynikać z pierwotnej nagrody, a nie warunkowego bodźca i wpływać na aktywacje dopaminy zarówno na bodźce warunkowe, jak i wzmocnienia pierwotne, które występują w satysfakcjonującym kontekście.

Chociaż bodźce o istotnym wydźwięku fizycznym wydają się napędzać neurony dopaminowe [15,58-60] (patrz wyżej), bodźce, które indukują niekontrolowane aktywacje dopaminy, są często małe i nie są fizycznie bardzo istotne. Charakter motywacyjny jest z definicji wspólny dla nagród i karających, a sam w sobie może wyjaśniać aktywację zarówno nagrody, jak i kary w 10-20% neuronów dopaminowych. Niewzmacniające bodźce mogą stać się motywacyjnie najistotniejsze poprzez bliskość nagrody i kary poprzez pseudokonserwację. Jednak aktywacje dopaminy wydają się być znacznie bardziej wrażliwe na nagrodę niż karę. Ponieważ istotność motywacyjna wiąże się z wrażliwością na oba wzmacniacze, istotność motywacyjna nabyta w wyniku pseudokonserwacji może nie wyjaśnić dobrze niekwestionowanych aktywacji kodujących dopaminę.

Podsumowując, wiele niekontrolujących aktywacji dopaminy może być spowodowanych uogólnieniem bodźca, aw szczególności pseudokonserwacją. Niemniej jednak wydaje się, że pozostają prawdziwe aktywacje nieodebranych bodźców kontrolnych oraz pierwotnych i uwarunkowanych bodźców awersyjnych w ograniczonej części neuronów dopaminowych, gdy te czynniki są wykluczone. Dalsze eksperymenty oceniające takie odpowiedzi powinny wykorzystywać lepsze kontrole i całkowicie eliminować wszystkie kontekstowe skojarzenia nagród z bodźcami w laboratorium.

Biorąc pod uwagę występowanie aktywacji kodowania bez nagrody, uzasadnione jest pytanie, w jaki sposób zwierzę odróżni nagradzanie od bodźców niewyleczonych na podstawie odpowiedzi na dopaminę. Bardzo szybki, początkowy, pseudo-warunkowany i słabo dyskryminujący komponent odpowiedzi może zapewnić premię czasową za ułatwienie szybkich, domyślnych reakcji behawioralnych, które pomagają zwierzęciu bardzo szybko wykryć potencjalną nagrodę [62]. W przeciwieństwie do tego, natychmiastowy komponent odpowiedzi wykrywa prawdziwą naturę zdarzenia poprzez stopniową aktywację z wartością nagrody [43] i jego częstą depresją z nieodebranymi i awersyjnymi bodźcami [27,29,32,33] (rysunek (Figure1E) .1E). Ponadto układ dopaminowy nie jest jedyną nagrodą za kodowanie struktury mózgu, a inne układy neuronalne, takie jak kora oczodołowo-czołowa, prążkowie i ciało migdałowate, mogą dostarczyć dodatkowych informacji dyskryminujących.

Sygnał ryzyka nagrody dopaminy

Jeśli sygnał nagrody odzwierciedla średni błąd przewidywania nagrody skalowany odchyleniem standardowym rozkładu prawdopodobieństwa nagrody, i jeśli postrzegamy odchylenie standardowe jako miarę ryzyka, czy może istnieć bezpośredni sygnał neuronowy dla ryzyka? Gdy prawdopodobieństwa nagrody różnią się od 0 do 1, a wielkość nagrody pozostaje stała, średnia wartość nagrody wzrasta monotonicznie z prawdopodobieństwem, podczas gdy wielkość ryzyka wynika z odwróconej funkcji U osiągającej szczyt przy p = 0.5 (rysunek (Figure2,2, wstawka). 0.5, istnieje dokładnie taka sama szansa na uzyskanie nagrody, jak za brakiem nagrody, podczas gdy wyższe i niższe prawdopodobieństwa niż p = 0.5 sprawiają, że zyski i straty są bardziej pewne, a zatem są związane z niższym ryzykiem.

Rysunek 2

Trwałe aktywacje związane z ryzykiem. Reakcja na ryzyko pojawia się w okresie między bodźcem a nagrodą (strzałka), a następnie po fazowej, związanej z wartością aktywacji bodźca (trójkąt). Wstawka w prawym górnym rogu pokazuje, że ryzyko (rzędna) zmienia się w zależności od (więcej…)

Około jedna trzecia neuronów dopaminowych wykazuje względnie powolną, umiarkowaną, statystycznie istotną aktywację, która zwiększa się stopniowo w okresie między bodźcem przewidującym nagrodę a nagrodą; ta odpowiedź zmienia się monotonicznie wraz z ryzykiem (rysunek (Figure2) 2) [18]. Aktywacja występuje w poszczególnych próbach i nie wydaje się, aby stanowiła odpowiedź błędu prognozowania propagującego się z nagrody do bodźca przewidującego nagrodę. Aktywacja wzrasta monotonicznie również przy odchyleniu standardowym lub wariancji, gdy stosowane są rozkłady binarne różnych równych prawdopodobieństw, niezerowych wielkości nagrody. Zatem odchylenie standardowe lub wariancja wydają się być realnymi miarami ryzyka zakodowanymi przez neurony dopaminowe. Aktywacje związane z ryzykiem mają dłuższe opóźnienia (około 1), wolniejsze kursy czasu i niższe szczyty w porównaniu z reakcjami wartości nagrody na bodźce i nagrodę.

Ze względu na mniejszą wielkość, sygnał ryzyka prawdopodobnie wywoła niższe uwalnianie dopaminy przy żylakach dopaminy w porównaniu do bardziej aktywacji fazowej kodowania wartości nagrody. Stosunkowo niskie stężenie dopaminy, prawdopodobnie wywołane sygnałem ryzyka, może aktywować receptory D2, które są głównie w stanie wysokiego powinowactwa, ale nie receptory D1 o niskim powinowactwie [63]. W przeciwieństwie do tego, wyższa reakcja wartości fazowej nagrody może prowadzić do większej ilości stężeń dopaminy, wystarczającej do krótkotrwałej aktywacji receptorów D1 w ich stanie głównie niskiego powinowactwa. Zatem dwa sygnały mogą być różnicowane przez neurony postsynaptyczne na podstawie różnych aktywowanych receptorów dopaminy. Ponadto, wartość dopaminy i sygnały ryzyka razem doprowadziłyby do prawie jednoczesnej aktywacji zarówno receptorów D1, jak i D2, co w wielu normalnych i klinicznych sytuacjach jest niezbędne dla odpowiednich funkcji zależnych od dopaminy.

Sygnał ryzyka dopaminy może mieć kilka funkcji. Po pierwsze, może wpływać na skalowanie natychmiastowej odpowiedzi błędu prognozowania przez odchylenie standardowe bezpośrednio po nagrodzie [23]. Po drugie, może zwiększyć uwalnianie dopaminy wywołane natychmiastową odpowiedzią na błąd przewidywania. Ponieważ ryzyko wywołuje uwagę, wzmocnienie potencjalnego sygnału nauczania przez ryzyko byłoby zgodne z rolą uwagi w uczeniu się według teorii uczenia się przynależności [64,65]. Po trzecie, może stanowić wkład w struktury mózgu zaangażowane w ocenę ryzyka nagrody per se. Po czwarte, może połączyć się z sygnałem ekonomicznej wartości oczekiwanej, aby przedstawić znaczną informację o oczekiwanej użyteczności u osób wrażliwych na ryzyko zgodnie z podejściem średniej wariancji w teorii decyzji finansowych [66]. Jednak opóźnienie około 1 jest zbyt długie, aby sygnał odgrywał natychmiastową rolę w wyborach w niepewności.

Konkurencyjnymi interesami

Autor oświadcza, że ​​nie ma konkurencyjnych interesów.

Wkład autorów

WS napisał artykuł.

Podziękowania

Ta recenzja została napisana z okazji Sympozjum na temat zespołu nadpobudliwości psychoruchowej z deficytem uwagi (ADHD) w Oslo, Norwegia, luty 2010. Nasza praca była wspierana przez Wellcome Trust, Swiss National Science Foundation, Human Frontiers Science Program oraz inne agencje grantowe i stypendialne.

Referencje

1. Wise RA, Rompre PP. Dopamina mózgowa i nagroda. Ann Rev Psychol. 1989; 40: 191 – 225. doi: 10.1146 / annurev.ps.40.020189.001203.

2. Everitt BJ, Robbins TW. Neuronowe systemy wzmacniania uzależnienia od narkotyków: od działań po przyzwyczajenia. Nat Neurosci. 2005; 8: 1481 – 1489. doi: 10.1038 / nn1579. [PubMed] [Cross Ref]

3. Bernoulli D. Próbka theoriae novae de mensura sortis. Comentarii Academiae Scientiarum Imperialis Petropolitanae (Papers Imp. Acad. Sci. St. Petersburg) 1738; 5: 175 – 192. Przetłumaczone jako: Ekspozycja nowej teorii dotyczącej pomiaru ryzyka. Econometrica 1954, 22: 23-36.

4. Rao RPN, Ballard DH. Predykcyjne kodowanie w korze wzrokowej: funkcjonalna interpretacja niektórych nieklasycznych efektów pola recepcyjnego. Nat Neurosci. 1999; 2: 79 – 87. doi: 10.1038 / 4580. [PubMed] [Cross Ref]

5. Rescorla RA, Wagner AR. In: Classical Conditioning II: Aktualne badania i teoria. Black AH, Prokasy WF, redaktor. Nowy Jork: Appleton Century Crofts; 1972. Teoria uwarunkowań Pawłowskich: zmiany skuteczności wzmacniania i niewzmocnienia; str. 64 – 99.

6. Sutton RS, Barto AG. W stronę nowoczesnej teorii sieci adaptacyjnych: oczekiwanie i przewidywanie. Psychol Rev. 1981; 88: 135 – 170. doi: 10.1037 / 0033-295X.88.2.135. [PubMed] [Cross Ref]

7. Kamin LJ. W: Podstawowe zagadnienia w uczeniu instrumentalnym. Mackintosh NJ, Honig WK, redaktor. Halifax: Dalhousie University Press; 1969. Selektywne skojarzenia i uwarunkowania; str. 42 – 64.

8. Blythe SN, Atherton JF, Bevan MD. Synaptyczna aktywacja dendrytycznych receptorów AMPA i NMDA generuje przejściowe wystrzeliwanie wysokiej częstotliwości w neurony dopaminowe istoty czarnej in vitro. J Neurophysiol. 2007; 97: 2837 – 2850. doi: 10.1152 / jn.01157.2006. [PubMed] [Cross Ref]

9. Zweifel LS, Parker JG, Lobb CJ, Rainwater A, Wall VZ, Fadok JP, Darvas M, Kim MJ, Mizumori SJ, Paladini CA, Phillips PEM, Palmiter RD. Zakłócenie wybuchu zależnego od NMDAR przez neurony dopaminowe zapewnia selektywną ocenę fazowego zachowania zależnego od dopaminy. Proc Natl Acad Sci. 2009; 106: 7281 – 7288. doi: 10.1073 / pnas.0813415106. [Bezpłatny artykuł PMC] [PubMed] [Cross Ref]

10. Harnett MT, Bernier BE, Ahn KC, Morikawa H. Plastyczność zależna od synchronizacji czasu transmisji za pośrednictwem receptora NMDA w neuronach dopaminowych śródmózgowia. Neuron. 2009; 62: 826 – 838. doi: 10.1016 / j.neuron.2009.05.011. [Bezpłatny artykuł PMC] [PubMed] [Cross Ref]

11. Jones S, Bonci A. Plastyczność synaptyczna i uzależnienie od narkotyków. Curr Opin Pharmacol. 2005; 5: 20 – 25. doi: 10.1016 / j.coph.2004.08.011. [PubMed] [Cross Ref]

12. Kauer JA, Malenka RC. Plastyczność synaptyczna i uzależnienie. Nat Rev Neurosci. 2007; 8: 844 – 858. doi: 10.1038 / nrn2234. [PubMed] [Cross Ref]

13. Ljungberg T, Apicella P, Schultz W. Odpowiedzi małpowych neuronów dopaminowych śródmózgowia podczas opóźnionej wydajności naprzemiennej. Brain Res. 1991; 586: 337 – 341. doi: 10.1016 / 0006-8993 (91) 90816-E.

14. Schultz W, Apicella P, Ljungberg T. Odpowiedzi małpich neuronów dopaminowych na nagradzanie i warunkowanie bodźców podczas kolejnych etapów uczenia się zadania z opóźnioną odpowiedzią. J Neurosci. 1993; 13: 900 – 913. [PubMed]

15. Schultz W. Predykcyjny sygnał nagrody neuronów dopaminowych. J Neurophysiol. 1998; 80: 1 – 27. [PubMed]

16. Schultz W, Dayan P, Montague RR. Neuronowy substrat przewidywania i nagrody. Nauka. 1997; 275: 1593 – 1599. doi: 10.1126 / science.275.5306.1593. [PubMed] [Cross Ref]

17. Hollerman JR, Schultz W. Neurony dopaminowe zgłaszają błąd w przewidywaniu czasowym nagrody podczas uczenia się. Natura Neurosci. 1998; 1: 304 – 309. doi: 10.1038 / 1124. [PubMed] [Cross Ref]

18. Fiorillo CD, Tobler PN, Schultz W. Dyskretne kodowanie prawdopodobieństwa nagrody i niepewności przez neurony dopaminowe. Nauka. 2003; 299: 1898 – 1902. doi: 10.1126 / science.1077349. [PubMed] [Cross Ref]

19. Satoh T, Nakai S, Sato T, Kimura M. Skorelowane kodowanie motywacji i wynik decyzji przez neurony dopaminowe. J Neurosci. 2003; 23: 9913 – 9923. [PubMed]

20. Morris G, Arkadir D, Nevet A, Vaadia E, Bergman H. Przypadkowe, ale wyraźne komunikaty dopaminy w śródmózgowiu i prążkowato aktywnych neuronów. Neuron. 2004; 43: 133 – 143. doi: 10.1016 / j.neuron.2004.06.012. [PubMed] [Cross Ref]

21. Nakahara H, Itoh H, Kawagoe R, Takikawa Y, Hikosaka O. Neurony dopaminowe mogą reprezentować zależny od kontekstu błąd przewidywania. Neuron. 2004; 41: 269 – 280. doi: 10.1016 / S0896-6273 (03) 00869-9. [PubMed] [Cross Ref]

22. Bayer HM, Glimcher PW. Neurony dopaminowe śródmózgowia kodują sygnał błędu przewidywania ilościowego nagrody. Neuron. 2005; 47: 129 – 141. doi: 10.1016 / j.neuron.2005.05.020. [Bezpłatny artykuł PMC] [PubMed] [Cross Ref]

23. Tobler PN, Fiorillo CD, Schultz W. Adaptacyjne kodowanie wartości nagrody przez neurony dopaminowe. Nauka. 2005; 307: 1642 – 1645. doi: 10.1126 / science.1105370. [PubMed] [Cross Ref]

24. Zaghloul KA, Blanco JA, Weidemann CT, McGill K, Jaggi JL, Baltuch GH, Kahana MJ. Neurony istoty czarnej człowieka kodują nieoczekiwane korzyści finansowe. Nauka. 2009; 323: 1496 – 1499. doi: 10.1126 / science.1167342. [Bezpłatny artykuł PMC] [PubMed] [Cross Ref]

25. Fiorillo CD, Newsome WT, Schultz W. Czasowa precyzja przewidywania nagrody w neuronach dopaminowych. Nat Neurosci. 2008; 11: 966 – 973. doi: 10.1038 / nn.2159.

26. Bayer HM, Lau B, Glimcher PW. Statystyki skoków neuronów dopaminowych w przebudzonym naczelnym. J Neurophysiol. 2007; 98: 1428 – 1439. doi: 10.1152 / jn.01140.2006. [PubMed] [Cross Ref]

27. Waelti P, Dickinson A, Schultz W. Odpowiedzi dopaminowe są zgodne z podstawowymi założeniami teorii uczenia się formalnego. Natura. 2001; 412: 43 – 48. doi: 10.1038 / 35083500. [PubMed] [Cross Ref]

28. Rescorla RA. Hamowanie uwarunkowane Pawłowem. Psychol Bull. 1969; 72: 77 – 94. doi: 10.1037 / h0027760.

29. Tobler PN, Dickinson A, Schultz W. Kodowanie przewidywanego pominięcia nagrody przez neurony dopaminowe w warunkowanym paradygmacie hamowania. J Neurosci. 2003; 23: 10402 – 10410. [PubMed]

30. Preuschoff, Bossaerts P. Dodanie ryzyka przewidywania do teorii uczenia się nagrody. Ann NY Acad Sci. 2007; 1104: 135 – 146. doi: 10.1196 / annals.1390.005. [PubMed] [Cross Ref]

31. Romo R, Schultz W. Neurony dopaminowe śródmózgowia małpy: Nieprzewidziane reakcje na aktywny dotyk podczas samoczynnych ruchów ramion. J Neurophysiol. 1990; 63: 592 – 606. [PubMed]

32. Schultz W, Romo R. Neurony dopaminowe śródmózgowia małpy: nieprzewidziane reakcje na bodźce wywołujące natychmiastowe reakcje behawioralne. J Neurophysiol. 1990; 63: 607 – 624. [PubMed]

33. Mirenowicz J, Schultz W. Preferencyjna aktywacja neuronów dopaminowych śródmózgowia raczej przez bodźce apetyczne niż awersyjne. Natura. 1996; 379: 449 – 451. doi: 10.1038 / 379449a0. [PubMed] [Cross Ref]

34. Morris G, Nevet A, Arkadir D, Vaadia E, Bergman H. Midbrain neurony dopaminowe kodują decyzje do przyszłych działań. Nat Neurosci. 2006; 9: 1057 – 1063. doi: 10.1038 / nn1743. [PubMed] [Cross Ref]

35. Roesch MR, Calu DJ, Schoenbaum G. Neurony dopaminowe kodują lepszą opcję u szczurów decydujących o nagrodach o różnym opóźnieniu lub wielkości. Nat Neurosci. 2007; 10: 1615 – 1624. doi: 10.1038 / nn2013. [Bezpłatny artykuł PMC] [PubMed] [Cross Ref]

36. Takikawa Y, Kawagoe R, Hikosaka O. Możliwa rola neuronów dopaminowych śródmózgowia w krótko- i długoterminowej adaptacji sakkad do mapowania nagrody-pozycji. J Neurophysiol. 2004; 92: 2520 – 2529. doi: 10.1152 / jn.00238.2004. [PubMed] [Cross Ref]

37. Pan WX, Schmidt R, Wickens JR, Hyland BI. Komórki dopaminowe reagują na przewidywane zdarzenia podczas warunkowania klasycznego: Dowody na ślady kwalifikowalności w sieci uczenia się nagrody. J Neurosci. 2005; 25: 6235 – 6242. doi: 10.1523 / JNEUROSCI.1478-05.2005. [PubMed] [Cross Ref]

38. Montague PR, Dayan P, Sejnowski TJ. Ramy dla systemów dopaminergicznych śródmózgowia oparte na predykcyjnym uczeniu się Hebbana. J Neurosci. 1996; 16: 1936 – 1947. [PubMed]

39. Suri R, Schultz W. Sieć neuronowa z sygnałem wzmacniającym podobnym do dopaminy, który uczy się przestrzennego zadania opóźnionej odpowiedzi. Neuroscience. 1999; 91: 871 – 890. doi: 10.1016 / S0306-4522 (98) 00697-6. [PubMed] [Cross Ref]

40. Ainslie G. Szczególne nagrody: behawioralna teoria impulsywności i kontroli impulsów. Psych Bull. 1975; 82: 463 – 496. doi: 10.1037 / h0076860.

41. Rodriguez ML, Logue AW. Dostosowanie opóźnienia do wzmocnienia: porównanie wyboru u gołębi i ludzi. J Exp Psychol Anim Behav Process. 1988; 14: 105 – 117. doi: 10.1037 / 0097-7403.14.1.105. [PubMed] [Cross Ref]

42. Richards JB, Mitchell SH, de Wit H, Seiden LS. Określenie funkcji dyskontowych u szczurów z zastosowaniem procedury ilości dostosowującej. J Exp Anal Behav. 1997; 67: 353 – 366. doi: 10.1901 / jeab.1997.67-353. [Bezpłatny artykuł PMC] [PubMed] [Cross Ref]

43. Kobayashi S, Schultz W. Wpływ opóźnień nagrody na odpowiedzi neuronów dopaminowych. J Neurosci. 2008; 28: 7837 – 7846. doi: 10.1523 / JNEUROSCI.1600-08.2008. [PubMed] [Cross Ref]

44. Guarraci FA, Kapp BS. Charakterystyka elektrofizjologiczna neuronów dopaminergicznych brzusznego obszaru nakrywkowego podczas różnicowego warunkowania strachu pawłowego w przebudzonym króliku. Behav Brain Res. 1999; 99: 169 – 179. doi: 10.1016 / S0166-4328 (98) 00102-8. [PubMed] [Cross Ref]

45. Joshua M, Adler A, Mitelman R, Vaadia E, Bergman H. Neurony dopaminergiczne Midbrain i cholinergiczne interneurony prążkowia kodują różnicę między wydarzeniami nagrody i awersji w różnych epokach probabilistycznych klasycznych prób warunkowania. J Neurosci. 2008; 28: 1673 – 11684. doi: 10.1523 / JNEUROSCI.3839-08.2008.

46. Matsumoto M, Hikosaka O. Dwa rodzaje neuronów dopaminowych wyraźnie przenoszą pozytywne i negatywne sygnały motywacyjne. Natura. 2009; 459: 837 – 841. doi: 10.1038 / nature08028. [Bezpłatny artykuł PMC] [PubMed] [Cross Ref]

47. Chiodo LA, Antelman SM, Caggiula AR, Lineberry CG. Bodźce sensoryczne zmieniają szybkość uwalniania neuronów dopaminowych (DA): Dowody na dwa funkcjonalne typy komórek DA w istocie czarnej. Brain Res. 1980; 189: 544 – 549. doi: 10.1016 / 0006-8993 (80) 90366-2. [PubMed] [Cross Ref]

48. Mantz J, Thierry AM, Głowiński J. Wpływ szkodliwego uszczypnięcia ogona na szybkość wydzielania mezokortykalnych i mezolimbicznych neuronów dopaminowych: selektywna aktywacja układu mezokortykalnego. Brain Res. 1989; 476: 377 – 381. doi: 10.1016 / 0006-8993 (89) 91263-8. [PubMed] [Cross Ref]

49. Schultz W, Romo R. Odpowiedzi nigrostriatalnych neuronów dopaminowych na stymulację somatosensoryczną o wysokiej intensywności u znieczulonej małpy. J Neurophysiol. 1987; 57: 201 – 217. [PubMed]

50. Coizet V, Dommett EJ, Redgrave P, Overton PG. Reakcje nocyceptywne neuronów dopaminergicznych śródmózgowia są modulowane przez górny zawał u szczura. Neuroscience. 2006; 139: 1479 – 1493. doi: 10.1016 / j.neuroscience.2006.01.030. [PubMed] [Cross Ref]

51. Brown MTC, Henny P, Bolam JP, Magill PJ. Aktywność neurochemicznie niejednorodnych neuronów dopaminergicznych w istocie czarnej podczas spontanicznych i napędzanych zmian stanu mózgu. J Neurosci. 2009; 29: 2915 – 2925. doi: 10.1523 / JNEUROSCI.4423-08.2009. [PubMed] [Cross Ref]

52. Brischoux F, Chakraborty S, Brierley DI, Ungless MA. Fazowe pobudzenie neuronów dopaminowych w brzusznym VTA przez szkodliwe bodźce. Proc Natl Acad Sci USA. 2009; 106: 4894 – 4899. doi: 10.1073 / pnas.0811507106. [Bezpłatny artykuł PMC] [PubMed] [Cross Ref]

53. Day JJ, Roitman MF, Wightman RM, Carelli RM. Uczenie asocjacyjne pośredniczy w dynamicznych przesunięciach sygnalizacji dopaminy w jądrze półleżącym. Nat Neurosci. 2007; 10: 1020 – 1028. doi: 10.1038 / nn1923. [PubMed] [Cross Ref]

54. Roitman MF, Wheeler RA, Wightman RM, Carelli RM. Reakcje chemiczne w czasie rzeczywistym w jądrze półleżącym różnicują bodźce nagradzające i awersyjne. Nat Neurosci. 2008; 11: 1376 – 1377. doi: 10.1038 / nn.2219. [PubMed] [Cross Ref]

55. Młody AMJ. Zwiększona pozakomórkowa dopamina w jądrze półleżącym w odpowiedzi na nieuwarunkowane i uwarunkowane bodźce awersyjne: badania z zastosowaniem mikrodializy 1 min u szczurów. J Neurosci Meth. 2004; 138: 57 – 63. doi: 10.1016 / j.jneumeth.2004.03.003.

56. Schultz W. Wiele funkcji dopaminy w różnych przebiegach czasowych. Ann Rev Neurosci. 2007; 30: 259 – 288. doi: 10.1146 / annurev.neuro.28.061604.135722. [PubMed] [Cross Ref]

57. Tsai HC, Zhang F, Adamantidis A, Stuber GD, Bonci A, de Lecea L, Deisseroth K. Wypalanie fazowe w neuronach dopaminergicznych jest wystarczające do warunkowania behawioralnego. Nauka. 2009; 324: 1080 – 1084. doi: 10.1126 / science.1168878. [PubMed] [Cross Ref]

58. Strecker RE, Jacobs BL. Substancja nigra aktywność jednostki dopaminergicznej u zachowujących się kotów: wpływ pobudzenia na samoistne wyładowanie i aktywność wywołaną sensorycznie. Brain Res. 1985; 361: 339 – 350. doi: 10.1016 / 0006-8993 (85) 91304-6. [PubMed] [Cross Ref]

59. Ljungberg T, Apicella P, Schultz W. Odpowiedzi małpich neuronów dopaminowych podczas uczenia się reakcji behawioralnych. J Neurophysiol. 1992; 67: 145 – 163. [PubMed]

60. Horvitz JC, Stewart T, Jacobs BL. Aktywność wybuchowa brzusznych neuronów dopaminowych brzusznych jest wywoływana przez bodźce czuciowe w przebudzonym kocie. Brain Res. 1997; 759: 251 – 258. doi: 10.1016 / S0006-8993 (97) 00265-5. [PubMed] [Cross Ref]

61. Sheafor PJ. Pseudokonstruowane ruchy szczęki królika odzwierciedlają skojarzenia uwarunkowane kontekstowymi sygnałami tła. J Exp Psychol: Anim Behav Proc. 1975; 104: 245 – 260. doi: 10.1037 / 0097-7403.1.3.245.

62. Kakade S, Dayan P. Dopamina: uogólnienie i premie. Sieć neuronowa. 2002; 15: 549 – 559. doi: 10.1016 / S0893-6080 (02) 00048-5. [PubMed] [Cross Ref]

63. Richfield EK, Pennney JB, Young AB. Porównanie stanu anatomicznego i powinowactwa między receptorami dopaminy D1 i D2 w centralnym układzie nerwowym szczura. Neuroscience. 1989; 30: 767 – 777. doi: 10.1016 / 0306-4522 (89) 90168-1. [PubMed] [Cross Ref]

64. Mackintosh NJ. Teoria uwagi: różnice w asocjacji bodźca ze wzmocnieniem. Psychol Rev. 1975; 82: 276 – 298. doi: 10.1037 / h0076778.

65. Pearce JM, Hall G. Model warunkowania Pawłowskiego: zmiany skuteczności bodźców warunkowych, ale nie warunkowych. Psychol Rev. 1980; 87: 532 – 552. doi: 10.1037 / 0033-295X.87.6.532. [PubMed] [Cross Ref]

66. Levy H, Markowitz HM. Przybliżająca oczekiwana użyteczność przez funkcję średniej i wariancji. Am Econ Rev. 1979; 69: 308 – 317.