Dopamina Niepewność i nauka TD (2005)

UWAGI: Niepewność oznacza nowość. To złożone badanie potwierdza, że nowość zwiększa dopaminę. Wyjaśnia również, że im bardziej niepewna nagroda, tym silniejsza nauka. Pornografia internetowa różni się od pornografii z przeszłości niekończącą się nowością - co oznacza niekończące się zastrzyki dopaminy. Podstawą uzależnienia jest nauka i pamięć. Przejście na nowy gatunek pornografii aktywuje dopaminę i naukę - z powodu niepewności tego, czego masz zamiar doświadczyć. Niepewność pojawia się również, gdy użytkownicy porno szukają pornografii. Nie wiesz, co zobaczysz, a to podnosi poziom dopaminy.
Nowość, niepewność i poszukiwanie aktywują dopaminę

Pełne badanie: niepewność dopaminy i uczenie się TD

Funkcje behawioralne i mózgowe 2005, 1:6doi:10.1186/1744-9081-1-6

Yael Niv1,2, Michael O Duff2 i Peter Dayan2
1 Interdyscyplinarne centrum obliczeń neuronowych, Uniwersytet Hebrajski, Jerozolima, Izrael
2 Gatsby Computational Neuroscience Unit, University College London, Londyn, Wielka Brytania
Wersja elektroniczna tego artykułu jest pełna i można ją znaleźć w Internecie pod adresem: http://www.behavioralandbrainfunctions.com/content/1/1/6
© 2005 Niv i in .; licencjobiorca BioMed Central Ltd.

Abstrakcyjny

Istotne dowody sugerują, że aktywności fazowe neuronów dopaminergicznych w śródmózgowiu naczelnych reprezentują błąd różnicy czasowej (TD) w przewidywaniach przyszłej nagrody, ze wzrostami powyżej i zmniejszają się poniżej linii podstawowej, odpowiednio w wyniku błędów prognozowania dodatniego i ujemnego. Jednak komórki dopaminy mają bardzo niską aktywność wyjściową, co oznacza, że reprezentacja tych dwóch rodzajów błędów jest asymetryczna. Badamy implikacje tej pozornie nieszkodliwej asymetrii dla interpretacji wzorców wypalania dopaminergicznego w eksperymentach z nagrodami probabilistycznymi, które powodują trwałe błędy prognozowania. W szczególności pokazujemy, że uśredniając niestacjonarne błędy predykcji w próbach, powinno być widoczne zwiększenie aktywności neuronów dopaminowych, których wielkość zależy od szybkości uczenia się. To dokładne zjawisko zaobserwowano w niedawnym eksperymencie, choć interpretowano go w kategoriach antypodalnych jako kodowanie niepewności w ramach próby.

Wprowadzenie

Istnieje imponująco duża liczba danych fizjologicznych, obrazowych i psychofarmakologicznych dotyczących aktywności fazowej komórek dopaminergicznych (DA) w śródmózgowiu małp, szczurów i ludzi w klasycznych i instrumentalnych zadaniach warunkujących obejmujących przewidywania przyszłych nagród [1-5]. Dane te podjęto, aby zasugerować [6,7], że aktywność neuronów DA reprezentuje błędy różnic czasowych (TD) w prognozach przyszłej nagrody [8,9]. Ta teoria dopaminy TD stanowi dokładną podstawę obliczeniową do zrozumienia wielu danych behawioralnych i neuronowych. Ponadto sugeruje, że DA zapewnia sygnał, który jest teoretycznie odpowiedni do kontrolowania uczenia się zarówno prognoz, jak i działań optymalizujących nagrodę.

Niektóre z najbardziej przekonujących dowodów na korzyść teorii TD pochodzą z badań badających fazową aktywację komórek dopaminowych w odpowiedzi na arbitralne bodźce (takie jak wzory fraktalne na monitorze), które przewidują bliską dostępność nagród (takich jak krople soku) . W wielu wariantach pokazały one, że przy szkoleniu sygnały fazowe DA przenoszą się z czasu początkowo nieprzewidywalnej nagrody do czasu najwcześniejszej wskazówki przewidującej nagrodę. Jest to dokładnie oczekiwany wynik błędu prognozowania opartego na różnicy czasowej (np. [1,2,10-13]). Podstawowym odkryciem [7] jest to, że gdy nagroda jest nieoczekiwana (co jest nieuniknione we wczesnych próbach), komórki dopaminy reagują na nią silnie. Jednak gdy przewidywana jest nagroda, komórki reagują na predyktor, a nie na oczekiwaną teraz nagrodę.

Jeśli przewidywana nagroda zostanie nieoczekiwanie pominięta, komórki są fizycznie zahamowane w normalnym czasie nagrody, zahamowanie, które ujawnia dokładny czas przewidywania nagrody [10] i którego metryki czasowe są obecnie w centrum uwagi kryminalistyki [14]. Przesunięcie aktywności od czasu nagrody do czasu predyktora przypomina przesunięcie apetytywnej reakcji behawioralnej zwierzęcia z czasu nagrody (bodźca bezwarunkowego) do czasu bodźca warunkowego w klasycznych eksperymentach warunkujących [7,10] .

W najciekawszym ostatnim badaniu Fiorillo i in. [15] zbadał przypadek częściowego wzmocnienia, w którym występuje trwały, nieunikniony błąd przewidywania przy każdej pojedynczej próbie. Prosta interpretacja hipotezy błędu przewidywania TD sugerowałaby, że w tym przypadku (a) aktywność dopaminy w czasie bodźców predykcyjnych będzie się skalować wraz z prawdopodobieństwem nagrody i (b) średnio w próbach, odpowiedź dopaminergiczna po bodźcu a aż do czasu nagrody powinno być zero. Chociaż pierwsza hipoteza została potwierdzona w eksperymentach, druga nie. Uśrednione odpowiedzi między próbami wykazały wyraźny wzrost aktywności podczas opóźnienia między początkiem bodźca a nagrodą, który wydawał się niezgodny z kontem TD. Fiorillo i in. postawiono hipotezę, że to działanie reprezentuje niepewność w dostarczaniu nagród, a nie błąd prognozowania.

W tym artykule odwiedzamy problem błędu przewidywania trwałego. Pokazujemy, że kluczowa asymetria w kodowaniu pozytywnych i negatywnych błędów prognostycznych powoduje, że można spodziewać się narastania średniego sygnału dopaminy między próbami, a także dobrze opisuje dwie dalsze cechy sygnału DA - pozorna trwała aktywność w czasie (potencjalnej) nagrody i zanik (lub przynajmniej osłabienie) sygnału rampowania, ale nie sygnał w czasie nagrody, w obliczu śladu, a nie opóźnienia warunkowania. Oba te zjawiska zaobserwowano również w powiązanych eksperymentach instrumentalnych Morrisa i in. [16]. Ostatecznie interpretujemy sygnał rampowania jako najlepszy obecnie dostępny dowód dla natury mechanizmu uczenia się, poprzez który następuje przesunięcie aktywności dopaminy do czasu bodźców predykcyjnych.

Niepewność w przypadku nagrody: DA ramping

Fiorillo i in. [15] powiązali prezentację pięciu różnych bodźców wzrokowych makakom z opóźnionym, probabilistycznym (pr = 0, 0.25, 0.5, 0.75, 1) dostarczeniem nagród w postaci soku. Użyli paradygmatu warunkowania opóźnionego, w którym bodziec utrzymuje się przez ustalony interwał 2 s, a nagroda jest dostarczana, gdy bodziec zanika. Po treningu, przewidujące lizanie małp wskazywało, że były one świadome różnych prawdopodobieństw nagrody związanych z każdym bodźcem.

Rysunek 1a przedstawia histogramy populacji pozakomórkowo zarejestrowanej aktywności komórek DA, dla każdego pr. Teoria TD przewiduje, że aktywacja fazowa komórek DA w czasie bodźców wzrokowych powinna odpowiadać średniej oczekiwanej nagrodzie, a więc powinna wzrastać wraz z pr. Rysunek 1a pokazuje dokładnie to - w całej populacji wzrost jest dość liniowy. Morris i in. [16] donoszą o podobnym wyniku w zadaniu warunkowania instrumentalnego (śledzenia) obejmującego również wzmocnienie probabilistyczne.

Rysunek 1. Uśrednione błędy predykcji w probabilistycznym zadaniu nagrody
(a) Odpowiedź DA w próbach z różnymi prawdopodobieństwami nagrody. Histogramy czasu okołostymulacyjnego populacji (PSTH) pokazują zsumowaną aktywność pobudzającą kilku neuronów DA w wielu próbach, dla każdego pr, zsumowaną z próbami z nagrodami i bez nagrody przy średnim prawdopodobieństwie. (b) Błąd predykcji TD z asymetrycznym skalowaniem. W zadaniu symulowanym w każdej próbie losowo wybierano jeden z pięciu bodźców i wyświetlano go w czasie t = 5. Bodziec wyłączano w chwili t = 25, w którym to momencie przyznawano nagrodę z prawdopodobieństwem pr określonym przez bodziec. Użyliśmy odwzorowania bodźców na linii opóźniającej (patrz tekst), gdzie każdy bodziec był reprezentowany przez inny zestaw jednostek („neurony”). Błąd TD wyniósł δ (t) = r (t) + w (t - 1) • x (t) - w (t - 1) • x (t - 1), gdzie r (t) była nagrodą w czasie t oraz x (t) i w (t) wektory stanu i wagi jednostki. Zastosowano standardową regułę uczenia się online TD ze stałym współczynnikiem uczenia się α, w (t) = w (t - 1) + αδ (t) x (t - 1), więc każda waga reprezentowała oczekiwaną przyszłą wartość nagrody. Podobnie jak w przypadku Fiorillo i wsp., Przedstawiamy błąd przewidywania δ (t) uśredniony z wielu prób, po nauczeniu się zadania. Asymetria reprezentacji pojawia się, gdy ujemne wartości δ (t) zostały przeskalowane o d = 1/6 przed zsumowaniem symulowanego PSTH, chociaż uczenie przebiega według nieskalowanych błędów. Wreszcie, aby uwzględnić małe pozytywne odpowiedzi w czasie bodźca dla pr = 0 oraz w momencie (przewidywanej) nagrody dla pr = 1 widocznej w (a), przyjęliśmy małą (8%) szansę, że bodziec predykcyjny jest błędnie identyfikowany. (c) Odpowiedź DA w próbach pr = 0.5, podzielona na próby z nagrodą (po lewej) i próby bez nagrody (po prawej). (d) Model TD z (c). (a, c) Przedruk za zgodą [15] © 2003 AAAS. Do wszystkich innych zastosowań wymagana jest zgoda AAAS.

W przeciwieństwie do tego, w czasie potencjalnej realizacji nagrody, teoria TD przewiduje, że średnio nie powinno być żadnej aktywności, ponieważ średnio nie ma w tym czasie błędu przewidywania. Oczywiście w projektowaniu wzmocnienia probabilistycznego (przynajmniej dla pr ≠ 0, 1) w rzeczywistości występuje błąd przewidywania w momencie dostarczenia lub niedostarczenia nagrody za każdą pojedynczą próbę. W przypadku prób, w których nagroda jest dostarczana, błąd przewidywania powinien być dodatni (ponieważ uzyskana nagroda jest większa niż oczekiwana średnia nagroda). I odwrotnie, w próbach bez nagrody powinna być ujemna (patrz rysunek 1c). Co najważniejsze, w przypadku TD średnia tych różnic, ważona prawdopodobieństwem ich wystąpienia, powinna wynosić zero. Jeśli nie jest równy zero, to błąd przewidywania powinien działać jako sygnał plastyczności, zmieniając przewidywania, aż nie będzie błędu prognozowania. Wbrew temu oczekiwaniu, dane na rysunku 1a, które są uśredniane zarówno z badań nagradzanych, jak i nieprzygotowanych, pokazują, że w tym czasie istnieje w rzeczywistości pozytywna średnia aktywność. Jest to również widoczne w danych Morrisa i in. [16] (patrz rysunek 3c). Pozytywne odpowiedzi DA nie wykazują żadnych oznak zniknięcia nawet po znacznym treningu (w ciągu miesięcy).

Gorzej niż w przypadku modelu TD, a w istocie Fiorillo i in. [15], jest widocznym wzrostem aktywności DA w oczekiwanym czasie nagrody. Ponieważ wielkość rampy jest największa dla pr = 0.5, Fiorillo i in. zasugerował, że informuje o niepewności w dostarczaniu nagród, a nie o błędzie przewidywania, i spekulował, że sygnał ten może wyjaśniać pozornie apetyczne właściwości niepewności (jak widać w hazardzie).

Zarówno gwałtowna aktywność, jak i aktywność w oczekiwanym czasie nagrody stanowią krytyczne wyzwania dla teorii TD. Uczenie się TD działa poprzez organizowanie aktywności DA w jednym czasie w próbie, którą można przewidzieć dzięki sygnałom dostępnym wcześniej w tym badaniu. Zatem nie jest jasne, jak jakakolwiek pozornie przewidywalna aktywność, czy to w czasie nagrody, czy na rampie wcześniej, może przetrwać bez przewidywania przez początek bodźca wzrokowego. Przecież zależna od pr aktywność w odpowiedzi na bodziec potwierdza jej status jako prawidłowego predyktora. Ponadto kluczowym aspektem TD [17] jest to, że łączy przewidywanie z wyborem działania, wykorzystując wartość stanu jako wskazówkę przyszłych nagród dostępnych w tym stanie, a zatem jego atrakcyjność jako celu działania. Z tego punktu widzenia, ponieważ wcześniejsza czynność nie przewiduje przewidywanej aktywności, nie może wpływać na wczesne działania, takie jak decyzja o grze. Na przykład, rozważ konkurencję między dwoma działaniami: jedną prowadzącą ostatecznie do stanu z deterministyczną nagrodą, a zatem bez rampy, a drugą prowadzącą do stanu, po której następuje probabilistyczna nagroda z tym samym znaczeniem i rampą. Ponieważ rampa nie wpływa na aktywność w czasie warunkowego bodźca, nie można jej użyć do oceny lub faworyzowania drugiego działania (hazardu) w stosunku do pierwszego, pomimo dodatkowej niepewności.

Sugerujemy alternatywną hipotezę, że oba te anomalne wzorce strzelania wynikają bezpośrednio z ograniczeń wynikających z niskiej wyjściowej szybkości aktywności neuronów DA (2 – 4 Hz) na kodowanie podpisanego błędu predykcji. Jak zauważył Fiorillo i in. [15], błędy predykcji dodatniej są reprezentowane przez szybkości wypalania ~ 270% powyżej linii bazowej, podczas gdy błędy ujemne są reprezentowane przez spadek tylko ~ 55% poniżej linii bazowej (patrz także [14,18]). Ta asymetria jest bezpośrednią konsekwencją kodowania ilości podpisanej przez wypalanie, która ma niską linię bazową, choć oczywiście może być tylko dodatnia. Szybkości wystrzeliwania powyżej linii bazowej mogą kodować dodatnie błędy predykcji przy użyciu dużego zakresu dynamicznego, jednak poniżej linii wyzwalania linii bazowej może dojść tylko do zera, narzucając ograniczenie kodowania błędów prognozowania ujemnego.

W związku z tym należy uważnie interpretować sumy (lub średnie) histogramów okołostymulacyjnych w czasie (PSTH) aktywności w różnych próbach, jak pokazano na rycinie 1a. Asymetrycznie zakodowane dodatnie i ujemne sygnały błędów w czasie odbioru lub nieotrzymania nagrody nie powinny w rzeczywistości sumować się do zera, nawet jeśli reprezentują prawidłowe błędy przewidywania TD. Podsumowując, niski poziom wypalania reprezentujący negatywne błędy w próbach bez nagrody nie „zlikwiduje” szybkiego odpalenia kodującego błędy dodatnie w próbach z nagrodą, a ogólnie rzecz biorąc, średnia pokaże pozytywną odpowiedź. Oczywiście w mózgu, ponieważ odpowiedzi nie są uśredniane w próbach (z nagrodą i bez nagrody), ale w neuronach w trakcie próby, nie musi to stanowić problemu.

To wyjaśnia trwałą pozytywną aktywność (średnio) w momencie dostawy lub niedostarczenia nagrody. Ale co z rampą przed tym czasem? Przynajmniej w pewnych neuronowych reprezentacjach czasu między bodźcem a nagrodą, kiedy próby są uśredniane, ta sama asymetria prowadzi TD do skutku w gwałtownym wzroście aktywności do czasu nagrody. Mechanizm uczenia się TD skutkuje propagowaniem, na zasadzie próbnej, błędów prognozowania, które pojawiają się jednocześnie w próbie (na przykład w momencie nagrody) w kierunku potencjalnych czynników prognostycznych (takich jak CS), które powstają wcześniej w każdej próbie. Zgodnie z asymetryczną reprezentacją błędów prognozowania pozytywnego i negatywnego, które właśnie omówiliśmy, uśrednianie tych błędów propagacyjnych w wielu próbach (jak na rysunku 1a) doprowadzi do pozytywnych środków dla epok w ramach próby przed nagrodą. Dokładny kształt powstałej rampy aktywności zależy od sposobu, w jaki bodźce są reprezentowane w czasie, a także od szybkości uczenia się, co zostanie omówione poniżej.

Rysunek 2 ilustruje ten pogląd na pochodzenie działalności rampingowej. W tym przypadku wybrana linia opóźnienia reprezentująca czas od użycia bodźca. W tym celu każda jednostka („neuron”) staje się aktywna (tj. Przyjmuje wartość 1) z pewnym opóźnieniem po przedstawieniu bodźca, tak że każdy krok po rozpoczęciu bodźca jest konsekwentnie reprezentowany przez odpalenie jednej jednostki. Uczenie się opiera się na (zgłaszanym dopaminergicznie) błędzie TD, sformalizowanym jako δ (t) = r (t) + V (t) - V (t - 1), gdzie V (t) jest ważonym wejściem z jednostki aktywnej w czas t i r (t) nagroda uzyskana w czasie t. Aktualizacja wag jednostek zgodnie ze standardową regułą aktualizacji TD ze stałą szybkością uczenia się pozwala V (t) średnio reprezentować oczekiwane przyszłe nagrody (patrz podpis na rysunku 1). Ponieważ każdy kolejny krok czasu jest reprezentowany oddzielnie, błędy przewidywania TD mogą pojawić się w dowolnym momencie próby. Rysunek 2a przedstawia te błędy w sześciu kolejnych symulowanych próbach, w których pr = 0.5. W każdej próbie pojawia się nowy pozytywny lub negatywny błąd w momencie otrzymania nagrody, będący następstwem otrzymania lub nieotrzymania nagrody, i krok po kroku błędy z poprzednich prób rozprzestrzeniają się z powrotem do czasu bodźca, poprzez ciągła aktualizacja wag (np. błąd podświetlony na czerwono). Podczas uśredniania (lub, jak w przypadku PSTH, sumowania) w czasie prób, błędy te znoszą się nawzajem, co skutkuje ogólnym płaskim histogramem w interwale po wystąpieniu bodźca i prowadzącym do czasu nagrody (czarna linia na ryc. 2b, zsumowane z 10 prób pokazanych cienkim niebieskim kolorem). Jednak po zsumowaniu po asymetrycznym skalowaniu ujemnych błędów o współczynnik d = 1/6 (co symuluje asymetryczne kodowanie dodatnich i ujemnych błędów prognozowania przez neurony DA), następuje dodatnia rampa aktywności, co ilustruje czarna linia na rysunku 2c. Należy zauważyć, że to przeskalowanie jest tylko kwestią reprezentacyjną, wynikającą z ograniczeń związanych z kodowaniem ujemnej wartości o niskiej podstawowej szybkości zapłonu i nie powinno wpływać na uczenie się wag, aby nie nauczyć się niewłaściwych wartości (patrz dyskusja). Ponieważ jednak PSTH są bezpośrednio sumami skoków neuronowych, ten problem reprezentacyjny ma wpływ na wynikowy histogram.

Rysunek 2. Wsteczna propagacja błędów prognozowania wyjaśnia działanie narastające.
(a) Błąd przewidywania TD w każdej z sześciu kolejnych prób (od góry do dołu) z symulacji na rysunku 1b, z pr = 0.5. Podświetlona na czerwono jest błędem w czasie nagrody w pierwszej próbie i jej stopniowej propagacji wstecznej do czasu bodźca w kolejnych próbach. Litery blokowe wskazują wynik każdej konkretnej próby (R = nagrodzony; N = nie nagrodzony). Kolejność nagród poprzedzających te próby jest podana w prawym górnym rogu. (b) Błąd TD z tych sześciu prób i cztery kolejne następujące po nich, nałożone. Czerwone i zielone linie ilustrują obwiednię błędów w tych próbach. Podsumowując te próby, nie występuje przeciętna aktywność powyżej linii bazowej (czarna linia), ponieważ błędy losowe i dodatnie występują w przypadkowym 50% czasu, a więc wzajemnie się anulują. (c) Jednakże, gdy błędy predykcji są asymetrycznie reprezentowane powyżej i poniżej częstotliwości zapłonu linii bazowej (tutaj błędy ujemne były asymetrycznie skalowane przez d = 1 / 6, aby symulować asymetryczne kodowanie błędów predykcji przez neurony DA), średnia rampa aktywności pojawia się podczas uśredniania prób, co ilustruje czarna linia. Wszystkie parametry symulacji są takie same jak na rysunku 1b, d.

Rysunki 1b, d pokazują rampę wynikającą z połączenia asymetrycznego kodowania i uśredniania między próbami w celu porównania z danymi eksperymentalnymi. Rysunek 1b pokazuje PSTH obliczony na podstawie naszych symulowanych danych poprzez uśrednienie względem asymetrycznie reprezentowanego sygnału δ (t) w próbach ~ 50 dla każdego typu bodźca. Rysunek 1d pokazuje wyniki dla przypadku pr = 0.5, podzielonego na nagradzane i nieprzyjęte próby dla porównania z rysunkiem 1c. Symulowane wyniki dokładnie przypominają dane eksperymentalne, ponieważ replikują pozytywną odpowiedź netto na niepewne nagrody, a także efekt rampowania, który jest najwyższy w przypadku pr = 0.5.

Łatwo jest uzyskać średnią odpowiedź w czasie nagrody (t = N) w próbie T, tj. Średni błąd TD δT (N), z reguły uczenia TD z uproszczoną reprezentacją czasu opóźnienia z wykorzystaniem pobranej linii opóźnienia i stała szybkość uczenia się α. Wartość na następnym ostatnim odcinku czasu w próbie, jako funkcja numeru próby (przy wartościach początkowych przyjmowanych jako zero), wynosi

gdzie r (t) jest nagrodą na koniec próby t. Sygnał błędu w ostatnim kroku czasowym próby T jest po prostu różnicą między uzyskaną nagrodą r (T) a wartością przewidującą tę nagrodę VT - 1 (N - 1). Ten błąd jest dodatni z prawdopodobieństwem pr i ujemny z prawdopodobieństwem (1 - pr). W ten sposób otrzymujemy skalowanie ujemnych błędów przez współczynnik d ∈ (0, 1]

Dla symetrycznego kodowania błędów dodatnich i ujemnych (d = 1) średnia odpowiedź to 0. Do kodowania asymetrycznego (0 Kondycjonowanie śledzenia: przypadek testowy

Ważny przypadek testowy dla naszej interpretacji pojawia się w wariancie zadania Fiorillo i wsp. [15], a także w analogicznym zadaniu instrumentalnym Morrisa i wsp. [16], obie z warunkowaniem śladowym. W przeciwieństwie do warunkowania opóźniającego (ryc. 3a), w którym nagroda zbiega się z przesunięciem bodźca predykcyjnego, tutaj istnieje znaczna luka między przesunięciem bodźca predykcyjnego a dostarczeniem nagrody (ryc. 3b). Oczywiście w tym przypadku niepewność co do nagrody mogłaby się tylko zwiększyć z powodu szumu w odmierzaniu czasu między bodźcem a nagrodą [19], więc w ramach rachunku niepewności powinny istnieć porównywalne lub nawet większe rampy. Jednak wyniki eksperymentalne pokazują, że zwiększanie aktywności jest mniejsze lub nawet pomijalne (Rysunek 3c; d). Należy jednak pamiętać, że wielkość średniej aktywności próbnej w oczekiwanym czasie nagrody jest utrzymywana, co wskazuje na dysocjację między wysokością rampy a ilością pozytywnej aktywności w oczekiwanym czasie nagrody.

Rysunek 3. Kondycjonowanie śladowe z nagrodami probabilistycznymi.
(a) Ilustracja jednej z prób zadania warunkowania opóźniającego Fiorillo i wsp. [15]. Próba składa się z 2-sekundowego bodźca wzrokowego, którego przesunięcie pokrywa się z dostarczeniem nagrody w postaci soku, jeśli taka nagroda jest zaprogramowana zgodnie z prawdopodobieństwem związanym ze wskazówką wizualną. W próbach bez nagrody bodziec kończył się bez nagrody. W obu przypadkach między próbami rozdziela się średnio 9 sekund. (b) Ilustracja jednej próby zadania warunkowania śladowego Morrisa i in. [16]. Zasadnicza różnica polega na tym, że obecnie istnieje znaczne opóźnienie czasowe między przesunięciem bodźca a początkiem nagrody (okres „śledzenia”), a żaden bodziec zewnętrzny nie wskazuje oczekiwanego czasu nagrody. Stwarza to dodatkową niepewność, ponieważ precyzyjny harmonogram przewidywanej nagrody musi zostać wewnętrznie rozstrzygnięty, szczególnie w przypadku prób bez nagrody. W tym zadaniu, podobnie jak w [15], w każdej próbie prezentowano jeden z kilku bodźców wzrokowych (nie pokazano), a każdy bodziec wiązał się z prawdopodobieństwem nagrody. Tutaj również małpa została poproszona o wykonanie odpowiedzi instrumentalnej (naciśnięcie klawisza odpowiadającego stronie, po której został przedstawiony bodziec), której niepowodzenie kończyło próbę bez nagrody. Próby były oddzielone różnymi odstępami między próbami. (c, d) Szybkość wypalania DA (wygładzona) w stosunku do linii bazowej, wokół oczekiwanego czasu nagrody, w próbach z nagrodą (c) i próbach bez nagrody (d). (c, d) Przedruk z [16] © 2004 za zgodą Elsevier. Ślady sugerują ogólną pozytywną reakcję w oczekiwanym momencie nagrody, ale z bardzo małą rampą lub bez niej. Podobne wyniki uzyskano w klasycznym zadaniu warunkowania opisanym w skrócie w [15], w którym zastosowano procedurę warunkowania śladowego, potwierdzając, że okres śladowy, a nie instrumentalny charakter zadania przedstawionego w (b), był kluczową różnicą w stosunku do (a) .

Model TD DA łatwo wyjaśnia te zagadkowe dane. Jak pokazano na rysunku 4, na kształt rampy, choć nie jest to wysokość jej szczytu, wpływa szybkość uczenia się. Wielkość błędów prognozowania wstecznego jest określana częściowo przez szybkość uczenia się, ponieważ błędy te powstają w ramach uczenia się online nowych prognoz. Rzeczywiście, istnieje ciągłe aktualizowanie prognoz, tak że po nagrodzonej próbie istnieje większe oczekiwanie na nagrodę (a zatem następna nagroda wiąże się z mniejszym błędem przewidywania) i odwrotnie po nie nagrodzonej próbie [18] (patrz rysunek 2a). Ta aktualizacja prognoz jest bezpośrednio związana z szybkością uczenia się - im wyższa szybkość uczenia się, tym większa aktualizacja prognoz zgodnie z bieżącym błędem przewidywania i tym większa część błędu przewidywania, który jest propagowany z powrotem. W ten sposób, przy wyższych wskaźnikach uczenia się, różnica w oczekiwaniach po nagrodzonym i nieodebranym procesie będzie większa, a zatem błędy przewidywania, gdy następna nagroda jest lub nie jest dostępna, będą większe - stąd większa i bardziej stopniowa rampa.

Rysunek 4. Zależność rampy od szybkości uczenia się.
Kształt rampy, ale nie wysokość jej piku, zależy od szybkości uczenia się. Wykres pokazuje symulowaną aktywność dla przypadku pr = 0.5 w pobliżu oczekiwanej nagrody, dla różnych współczynników uczenia się, uśrednionych zarówno dla prób nagrodzonych, jak i nieprzyznanych. Zgodnie z nauką TD z uporczywymi asymetrycznie zakodowanymi błędami przewidywania, uśrednienie aktywności w nagradzanych i nieprzyznanych próbach prowadzi do rampy aż do momentu nagrody. Wysokość szczytu rampy jest określona przez stosunek prób nagrodzonych i nieprzyznanych, jednakże szerokość rampy jest określona przez szybkość propagacji wstecznej tych sygnałów błędu od czasu (oczekiwanej) nagrody do czas bodźca prognostycznego. Wyższa szybkość uczenia się skutkuje większą częścią błędu propagującego się z powrotem, a zatem wyższą rampą. Przy niższych wskaźnikach uczenia się rampa staje się pomijalna, chociaż pozytywna aktywność (średnio) w momencie nagrody jest nadal utrzymywana. Należy zauważyć, że chociaż szybkość uczenia się zastosowana w symulacjach przedstawionych na rysunku 1b, d była 0.8, nie należy tego traktować jako dosłownego tempa uczenia się synaptycznego substratu nerwowego, biorąc pod uwagę nasze schematyczne przedstawienie bodźca. W bardziej realistycznej reprezentacji, w której populacja neuronów jest aktywna w każdym punkcie czasowym, znacznie niższa szybkość uczenia się daje podobne wyniki.

Rzeczywiście, w porównaniu do warunkowania opóźnienia, kondycjonowanie śladowe jest notorycznie powolne, co sugeruje, że szybkość uczenia się jest niska, a zatem powinna istnieć niższa rampa, zgodnie z wynikami eksperymentalnymi. Bezpośrednie badanie szybkości uczenia się w danych Morrisa i in. [16], którego zadanie wymagało nadmiernego treningu, ponieważ był nie tylko śladem warunkującym, ale także wymagającym akcji instrumentalnej, potwierdził, że rzeczywiście jest bardzo niski (Genela Morris - komunikacja osobista, 2004).

Dyskusja

Kodowanie różnicowe wartości dodatnich i ujemnych przez neurony DA jest widoczne we wszystkich badaniach sygnału fazowego DA i można je uznać za nieuniknioną konsekwencję niskiej aktywności podstawowej tych neuronów. Rzeczywiście, ta ostatnia inspirowała sugestie, że przeciwny neuroprzekaźnik, przypuszczalnie serotonina, bierze udział w reprezentowaniu, a zatem uczeniu się błędów prognozowania negatywnego [20], tak że mają one również pełną ćwiartkę. Tutaj jednak ograniczyliśmy się do rozważenia wpływu asymetrii na średnią próbę aktywności dopaminy i wykazaliśmy, że narastająca aktywność DA, jak również średnia pozytywna odpowiedź w czasie nagrody, wynika bezpośrednio z asymetryczne kodowanie błędów prognozowania.

Oprócz wyraźniejszego obrazu sygnału błędu, najważniejszą konsekwencją nowej interpretacji jest to, że rampy mogą być postrzegane jako sygnatura zjawiska TD, które dotychczas było wyjątkowo nieuchwytne. Jest to postępująca propagacja wsteczna sygnału błędu reprezentowanego przez aktywność DA, od czasu nagrody do czasu predyktora (rysunek 2a). Większość wcześniejszych badań aktywności dopaminergicznej wykorzystywało pr = 1, więc uczynienie tej propagacji wstecznej w najlepszym razie zjawiskiem przejściowym, widocznym dopiero na początku treningu (kiedy zazwyczaj nagrania jeszcze się nie rozpoczęły) i potencjalnie trudne do rozróżnienia w powolnym wypalanie neuronów DA. Ponadto, jak wspomniano, propagacja wsteczna zależy od sposobu, w jaki reprezentowany jest czas między bodźcem predykcyjnym a nagrodą - jest obecny dla reprezentacji linii opóźnionej z podsłuchem, jak w [6], ale nie dla reprezentacji obejmujących cały opóźnienie, takie jak w [21]. Zauważ, że kształt rampy zależy również od wykorzystania śladów kwalifikowalności i tak zwanej reguły uczenia TD (λ) (symulacja nie pokazana), która zapewnia dodatkowy mechanizm pomostowy między zdarzeniami podczas uczenia się. Niestety, ponieważ formy ramp w danych są raczej zmienne (rysunek 1) i hałaśliwe, nie mogą one dostarczyć silnych ograniczeń dokładnemu mechanizmowi TD używanemu przez mózg.
Nowsze badania obejmujące trwałe błędy prognozowania wykazują również aktywność sugerującą propagację wsteczną, w szczególności rysunek 4 [13]. W tym badaniu błędy prognoz wynikały z okresowych zmian w zadaniu, a zapisy DA były dokonywane od początku treningu, a zatem aktywność podobna do propagacji wstecznej jest bezpośrednio widoczna, chociaż ta aktywność nie została określona ilościowo.

Spodziewamy się, że rampy utrzymają się przez cały trening tylko wtedy, gdy szybkość uczenia się nie spadnie do zera w miarę postępu nauki. Teoria Pearce'a i Halla [22] dotycząca kontroli uczenia się przez niepewność sugeruje dokładnie tę trwałość uczenia się - a istnieją dowody z harmonogramów częściowego wzmacniania, że wskaźnik uczenia się może być wyższy, gdy jest więcej niepewności związanej z nagrodą. Rzeczywiście, z „racjonalnego” statystycznego punktu widzenia, uczenie się powinno trwać, gdy istnieje znaczna niepewność co do związku między predyktorami a wynikami, co może wynikać z zawsze obecnej możliwości zmiany relacji predykcyjnych. Ta forma utrzymującej się niepewności, wraz z niepewnością wynikającą z początkowej ignorancji dotyczącej zadania, została wykorzystana do sformalizowania teorii Pearce'a i Halla dotyczącej sposobu, w jaki niepewność napędza uczenie się [23]. Stąd nasze twierdzenie, że niepewność może nie być bezpośrednio reprezentowana przez rampy, z pewnością nie powinno oznaczać, że jej reprezentacja i manipulacja nie są ważne. Wręcz przeciwnie, zasugerowaliśmy, że niepewność wpływa na wnioskowanie korowe i uczenie się poprzez inne układy neuromodulacyjne [24], a także może determinować aspekty doboru działań [25].

Należy zwrócić uwagę na różne inne cechy asymetrii. Najbardziej krytyczny jest wpływ asymetrii na uczenie się zależne od DA [26], jeśli niższa wyjściowa aktywność DA jest sama w sobie odpowiedzialna za zmniejszenie prognoz, które są zbyt wysokie. Aby upewnić się, że wyuczone przewidywania pozostaną poprawne, musielibyśmy założyć, że asymetryczna reprezentacja nie wpływa na uczenie się, tj. Że mechanizm taki jak różne skalowanie dla wzmocnienia i obniżenia mocy synaptycznych kompensuje asymetryczny sygnał błędu. Oczywiście, byłoby to rozwiązane, gdyby przeciwnik neuroprzekaźnik był zaangażowany w uczenie się na błędach przewidywania negatywnego. Problem ten komplikuje sugestia firmy Bayer [14], że współczynniki wypalania DA są w rzeczywistości podobne dla wszystkich błędów predykcji poniżej pewnego ujemnego progu, być może ze względu na efekt niskiej szybkości zapłonu. Takie stratne kodowanie nie wpływa na jakościowy obraz efektów uśredniania między próbami na pojawienie się ramp, ale wzmacnia potrzebę sygnału przeciwnika dla koniecznej symetrycznej nauki.

Ostatecznie, najbardziej bezpośrednim testem naszej interpretacji byłoby porównanie uśredniania sygnału DA w trakcie i między próbami. Byłoby ważne, aby zrobić to w wyrafinowany czasowo sposób, aby uniknąć problemów z uśrednianiem sygnałów niestacjonarnych. Aby przezwyciężyć szum w odpalaniu neuronów i określić, czy rzeczywiście w próbie wystąpił stopniowy wzrost, czy też, jak można by przewidzieć - sporadyczne pozytywne i negatywne błędy przewidywania, konieczne byłoby uśrednienie wielu neuronów zarejestrowanych jednocześnie jedno badanie, a ponadto neurony związane z podobnymi wskaźnikami uczenia się. Alternatywnie, ślady pojedynczego neuronu mogą zostać cofnięte w stosunku do odpowiedzi wstecznej przewidzianej w ich poprzednich próbach i uczeniu TD. Porównanie wielkości zmienności wyjaśnionej przez taki model, w porównaniu do tej pochodzącej z regresji względem monotonicznej rampy aktywności, mogłoby wskazać najbardziej odpowiedni model. Mniej prostą, ale bardziej sprawdzalną prognozą jest to, że kształt rampy powinien zależeć od szybkości uczenia się. Współczynniki uczenia się można oceniać na podstawie odpowiedzi na nagrody probabilistyczne, niezależnie od kształtu rampy (Nakahara i wsp. [18] wykazali w taki sposób, że w zadaniu warunkowania częściowego śladu wzmocnienia współczynnik uczenia się wynosił 0.3), i potencjalnie manipulowane poprzez zmianę ilości szkoleń lub częstotliwości, z jaką zdarzenia awaryjne w zadaniach są zmieniane i ponownie uczone. Rzeczywiście, ilościowe określenie istnienia i kształtu rampy w zarejestrowanej aktywności DA Nakahary i wsp. Mogłoby dobrze rzucić światło na obecną propozycję.

Konkurencyjnymi interesami
Autor (autorzy) oświadczają, że nie mają konkurencyjnych interesów.

Wkład autorów
YN, MD i PD wspólnie opracowali i wykonali to badanie i pomogli w opracowaniu manuskryptu. Wszyscy autorzy przeczytali i zatwierdzili ostateczny manuskrypt.

Podziękowania
Jesteśmy bardzo wdzięczni H. Bergmanowi, C. Fiorillo, N. Dawowi, D. Joelowi, P. Toblerowi, P. Shizgalowi i W. Schultzowi za dyskusje i komentarze, w niektórych przypadkach pomimo różnej interpretacji danych. Jesteśmy szczególnie wdzięczni Geneli Morris za przeanalizowanie własnych opublikowanych i niepublikowanych danych dotyczących gwałtownego wzrostu. Prace te zostały sfinansowane przez EC Thematic Network (YN), Gatsby Charitable Foundation i projekt UE BIBA.

Referencje

1. Ljungberg T, Apicella P, Schultz W: Odpowiedzi małpich neuronów dopaminowych podczas uczenia się reakcji behawioralnych.
Czasopismo Neurophysiol 1992, 67: 145-163.
Wróć do tekstu
2. Schultz W: Predykcyjny sygnał nagrody neuronów dopaminowych. [http://jn.physiology.org/cgi/content/full/80/1/1] strona internetowa
Journal of Neurophysiology 1998, 80: 1-27. Streszczenie PubMed
Wróć do tekstu
3. O'Doherty J, Dayan P, Friston K, Critchley H, Dolan R: Modele różnic czasowych i uczenie się związane z nagrodą w ludzkim mózgu.
Neuron 2003, 38: 329-337. PubMed Abstract | Pełny tekst wydawcy
Wróć do tekstu
4. Seymour B, O'Doherty J, Dayan P, Koltzenburg M, Jones A, Dolan R, Friston K, Frąckowiak R: Modele różnic czasowych opisują uczenie się wyższego rzędu u ludzi.
Nature 2004, 429: 664-667. PubMed Abstract | Pełny tekst wydawcy
Wróć do tekstu
5. Montague PR, Hyman SE, Cohan JD: Obliczeniowe role dopaminy w kontroli behawioralnej.
Nature 2004, 431: 760-767. PubMed Abstract | Pełny tekst wydawcy
Wróć do tekstu
6. Montague PR, Dayan P, Sejnowski TJ: Ramy dla śródmózgowiowych systemów dopaminowych oparte na predykcyjnym uczeniu się Hebba.
The Journal of Neuroscience 1996, 16: 1936-1947. PubMed Abstract | Pełny tekst wydawcy
Wróć do tekstu
7. Schultz W, Dayan P, Montague PR: Neuronowy substrat przewidywania i nagrody.
Nauka 1997, 275: 1593-1599. PubMed Abstract | Pełny tekst wydawcy
Wróć do tekstu
8. Sutton RS: Nauka przewidywania metodą różnicy czasowej.
Uczenie maszynowe 1988, 3: 9-44.
Wróć do tekstu
9. Sutton RS, Barto AG: [http://www.cs.ualberta.ca/~sutton/book/ebook/the-book.html] strona internetowa
Uczenie się o wzmocnieniach: wprowadzenie. MIT Press; 1998.
Wróć do tekstu
10. Hollerman J, Schultz W: Neurony dopaminowe zgłaszają błąd w czasowym przewidywaniu nagrody podczas uczenia się.
Nature Neuroscience 1998, 1: 304-309. PubMed Abstract | Pełny tekst wydawcy
Wróć do tekstu
11. Schultz W, Apicella P, Ljungberg T: Odpowiedzi małpich neuronów dopaminowych na nagrodę i bodźce warunkowe podczas kolejnych etapów uczenia się zadania opóźnionej odpowiedzi.
The Journal of Neuroscience 1993, 13: 900-913. PubMed Abstract | Pełny tekst wydawcy
Wróć do tekstu
12. Tobler P, Dickinson A, Schultz W: Kodowanie przewidywanego pominięcia nagrody przez neurony dopaminy w uwarunkowanym paradygmacie hamowania.
Journal of Neuroscience 2003, 23 (32): 10402-10410. PubMed Abstract | Pełny tekst wydawcy
Wróć do tekstu
13. Takikawa Y, Kawagoe R, Hikosaka O: Możliwa rola neuronów dopaminowych śródmózgowia w krótko- i długoterminowej adaptacji sakkad do mapowania pozycji-nagrody.
Journal of Neurophysiology 2004, 92: 2520-2529. PubMed Abstract | Pełny tekst wydawcy
Wróć do tekstu
14. Bayer H: Rola istoty czarnej w uczeniu się i kontroli motorycznej.
Praca doktorska, New York University 2004.
Wróć do tekstu
15. Fiorillo C, Tobler P, Schultz W: Dyskretne kodowanie prawdopodobieństwa i niepewności nagrody przez neurony dopaminy.
Science 2003, 299 (5614): 1898-1902. PubMed Abstract | Pełny tekst wydawcy
Wróć do tekstu
16. Morris G, Arkadir D, Nevet A, Vaadia E, Bergman H: Przypadkowe, ale odrębne komunikaty dopaminy śródmózgowia i tonicznie aktywnych neuronów prążkowia.
Neuron 2004, 43: 133-143. PubMed Abstract | Pełny tekst wydawcy
Wróć do tekstu
17. Barto A, Sutton R, Watkins C: Uczenie się i sekwencyjne podejmowanie decyzji. W nauce i neuronauce obliczeniowej: podstawy sieci adaptacyjnych. Pod redakcją Gabriela M, Moore'a J. Cambridge, MA: MIT Press; 1990:539-602.
Wróć do tekstu
18. Nakahara H, Itoh H, Kawagoe R, Takikawa Y, Hikosaka O: Neurony dopaminowe mogą reprezentować zależny od kontekstu błąd przewidywania.
Neuron 2004, 41: 269-280. PubMed Abstract | Pełny tekst wydawcy
Wróć do tekstu
19. Gallistel CR, Gibbon J: Czas, tempo i uwarunkowania.
Przegląd psychologiczny 2000, 107: 289-344. PubMed Abstract | Pełny tekst wydawcy
Wróć do tekstu
20. Daw ND, Kakade S, Dayan P: Przeciwnicy interakcji między serotoniną a dopaminą.
Sieci neuronowe 2002, 15 (4 – 6): 603-616. PubMed Abstract | Pełny tekst wydawcy
Wróć do tekstu
21. Suri RE, Schultz W: Model sieci neuronowej z sygnałem wzmacniającym podobnym do dopaminy, który uczy się przestrzennego zadania opóźnionej odpowiedzi.
Neuroscience 1999, 91: 871-890. PubMed Abstract | Pełny tekst wydawcy
Wróć do tekstu
22. Pearce JM, Sala G: Model uczenia się według Pawłowa: Zróżnicowanie skuteczności bodźców warunkowych, ale nie bodźców bezwarunkowych.
Przegląd psychologiczny 1980, 87: 532-552. PubMed Abstract | Pełny tekst wydawcy
Wróć do tekstu
23. Dayan P, Kakade S, Montague PR: Uczenie się i selektywna uwaga.
Nature Neuroscience 2000, 3: 1218-1223. PubMed Abstract | Pełny tekst wydawcy
Wróć do tekstu
24. Dayan P, Yu A: Oczekiwana i nieoczekiwana niepewność: Ach i NE w korze nowej. [http://books.nips.ce/papers/files/nips15/NS08.pdf] strona internetowa
W postępach w systemach przetwarzania informacji neuronowych Redakcja: Dietterich T, Becker S, Ghahramani Z. Cambridge, MA: MIT Press; 2002, 14: 189-196.
Wróć do tekstu
25. Daw N, Niv Y, Dayan P: działania, zasady, wartości i zwoje podstawy. W ostatnich przełomach w badaniach zwojów podstawy mózgu. Pod redakcją Bezarda E. Nowy Jork, USA: Nova Science Publishers, Inc; w prasie.
Wróć do tekstu
26. Wickens J, Kötter R: Komórkowe modele zbrojenia. W modelach przetwarzania informacji w zwojach podstawy. Pod redakcją Houk JC, Davis JL, Beiser DG. Prasa MIT; 1995:187-214.
Wróć do tekstu