Pojawienie się istotności i nowe odpowiedzi z zasad uczenia się wzmacniającego (2008)

UWAGI: Kolejne badanie wykazujące, że nowość jest nagrodą własną. Jednym z uzależniających aspektów pornografii internetowej jest nieskończona nowość i różnorodność, możliwość szybkiego przechodzenia z jednej sceny do drugiej oraz poszukiwanie odpowiedniego obrazu / wideo. Wszystko to zwiększa poziom dopaminy. To właśnie sprawia, że pornografia internetowa różni się od czasopism lub wypożyczanych płyt DVD.

Pełne badanie: pojawienie się odpowiedzi na temat istotności i nowości z zasad uczenia się o wzmocnieniu

Sieć neuronowa. 2008 grudzień; 21 (10): 1493 – 1499.

Opublikowane online 2008 September 25. doi: 10.1016 / j.neunet.2008.09.004

Patryk A. Laurent, University of Pittsburgh;

Adresuj całą korespondencję do: Patryka Laurenta, University of Pittsburgh, 623 LRDC, 3939 O'Hara St., Pittsburgh, PA 15260 USA, E-mail: [email chroniony], Biuro: (412) 624-3191, faks: (412) 624-9149

Abstrakcyjny

Ostatnie próby mapowania modeli uczenia się opartych na nagrodzie, takich jak Uczenie się o wzmocnieniu [17], na mózg, opierają się na obserwacji, że wzrosty fazowe i spadki w impulsowaniu neuronów uwalniających dopaminę sygnalizują różnice między nagrodą przewidywaną a otrzymaną [16,5]. Jednak ten błąd przewidywania nagrody jest tylko jednym z kilku sygnałów przekazywanych przez tę aktywność fazową; inny wiąże się ze wzrostem dopaminergicznego wzbogacenia, odzwierciedlając pojawienie się najistotniejszych, ale nieprzewidywalnych bodźców bez nagrody [4,6,13], zwłaszcza gdy organizm następnie orientuje się w kierunku bodźca [16]. Aby wyjaśnić te odkrycia, Kakade i Dayan [7] i inni przyjęli, że nowe, nieoczekiwane bodźce są z natury satysfakcjonujące. Symulacja opisana w tym artykule pokazuje, że założenie to nie jest konieczne, ponieważ efekt, który ma przechwytywać, wynika z mechanizmów uczenia się przewidywania wzmocnienia w uczeniu się o wzmocnieniu. Tak więc, zasady uczenia się wzmacniania mogą być użyte do zrozumienia nie tylko związanej z nagrodą aktywności neuronów dopaminergicznych zwojów podstawy, ale także niektórych z ich pozornie niezwiązanych z nagrodą aktywności.

Reinforcement Learning (RL) nabiera coraz większego znaczenia w opracowywaniu obliczeniowych modeli uczenia się w oparciu o nagrody w mózgu. RL to klasa algorytmów obliczeniowych, która określa, w jaki sposób sztuczny „agent” (np. Prawdziwy lub symulowany robot) może nauczyć się wybierać działania w celu maksymalizacji całkowitej oczekiwanej nagrody [17]. W tych algorytmach agent opiera swoje działania na wartościach, które uczy się kojarzyć z różnymi stanami (np. Percepcyjnymi sygnałami związanymi z bodźcem). Wartości te można stopniowo poznawać poprzez uczenie się różnic czasowych, które dostosowuje wartości stanu w oparciu o różnicę między istniejącą prognozą nagrody agenta dla stanu a rzeczywistą nagrodą, która jest następnie uzyskiwana ze środowiska. Wykazano, że ta obliczona różnica, nazywana błędem przewidywania nagrody, koreluje bardzo dobrze z fazową aktywnością neuronów uwalniających dopaminę wystających z istoty czarnej u naczelnych innych niż ludzie [16]. Ponadto u ludzi prążkowie, które jest ważnym celem dopaminy, wykazuje sygnał BOLD fMRI, który wydaje się odzwierciedlać błąd przewidywania nagrody podczas zadań uczenia się nagrody [10,12,18]. To odkrycie fMRI uzupełnia dane fizjologiczne, ponieważ zakłada się, że prążkowia BOLD odzwierciedlają, przynajmniej częściowo, aferentną aktywność synaptyczną [9], a neurony dopaminowe wywierają silny wpływ na prążkowie.

Chociaż wspomniane powyżej reakcje fizjologiczne wydają się być związane z obliczeniami przewidywania nagrody RL, występuje również zwiększenie aktywności fazowej dopaminergicznej w odpowiedzi na pobudzenie i / lub nowe bodźce, które pozornie nie mają związku z nagrodą [4,6,14,3]. Podobne zjawisko obserwowano ostatnio u ludzi stosujących fMRI [2]. Istnieje kilka powodów, dla których ta „nowość” lub „istotność” nie ma związku z błędem przewidywania nagrody: (1) pojawia się bardzo wcześnie, zanim tożsamość bodźca zostanie oceniona, tak że dokładna prognoza nagrody nie może być generowane; (2) odpowiada wzrostowi aktywności neuronalnej (tj. Jest dodatni) zarówno dla bodźców awersyjnych, jak i apetycznych; i (3) przyzwyczaja [13]. Rzeczywiście, te reakcje istotności / nowości neuronów uwalniających dopaminę są najbardziej wiarygodne, gdy bodźce są nieprzewidywalne i prowadzą do ukierunkowania i / lub zachowania podejścia [16] niezależnie od ostatecznego wyniku, podkreślając fakt, że są jakościowo różne od wyuczonej nagrody Prognoza. Wyzwaniem było zatem wyjaśnienie tego pozornego paradoksu (tj. Jak nowość wpływa na błąd przewidywania nagrody) w ramach teoretycznych RL.

Kakade i Dayan [7] próbowali dokładnie to zrobić; w swoim artykule postulują dwa sposoby włączenia nowatorskich odpowiedzi do modeli RL funkcji dopaminergicznych - oba dotyczyły włączenia nowych założeń teoretycznych. Pierwsze założenie, określane jako premie nowości, polega na wprowadzeniu dodatkowej nagrody, gdy obecne są nowe bodźce, wykraczające poza zwykłą nagrodę otrzymywaną przez agenta. Ta dodatkowa nagroda wchodzi w obliczenia, aby uczenie się opierało się na różnicy między istniejącą prognozą agenta a sumą zarówno zwykłej nagrody ze środowiska, jak i premii za nowość. Zatem nowość staje się częścią nagrody, którą agent próbuje zmaksymalizować. Drugie założenie, określane jako premie kształtowania, może być realizowane poprzez sztuczne zwiększanie wartości stanów związanych z nowymi bodźcami. Ponieważ reguła uczenia się różnic czasowych stosowana w RL opiera się na różnicy w przewidywaniu nagrody między kolejnymi stanami, dodanie stałej premii kształtującej dla stanów związanych z nowymi bodźcami nie ma wpływu na ostateczne zachowanie agenta. Jednak wciąż pojawia się odpowiedź nowości, gdy agent wchodzi w tę część przestrzeni państwa, która została „ukształtowana” (tzn. Jest związana z nowością).

Chociaż dodanie każdego z tych założeń jest wystarczające do wyjaśnienia wielu zaobserwowanych efektów nowości, założenia również zakłócają postęp uczenia się. Jak wskazują Kakade i Dayan [7], premie nowości mogą zniekształcić funkcję wartości (tj. Wartości związane z każdym stanem przez agenta) i wpłynąć na to, co ostatecznie się nauczy, ponieważ są one wdrażane jako dodatkowa nagroda, która jest nierozerwalnie związana z powieścią stany. Problem polega na tym, że agent uczy się przewidywać zarówno podstawowe, jak i nowatorskie elementy nagrody. Chociaż Kakade i Dayan zwracają uwagę, że kształtowanie premii nie powoduje tego typu problemów, ponieważ zostają one włączone do przewidywań nagrody z poprzednich stanów, ich dodawanie jest nadal problematyczne, ponieważ kształtowanie premii wprowadza uprzedzenia w sposobie, w jaki agent będzie badał swoją przestrzeń stanu. Zatem, chociaż te dodatkowe założenia mogą wyjaśniać, w jaki sposób nowość wpływa na błąd przewidywania nagrody w RL, są one problematyczne. Co więcej, wyjaśnienia pochodzą kosztem zmniejszenia oszczędności w modelowaniu, które próbują wykorzystać RL do zrozumienia zachowania prawdziwych organizmów biologicznych.

Przedstawiona poniżej symulacja została przeprowadzona w celu przetestowania hipotezy, że prosty czynnik RL, bez żadnych dodatkowych założeń, rozwinąłby odpowiedź błędu przewidywania nagrody podobną do odpowiedzi na dopaminę niezwiązaną z nagrodą obserwowaną w organizmach biologicznych . Agent RL otrzymał zadanie interakcji z dwoma typami obiektów - jednym pozytywnym, a drugim negatywnym - które pojawiły się w przypadkowych miejscach w jego otoczeniu. Aby zmaksymalizować swoją nagrodę, agent musiał nauczyć się zbliżać i „spożywać” pozytywny obiekt oraz unikać (tj. Nie „konsumować”) negatywnego obiektu. Były trzy główne prognozy dla symulacji.

Pierwsza przepowiednia była po prostu taka, że aby zmaksymalizować nagrodę, agent w rzeczywistości nauczyłby się zbliżać i „pochłaniać” pozytywne, nagradzające przedmioty, jednocześnie ucząc się unikać negatywnych, karzących przedmiotów. Druga przepowiednia była nieco mniej oczywista: agent przejawiałby odpowiedź orientacyjną (tj. Nauczył się zmieniać orientację) zarówno na obiekty negatywne, jak i pozytywne. Ta prognoza została stworzona, ponieważ chociaż agent mógł „wyczuć” wygląd obiektu i jego lokalizację, pozytywną lub negatywną tożsamość obiektu (tj. Wskazówkę, że agent w końcu nauczy się kojarzyć z wartością nagrody obiektu) nie może być określony przez agenta, dopóki agent nie zorientował się w kierunku obiektu. Wreszcie trzecia (i najważniejsza) prognoza była związana z symulowaną dopaminergiczną odpowiedzią fazową w modelu; ta prognoza przewidywała, że gdy pojawił się przedmiot, czynnik wykazywałby błąd przewidywania nagrody, który byłby obliczeniowo analogiczny do fazowej odpowiedzi dopaminowej obserwowanej w organizmach biologicznych, będąc pozytywnym zarówno dla pozytywnych, jak i negatywnych obiektów. Przewidywano również, że ta odpowiedź będzie się zmieniać w zależności od odległości między czynnikiem a bodźcem, co w kontekście symulacji było miarą zastępczą dla „intensywności” bodźca lub istotności. Jak zostanie wykazane poniżej, przewidywania te zostały potwierdzone przez wyniki symulacji, wykazując, że pozornie niezwiązane z nagrodą reakcje dopaminowe mogą w zasadzie wynikać z podstawowych zasad RL. Teoretyczne implikacje tych wyników dla wykorzystania RL do zrozumienia aktywności niezwiązanej z nagrodami w organizmach biologicznych zostaną omówione w ostatniej części tego artykułu.

Metoda wykonania

Jak już wspomniano, algorytmy RL określają, w jaki sposób agent może wykorzystać nagrody liczbowe od momentu do momentu, aby dowiedzieć się, jakie działania powinien podjąć, aby zmaksymalizować całkowitą kwotę nagrody, jaką otrzymuje. W większości sformułowań uczenie się jest uzyskiwane dzięki użyciu błędów przewidywania nagrody (tj. Różnicy między bieżącym przewidywaniem nagrody agenta a uzyskaną rzeczywistą nagrodą) w celu zaktualizowania prognoz wynagrodzeń agenta. W miarę poznawania przewidywań nagrody mogą być również wykorzystywane przez agenta do wyboru następnej akcji. Zwykła zasada (zdefiniowana w równaniu 2) polega na wybraniu przez agenta akcji, która według przewidywań przyniesie największą nagrodę. Rzeczywista nagroda, która jest przekazywana agentowi w danym momencie, to suma natychmiastowej nagrody plus pewna część wartości stanu, w którym agent wchodzi po zakończeniu akcji. Tak więc, jeśli agent w końcu doświadczy pozytywnych nagród po tym, jak był w określonym stanie, agent wybierze w przyszłości działania, które mogą doprowadzić do tych nagrodzonych stanów; i odwrotnie, jeśli agent doświadczy negatywnych nagród (tj. kary), uniknie w przyszłości działań prowadzących do tych „karanych” stanów.

Specyficzny algorytm, który określa prognozy wynagrodzeń, które są wyuczone dla różnych stanów (tj. Funkcja wartości V) nazywa się Iteracją Wartości [Przypis 1] i może być formalnie opisany jako:

Dla wszystkich możliwych stanów s,

(Równanie 1)

gdzie s odpowiada bieżącemu stanowi, V (s) jest bieżącym przewidywaniem nagrody dla stanu s, którego nauczył się agent, maxaction∈M {} jest operatorem dla maksymalnej wartości ilości w nawiasie w zbiorze wszystkich działań M dostępne dla agenta, V (s ′) to bieżące przewidywanie nagrody agenta dla następnego stanu s ′, α to pewna szybkość uczenia się (między 0 i 1), a γ to współczynnik dyskontowy odzwierciedlający, w jaki sposób przyszłe nagrody mają być ważone w stosunku do natychmiastowych nagród. Funkcja wartości początkowej została ustawiona tak, że V (s) był 0 dla wszystkich stanów s.

Funkcja wartości V (s) została zaimplementowana jako tabela przeglądowa, która jest formalnie równoważna założeniu doskonałej pamięci. Chociaż aproksymacje funkcji, takie jak sieci neuronowe, z pewnym powodzeniem wykorzystywano do reprezentowania funkcji wartości [1], do sprawdzenia, czy wyniki nie były zależne od typów mechanizmu generalizacji zapewnianego przez różne aproksymatory funkcji, użyto tabeli przeglądowej. Agent został przeszkolony w zakresie iteracji uczenia 1,500 nad przestrzenią stanu. Ze względu na nieprzewidywalność tożsamości obiektów, podczas aktualizacji wykorzystano parametr aktualizacji funkcji wartości mniejszej niż jeden (α = 0.01), aby umożliwić uśrednianie różnych wyników. Ostatecznie współczynnik dyskonta został ustawiony na γ = 0.99, aby zachęcić agenta do wcześniejszego uzyskania nagrody, zamiast opóźniać zachowanie podejścia do końca okresu próbnego (chociaż zmiana go z domyślnej wartości 1 nie miała wpływu na wyniki tutaj przedstawione). ) Aby niezależnie określić, czy iteracje uczenia 1,500 były wystarczające do nauki, średnia wielkość zmian w uczonym była monitorowana i stwierdzono, że zbiegła się przed tą liczbą iteracji.

Po treningu konkretny algorytm, który reguluje zachowanie agenta (tj. Polityka działań podejmowanych przez niego w każdym danym stanie) to:

(Równanie 2)

gdzie π (s) to działanie, które agent wybierze ze stanu s, a prawa strona równania zwraca akcję (np. zmianę orientacji, ruch lub brak działania), która maksymalizuje sumę nagrody i wartość zdyskontowaną stanu wynikowego s ′.

W przedstawionej poniżej symulacji wszystkie stany, które były odwiedzane przez agenta, były zakodowane jako wektory wymiarowe 7, które reprezentowały informacje zarówno o zewnętrznym „fizycznym” stanie agenta, jak i jego wewnętrznym stanie „wiedzy”. Informacje fizyczne obejmowały zarówno aktualną pozycję agenta w przestrzeni, jak i jego orientację. Informacje o wiedzy obejmowały położenie obiektu (jeśli był obecny) i tożsamość tego obiektu (jeśli został określony przez agenta). Konkretne typy informacji reprezentowane przez agenta przedstawiono w tabeli 1.

Tabela 1

Wymiary używane w symulacjach RL i możliwe wartości tych wymiarów.

W symulacji było ogółem stanów 21,120 [Footnote 2]. Jednak stany, w których istniał niezidentyfikowany pozytywny i niezidentyfikowany obiekt negatywny, są z punktu widzenia agenta identyczne, a zatem istnieją tylko różne stany 16,280. Tak więc, podczas każdej iteracji uczenia się, konieczne było dwukrotne odwiedzanie niektórych „identycznych” stanów, aby uwzględnić fakt, że w połowie czasu mogą być obserwowane odkrycie pozytywnego obiektu, a połowa czasu może być wraz z odkryciem negatywnego obiektu [Footnote 3].

Na początku każdej symulowanej próby testowej agent został umieszczony w środku symulowanej liniowej ścieżki jednostki 11 × 1 z pięcioma spacjami do „wschodu” (tj. Na prawo) agenta i pięciu pól na „zachód” ”(Tj. Po lewej stronie) agenta. Jak pokazuje tabela 1, wektor stanu agenta zawierał element wskazujący jego bieżącą lokalizację na ścieżce (tj. Liczbę całkowitą od 0 do 10), a także element (tj. Znak „n”, „s”, „ e ”lub„ w ”) reprezentujące jego bieżącą orientację (tj. odpowiednio północ, południe, wschód lub zachód). Początkowa orientacja agenta była zawsze ustawiona na „północ” i żaden inny obiekt nie był obecny w środowisku (tj. Wartość „OBJECT” w stanie-wektora agenta została ustawiona na „0”).

Podczas każdego kroku symulacji agent może wykonać jedną z następujących czynności: (1) nic nie robić i pozostać w bieżącej lokalizacji i orientacji; (2) orientuje się na północ, południe, wschód lub zachód; lub (3) przenieś jedno miejsce w środowisku (wschód lub zachód). Wynik każdego działania miał miejsce w następnym symulowanym kroku czasowym. Wszystkie zmiany w lokalizacji i / lub orientacji agenta w przestrzeni nastąpiły poprzez wybór akcji przez agenta. Jednak podczas każdego kroku symulacji, nawet gdy wybrano akcję „nie rób nic”, czas był zwiększany przez 1 do końca okresu próbnego (tj. Czas-krok 20).

Środowisko agenta zostało skonfigurowane tak, że połowa czasu obiekt pojawił się w losowej lokalizacji (ale nie w tym samym miejscu co agent) po dziesięciu krokach; 50% obiektów było dodatnich (reprezentowanych przez „+”; patrz Tabela 1), a 50% obiektów było ujemnych (reprezentowanych przez „-”). Opóźnienie przed pojawieniem się obiektu zostało wprowadzone, aby umożliwić obserwację dowolnego zachowania agenta przed pojawieniem się obiektu. Jeśli agent nie był zorientowany na obiekt, gdy się pojawił, to element reprezentujący tożsamość „OBIEKT” w wektorze stanu agenta został zmieniony z „0” na „?”, Aby odzwierciedlić fakt, że tożsamość obiektu, który był teraz obecny był obecnie nieznany. Jeśli jednak agent był zorientowany w kierunku obiektu, to w następnym kroku czasowym element „OBIEKT” był ustawiony jako równy tożsamości obiektu, tak że „0” stał się „+” lub „-” dla pozytywnego i odpowiednio obiekty negatywne.

Jeśli agent przeniósł się do lokalizacji obiektu, podczas następnego kroku obiekt zniknął. Jeśli obiekt był dodatni, wówczas flaga „ZUŻYTY” agenta została ustawiona na wartość true, a agent został nagrodzony (nagroda = + 10); Jeśli jednak obiekt był ujemny, flaga „ZAKRWIONA” została ustawiona na wartość true, a agent został ukarany (nagroda = −10). (Zauważ, że flagi zostały ustawione w ten sposób, niezależnie od tego, czy agent zidentyfikował obiekt, czy nie; np. Agent może konsumować obiekt bez orientowania się w jego kierunku). Flaga „ZUŻYTY” została wyczyszczona. Agent otrzymał również niewielką karę (wzmocnienie = −1) za każdy ruch lub orientację i nie otrzymał żadnej nagrody ani kary (wzmocnienie = 0), jeśli nie wykonał żadnej akcji.

Oba jawne zachowania (tj. Orientacja i ruch) oraz miara błędu przewidywania nagrody zostały określone ilościowo dla agenta. Zachowanie jawne (tj. Lista działań wybranych przez agenta) zostało użyte jako wskazówka, czy zadanie zostało poznane. Miarę błędu przewidywania nagrody użyto do przetestowania hipotezy o pojawieniu się niefirmowego dopaminergicznego sygnału fazowego. Błąd przewidywania nagrody, δ, mierzono w czasie t wyglądu obiektu, odejmując przewidywanie nagrody w poprzednim kroku czasowym, tj. V (s) w czasie kroku t-1, od przewidywania nagrody, gdy obiekt pojawił się, tj. V (s) w czasie t, dając ilość δ = V (st) - V (st-1).

Efekt

Symulowane zachowanie

Pierwsze zachowanie agentów zostało po raz pierwszy określone ilościowo. Wyniki tej analizy wykazały, że po treningu agent zbliżył się i uzyskał pozytywne wzmocnienie ze wszystkich pozytywnych obiektów i nigdy nie zbliżył się do żadnego z negatywnych obiektów. Łącznie wyniki te zapewniają behawioralne potwierdzenie, że agenci nauczyli się prawidłowo wykonywać zadanie. Wniosek ten potwierdza dodatkowa obserwacja, że podczas prób, gdy nie pojawił się żaden przedmiot, agent pozostawał nieruchomy. Zgodnie z przewidywaniami agent zorientowany jest zarówno na pozytywne, jak i negatywne obiekty.

Symulowany błąd przewidywania nagrody

Główną hipotezą tego artykułu jest to, że pojawienie się nieprzewidywalnego bodźca będzie konsekwentnie generować pozytywny błąd przewidywania nagrody, nawet jeśli ten obiekt jest „negatywnym” obiektem, który zawsze karze. Na poparcie tej hipotezy agent wykazywał dodatni błąd przewidywania nagrody za każdym razem, gdy pojawił się (niezidentyfikowany) obiekt, ale nie wtedy, gdy nic się nie pojawiło. Zgodność z centralną hipotezą jest również zgodna z faktem, że wielkość odpowiedzi fazowej czynnika (δ, mierzona zgodnie z opisem w sekcji Metoda) była wrażliwa na symulowaną „intensywność” bodźca, zdefiniowane za pomocą odległości między agentem a obiektem (patrz rysunek 1). Analiza regresji wykazała, że wielkość δ była odwrotnie proporcjonalna do odległości od obiektu, tak że bliższe obiekty powodowały silniejszą reakcję (r = −0.999, p <0.001; β = 0.82). Ta negatywna korelacja była spowodowana niewielką karą (wzmocnienie = −1), która została nałożona za każdy ruch, który agent musiał wykonać, aby przejść do pozytywnego obiektu, skonsumować go, a tym samym otrzymać nagrodę.

Rysunek 1

Ten rysunek przedstawia błąd przewidywania nagrody (tj. Δ), gdy obiekt pojawił się jako funkcja położenia obiektu względem położenia agenta. Odpowiedzi są identyczne zarówno dla pozytywnych, jak i negatywnych obiektów. Kiedy nie ma przedmiotu (więcej…)

Biorąc pod uwagę, że obiekty dodatnie i ujemne pojawiły się w tej symulacji z równym prawdopodobieństwem (p = .25), pojawia się pytanie: dlaczego sygnał błędu przewidywania nagrody agenta był dodatni w momencie pojawienia się obiektu? Rozumując zgodnie z liniami Kakade i Dayan [7], można przewidzieć, że sygnał powinien odzwierciedlać średnią wszystkich wyuczonych nagród z takich sytuacji, a zatem być równy zeru. Kluczem do zrozumienia tego wyniku jest zwrócenie uwagi, że RL sprawia, że agent ma mniejszą szansę na wybranie działań, które skutkują negatywnym wzmocnieniem, a także sprawia, że agent rzadziej wchodzi w stany, które ostatecznie prowadzą do wzmocnienia negatywnego. Powoduje to rodzaj uczenia się „wyższego rzędu”, który jest przedstawiony na rysunku 2 i opisany dalej.

Rysunek 2

Ilustracja pokazująca, w jaki sposób agent RL rozwija pozytywny błąd przewidywania nagrody, gdy jest przeszkolony w zakresie zarówno nagradzających, jak i karających bodźców w swoim środowisku i jest w stanie zdecydować, czy podejść do nich i je skonsumować. (A) Sytuacja przed nauką: (więcej…)

Na początku nauki (patrz rysunek 2A) agent orientuje się zarówno na obiekty „+”, jak i „-”, zbliża się do nich i jest nagradzany i karany przez spożywanie każdego rodzaju obiektu. Jeśli wyuczone wartości stanu agenta nie były w stanie wpłynąć na działania agenta (patrz rysunek 2B), agent kontynuowałby zbliżanie się i konsumowanie obiektów. Pojawienie się pamięci przewidywałoby wtedy średnią nagrodę 0 i nastąpiłby nagły wzrost błędu przewidywania nagrody. Jednak agent w tej symulacji wykorzystuje wyuczone wartości stanów do wpływania na jego działania (patrz rysunek 2C) i chociaż agent nadal musi orientować się na nieznany obiekt, aby określić jego tożsamość, nie będzie już zużywał negatywnego obiektu, jeśli się zbliży to (jak może być, jeśli zostanie wyszkolone za pomocą algorytmu losowej eksploracji, takiego jak próbkowanie trajektorii [Footnote 1]). Co więcej, ponieważ uczenie się różnic czasowych pozwala na „propagowanie” negatywnej prognozy nagrody, a ponieważ istnieje niewielki koszt poruszania się w przestrzeni, agent uczy się unikać całkowicie zbliżania się do obiektu negatywnego. Tak więc, po uzyskaniu tej informacji, wartość stanu, w którym obiekt po raz pierwszy pojawia się (oznaczona jako „V” w pierwszym okręgu w każdej sekwencji), nie jest oparta na średniej z pozytywnych i negatywnych wartości stanu wyniku, ale jest zamiast tego opiera się na średniej wyniku pozytywnego i „neutralnego”, która jest osiągnięta, gdy agent nauczy się unikać obiektów negatywnych. Dlatego średnia wszystkich nagród faktycznie otrzymanych przez wyszkolonego agenta była większa niż zero i wyjaśnia, dlaczego przewidywanie nagrody agenta (a zatem błąd przewidywania nagrody, gdy obiekt nagle się pojawia) było dodatnie netto. Ilustruje to rysunek 3. W rzeczywistości, dopóki agent może nauczyć się zmieniać swoje zachowanie i unikać obiektu negatywnego, wartość obiektu negatywnego jest ostatecznie nieistotna dla ostatecznego zachowania agenta i wielkości odpowiedzi nowości / istotności.

Rysunek 3

(A) Pokazuje zmiany w przewidywaniu nagrody, które wystąpiłyby, gdyby RL nie skutkowało uczeniem wyższego rzędu (tj. Gdyby agent nie mógł podjąć środków w celu uniknięcia negatywnego wyniku), tak że agent był zmuszony skonsumować całą obiekty (więcej…)

Wyniki symulacji są krytycznie zależne od trzech założeń. Po pierwsze, bodźce musiały być „najistotniejsze”, ponieważ wielkość wzmocnienia przewidziana przez początkową wskazówkę była wystarczająco duża (np. + 10) w stosunku do kosztów orientacji i zbliżania się (np. −1). Gdyby wielkość była stosunkowo niewielka, agent nie nauczyłby się orientować, ani nie wygenerowałby pozytywnej odpowiedzi błędu przewidywania nagrody. Po drugie, konieczne było również opóźnienie przed rozpoznaniem bodźców. (Opóźnienie jest proxy dla „nowości” pod rozumowaniem, że znajomy bodziec zostanie szybko rozpoznany.) Bez opóźnienia agent po prostu wygenerowałby odpowiedni dodatni lub ujemny błąd przewidywania nagrody odpowiedni dla rzeczywistego postrzeganego obiektu. Wreszcie zachowanie agenta musiało być określone przez wartości, których się nauczył. Jeśli agent nie mógł kontrolować własnego zachowania (tj. Czy zbliżyć się do bodźca), to jego przewidywanie nagrody, gdy pojawił się obiekt, równałoby się 0, średniej równych prawdopodobnych wyników pozytywnych i negatywnych.

ogólna dyskusja

Symulacja opisana w tym artykule wykazała, że dodatni błąd przewidywania nagrody pojawia się, gdy nieprzewidywalny bodziec, nagradzający lub karzący, pojawia się, ale nie można go natychmiast zidentyfikować. Co więcej, symulacja wskazywała, że rozmiar błędu przewidywania nagrody zwiększa się wraz z bliskością bodźca do agenta, co w kontekście symulacji jest miarą pośrednią natężenia bodźca, a zatem jest związane z istotnością. W teoretycznych ramach RL przewidywania nagrody są zwykle rozumiane jako odzwierciedlenie wyuczonej wartości rozpoznanych bodźców lub fizycznych i / lub poznawczych stanów czynnika [15]. Jednak zgłoszony tutaj błąd przewidywania nagrody ma jakościowo inną interpretację, ponieważ jest generowany, zanim agent rozpozna obiekt. Łącznie wyniki te potwierdzają hipotezę, że zasady RL są wystarczające do wytworzenia odpowiedzi, która wydaje się niezwiązana z nagrodą, lecz powiązana z właściwościami nowości i istotności. Wniosek ten ma kilka ważnych konsekwencji dla naszego ogólnego rozumienia RL i dla naszej interpretacji RL jako rachunku uczenia się nagrody w prawdziwych organizmach biologicznych.

Po pierwsze, przewidywanie nagrody generowane przez agenta RL, gdy pojawia się niezidentyfikowany bodziec, niekoniecznie jest ścisłą średnią uzyskiwanych nagród, jak sugerują Kakade i Dayan [7], ale w rzeczywistości mogą być większe niż ta konkretna średnia. Kakade i Dayan przewidują, że średnia prognoza nagrody powinna być równa zero, ponieważ próby były nagradzane i karane równie często. Ten zaskakujący wynik pojawił się, ponieważ agent nauczył się w sposób „na polityki”; to znaczy agent dowiedział się nie tylko o negatywnych skutkach, ale także o jego zdolności do unikania tych wyników. Ta zdolność systemu wynagrodzeń do spowodowania, aby agent uniknął negatywnych wyników, powinna być starannie rozważona przy przekładaniu naszego rozumienia RL na rzeczywiste organizmy. Fakt ten jest potencjalnie jeszcze ważniejszy, biorąc pod uwagę pozorną asymetrię zdolności dopaminergicznej odpowiedzi fazowej do reprezentowania dodatniego błędu przewidywania nagrody lepiej niż błąd przewidywania ujemnej nagrody [11]. Wystarczające może być wskazanie, że konkretna sekwencja zdarzeń prowadzi do negatywnego wyniku, ale że dla celów wyboru działania wielkość tego wyniku jest nieistotna.

Drugą konsekwencją obecnej symulacji jest to, że odpowiedź nowości może wynikać z interakcji między percepcyjnymi systemami przetwarzania a systemami przewidywania nagrody. W szczególności odpowiedź nowości może wynikać z podobieństwa między nowymi obiektami i obiektami, które nie zostały jeszcze całkowicie przetworzone [Footnote 4]. W tej symulacji wprowadzono nowość, wprowadzając opóźnienie, zanim tożsamość obiektu (aw konsekwencji jego nagradzająca lub karana natura) stała się widoczna dla agenta. Dokonano tego przy założeniu, że identyfikacja nowych obiektów trwa dłużej, ale założenie to spowodowało również, że obiekty pozytywne i negatywne były postrzegane podobnie po ich pierwszym pojawieniu się (tj. Oba były zakodowane jako „?”). W przeciwieństwie do tego, Kakade i Dayan [7] sugerują, że reakcje nowatorskie i odpowiedzi „uogólniające” są zasadniczo różne, mimo że manifestują się podobnie w danych neurofizjologicznych.

Trzecim rozgałęzieniem obecnych wyników symulacji jest to, że pokazują, że dodatkowe założenia nowości i premie za kształtowanie, które zaproponowali Kakade i Dayan [7], nie są konieczne. Zamiast tego mogą pojawić się nowatorskie reakcje wynikające z realistycznych ograniczeń przetwarzania percepcyjnego i wiedzy o możliwości uniknięcia negatywnych skutków. To szczęście, ponieważ, jak zauważyli Kakade i Dayan, premie za nowość zniekształcają funkcję wartości, której uczy się agent, a kształtowanie premii wpływa na sposób, w jaki agenci eksplorują swoje przestrzenie państwowe. Włączenie jednego z tych założeń zmniejsza zatem oszczędność modeli opartych na teorii RL. Co ciekawe, wyniki przedstawione tutaj pomagają również wyjaśnić, dlaczego reakcja na nowość biologiczną może nie zakłócać uczenia się opartego na nagradzaniu w prawdziwych organizmach: odpowiedź RL jest już przewidywana. Oznacza to, że odpowiedź nowości odzwierciedla zachowania i przewidywania nagrody, które są nieodłącznie związane z agentem, który nauczył się już czegoś o jego środowisku.

Alternatywną (ale nie wykluczającą się wzajemnie) interpretacją wyników symulacji jest fakt, że rzeczywiście istnieje abstrakcyjna (być może poznawcza) nagroda, którą agenci uzyskują poprzez ukierunkowanie i identyfikację obiektów. W badaniach aktywności dopaminergicznej mogą wystąpić pozytywne reakcje fazowe na nieprzewidziane sygnały, o których wiadomo, że przewidują nagrodę. Ta symulacja pokazuje jednak, jak tego rodzaju reakcje mogą również wystąpić w odpowiedzi na sygnał, który może ostatecznie przewidzieć nagrodę lub karę. Jedyną konsekwentną korzyścią przewidywaną przez cue jest zysk informacji uzyskanych, gdy agent określa tożsamość obiektu. Tak więc, jeśli istnieje prawidłowy, wyuczony „przewidywanie nagrody”, gdy pojawia się niezidentyfikowany obiekt, jest to taki, który jest spełniony po uzyskaniu przez agenta wiedzy o tym, czy podejść do bodźca lub unikać go. Wartość tych informacji nie opiera się na średniej uzyskiwanych wynikach, lecz opiera się na wiedzy o skutecznych wynikach - że agent może albo pochłonąć pozytywną nagrodę, albo uniknąć negatywnej nagrody (patrz rysunek 2).

Wreszcie, ważne jest, aby zauważyć, że możliwości podejmowania określonych działań (np. Orientowania się) mogą same przyjmować nagrody za pośrednictwem pewnego mechanizmu uogólniania lub uczenia się, którego nie uwzględniono w tej symulacji. Na przykład, sam akt orientowania i określania „tego, co tam jest” może stać się nagradzany dla organizmu na podstawie związku między tym działaniem a wyżej pokazanym wyłaniającym się, zawsze dodatnim błędem przewidywania nagrody, gdy pojawią się nowe bodźce. Podobny pomysł został ostatnio wysunięty przez Redgrave'a i Gurneya [13], którzy postawili hipotezę, że ważnym celem fazowej odpowiedzi dopaminowej jest wzmocnienie działań, które występują przed nieprzewidzianymi istotnymi zdarzeniami. Wyniki tutaj nie są niezgodne z tą hipotezą, należy jednak zauważyć, że hipoteza Redgrave'a i Gurneya nie jest bezpośrednio testowana w tej symulacji, ponieważ nie były wymagane żadne działania (tj. Eksploracja) od agenta, aby najistotniejsze zdarzenie (pojawienie się obiekt). Symulowany sygnał fazowy zbiegł się jednak z czasem odpowiedzi orientacyjnej sugerującym, że te dwa mogą być silnie powiązane.

Na zakończenie tego artykułu wykazano, że zasady RL można wykorzystać do wyjaśnienia rodzaju pozornie niezwiązanej z nagrodą aktywności neuronów dopaminergicznych. Wynik ten wynikał z faktu, że zasada uczenia się różnic czasowych (taka jak stosowana przez Kakade'a i Dayana [7]) została osadzona w symulacji, w której agent mógł wybrać działania, które miały wpływ na ostateczny wynik. W symulacji agent dowiedział się, że wynik orientacji na obiekt, który pojawił się nagle, zawsze może być satysfakcjonujący lub neutralny, ponieważ można uniknąć negatywnego wyniku. Dlatego też, gdy agent miał okazję zorientować się, jego błąd przewidywania nagrody był zawsze pozytywny, obliczeniowo analogiczny do reakcji nowości i istotności obserwowanych w organizmach biologicznych.

Podziękowanie

Prace opisane w tym artykule były wspierane przez NIH R01 HD053639 i NSF Training Grant DGE-9987588. Chciałbym podziękować Erikowi Reichle, Tessie Warren i anonimowemu recenzentowi za pomocne komentarze na temat wcześniejszej wersji tego artykułu.

1Anatywny algorytm uczenia zbrojenia, zwany próbkowaniem trajektorii [17], jest często używany zamiast iteracji wartości, gdy przestrzeń stanu staje się tak duża, że nie może być wyczerpująco iterowana lub łatwo przechowywana w pamięci komputera. Zamiast iterować po każdym stanie w przestrzeni stanu i stosować równanie aktualizacji funkcji wartości oparte na działaniach, które wydają się prowadzić do największej nagrody, próbkowanie trajektorii działa poprzez śledzenie ścieżek przez przestrzeń stanu. Podobnie jak w przypadku Iteracji wartości, akcje prowadzące do najbardziej nagrody są zazwyczaj wybierane z każdego stanu, ale czasami losowe działanie eksploracyjne jest wybierane z niewielkim prawdopodobieństwem. Zatem algorytm jest następujący: Z niektórych stanów początkowych s wybierz akcję prowadzącą do największej nagrody [np. Nagrodę + γV (s ′)] z prawdopodobieństwem ε lub wybierz losową akcję eksploracyjną z prawdopodobieństwem 1 - ε. Zastosuj V (s) → V (s) + α [nagroda + γV (s ′) - V (s)] podczas nie eksploracyjnych działań ze stanu s.

Oprócz pokonania technicznych ograniczeń czasu obliczeniowego i pamięci, pobieranie próbek trajektorii może być atrakcyjne, ponieważ może lepiej odzwierciedlać sposób, w jaki uczą się prawdziwe organizmy biologiczne: badając ścieżki w przestrzeni stanu. W przypadku zadania opisanego w tym dokumencie, pobieranie próbek trajektorii daje wyniki, które są jakościowo identyczne z wynikami uzyskanymi przy użyciu iteracji wartości. Jednak dla zwięzłości wyniki te nie zostały tu szczegółowo opisane. Iteracja wartości została wybrana do symulacji w tym artykule z dwóch głównych powodów. Po pierwsze, ponieważ próbkowanie trajektorii obejmuje stochastyczność w wyborze trajektorii, duża ilość rozgałęzień spowodowana wieloma możliwymi sekwencjami działań w tym zadaniu może spowodować, że agentom brakuje doświadczenia z niektórymi stanami, chyba że parametr eksploatacji eksploracyjnej (tj. ε-greediness [17]) jest starannie dobrany. Ten brak doświadczenia z poszczególnymi stanami może zakłócać działanie agenta, gdy używana jest struktura pamięci tabeli przeglądowej z powodu braku uogólnienia wartości na podobne (ale prawdopodobnie nieodwiedzone) stany. W związku z tym preferowano wykorzystanie wyczerpującej eksploracji przestrzeni stanów, która jest gwarantowana przez iterację wartości. Po drugie, użycie Iteracji wartości pominęło konieczność określenia tego dodatkowego parametru eksploatacji eksploracyjnej, upraszczając tym samym symulację. Należy zauważyć, że próbkowanie trajektorii może ostatecznie przybliżać wartość iteracji, gdy liczba trajektorii zbliża się do nieskończoności [17].

2 Liczba stanów 21,120 może być obliczona w następujący sposób: 11 możliwe lokalizacje agentów × możliwe 4 orientacje agentów × (10 kroki czasowe przed pojawieniem się obiektu + 10 kroki czasowe, w których nie pojawił się żaden obiekt + 10 kroki czasowe, gdzie agent był dodatnio wzmocnione + 10 kroki czasowe, w których obiekt został wzmocniony ujemnie + możliwe lokalizacje obiektów 11 * (kroki czasowe 10 z dodatnim zidentyfikowanym obiektem + 10 kroki czasowe z ujemnym zidentyfikowanym obiektem + 10 kroki czasowe z niezidentyfikowanym obiektem dodatnim + 10 kroki czasowe z niezidentyfikowanym obiektem negatywnym))].

3 Istnienie tych „ukrytych” stanów musi być brane pod uwagę podczas treningu, ponieważ Iteracja wartości wygląda tylko „jeden krok do przodu” z każdego stanu w przestrzeni stanu. Fakt, że stany z ujemnymi i dodatnimi niezidentyfikowanymi obiektami są faktycznie identyczne, uniemożliwiłby poznanie i uśrednienie wartości w dwóch różnych kolejnych stanach, w których identyfikowany jest obiekt pozytywny lub negatywny. Z drugiej strony, metoda próbkowania trajektorii utrzymuje informację o stanie ukrytym (tj. Tożsamość niezidentyfikowanego bodźca) przez cały okres próbny, a zatem w przypadku tego wariantu RL stany ukryte nie stanowią problemu.

Potencjalny sprzeciw 4One wobec niniejszej pracy polega na tym, że reakcja orientacji wydaje się być na stałe powiązana z mózgiem ssaków, na przykład w projekcjach z górnego mostka [3,14]. W obecnej symulacji agenci nie byli na stałe nastawieni na obiekty, ale zamiast tego nauczyli się zachowania orientującego, które pozwoliło na ostateczny wybór akcji (np. Podejścia lub unikania), która zmaksymalizowała nagrodę. Podobnie jak w przypadku odpowiedzi przewodowych, te zachowania orientacyjne wystąpiły bardzo szybko, zanim obiekty zostały zidentyfikowane i skierowane na wszystkie obiekty. Celem tej pracy nie było twierdzenie, że wszystkie takie odpowiedzi są uczone, ale raczej, że mogą one współistnieć w ramach RL. Niemniej jednak interesujące byłoby zbadanie, czy mechanizmy związane z nagrodami mogą być zaangażowane w tworzenie łączności w obszarach pnia mózgu, aby wygenerować tę fazową odpowiedź dopaminową.

Jest to plik PDF z nieedytowanym manuskryptem, który został zaakceptowany do publikacji. Jako usługa dla naszych klientów dostarczamy tę wczesną wersję manuskryptu. Rękopis zostanie poddany kopiowaniu, składowi i przeglądowi wynikowego dowodu, zanim zostanie opublikowany w ostatecznej formie cytowania. Należy pamiętać, że podczas procesu produkcyjnego mogą zostać wykryte błędy, które mogą wpłynąć na treść, a wszystkie zastrzeżenia prawne, które odnoszą się do czasopisma, dotyczą.

Referencje

1. Baird LC. Pozostałe algorytmy: uczenie się zbrojenia z aproksymacją funkcji. W: Priedetis A, Russell S, redaktorzy. Uczenie maszynowe: materiały z dwunastej międzynarodowej konferencji; 9 – 12 Lipiec.1995.

2. Bunzeck N, Düzel E. Bezwzględne kodowanie nowości bodźców w istocie ludzkiej nigra / VTA. Neuron. 2006; 51 (3): 369 – 379. [PubMed]

3. Dommett E, Coizet V, Blaha CD, Martindale J, Lefebvre V, Walton N, Mayhew JEW, Overton PG, Redgrave P. Jak bodźce wzrokowe aktywują neurony dopaminergiczne z krótkim opóźnieniem. Nauka. 2005; 307 (5714): 1476 – 1479. [PubMed]

4. Doya K. Metalearning i neuromodulacja. Sieci neuronowe. 2002 czerwiec – lipiec; 15 (4 – 6): 495 – 506. [PubMed]

5. Gillies A, Arbuthnott G. Modele obliczeniowe zwojów podstawy mózgu. Zaburzenia ruchu. 2000; 15 (5): 762 – 770. [PubMed]

6. Horvitz JC. Odpowiedzi dopaminowe mezolimbokortykalne i nigrostriatalne na istotne zdarzenia pozapłacowe. Neuroscience. 2000; 96 (4): 651 – 656. [PubMed]

7. Kakade S, Dayan P. Dopamina: uogólnienie i premie. Sieci neuronowe. 2002; 15 (4 – 6): 549 – 559. [PubMed]

8. Knutson B, Cooper JC. Przynęta nieznanego. Neuron. 2006; 51 (3): 280 – 282. [PubMed]

9. Logothetis NK, Pauls J, Augath M, Trinath T, Oeltermann A. Badania neurofizjologiczne podstawy sygnału fMRI. Natura. 2001; 412 (6843): 150 – 157. [PubMed]

10. McClure SM, Berns GS, Montague PR. Błędy prognoz czasowych w pasywnym zadaniu aktywują ludzkie prążkowie. Neuron. 2003; 38 (2): 339 – 346. [PubMed]

11. Niv Y, Duff MO, Dayan P. Dopamina, niepewność i nauka TD. Funkcje behawioralne i mózgowe. 2005 May 4; 1: 6. [Bezpłatny artykuł PMC] [PubMed]

12. O'Doherty JP, Dayan P, Friston K, Critchley H, Dolan RJ. Modele różnic czasowych i nauka związana z nagrodami w ludzkim mózgu. Neuron. 2003; 38 (2): 329 – 337. [PubMed]

13. Redgrave P, Gurney K. Sygnał dopaminowy o krótkim opóźnieniu: rola w odkrywaniu nowych działań? Nature Reviews Neuroscience. 2006 Dec; 7 (12): 967 – 975.

14. Redgrave P, Prescott TJ, Gurney K. Czy reakcja na dopaminę o krótkim opóźnieniu jest zbyt krótka, aby zasygnalizować błąd nagrody? Trendy w neurobiologii. 1999 Apr; 22 (4): 146 – 151. [PubMed]

15. Reichle ED, Laurent PA. Wykorzystanie uczenia się wzmacniającego do zrozumienia pojawienia się „inteligentnego” zachowania ruchu oczu podczas czytania. Przegląd psychologiczny. 2006; 113 (2): 390 – 408. [PubMed]

16. Schultz W. Predykcyjny sygnał nagrody neuronów dopaminowych. Journal of Neurophysiology. 1998; 80 (1): 1 – 27. [PubMed]

17. Sutton RS, Barto AG. Reinforcement Learning: Wprowadzenie. MIT Press; Cambridge: 1998.

18. Tanaka SC, Doya K, Okada G, Ueda K, Okamoto Y, Yamawaki S. Przewidywanie bezpośrednich i przyszłych nagród w różny sposób rekrutuje pętle zwojów korowo-podstawnych. Natura Neuroscience. 2004; 7 (8): 887 – 893.