Uczenie się pod kontrolą nagrody poza dopaminą w jądrze półleżącym: integracyjne funkcje sieci zwojów korowo-podstawnych (2008)

Eur J Neurosci. 2008 Oct;28(8):1437-48. doi: 10.1111/j.1460-9568.2008.06422.x.

Yin HH1, Ostlund SB, Balleine BW.

Abstrakcyjny

W tym miejscu kwestionujemy pogląd, że uczenie się pod kontrolą nagrody jest kontrolowane wyłącznie przez szlak mezoaccumbens powstający z neuronów dopaminergicznych w brzusznym obszarze nakrywkowym i wystający do jądra półleżącego. Ten powszechnie akceptowany pogląd zakłada, że ​​nagroda jest koncepcją monolityczną, ale ostatnie prace sugerują inaczej. Obecnie wydaje się, że w uczeniu się kierowanym nagrodą funkcje prążkowia brzusznego i grzbietowego oraz związane z nimi obwody zwojów korowo-podstawnych mogą zostać zdysocjowane. Podczas gdy jądro półleżące jest niezbędne do zdobycia i wyrażenia pewnych apetycznych reakcji Pawłowa i przyczynia się do motywacyjnej kontroli działania instrumentalnego, prążkowie grzbietowe jest niezbędne do nabywania i wyrażania działań instrumentalnych. Odkrycia te sugerują istnienie wielu niezależnych, ale oddziałujących na siebie systemów funkcjonalnych, które są wdrażane w iteracyjnych i hierarchicznie zorganizowanych sieciach zwojów korowo-podstawnych zaangażowanych w zachowania apetyczne, począwszy od reakcji podejścia Pawłowskiego do ukierunkowanych działań instrumentalnych kontrolowanych przez przypadkowe wyniki działań.

Słowa kluczowe: prążkowie, dopamina, zwoje podstawy, nauka, jądro półleżące, nagroda

W najnowszej literaturze powszechne stało się znalezienie monolitycznej koncepcji „nagrody” stosowanej jednolicie do zachowań apetycznych, czy to oznaczających wszystko, co jest dobre dla organizmu (zwykle z perspektywy eksperymentatora), czy używane zamiennie ze starszymi terminami, takimi jak „wzmocnienie” lub „zachęta”. Ten stan rzeczy jest wspierany przez, jeśli nie samą konsekwencję, skupienie się na pojedynczym podłożu neuronowym dla „nagrody” obejmującej uwolnienie dopaminy (DA) w jądrze półleżącym (Berke i Hyman, 2000; Grace i in., 2007).

Powiązanie między ścieżką i nagrodą mesoaccumbens, uznane kilkadziesiąt lat temu, zostało wzmocnione przez nowsze dowody, że fazowy sygnał DA koduje błąd przewidywania nagrody, który przypuszczalnie służy jako sygnał nauczania w asocjacyjnej nauceg (Schultz i wsp., 1997). Zgodnie z najbardziej popularną interpretacją, tak jak istnieje pojedynczy sygnał nagrody, istnieje jeden sygnał do uczenia się pod kontrolą nagrody, co w tym przypadku oznacza skojarzenie między bodźcem a nagrodą (Montague i in., 2004). Pytanie o to, jak zaniedbano zachowanie adaptacyjne tego typu kontroli uczenia się; zakłada się po prostu, że sygnał dopaminy jest wystarczający zarówno do uczenia się predykcyjnego, jak i wywoływanych przez nie odpowiedzi warunkowych, oraz do działań ukierunkowanych na cel, kierowanych przez ich powiązanie z nagrodą. W związku z tym głównym celem większości badań w dziedzinie nagrody i uzależnienia jest sygnalizacja DA i związana z nią plastyczność na szlaku mesoaccumbens (Berridge i Robinson, 1998; Hyman i wsp., 2006; Grace i in., 2007).

Ten widok procesu nagradzania, jak się coraz częściej uznaje (Cardinal i wsp., 2002; Balleine, 2005; Everitt i Robbins, 2005; Hyman i wsp., 2006), jest zarówno niewystarczające, jak i mylące. Jest to niewystarczające, ponieważ ani nabycie, ani wykonanie działań ukierunkowanych na cel nie mogą być wyjaśnione w kategoriach procesów asocjacyjnych, które pośredniczą w uczeniu się o nagradzaniu bodźców. Jest to ponadto mylące, ponieważ wyłączne skupienie się na aktywności na ścieżce mesoaccumbens, która nie jest ani konieczna, ani wystarczająca dla działań ukierunkowanych na cel, odwróciło uwagę od bardziej fundamentalnego pytania o to, czym dokładnie są działania ukierunkowane na cel i jak są one realizowane przez mózg. Rzeczywiście, zgodnie z zbieżnymi dowodami z różnych podejść eksperymentalnych, to, co wcześniej wydawało się być pojedynczym mechanizmem nagrody, może w rzeczywistości obejmować wiele procesów z wyraźnymi efektami behawioralnymi i substratami neuronowymi (Corbit i wsp., 2001; O'Doherty i wsp., 2004; Yin i wsp., 2004; Delgado i in., 2005; Yin i in., 2005b; Haruno i Kawato, 2006a; Tobler i in., 2006; Jedynak i in., 2007; Robinson i wsp., 2007; Tobler i in., 2007).

Tutaj próbujemy ujawnić niektóre problemy związane z obecnym modelem mesoaccumbens i zaproponować, w jego miejsce, inny model uczenia się pod kontrolą nagrody. Twierdzimy, że prążkowie jest wysoce niejednorodną strukturą, którą można podzielić na co najmniej cztery domeny funkcjonalne, z których każda działa jako koncentrator w odrębnej sieci funkcjonalnej z innymi komponentami korowymi, wzgórzowymi, palidowymi i śródmózgowia. Integracyjne funkcje tych sieci, począwszy od wytwarzania bezwarunkowych odpowiedzi wywołanych nagrodą, a skończywszy na kontrolowaniu działań ukierunkowanych na cel, można oddzielić i badać za pomocą współczesnych testów behawioralnych.

Przewidywanie i kontrola

Ścieżka mesoaccumbens jest często uważana za konieczną do uzyskania związku między bodźcami nagrodowymi a środowiskowymi, które przewidują tę nagrodę. Na przykład, w niektórych eksperymentach badających aktywność fazową komórek DA wywoływanych przez nagrodę, małpy były szkolone, aby powiązać bodziec z dostarczaniem soku (Waelti i in., 2001) i następnie reagować na bodziec za pomocą odpowiedzi warunkowej (CR) - przypadkowe lizanie. Lizanie małpy może być ukierunkowane na cel, ponieważ uważa, że ​​konieczne jest uzyskanie soku. Alternatywnie, lizanie może być wywołane przez poprzedni bodziec, z którym związany jest sok. Która z tych determinant lizania małp kontroluje zachowanie w każdej konkretnej sytuacji jest nieznany aprioryczniei nie może być określony powierzchowną obserwacją; można to określić tylko za pomocą testów zaprojektowanych specjalnie do tego celu. Testy te, których opracowanie zajęło wiele dziesięcioleci, stanowią trzon głównych nowoczesnych osiągnięć w badaniach nad nauką i zachowaniem (Tabela 1). Wykorzystując te testy, które zostaną omówione poniżej, wiemy teraz, że ta sama reakcja behawioralna - czy jest to podejście ambulatoryjne, orientacja, czy naciskanie dźwigni - może wynikać z wielu wpływów, które są eksperymentalnie dysocjowalne.

Tabela 1  

Uczenie się z nagrodami

Niewrażliwość na centralną niejednoznaczność w faktycznych determinantach zachowania jest zatem głównym problemem obecnej analizy neuronauki w uczeniu się z nagrodą. To zrozumieć znaczenie tego problemu, konieczne jest docenienie różnic między tym, w jaki sposób predykcyjne (lub pawłowskie) uczenie się i uczenie się ukierunkowane na cel (lub instrumentalne) kontrolują zachowania apetyczne. Rzeczywiście, sądząc po tym, jak często te dwa procesy zostały nagrodzone w literaturze, krótki przegląd tego rozróżnienia wydaje się być przydatnym punktem wyjścia do naszej dyskusji.

W apetycznym uwarunkowaniu Pawłowskim nagroda (tj. Bodziec bezwarunkowy lub US) jest sparowana z bodźcem (bodziec warunkowy lub CS), niezależnie od zachowania zwierzęcia, podczas gdy w nauce instrumentalnej nagroda zależy od działań zwierząt. Krytycznym pytaniem w obu sytuacjach jest jednak to, czy powiązanie bodziec-nagroda lub związek akcja-nagroda kontroluje zachowanie.

Wydaje się, że to proste pytanie wymykało się badaczom przez wiele dziesięcioleci, ponieważ reakcje behawioralne w tych sytuacjach mogą wydawać się identyczne.

Tak więc odpowiedzi warunkowe (CR) kontrolowane przez pawłowskie stowarzyszenie bodźców-nagród mogą często mieć na sobie cel ukierunkowany na cel. Nawet ślinienie się, pierwotny CR Pawłowa, mogło być wytwarzane przez jego psy jako celowa próba ułatwienia spożycia. To właśnie z powodu tej niejednoznaczności najbardziej oczywiste wyjaśnienie - mianowicie to, że w Pavlovianu uwarunkowane jest powiązanie bodźca z wynikiem jest wyuczone, podczas gdy w instrumentalnym uwarunkowaniu stowarzyszenie wyników-rezultatów jest wyuczone - nie zdobyło dużego wsparcia przez wiele dziesięcioleciSkinner, 1938; Ashby, 1960; Bolles, 1972; Mackintosh, 1974). Niemniej jednak, chociaż wiele pawłowskich CR jest autonomicznych lub konsumujących, inne CR, takie jak zachowanie podejścia do nagrody, nie są tak wygodnie scharakteryzowane (Rescorla i Solomon, 1967); w rzeczywistości można je łatwo pomylić z działaniami instrumentalnymi (Brown i Jenkins, 1968; Williams i Williams, 1969; Schwartz i Gamzu, 1977). Wiemy teraz, że pomimo powierzchownego podobieństwa, pawłowskie CR i ukierunkowane na cel działania instrumentalne różnią się strukturą reprezentacyjną kontrolującą wydajność odpowiedzi (Schwartz i Gamzu, 1977).

Najbardziej bezpośrednim sposobem na ustalenie, czy działanie odpowiedzi jest pośredniczone przez bodziec-nagrodę lub stowarzyszenie akcja-nagroda, jest zbadanie konkretnej zdolności kontrolowania przygodności. Przykład wydzielania śliny jest tutaj pouczający. Sheffield (1965) zbadano, czy ślinienie się w warunkowaniu Pawłowskim było kontrolowane przez jego związek z nagrodą lub przez związek bodziec-nagroda. W swoim eksperymencie psy otrzymywały powiązania między tonem a nagrodą za jedzenie (Sheffield, 1965). Jednakże, jeśli psy zabarwiły się w trakcie tonu, to jedzenie nie zostało dostarczone na tej próbie. Ten układ utrzymywał związek Pawłowa z tonem i jedzeniem, ale zniósł bezpośrednie powiązanie między ślinieniem a dostarczaniem pokarmu. Jeśli ślinienie się było działaniem kontrolowanym przez jego związek z jedzeniem, psy powinny przestać ślinić się - w rzeczywistości nigdy nie powinny nabierać śladu na ton. Sheffield odkrył, że to wyraźnie związek Pawłowa z tonem, który kontrolował ślinotok CR. W trakcie parowania 800 z tonem i jedzeniem psy nabrały i utrzymały ślinę w tonie, mimo że spowodowało to utratę większości żywności, którą mogły uzyskać, nie śliniąc się. Podobny wniosek osiągnęli inni w badaniach z ludźmi (Pithers, 1985) i innymi zwierzętami (Brown i Jenkins, 1968; Williams i Williams, 1969; Holland, 1979); we wszystkich przypadkach wydaje się, że pomimo ich wielkiej różnorodności, reakcje Pawłowian nie są kontrolowane przez ich związek z nagrodą, tj. przez przypadek wyniku działania.

Termin przygodność odnosi się do warunkowego związku między zdarzeniem „A” a innym „B”, tak że wystąpienie B zależy od A. Relacja tego rodzaju może zostać łatwo zdegradowana przez przedstawienie B przy braku A. To manipulacja eksperymentalna, określana jako degradacja awaryjna, jest powszechnie wykonywana poprzez przedstawienie nagrody niezależnie od bodźca predykcyjnego lub działania. Chociaż to podejście zostało pierwotnie opracowane do badania warunkowania Pawłowskiego (Rescorla, 1968) instrumentalna degradacja awaryjna stała się również powszechnym narzędziem (Hammond, 1980). Kiedy te nieprzewidziane sytuacje są bezpośrednio manipulowane, ujawnia się treść uczenia się: np. W autoshaping, Pavlovian CR „ukryty” jako instrumentalna akcja jest zakłócany przez manipulacje Pavlovian, a nie instrumentalną przygodnościąSchwartz i Gamzu, 1977).

Celowe działania instrumentalne charakteryzują się dwoma kryteriami: 1) wrażliwością na zmiany wartości wyniku i 2) wrażliwością na zmiany przygodności między działaniem a wynikiem (Dickinson, 1985; Dickinson i Balleine, 1993). Należy podkreślić, że sama wrażliwość na dewaluację wyników nie wystarcza do scharakteryzowania odpowiedzi jako ukierunkowanej na cel, ponieważ niektóre odpowiedzi Pawłowa mogą być również wrażliwe na tę manipulację (Holland and Rescorla, 1975). Jednak działanie ukierunkowanych działań instrumentalnych jest również wrażliwe na manipulowanie przypadkowością wyniku działania, podczas gdy reakcje Pawłowa są wrażliwe na manipulacje przygodności wynikającej z bodźca (Rescorla, 1968; Davis i Bitterman, 1971; Dickinson i Charnock, 1985). Ważny wyjątek można jednak znaleźć w przypadku przyzwyczajeń (patrz poniżej), które są bardziej podobne do odpowiedzi Pawłowian w ich względnej niewrażliwości na zmiany instrumentalnej przygodności, ale są również odporne na dewaluację wyników, ponieważ wynik nie jest częścią struktury reprezentacyjnej kontrolującej wydajność (por. Dickinson, 1985 i poniżej do dalszej dyskusji).

Podsumowując, niezwykle ważne jest, aby konkretna odpowiedź była jasno określona w kontekście kontrolowanego kontyngentu, a nie w formie odpowiedzi lub zadania behawioralnego użytego do jej ustalenia. Bez zbadania awaryjnego warunku w danej sytuacji, zarówno zachowanie, jak i procesy neuronalne, w których pośredniczy zachowanie, mogą zostać błędnie scharakteryzowane. Ostatecznie, jak będziemy dowodzić, to właśnie kontrolujące awarie, nabyte przez uczenie się i wdrażane przez różne systemy neuronowe, kontrolują zachowanie, chociaż mogą dzielić tę samą „ostateczną wspólną ścieżkę”. Dlatego głównym wyzwaniem jest wyjście poza pozory, aby odkryć podstawowe zachowanie kontrolujące awaryjność (zobacz streszczenie Tabela 1). Aby twierdzić, że określone struktury neuronowe pośredniczą w określonych zdolnościach psychologicznych, np. Ukierunkowanych na cel, stan zachowania należy ocenić za pomocą odpowiednich testów behawioralnych. Postępowanie w inny sposób polega na zachęcaniu do zamieszania, ponieważ grupy kłócą się o odpowiednie determinanty neuronowe, nie zdając sobie sprawy, że ich zadania behawioralne mogą mierzyć różne zjawiska. Ostatecznie liczy się to, czego zwierzę rzeczywiście się uczy, a nie to, w co eksperymentator wierzy, że zwierzę uczy się, a to, czego zwierzę rzeczywiście się uczy, może zostać ujawnione jedynie w testach, które bezpośrednio badają treść uczenia się.

Rozróżnienie między Pawłowianami a instrumentami byłoby trywialne, gdyby zwierzę zdołało nauczyć się tego samego (powiedzmy o związku między bodźcem a nagrodą) bez względu na to, jakie są ustalenia eksperymentalne. Korzystając z najczęstszych środków nauki dostępnych dla neuronauki dzisiaj, po prostu nie ma sposobu, aby to stwierdzić. Dlatego naukowcy często twierdzą, że badają zachowania ukierunkowane na cel, nie badając, czy dane zachowanie jest rzeczywiście ukierunkowane na cel. Chociaż zakłada się, że różne rodzaje uczenia się wynikają z użycia różnych „zadań” lub „paradygmatów”, częściej naukowcy nie przedstawiają odpowiedniego uzasadnienia dla swoich założeń.

Klasycznym przykładem tego problemu jest wykorzystanie labiryntów do nauki uczenia się. Jednym z problemów związanych z eksperymentami labiryntowymi i pokrewnymi testami, jak warunkowa preferencja miejsca, jest trudność eksperymentalnego odseparowania wpływów warunkowych Pavlovian (nagroda stymulacyjna) i instrumentalna (nagroda za działanie) na zachowanie (Dickinson, 1994; Yin and Knowlton, 2002). Zatem przejście przez labirynt T w celu zdobycia pożywienia może odzwierciedlać strategię reakcji (skręt w lewo) lub po prostu uwarunkowane podejście do jakiegoś punktu orientacyjnego poza labiryntem kontrolowanego przez stowarzyszenie cue-food (Restle, 1957). Jednym ze sposobów sprawdzenia, czy ten ostatni odgrywa rolę w wydajności, jest odwrócenie labiryntu; teraz uczący się powinni nadal skręcać w lewo, podczas gdy uczniowie korzystający z sygnałów dodatkowych labiryntu powinni skręcić w prawo. Ale czy ci, którzy nadal skręcają, naprawdę stosują strategię reagowania, czy tylko zbliżają się do niektórych wewnątrz-Zabudzić sygnał związany z jedzeniem? Nie jest prostą sprawą dowiedzieć się, ponieważ zwykłe kontrole zachowania Pawłowa nie mogą być łatwo zastosowane w badaniach labiryntu. Jedna z nich, kontrola dwukierunkowa, ustanawia, że ​​zwierzęta mogą sprawować kontrolę nad konkretną odpowiedzią, wymagając odwrócenia kierunku tej odpowiedzi, aby uzyskać nagrodę (Hershberger, 1986; Heyes i Dawson, 1990). Niestety, w labiryncie odwrócenie reakcji może nadal nie być wystarczające, aby ustanowić działanie jako ukierunkowane na cel, ponieważ odwrócenie można osiągnąć poprzez wygaszenie istniejącego związku między nagrodą a bodźcem i zastąpienie go innym. Na przykład, szczur zbliżający się do konkretnej wskazówki wewnątrz labiryntu może się dowiedzieć, podczas odwracania, że ​​nie jest już sparowany z nagrodą, ale że jest jakiś inny bodziec, w wyniku czego uzyskuje się podejście CR w kierunku nowego bodźca. W ten sposób mogą najwyraźniej odwrócić swoją reakcję bez zakodowania ewentualnej reakcji na nagrodę. Ponieważ tej możliwości nie można przetestować w praktyce, użycie labiryntów, procedur preferencji miejsca lub prostych zadań lokomotorycznych do badania procesów uczenia się ukierunkowanych na cel jest szczególnie niebezpieczne i prawdopodobnie spowoduje błędne scharakteryzowanie procesów kontrolujących zachowanie wraz ze specyficzną rolą dowolnego układu nerwowego procesy uznane za zaangażowane (Smith-Roe i Kelley, 2000; Hernandez i wsp., 2002; Atallah i in., 2007).

Nucleus accumbens nie jest konieczny do nauki instrumentalnej

Niedoskonałości obecnej analizy behawioralnej stają się szczególnie wyraźne w badaniu jądra półleżącego. Wiele badań sugeruje, że ta struktura ma kluczowe znaczenie dla uzyskania działań ukierunkowanych na cel (Hernandez i wsp., 2002; Goto and Grace, 2005; Hernandez i wsp., 2005; Pothuizen i in., 2005; Taha and Fields, 2006; Atallah i in., 2007; Cheer i in., 2007; Lerchner i in., 2007). Jednak wniosek ten został osiągnięty w dużej mierze w oparciu o miary zmiany wydajności, wykorzystując zadania, w których zachowanie kontroli awaryjnej jest niejednoznaczne. Chociaż obserwacja, że ​​manipulacja utrudnia zdobycie jakiejś odpowiedzi behawioralnej może wskazywać na deficyt uczenia się, może również odzwierciedlać wpływ na inicjację lub motywację do reakcji. Na przykład upośledzenie nabywania dźwigni może często odzwierciedlać wpływ na wydajność, a nie na naukę (Smith-Roe i Kelley, 2000). Same krzywe akwizycji, jako niekompletne reprezentacje każdego procesu uczenia się, należy interpretować ostrożnie (Gallistel i in., 2004). Niestety, rozróżnienie między nauką a wydajnością, być może najstarszą lekcją w nauce o uczeniu się, jest dziś często ignorowane.

Bardziej szczegółowa analiza wskazuje, że półleżące nie są ani konieczne, ani wystarczające do nauki instrumentalnej. Uszkodzenia powłoki półleżącej nie zmieniają wrażliwości wyników na dewaluację wyników (de Borchgrave i in., 2002; Corbit i in., 2001) lub instrumentalnej degradacji awaryjnej (Corbit i in., 2001), podczas gdy uszkodzenia rdzenia półleżącego okazały się zmniejszać wrażliwość na dewaluację, nie pogarszając wrażliwości szczurów na selektywną degradację instrumentalnej przygodności (Corbit i wsp., 2001). Inne badania oceniające wpływ manipulacji półleżących na nabycie nowej odpowiedzi w badaniach nad wzmocnieniem warunkowym konsekwentnie wpływają na wyniki związane z nagrodami, w szczególności na poprawę wydajności amfetaminy, ale nie na nabycie odpowiedzi per se (Parkinson et al, 1999). Podobnie, systematyczne badanie przeprowadzone przez Cardinal i Cheung również nie wykazało wpływu uszkodzeń rdzenia półleżącego na uzyskanie reakcji prasy dźwigniowej w ciągłym harmonogramie wzmocnienia; zaburzenia akwizycji obserwowano tylko z opóźnionym wzmocnieniem (Kardynał i Cheung, 2005).

Chociaż półleżące nie kodują przypadkowości instrumentalnej (Balleine i Killcross, 1994; Corbit, Muir i Balleine, 2001), znaczące dowody sugerują, że odgrywa on zasadniczą rolę w instrumentalnym jest gwarancją najlepszej jakości, które mogą dostarczyć Ci Twoje monitory,, rolę, którą możemy teraz lepiej zdefiniować w świetle ostatnich prac. Jak wynika z kilku badań, półleżące są krytyczne dla pewnych rodzajów apetycznego warunkowania Pawłowskiego i pośredniczą zarówno w nieswoistych efektach pobudzających, jakie sygnały związane z nagrodami mogą mieć na wydajności instrumentalnej, jak i specyficznych dla wyników tendencyjności w wyborze odpowiedzi. przez takie wskazówki. Uszkodzenia rdzenia lub obręczy przedniej, główne źródło wkładu korowego do rdzenia lub rozłączenie między tymi dwiema strukturami, utrudniają nabycie zachowania podejścia Pawłowa (Parkinson i wsp., 2000). Lokalny wlew antagonisty receptora dopaminy D1-podobnego lub antagonisty receptora glutaminianu NMDA bezpośrednio po treningu również osłabił tę formę uczenia się bez wpływu na wydajność (Dalley i wsp., 2005). Dane te zgadzają się z miarami in vivo aktywność neuronalna. Na przykład Carelli i współpracownicy odkryli, że neurony w rdzeniu półleżącym mogą systematycznie zmieniać swoją aktywność podczas uczenia się Pavlovskiego zadania autoformowania (Day i in., 2006; Day and Carelli, 2007).

Neurony w regionie skorupy wydają się być dostrojone do nagród i bodźców awersyjnych, nawet przed jakimkolwiek doświadczeniem uczenia się; są również w stanie opracować odpowiedzi na CS, które przewidują te wyniki (Roitman i wsp., 2005). Ponadto praca Berridge'a i współpracowników podniosło możliwość, że niektóre regiony w jądrze półleżącym i w dolnej części brzusznej części dolnej mogą być scharakteryzowane jako „hedoniczne punkty aktywne”. Obszary te bezpośrednio modulują bezwarunkowe hedoniczne reakcje na nagrody, takie jak reaktywność smaku. Na przykład, agoniści receptorów opioidowych w tych regionach mogą znacząco wzmacniać trawiącą reaktywność smakową wobec sacharozy. Takie wysoce zlokalizowane regiony są jednak osadzone w szerszych sieciach, które nie odgrywają roli w konsumpcyjnym zachowaniu apetycznym (Taha and Fields, 2005; Pecina i in., 2006; Taha and Fields, 2006).

Rozróżnienie względnych ról rdzenia i skorupy wydaje się być rozróżnieniem odpowiednio pomiędzy przygotowawczymi i konsumpcyjnymi zachowaniami apetycznymi, które mogą być łatwo modyfikowane przez doświadczenie poprzez różne typy uwarunkowań Pawłowskich. Odpowiedzi przygotowawcze, takie jak podejście, są powiązane z ogólnymi cechami emocjonalnymi wyniku, podczas gdy zachowania konsumpcyjne są powiązane z bardziej specyficznymi cechami sensorycznymi; są one również różnie podatne na różne typy CS, np. odpowiedzi przygotowawcze są łatwiej uwarunkowane bodźcem o długim czasie trwania (Konorski, 1967; Dickinson and Dearing, 1979; Balleine, 2001; Dickinson i Balleine, 2002).

W każdym razie dowody sugerujące półleżenie w niektórych aspektach uwarunkowań Pawłowa są przytłaczające. Wydaje się jednak, że nie jedyna zaangażowana struktura i inne sieci, takie jak te obejmujące różne jądra migdałowatych, również odgrywają centralną rolę zarówno w elementach przygotowawczych, jak i uzupełniających warunku Pawłowa. (Balleine i Killcross, 2006).

Jedną z funkcji, które można wyraźnie przypisać accumbens, jest integracja wpływów Pawłowa na zachowanie instrumentalne. Pavlovskie CR, w tym te odzwierciedlające aktywację centralnych stanów motywacyjnych, takie jak pragnienie i pobudzenie, mogą wywierać silny wpływ na wykonywanie działań instrumentalnych (Trapold i Overmier, 1972; Lovibond, 1983; Holland, 2004). Na przykład CS, które niezależnie przewiduje dostarczanie żywności, może zwiększyć instrumentalne reagowanie na ten sam pokarm. Efekt ten jest powszechnie badany za pomocą paradygmatu transferu Pawłowowsko-instrumentalnego (PIT). W PIT zwierzęta otrzymują oddzielne fazy treningu Pawłowa i instrumentalnego, w których uczą się niezależnie kojarzyć sygnał z jedzeniem i naciskać dźwignię dla tego samego pokarmu. Następnie na próbach sondujących wskazówka jest przedstawiana z dostępną dźwignią i mierzone jest zwiększenie szybkości odpowiedzi w obecności CS. Zidentyfikowano dwie formy PIT; jeden związany z generalnie wywołującym efektem wskazówek związanych z nagrodą i drugi bardziej selektywny wpływ na wyniki wyboru, spowodowany przez status predykcyjny wskazówki z uwzględnieniem jednej określonej nagrody, w przeciwieństwie do innych. Powłoka półleżąca jest niezbędna dla tej ostatniej formy PIT specyficznej dla wyniku, ale nie jest ani konieczna dla poprzedniej, bardziej ogólnej formy, ani dla wrażliwości na dewaluację wyników; przeciwnie, uszkodzenia rdzenia półleżącego zmniejszają wrażliwość zarówno na dewaluację wyniku, jak i ogólną formę PIT, ale pozostawiają nienaruszony wynik PIT specyficzny dla wyniku (Corbit i wsp., 2001; (Balleine i Corbit, 2005).

Ostatnie badanie dostarczyło dalszych informacji na temat roli powłoki półleżącej w PIT specyficznym dla wyniku (Wiltgen i in., 2007). Kontrolowana ekspresja aktywnej kinazy białkowej II zależnej od wapnia / kalmoduliny (CaMKII) w prążkowiu nie wpływała na uczenie się instrumentalne lub Pawłowskie, ale zniosła specyficzny PIT. Ten deficyt PIT nie był trwały i można go odwrócić, wyłączając ekspresję transgenu za pomocą doksycykliny, wykazując, że deficyt był związany tylko z wynikami. Sztuczne zwiększanie poziomu CaMKII w prążkowiu blokuje zatem specyficzny dla wyniku transfer motywacji motywacyjnej z Pawłowa do systemu instrumentalnego. Co ciekawe, stwierdzono również, że włączenie transgenu CaMKII zmniejsza pobudliwość neuronów w powłoce półleżącej, bez wpływu na transmisję podstawową lub siłę synaptyczną.

Prążkowie grzbietowe

Prążkowie grzbietowe, znane również jako prążkowie lub ogoniaste skorupy, otrzymuje masywne projekcje z tzw. kory nowej. Może być dalej podzielony na region asocjacyjny, który u gryzoni jest bardziej przyśrodkowy i ciągły z prążkowiem brzusznym oraz obszar sensomotoryczny, który jest bardziej boczny (Groenewegen i in., 1990; Joel i Weiner, 1994). Jako całość prążkowie grzbietowe jest unerwione przez komórki DA z istoty czarnej pars compacta (SNc) i otrzymuje jedynie skromne projekcje z neuronów VTA DA (Joel i Weiner, 2000). Poprzednie prace nad prążkowiem grzbietowym koncentrowały się głównie na jego roli w uczeniu się na podstawie reakcji na bodziec (SR) (Miller, 1981; Biały, 1989). Pogląd ten opiera się na prawie efektu, zgodnie z którym nagroda działa w celu wzmocnienia lub wzmocnienia związku SR między bodźcami środowiskowymi a reakcją, w wyniku której tendencja do wykonywania tej odpowiedzi wzrasta w obecności tych. bodźce (Thorndike, 1911; Kadłub, 1943; Miller, 1981). Tak więc uważa się, że szlak korowo-prążkowany pośredniczy w uczeniu się SR z DA działającym jako sygnał wzmacniający (Miller, 1981; Reynolds i Wickens, 2002).

Modele SR mają tę zaletę, że zawierają oszczędną regułę przekładającą naukę na wydajność. Natomiast model oparty na oczekiwaniach związanych z działaniem jest bardziej skomplikowany, ponieważ przekonanie „działanie A prowadzi do wyniku O” niekoniecznie musi być przełożone na działanie (Guthrie, 1935; Mackintosh, 1974); informacje tego rodzaju można wykorzystać zarówno do wykonania „A”, jak i do uniknięcia „A”. Z tego powodu tradycyjne teorie odrzuciły najbardziej oczywiste wyjaśnienie - mianowicie, że zwierzęta mogą nabyć przygodność wynikającą z działania, która kieruje zachowaniem wyboru. W ciągu ostatnich kilku dziesięcioleci nastąpiła jednak znaczna rewizja prawa skutku (Adams, 1982; Colwill i Rescorla, 1986; Dickinson, 1994; Dickinson i in., 1996). Twyniki wielu badań wykazały, że działania instrumentalne mogą być naprawdę ukierunkowane na cel, tj. wrażliwe na zmiany wartości nagrody, jak również na przyczynową skuteczność działania (patrz Dickinson i Balleine, 1994; 2002; Balleine, 2001 do recenzji). Niemniej jednak, w trakcie szeroko zakrojonych szkoleń w stałych warunkach, nawet nowo nabyte działania mogą stać się stosunkowo automatyczne i stymulowane bodźcami - proces znany jako tworzenie nawyku (Adams i Dickinson, 1981; Adams, 1982; Yin i wsp., 2004). Tak zdefiniowane nawyki, automatycznie wywoływane przez uprzednie bodźce, nie są kontrolowane przez oczekiwanie lub reprezentację wyniku; w konsekwencji są odporne na zmiany wartości wyniku. Z tego punktu widzenia prawo skutku jest więc szczególnym przypadkiem, który dotyczy tylko zwykłego zachowania.

Obecna klasyfikacja zachowań instrumentalnych dzieli ją na dwie klasy. Tpierwsza klasa obejmuje działania ukierunkowane na cel kontrolowane przez instrumentalną przygodność; drugie, nawykowe zachowanie odporne na zmiany wartości wyniku (Tabela 1). Stosując testy behawioralne, takie jak dewaluacja wyników i instrumentalna degradacja awaryjna, Yin i wsp. Ustalili funkcjonalną dysocjację między czuciowo-ruchowym (grzbietowo-bocznym prążkowiem, DLS) a regionami asocjacyjnymi (prążkowie grzbietowo-przyśrodkowe, DMS) prążkowia grzbietowego (Yin and Knowlton, 2004; Yin i wsp., 2004, 2005; Yin i in., 2005b; Yin i in., 2006a). Uszkodzenia DLS osłabiły rozwój nawyków, prowadząc do bardziej ukierunkowanego na cel trybu kontroli zachowania. Uszkodzenia DMS mają odwrotny skutek i skutkują przejściem z kontroli ukierunkowanej na cel na kontrolę przyzwyczajenia. Yin i in. Doszli zatem do wniosku, że DLS i DMS mogą być funkcjonalnie zdysocjowane pod względem rodzaju struktur asocjacyjnych, które obsługują: DLS ma kluczowe znaczenie dla tworzenia nawyku, podczas gdy DMS jest krytyczny dla nabywania i wyrażania działań ukierunkowanych na cel. Analiza ta przewiduje, że w pewnych warunkach (np. Wydłużone szkolenie) kontrola działań może przejść z systemu zależnego od DMS do systemu zależnego od DLS, co jest zgodne z szeroką literaturą na temat naczelnych, w tym neuroobrazowania człowieka (Hikosaka i in., 1989; Jueptner i in., 1997a; Miyachi i in., 1997; Miyachi i in., 2002; Delgado i in., 2004; Haruno i in., 2004; Tricomi i in., 2004; Delgado i in., 2005; Samejima i in., 2005; Haruno i Kawato, 2006a, b; Lohrenz i in., 2007; Tobler i in., 2007). Należy pamiętać, oczywiście, tsama lokalizacja kapelusza (np. grzbietowa lub brzuszna) nie może być wiarygodnym przewodnikiem przy porównywaniu prążkowia gryzonia i prążkowia prymasa; takie porównania należy wykonywać ostrożnie, po dokładnym rozważeniu połączenia anatomicznego.

Skutki zmian w prążkowiu grzbietowym można porównać z efektami uszkodzeń półleżących (Smith-Roe i Kelley, 2000; Atallah i in., 2007). Jak już wspomniano, standardowe testy do ustalenia zachowania jako „ukierunkowane na cel” to dewaluacja wyniku i degradacja ewentualności wyniku działania (Dickinson i Balleine, 1993). Uszkodzenia DMS powodują, że zachowanie jest niewrażliwe na obie manipulacje (Yin i in., 2005b), podczas gdy zmiany w rdzeniu lub skorupie półleżącej nie (Corbit i wsp., 2001). Co więcej, testy sondujące te testy behawioralne są zazwyczaj przeprowadzane w wymarciu, bez prezentacji jakiejkolwiek nagrody, w celu oceny tego, czego zwierzę nauczyło się bez skażenia przez nowe uczenie się. W ten sposób bezpośrednio badają reprezentacyjną strukturę kontrolującą zachowanie. Jako dodatkowa kontrola eksperymentalna często przydatne jest przeprowadzenie oddzielnego testu dewaluacji, w którym nagrody są faktycznie dostarczane - tak zwany „test nagrodzony”. Uszkodzenia DMS nie zniosły wrażliwości na dewaluację wyników w nagrodzonym teście, jak należy się spodziewać, ponieważ dostarczenie zdewaluowanego wyniku zależy od działania może tłumić działanie niezależnie od kodowania wynik-akcja. Z drugiej strony, zmiany skorupy półleżącej nie osłabiały wrażliwości na dewaluację wyników ani w teście wygaszania, ani w nagradzanym teście, podczas gdy uszkodzenia rdzenia półleżącego znosiły wrażliwość na dewaluację w obu testach (Corbit i wsp., 2001). Jednak żadna zmiana nie miała wpływu na wrażliwość na awaryjną degradację, co dowodzi, że po zmianach półleżących szczury były w stanie kodować i pobierać reprezentacje wyników działania.

Rola dopaminy: mezolimbiczna a nigrostriatalna

Od czasu pionierskich badań aktywności fazowej neuronów DA u małp powszechnym założeniem w tej dziedzinie jest to, że wszystkie komórki DA zachowują się zasadniczo w ten sam sposób (Schultz, 1998a; Montague i in., 2004). Jednak dostępne dane, a także łączność anatomiczna, sugerują inaczej. W rzeczywistości powyższą analizę heterogenności funkcjonalnej prążkowia można rozszerzyć również na komórki DA w śródmózgowiu.

Komórki DA można podzielić na dwie główne grupy: VTA i istota czarna pars compacta (SNc). Chociaż projekcja z VTA dla półleżących jest centrum uwagi w dziedzinie nauki związanej z nagrodami, znacznie bardziej masywny szlak nigrostriatalny został stosunkowo zaniedbany, z uwagą skupioną głównie na jego roli w chorobie Parkinsona. Aktualne myślenie o roli DA w uczeniu się jest pod silnym wpływem propozycji, że aktywność fazowa komórek DA odzwierciedla erro przewidywania nagrodyr (Ljungberg i in., 1992; Schultz, 1998b). jaW najczęściej stosowanym przez Schultza i współpracowników zadaniu warunkowania Pawłowa, neurony te odpalają w odpowiedzi na nagrodę (USA), ale wraz z uczeniem się, wywołana przez USA aktywność jest przenoszona na CS. Gdy po nauce pominięto USA, komórki DA wykazują krótką depresję aktywności w oczekiwanym czasie jej dostarczenia (Waelti i in., 2001; Fiorillo i in., 2003; Tobler i in., 2003). Takie dane stanowią podstawę różnych modeli obliczeniowych (Schultz i wsp., 1997; Schultz, 1998b; Brown i wsp., 1999; Montague i in., 2004).

Biorąc pod uwagę wiele poziomów kontroli w mechanizmach syntezy i uwalniania, nie można zrównać impulsu neuronów DA z uwalnianiem DA, chociaż można by oczekiwać, że te dwie miary będą wysoce skorelowane. Rzeczywiście, jak pokazują niedawne badania Carelli i współpracowników, wykorzystujące szybką woltamperometrię z szybkim skanowaniem, rzeczywiste uwalnianie DA w rdzeniu półleżącym wydaje się być skorelowane z błędem przewidywania w apetycznym uwarunkowaniu Pawłowskim (Day i in., 2007). Znaleźli fazowy sygnał DA w rdzeniu półleżącym natychmiast po otrzymaniu nagrody sacharozy w autoklawowaniu Pavlovian. Jednak po rozszerzonym warunkowaniu Pawłowskim sygnał ten nie został już znaleziony po nagrodzie, ale zamiast tego został przeniesiony do CS. Odkrycie to potwierdza oryginalną hipotezę „błędu prognozowania”. Jest to również zgodne z wcześniejszymi pracami wykazującymi upośledzoną wydajność CR Pavlovian po antagonizmie receptora DA lub zmniejszeniu DA w rdzeniu półleżącym (Di Ciano i wsp., 2001; Parkinson i wsp., 2002). Jednak jedno spostrzeżenie z badania jest nowe i budzi duże zainteresowanie: po rozszerzonym warunkowaniu za pomocą CS +, który przewiduje nagrodę i CS - który nie przewiduje nagrody, podobny, choć mniejszy, sygnał DA zaobserwowano również po CS- wykazał również nieznaczny spadek natychmiast (500 ~ 800 milisekund po początku cue) po początkowym piku (Day i in., 2007, Rysunek 4). Na tym etapie nauki zwierzęta prawie nigdy nie zbliżają się do CS−, ale konsekwentnie zbliżają się do CS +. Zatem sygnał fazowy DA bezpośrednio po predyktorze może nie odgrywać roli przyczynowej w generowaniu odpowiedzi podejścia, ponieważ jest obecny nawet przy braku odpowiedzi. Nie wiadomo, czy taki sygnał jest nadal potrzebny do uczenia się przygodności związanej z nagrodą, ale obserwowana reakcja fazowa na CS- z pewnością nie jest przewidywana przez żaden z obecnych modeli.

Co ciekawe, lokalne wyczerpanie DA pogarsza wydajność tego zadania (Parkinson i wsp., 2002). Podczas gdy fazowy sygnał DA jest obserwowany po CS-, który w ogóle nie generuje CR, zniesienie zarówno fazowego, jak i tonicznego DA przez lokalne zubożenie pogarsza działanie CR. Taki wzór sugeruje, że fazowy sygnał DA w półleżących nie jest potrzebny do działania pawłowskiego CR, ale może odgrywać rolę w uczeniu się, podczas gdy wolniejszy, bardziej toniczny sygnał DA (prawdopodobnie zniesiony w badaniach wyczerpywania) jest ważniejszy dla osiągów odpowiedzi podejścia (Cagniard i wsp., 2006; Yin i in., 2006b; Niv i in., 2007). Ta możliwość pozostaje do przetestowania.

Chociaż nie ma bezpośredniego dowodu na przyczynową rolę sygnału fazowego DA w uczeniu się, hipoteza „błędu prognozowania” przyciągnęła jednak wiele uwagi, ponieważ to właśnie typ sygnału dydaktycznego wykorzystywany jest w znanych modelach uczenia się, takich jak model Rescorla-Wagnera i jego rozszerzenie w czasie rzeczywistym algorytm uczenia się wzmocnienia różnic czasowych (Schultz, 1998b). Zgodnie z tą interpretacją, uczenie się apetytowe jest określane przez różnicę między otrzymaną a oczekiwaną nagrodą (lub między dwoma tymczasowo przewidywanymi nagrodami). Taki sygnał nauczania jest regulowany przez negatywne sprzężenie zwrotne ze wszystkich predyktorów nagrody (Schultz, 1998b). Jeśli żadna nagroda nie podąża za predyktorem, wówczas mechanizm ujemnego sprzężenia zwrotnego zostaje zdemaskowany jako spadek aktywności neuronów DA. Zatem uczenie się wymaga stopniowego zmniejszania błędu przewidywania.

Elegancja sygnału nauczania w tych modelach może odwracać uwagę od rzeczywistości anatomicznej. W badaniu przez Day et al (2007), sygnał DA w półleżących pochodzi głównie z komórek w VTA, ale wydaje się mało prawdopodobne, aby inne komórki DA, z całkowicie inną łącznością anatomiczną, wykazywały ten sam profil odpowiedzi i zapewniały ten sam sygnał. Bardziej prawdopodobny jest gradient sygnału komórek DA, ponieważ komórki DA projektują do różnych regionów prążkowia o całkowicie różnych funkcjach i otrzymują z kolei wyraźne negatywne sygnały zwrotne z różnych regionów prążkowia (Joel i Weiner, 2000; Wickens i in., 2007). Mechanizmy wychwytu i degradacji, jak również receptory presynaptyczne, które regulują uwalnianie dopaminy, również wykazują znaczne zróżnicowanie w prążkowiu (Cragg i in., 2002; Rice and Cragg, 2004; Wickens i in., 2007; Rice and Cragg, 2008).

Proponujemy zatem, aby szlak mesoaccumbens odgrywał bardziej ograniczoną rolę w nauce Pawłowa, w nabywaniu wartości stanów i bodźców, podczas gdy szlak nigrostriatalny jest ważniejszy dla uczenia się instrumentalnego, w nabywaniu wartości działań. TKapelusz jest, sygnał fazowy DA może kodować różne błędy predykcji, a nie pojedynczy błąd predykcji, jak się obecnie zakłada. Trzy linie dowodowe potwierdzają ten argument. Po pierwsze, genetyczne wyczerpanie DA w szlaku nigrostriatalnym upośledza nabywanie i wykonywanie czynności instrumentalnych, podczas gdy zmniejszanie DA w szlaku mezolimbicznym nie (Sotak i in., 2005; Robinson i wsp., 2007). Po drugie, komórki DA w SNc mogą kodować wartość działań, podobnych do komórek w docelowym regionie prążkowia (Morris i in., 2006). Po trzecie, wybiórcza zmiana projekcji nigrostriatalnej do DLS upośledza tworzenie nawyku (Faure i wsp., 2005).

Ostatnie prace Palmiter i współpracowników wykazały, że genetycznie modyfikowane myszy z niedoborem DA są poważnie upośledzone w nauce instrumentalnej i wydajności, ale ich wydajność może zostać przywrócona przez zastrzyk L-DOPA lub transfer genów wirusowych na szlak nigrostriatalny (Sotak i in., 2005; Robinson i wsp., 2007). Natomiast przywrócenie DA w prążkowiu brzusznym nie było konieczne do przywrócenia zachowania instrumentalnego. Chociaż sposób, w jaki sygnały DA umożliwiają uczenie się instrumentalne, pozostaje kwestią otwartą, jedną z oczywistych możliwości jest to, że może kodować wartość działań zainicjowanych przez siebie, tj. Ile przewiduje się nagrody za dany kurs działania.

Prążkowie grzbietowe jako całość zawiera najwyższą ekspresję receptorów DA w mózgu i otrzymuje najbardziej masywną projekcję dopaminergiczną. Projekcja DA do DMS może odgrywać inną rolę w uczeniu się niż projekcja do DLS, ponieważ te dwa regiony różnią się znacznie w profilu czasowym uwalniania, wychwytu i degradacji DA (Wickens i in., 2007). Postawiliśmy hipotezę, że projekcja DA do DMS z SNc przyśrodkowej jest krytyczna dla uczenia się wyników-rezultatów, podczas gdy projekcja DA dla DLS z SNc bocznego jest krytyczna dla tworzenia nawyku. Gdyby tak było, należy oczekiwać, że komórki DA w SNc będą kodować błąd w predykcji nagrody w oparciu o działania generowane samodzielnie - błąd predykcji instrumentalnej - a nie w oparciu o CS. Wstępne dowody na poparcie tego twierdzenia pochodzą z niedawnego badania Morrisa i wsp., Którzy zarejestrowali neurony SNc podczas zadania uczenia się instrumentalnego (Morris i in., 2006). Małpy były szkolone, aby poruszać rękami w odpowiedzi na bodziec dyskryminacyjny (SD), które wskazywały na odpowiedni ruch i prawdopodobieństwo nagrody. SD wywołało aktywność fazową w neuronach DA odpowiadającą wartości działania w oparciu o oczekiwane prawdopodobieństwo nagrody dla danego działania. Co najciekawsze, chociaż odpowiedź DA na SD zwiększona o wartość działania, odwrotność była prawdziwa dla odpowiedzi DA na samą nagrodę, zgodnie z ideą, że te neurony kodowały błąd predykcji związany z tą wartością. Nic dziwnego, że główny cel prążkowia tych komórek, jądro ogoniaste, zawiera neurony, które kodują wartości akcji (Samejima i in., 2005). Należy jednak zauważyć, że w tym badaniu nie wykorzystano zadań behawioralnych, które jednoznacznie oceniają wartość działań. Wyraźnym przewidywaniem naszego modelu jest to, że fazowa aktywność DA będzie towarzyszyć wykonywaniu działań, nawet przy braku wyraźnego SD. Na przykład, przewidujemy wystrzeliwanie serii neuronów DA w czasie inicjowanej przez siebie akcji, otrzymując nagrodę.

Naszym zdaniem, podczas gdy sygnał mesoaccumbens DA odzwierciedla wartość CS, sygnał nigrostriatalny, być może z tych neuronów wystających do DMS, odzwierciedla wartość samego działania, lub jakiegokolwiek SD który przewiduje tę wartość. Co więcej, zarówno instrumentalne, jak i Pawłowskie uczenie się wydają się pociągać za sobą pewną formę negatywnego sprzężenia zwrotnego, aby kontrolować efektywny sygnał nauczania. W rzeczywistości bezpośrednie projekcje z prążkowia do neuronów DA śródmózgowia (Rysunek 2) były od dawna proponowane jako neuronowa implementacja tego typu negatywnych sprzężeń zwrotnych (Houk i in., 1995), a siła i charakter wkładu hamującego mogą się znacznie różnić w zależności od regionu.

Rysunek 2  

Sieci zwojów korowo-podstawnych

Błąd przewidywania, zgodnie z aktualnymi modelami, jest sygnałem nauczania, który określa, ile uczenia się ma miejsce. Tak długo, jak jest obecny, nauka trwa. Niezależnie od tego, jak oczywiste jest to twierdzenie, błąd przewidywania wartości akcji, choć składniowo podobny do błędu przewidywania Pawłowa, ma unikalne cechy, które nie zostały dokładnie zbadane. W tradycyjnych modelach, takich jak model Rescorla-Wagner, który dotyczy wyłącznie warunkowania Pavlovian (choć z ograniczonym sukcesem), kluczową cechą jest ujemne sprzężenie zwrotne, które reguluje błąd prognozowania. Wyjście to reprezentuje uzyskane przewidywanie, a dokładniej suma wszystkich bieżących predyktorów, wychwyconych przez bodźce złożone zwykle stosowane w eksperymentach blokujących (Rescorla, 1988). To właśnie sumowanie dostępnych predyktorów pozwala ustalić globalny termin błędu, który jest główną innowacją w tej klasie modeli. Jednak w przypadku działań instrumentalnych poszczególne terminy błędów wydają się bardziej prawdopodobne, ponieważ trudno jest zobaczyć, w jaki sposób negatywne sprzężenie zwrotne przedstawiałoby wartość wielu działań jednocześnie, gdy tylko jedna akcja może być wykonywana jednocześnie. Oczywiście istnieje wiele możliwych rozwiązań. Na przykład, biorąc pod uwagę określony stan (eksperymentalnie zaimplementowany przez odrębną literę S)D), możliwe kierunki działań mogą być rzeczywiście reprezentowane jednocześnie jako nabyte prognozy. Ale główna trudność z błędami przewidywania instrumentów ma związek z naturą samej akcji. Prognoza Pawłowa automatycznie podąża za prezentacją bodźca, który jest niezależny od organizmu. Błąd predykcji instrumentalnej musi odnosić się do elementu kontroli, ponieważ sama prognoza jest zależna od działania, a celowe działanie jest emitowane spontanicznie w oparciu o dążenie zwierząt do konsekwencji działania, a nie wywoływane przez poprzedzające bodźce. W końcu to właśnie ogólne zaniedbanie spontanicznej natury działań ukierunkowanych na cel, zarówno w neurobiologii, jak i psychologii, zatarło rozróżnienie między Pawłowskimi i instrumentalnymi procesami uczenia się oraz naturą błędów przewidywania. Pozostaje zatem ustalić, jaki rodzaj sygnału sprzężenia zwrotnego, jeśli w ogóle, reguluje nabywanie wartości akcji (Dayan i Balleine, 2002).

Wreszcie, niedawne prace wiązały się również z projekcją nigrostriatalną od bocznego SNc do DLS, szczególnie w tworzeniu nawyku. Faure i wsp. Wybiórczo uszkodzili komórki DA rzutujące na DLS przy użyciu 6-OHDA, i odkryli, że ta manipulacja ma zaskakująco mały wpływ na szybkość naciskania dźwigni, chociaż osłabiała tworzenie nawyku, jak zmierzono za pomocą dewaluacji wyników (Faure i wsp., 2005). Oznacza to, że uszkodzone zwierzęta zareagowały w sposób ukierunkowany na cel, chociaż w grupie kontrolnej trening generował nawykowe zachowanie niewrażliwe na dewaluację wyników. Zmniejszenie miejscowego DA jest zatem podobne do uszkodzeń ekscytotoksycznych DLS, ponieważ obie manipulacje opóźniają tworzenie się nawyku i sprzyjają nabywaniu działań ukierunkowanych na cel (Yin i wsp., 2004). Fazowy sygnał DA krytyczny dla tworzenia nawyku jest już dobrze opisany przez skuteczny sygnał wzmacniający we współczesnych algorytmach uczenia się o wzmocnieniu różnic czasowych inspirowanych pracą Hulla i Spence'a (Kadłub, 1943; Spence, 1947, 1960; Sutton i Barto, 1998).

Sieci zwojów korowo-podstawnych

Do tej pory omawialiśmy funkcjonalną heterogeniczność w obrębie prążkowia, ale mylące byłoby sugerowanie, że każdy obszar prążkowia mógłby, powiedzmy, przełożyć przypadkowość wyniku działania na wykonanie samego działania. Raczej półkule mózgowe są zorganizowane jako iteracyjne jednostki funkcjonalne składające się z sieci zwojów korowo-podstawnych (Swanson, 2000; Zahm, 2005). Tprążkowie, będące stacją wejściową całego jądra podstawnego, służy jako unikalny węzeł w motywie sieci zwojów korowo-podstawnych, zdolnych do integracji wkładów korowych, wzgórzowych i śródmózgowia. Jak opisano powyżej, chociaż jest to struktura ciągła, różne regiony prążkowia wydają się uczestniczyć w odrębnych sieciach funkcjonalnych, np. Półleżące działają jako koncentrator w sieci limbicznej i DLS w sieci sensomotorycznej. Jednak ze względu na właściwości reentrantowe takich sieci żadna część tej struktury nie jest w górę lub w dół w żadnym sensie absolutnym; np. układ korowo-wzgórzowy jest zarówno źródłem dużego wkładu do prążkowia, jak i celem zarówno szlaków prążkowato-palidowych, jak i prążkowatych.

Chociaż równoległe pętle zwojów podstawnych od dawna są rozpoznawane (Alexander i in., 1986), kładziemy nacisk na odrębne role funkcjonalne tych obwodów w oparciu o operacyjnie zdefiniowane struktury reprezentacyjne i interakcje między obwodami w generowaniu zachowań integracyjnych. Na tej podstawie można dostrzec co najmniej cztery takie sieci: sieci limbiczne obejmujące odpowiednio powłokę i rdzeń półleżących, sieć asocjacyjną z udziałem prążkowia asocjacyjnego (DMS) i sieć czuciowo-ruchową z udziałem prążkowia sensomotorycznego (DLS). Ich funkcje wahają się od pośredniczenia w kontroli apetycznych Pavlovian UR i CR do działań instrumentalnych (Rysunek 1).

Rysunek 1  

Główne domeny funkcjonalne prążkowia. Ilustracja prążkowia z odcinka wieńcowego przedstawiająca połowę mózgu (Paxinos i Franklin, 2003). Zauważ, że te cztery domeny funkcjonalne są anatomicznie ciągłe i mniej więcej odpowiadają temu, co ...

Jak już wspomniano, prążkowie brzuszne składa się głównie z jądra półleżącego, które można dalej podzielić na skorupę i rdzeń, z których każdy uczestniczy w odrębnej sieci funkcjonalnej. Korowe (glutaminergiczne) projekcje do powłoki powstają z kory orbitalnej infralimbic, centralnej i bocznej, podczas gdy projekcje do rdzenia powstają z bardziej grzbietowych linii środkowych kory przedczołowej, takich jak brzuszna i grzbietowa kość prelimbiczna i przednia zakrętu obręczy (Groenewegen i in., 1990; Zahm, 2000, 2005). W ramach tych sieci funkcjonalności przedstawione powyżej dowody sugerują, że powłoka jest zaangażowana w UR w nagrody i nabycie konsumujących CR; rdzeń zachowań eksploracyjnych, w szczególności nabywanie i wyrażanie reakcji podejścia Pawłowa. Co najmniej dwie główne sieci można zatem rozróżnić w większej brzusznej lub limbicznej sieci zwojów korowo-podstawnych, jedną dla konsumujących, a drugą dla zachowań przygotowawczych i ich modyfikacji przez uwarunkowanie Pawłowskie (Rysunek 1).

Prążkowie grzbietowe podobnie można podzielić na co najmniej dwa główne regiony, asocjacyjny i czuciowo-ruchowy, z odrębną siecią funkcjonalną związaną z każdym z nich. Prążkowie asocjacyjne (ogoniaste i części przedniego skorupy u naczelnych) zawierają neurony, które strzelają w oczekiwaniu na nagrody warunkowe odpowiedzi i zmieniają ich ostrzał zgodnie z wielkością oczekiwanej nagrody (Hikosaka i in., 1989; Hollerman i in., 1998; Kawagoe i in., 1998). W sieci asocjacyjnej kory asocjacji przedczołowej i ciemieniowej oraz ich cel w DMS są zaangażowane w pamięć przejściową, zarówno perspektywiczną, w postaci oczekiwanych rezultatów, jak i retrospektywną, jako zapis ostatnich kopii efektów (Konorski, 1967). Z drugiej strony poziom czuciowo-ruchowy obejmuje kory czuciowo-ruchowe i ich cele w zwojach podstawy mózgu. Wyjścia tego obwodu są skierowane na kory ruchowe i sieci motoryczne pnia mózgu. Aktywność neuronalna w prążkowiu sensomotorycznym nie jest generalnie modulowana przez oczekiwaną nagrodę, wykazując aktywność bardziej związaną z ruchem niż neurony w prążkowiu asocjacyjnym (Kanazawa i in., 1993; Kimura i in., 1993; Costa i in., 2004). Wreszcie, oprócz gradientu przyśrodkowo-bocznego, istnieje znaczna heterogenność funkcjonalna wzdłuż osi przednio-tylnej prążkowia grzbietowego, chociaż obecnie nie ma wystarczających danych, aby umożliwić szczegółową klasyfikację (Yin i in., 2005b).

Dotychczasowe badania koncentrowały się jedynie na komponentach korowych i prążkowia tych sieci. Zasadniczo uszkodzenia obszaru korowego mają podobne działanie, jak uszkodzenia celu prążkowia (Balleine i Dickinson, 1998; Corbit i Balleine, 2003; Yin i in., 2005b). Ale inne komponenty w sieci mogą spełniać podobne funkcje. Na przykład stwierdzono, że zmiany w jądrze przyśrodkowym wzgórza, składowej sieci asocjacyjnej, znoszą wrażliwość na dewaluację wyników i degradację kontyngentu w taki sam sposób jak uszkodzenia DMS i kory prelimbicznej (Corbit i wsp., 2003). Tak więc, chociaż nasz ogólny model przewiduje podobne deficyty behawioralne po uszkodzeniu każdego składnika sieci, sugeruje również, dla każdej danej struktury, takiej jak bladość lub wzgórze, wiele domen funkcjonalnych.

Interakcja między sieciami

W większości przypadków Pawłowskie i instrumentalne uczenie się odbywa się równolegle. Zjawiska takie jak PIT pokazują jednak, w jakim stopniu te odmienne procesy mogą wchodzić w interakcje. Po wyznaczeniu niezależnych systemów funkcjonalnych, następnym krokiem jest zrozumienie, w jaki sposób systemy te są skoordynowane w celu generowania zachowań. Jedną z atrakcyjnych propozycji, zgodnych z ostatnimi pracami anatomicznymi, jest to, że sieci opisane powyżej są zorganizowane hierarchicznie, z których każda służy jako labilny, funkcjonalny pośrednik w hierarchii, umożliwiając przekazywanie informacji z jednego poziomu na drugi. W szczególności niedawno odkryte spiralne połączenia między prążkowiem a śródmózgowem sugerują organizację anatomiczną, która może potencjalnie realizować interakcje między sieciami (Rysunek 2). Jak zauważył Haber i współpracownicy, neurony prążkowia wysyłają bezpośrednie projekcje hamujące do neuronów DA, z których otrzymują odwrotne projekcje DA, a także projektują neurony DA, które z kolei projektują inny obszar prążkowia (Haber i in., 2000). Projekcje te umożliwiają propagację informacji w przód tylko w jednym kierunku, od sieci limbicznych do sieci asocjacyjnych i sensomotorycznych. Na przykład przewidywanie Pawłowa (wartość nabyta CS) może zmniejszyć skuteczny sygnał nauczania na poziomie limbicznym, jednocześnie przypadkowo wzmacniając sygnał DA na następnym poziomie. Anulowanie efektywnego sygnału dydaktycznego jest zwykle realizowane przez ujemny sygnał sprzężenia zwrotnego poprzez projekcję hamującą, na przykład, z neuronów kolczastej projekcji medium GABAergicznego od prążkowia do neuronów DA. Tymczasem, jak sugeruje organizacja anatomiczna (Haber i in., 2000; Haber, 2003), wzmocnienie sygnału DA dla sąsiedniej sieci zwojów korowo-podstawnych (następny poziom w hierarchii) może być zaimplementowane poprzez projekcje odhamowania (tj. neurony projekcji prążkowia GABAergicznego do neuronowych neuronów GABAergicznych do neuronów DA). Zatem wyuczona wartość sieci limbicznej może zostać przeniesiona do sieci asocjacyjnej, umożliwiając udoskonalenie i wzmocnienie adaptacji behawioralnej przy każdej iteracji (Ashby, 1960). Model ten przewiduje zatem stopniowe zaangażowanie różnych sieci neuronowych podczas różnych etapów uczenia się, sugestię wspieraną przez różne dane (Jueptner i in., 1997b; Miyachi i in., 1997; Miyachi i in., 2002; Yin, 2004; Everitt i Robbins, 2005; Yin and Knowlton, 2005; Belin i Everitt, 2008).

Zjawiska, które wymagają interakcji różnych procesów funkcjonalnych, takich jak PIT, stanowią żyzne poligon doświadczalny dla tego rodzaju modeli. Rzeczywiście, model hierarchiczny jest zgodny z ostatnimi doświadczalnymi ustaleniami dotyczącymi PIT. Zgodnie z modelem, w interakcjach Pavlovian-instrumental pośredniczą wzajemne połączenia między prążkowiem a neuronami DA. DA wydaje się być krytyczny dla ogólnego transferu, który jest zniesiony przez antagonistów DA i miejscową inaktywację VTA (Dickinson i in., 2000; Murschall i Hauber, 2006); mając na uwadze, że miejscowa infuzja amfetaminy, która prawdopodobnie zwiększa poziomy DA w półleżących, może znacznie ją poprawić (Wyvell i Berridge, 2000). Z drugiej strony rola brzusznej dopaminy w prążkowiu w konkretnym transferze jest mniej jasna. Niektóre dowody sugerują, że można go oszczędzić po inaktywacji VTA (Corbit i wsp., 2007) ale jako Corbit i Janak (2007) doniesiono niedawno, że specyficzny transfer zostaje zniesiony przez inaktywację DLS, co sugeruje, że ten aspekt kontroli bodźca nad wyborem działania może obejmować projekcję nigrostriatalną (Corbit i Janak, 2007). Zgadzając się z perspektywą hierarchiczną, Corbit i Janak (2007) odkryli również, że podczas gdy inaktywacja DLS zniosła selektywne działanie pobudzające bodźców paloviańskich (podobnie jak zaobserwowano po uszkodzeniach skorupy półleżącej przez Corbit i in., 2001), dezaktywacja DMS zniosła tylko selektywność wyniku transferu, podczas gdy wydaje się zachować ogólny efekt pobudzenia tych sygnałów, trend obserwowany również po zmianach wzgórza śródokręgowego, które jest częścią asocjacyjnej sieci zwojów korowo-podstawnych (Ostlund i Balleine, 2008). Na podstawie tych wstępnych wyników DMS wydaje się pośredniczyć tylko w specyficznym transferze, podczas gdy DLS może być konieczne zarówno dla specyficznych, jak i ogólnych efektów pobudzających sygnałów Pawłowa na działania instrumentalne.

Co ciekawe, prążkowie limbiczne intensywnie projektuje komórki DA, które przenoszą się do prążkowia grzbietowego (Nauta i in., 1978; Nauta, 1989); projekcje dopaminergiczne do prążkowia i projekcje prążkowia z powrotem do śródmózgowia są wysoce asymetryczne (Haber, 2003). Prążkowie limbiczne otrzymuje ograniczony wkład z neuronów DA, ale wysyła rozległy sygnał wyjściowy do znacznie większego zestawu neuronów DA, a odwrotnie jest w przypadku prążkowia sensomotorycznego. W ten sposób sieci limbiczne są w doskonałej pozycji do sterowania sieciami asocjacyjnymi i sensomotorycznymi. Tutaj neuroanatomia zgadza się z danymi behawioralnymi, że pawłowskie ułatwienie zachowania instrumentalnego jest znacznie silniejsze niż odwrotnie; w rzeczy samej, znaczące dowody sugerują, że działania instrumentalne mają tendencję do hamowania, a nie pobudzania, pawłowskich CR - odkrycia, które wciąż czeka wyjaśnienie neurobiologiczne (Ellison i Konorski, 1964; Williams, 1965).

wnioski

Należy wspomnieć, że omawiany tutaj model hierarchiczny bardzo różni się od innych, które opierają się wyłącznie na korze mózgowej i połączeniach dalekiego zasięgu między obszarami korowymi (Fuster, 1995). Zawiera on znane składniki i łączność mózgu, zamiast postrzegać je jako grupę modułów korowych, które w jakiś nieokreślony sposób realizują szeroki zakres funkcji poznawczych. Pozwala także uniknąć założeń odziedziczonych po 19th neurologia wieku, że kora mózgowa w ogóle, a kora przedczołowa w szczególności, w jakiś sposób tworzy „wyższą” jednostronną jednostkę, która kontroluje cały mózg (Miller i Cohen, 2001).

Ponadto z obecnego modelu można wyprowadzić kilka konkretnych prognoz: (i) Powinny istnieć różne błędy predykcji dla działań generowanych przez siebie oraz dla stanów / bodźców o właściwościach odzwierciedlających ich różne substraty neuronowe i role funkcjonalne. (ii) Oczekuje się, że składowe palidalne i wzgórzowe każdej odrębnej sieci zwojów korowo-podstawnych będą niezbędne dla rodzaju hipotetycznej kontroli zachowania dla każdej sieci, a nie tylko dla składników korowych i prążkowia. (iii) Powinno nastąpić stopniowe zaangażowanie różnych sieci neuronowych podczas różnych etapów uczenia się. (iv) Aktywność Accumbens może bezpośrednio kontrolować neurony DA i z kolei aktywność prążkowia grzbietowego. Na podstawie raportu autorstwa Holandia (2004) sugerując, że PIT wzrasta wraz ze szkoleniem instrumentalnym, oczekuje się, że ta „limbiczna” kontrola sieci asocjacyjnych i sensomotorycznych wzmocni się wraz z przedłużonym treningiem.

Bez szczegółowych danych jest jeszcze za wcześnie, aby przedstawić formalny opis modelu hierarchicznego. Niemniej jednak powyższa dyskusja powinna wyjaśnić, że obecne wersje hipotezy nagrody mesoaccumbens opierają się na problematycznych założeniach dotyczących natury procesu nagrody i stosowania nieodpowiednich środków behawioralnych. Zasady ujednolicania, zawsze cel przedsiębiorstwa naukowego, mogą opierać się tylko na rzeczywistości danych eksperymentalnych, choć mogą być one niewygodne. Ponieważ ostatecznie funkcja mózgu polega na generowaniu i kontroli zachowania, szczegółowa analiza behawioralna będzie kluczem do zrozumienia procesów nerwowych, podobnie jak dokładny opis odporności wrodzonej i nabytej pozwala na wyjaśnienie układu odpornościowego. Choć wydaje się, że jest to truizm, trudno przecenić, że możemy zrozumieć mechanizmy mózgu w takim stopniu, w jakim ich funkcje są opisane i mierzone z precyzją. Gdy badanie funkcji neuronalnych opiera się na ustalonych eksperymentalnie zdolnościach psychologicznych, na przykład reprezentacja wyników działania i ewentualnych wyników bodźców, znana organizacja anatomiczna oraz mechanizmy fizjologiczne są postrzegane w nowym świetle, co prowadzi do sformułowania nowych hipotezy i projektowanie nowych eksperymentów. Jako pierwszy krok w tym kierunku mamy nadzieję, że omawiane tutaj ramy posłużą za użyteczny punkt wyjścia dla przyszłych badań.

Podziękowanie

Chcielibyśmy podziękować Davidowi Lovingerowi za pomocne sugestie. HHY był wspierany przez Wydział Intramural Clinical and Basic Research NIH, NIAAA. SBO jest wspierane przez grant NIH MH 17140 i BWB przez NIH grants MH 56446 i HD 59257.

Referencje

  1. Adams CD. Różnice w czułości reakcji instrumentalnej na wzmocnienie dewaluacji. Kwartalny dziennik psychologii eksperymentalnej. 1982; 33b: 109 – 122.
  2. Adams CD, Dickinson A. Odpowiedź instrumentalna po wzmocnieniu dewaluacji. Quarterly Journal of Experimental Psychology. 1981; 33: 109 – 122.
  3. Alexander GE, DeLong MR, Strick PL. Równoległa organizacja funkcjonalnie segregowanych obwodów łączących zwoje podstawowe i korę. Annu Rev Neurosci. 1986; 9: 357 – 381. [PubMed]
  4. Ashby WR. Projekt dla mózgu. Druga edycja. Chapman & Hall; 1960.
  5. Atallah HE, Lopez-Paniagua D, Rudy JW, O'Reilly RC. Oddzielne substraty neuronowe do uczenia się umiejętności i wydajności w prążkowiu brzusznym i grzbietowym. Nat Neurosci. 2007; 10: 126–131. [PubMed]
  6. Balleine BW. Procesy motywacyjne w warunkowaniu instrumentalnym. W: Mowrer RR, Klein SB, redaktorzy. Podręcznik współczesnych teorii uczenia się. Mahwah, NJ, USA: Lawrence Erlbaum Associates, Inc., Wydawcy; 2001. str. 307 – 366.
  7. Balleine BW. Neuralne podstawy poszukiwania pożywienia: wpływ, pobudzenie i nagroda w obwodach kortykostriatolimbicznych. Physiol Behav. 2005; 86: 717 – 730. [PubMed]
  8. Balleine BW, Dickinson A. Instrumentalna akcja ukierunkowana na cel: przygodne i motywacyjne uczenie się oraz ich substraty korowe. Neuropharmakologia. 1998; 37: 407 – 419. [PubMed]
  9. Balleine BW, Corbit LH. Zmiany w rdzeniu i skorupie półleżącej wywołują dysocjujące efekty w ogólnych i specyficznych dla wyniku formach transferu palovia-instrumentalnego; Doroczne spotkanie Society for Neuroscience; 2005.
  10. Balleine BW, Killcross S. Równoległe przetwarzanie zachęt: zintegrowany widok funkcji ciała migdałowatego. Trendy Neurosci. 2006; 29: 272 – 279. [PubMed]
  11. Belin D, Everitt BJ. Nawyki poszukujące kokainy zależą od łączności szeregowej zależnej od dopaminy Łączenie brzusznej z prążkowiem grzbietowym. Neuron. 2008; 57: 432 – 441. [PubMed]
  12. Berke JD, Hyman SE. Uzależnienie, dopamina i molekularne mechanizmy pamięci. Neuron. 2000; 25: 515 – 532. [PubMed]
  13. Berridge KC, Robinson TE. Jaka jest rola dopaminy w nagradzaniu: wpływ hedoniczny, uczenie się z nagrody, czy zachęta motywacyjna? Brain Res Brain Res Rev. 1998; 28: 309 – 369. [PubMed]
  14. Bolles R. Wzmocnienie, oczekiwanie i nauka. Przegląd psychologiczny. 1972; 79: 394 – 409.
  15. Brown J, Bullock D, Grossberg S. Jak zwoje podstawy mózgu wykorzystują równoległe pobudzające i hamujące ścieżki uczenia się do selektywnego reagowania na nieoczekiwane nagradzające sygnały. J Neurosci. 1999; 19: 10502 – 10511. [PubMed]
  16. Brown PL, Jenkins HM. Automatyczne kształtowanie dziobania klucza gołębia. Journal of the Experimental analysis of Behaviour. 1968; 11: 1–8. [Artykuł bezpłatny PMC] [PubMed]
  17. Cagniard B, Beeler JA, Britt JP, McGehee DS, Marinelli M, Zhuang X. Dopamina skaluje wydajność w przypadku braku nowego uczenia się. Neuron. 2006; 51: 541 – 547. [PubMed]
  18. Kardynał RN, Cheung TH. Jądrowe uszkodzenia rdzenia półleżącego opóźniają uczenie się instrumentalne i wydajność z opóźnionym wzmocnieniem u szczura. BMC Neurosci. 2005; 6: 9. [Artykuł bezpłatny PMC] [PubMed]
  19. Cardinal RN, Parkinson JA, Hall J, Everitt BJ. Emocje i motywacja: rola ciała migdałowatego, prążkowia brzusznego i kory przedczołowej. Neurosci Biobehav Rev. 2002; 26: 321 – 352. [PubMed]
  20. Cheer JF, Aragona BJ, Heien ML, Seipel AT, Carelli RM, Wightman RM. Skoordynowane uwalnianie dopaminy i aktywność neuronalna napędzają zachowanie ukierunkowane na cel. Neuron. 2007; 54: 237 – 244. [PubMed]
  21. Colwill RM, Rescorla RA. Struktury asocjacyjne w uczeniu instrumentalnym. W: Bower G, edytor. Psychologia uczenia się i motywacji. New York: Academic Press; 1986. str. 55 – 104.
  22. Corbit LH, Balleine BW. Rola kory prelimbicznej w warunkowaniu instrumentalnym. Behav Brain Res. 2003; 146: 145 – 157. [PubMed]
  23. Corbit LH, Janak PH. Dezaktywacja bocznego, ale nie przyśrodkowego prążkowia grzbietowego eliminuje pobudzający wpływ bodźców Pawłowa na odpowiedź instrumentalną. J Neurosci. 2007; 27: 13977 – 13981. [PubMed]
  24. Corbit LH, Muir JL, Balleine BW. Rola jądra półleżącego w warunkowaniu instrumentalnym: Dowód na funkcjonalną dysocjację między rdzeniem półleżącym a powłoką. Journal of Neuroscience. 2001; 21: 3251 – 3260. [PubMed]
  25. Corbit LH, Muir JL, Balleine BW. Uszkodzenia wzgórza śródbłonka i przednich jąder wzgórzowych wywołują dysocjujące działanie na warunkowanie instrumentalne u szczurów. Eur J Neurosci. 2003; 18: 1286 – 1294. [PubMed]
  26. Corbit LH, Janak PH, Balleine BW. Ogólne i specyficzne dla wyniku formy przeniesienia Pawłowa na instrument: wpływ zmian w stanie motywacyjnym i inaktywacji brzusznego obszaru nakrywkowego. Eur J Neurosci. 2007; 26: 3141 – 3149. [PubMed]
  27. Costa RM, Cohen D, Nicolelis MA. Różnicowa plastyczność korowo-prążkowia podczas szybkiego i wolnego uczenia się umiejętności motorycznych u myszy. Curr Biol. 2004; 14: 1124 – 1134. [PubMed]
  28. Cragg SJ, Hille CJ, Greenfield SA. Domeny funkcjonalne w prążkowiu grzbietowym naczelnych nie będących ludźmi określa dynamiczne zachowanie dopaminy. J Neurosci. 2002; 22: 5705 – 5712. [PubMed]
  29. Dalley JW, Laane K, Theobald DE, Armstrong HC, Corlett PR, Chudasama Y, Robbins TW. Ograniczona w czasie modulacja apetycznej pamięci Pawłowa przez receptory D1 i NMDA w jądrze półleżącym. Proc Natl Acad Sci US A. 2005; 102: 6189 – 6194. [Artykuł bezpłatny PMC] [PubMed]
  30. Davis J, Bitterman ME. Wzmocnienie różnicowe innych zachowań (DRO): porównanie kontroli jarzmowej. Journal of the Experimental analysis of Behaviour. 1971; 15: 237 – 241. [Artykuł bezpłatny PMC] [PubMed]
  31. Day JJ, Carelli RM. Jądro półleżące i nauka Pawłowa. Neurobiolog. 2007; 13: 148 – 159. [Artykuł bezpłatny PMC] [PubMed]
  32. Day JJ, Wheeler RA, Roitman MF, Carelli RM. Nukleusowe neurony półleżące kodują zachowania podejścia Pavlovian: dowody z paradygmatu autoshaping. Eur J Neurosci. 2006; 23: 1341 – 1351. [PubMed]
  33. Day JJ, Roitman MF, Wightman RM, Carelli RM. Uczenie asocjacyjne pośredniczy w dynamicznych przesunięciach sygnalizacji dopaminy w jądrze półleżącym. Nat Neurosci. 2007; 10: 1020 – 1028. [PubMed]
  34. Dayan P, Balleine BW. Nagroda, motywacja i nauka wzmacniania. Neuron. 2002; 36: 285 – 298. [PubMed]
  35. Delgado MR, Stenger VA, Fiez JA. Odpowiedzi zależne od motywacji w ludzkim jądrze ogoniastym. Cereb Cortex. 2004; 14: 1022 – 1030. [PubMed]
  36. Delgado MR, Miller MM, Inati S, Phelps EA. Badanie fMRI dotyczące uczenia się prawdopodobieństwa związanego z nagrodami. Neuroimage. 2005; 24: 862 – 873. [PubMed]
  37. Di Ciano P, Cardinal RN, Cowell RA, Little SJ, Everitt BJ. Zaangażowanie NMDA, AMPA / kainianu i receptorów dopaminowych w jądro półleżące nabiera i osiąga zachowanie podejścia pavlovia. J Neurosci. 2001; 21: 9471 – 9477. [PubMed]
  38. Dickinson A. Działania i nawyki: rozwój autonomii behawioralnej. Transakcje filozoficzne Towarzystwa Królewskiego. 1985; B308: 67 – 78.
  39. Dickinson A. Instrumental Conditioning. W: Mackintosh NJ, redaktor. Nauka i poznanie zwierząt. Orlando: Akademicki; 1994. str. 45 – 79.
  40. Dickinson A, Dearing MF. Interakcje apetytowo-awersyjne i procesy hamujące. W: Dickinson A, Boakes RA, redaktorzy. Mechanizm uczenia się i motywacji. Hillsadale, NJ: Lawrence Erlbaum Associates; 1979.
  41. Dickinson A, Charnock DJ. Efekty awaryjne przy zachowaniu wzmocnienia instrumentalnego. Kwartalnik Journal of Experimental Psychology. Psychologia porównawcza i fizjologiczna. 1985; 37: 397–416.
  42. Dickinson A, Balleine B. Działania i reakcje: podwójna psychologia zachowania. W: Eilan N, McCarthy RA, i in., Redaktorzy. Reprezentacja przestrzenna: problemy w filozofii i psychologii. Malden, MA, US: Blackwell Publishers Inc .; 1993. str. 277 – 293.
  43. Dickinson A, Balleine B. Rola uczenia się w działaniu systemów motywacyjnych. W: Pashler H, Gallistel R., red. Podręcznik psychologii eksperymentalnej Stevena (wyd. 3), t. 3: Uczenie się, motywacja i emocje. Nowy Jork, NY, USA: John Wiley & Sons, Inc .; 2002. s. 497–533.
  44. Dickinson A, Smith J, Mirenowicz J. Dysocjacja Pawłowskiego i instrumentalnego uczenia się motywacyjnego pod antagonistami dopaminy. Behav Neurosci. 2000; 114: 468 – 483. [PubMed]
  45. Dickinson A, Campos J, Varga ZI, Balleine B. Dwukierunkowe warunkowanie instrumentalne. Kwartalnik Psychologii Eksperymentalnej: Psychologia porównawcza i fizjologiczna. 1996; 49: 289–306. [PubMed]
  46. Ellison GD, Konorski J. Separacja reakcji śliny i motorycznej w warunkowaniu instrumentalnym. Nauka. 1964; 146: 1071 – 1072. [PubMed]
  47. Everitt BJ, Robbins TW. Neuronowe systemy wzmacniania uzależnienia od narkotyków: od działań po przyzwyczajenia. Nat Neurosci. 2005; 8: 1481 – 1489. [PubMed]
  48. Faure A, Haberland U, Conde F, El Massioui N. Uszkodzenie układu dopaminowego nigrostriatalnego przerywa tworzenie nawyku bodziec-odpowiedź. J Neurosci. 2005; 25: 2771 – 2780. [PubMed]
  49. Fiorillo CD, Tobler PN, Schultz W. Dyskretne kodowanie prawdopodobieństwa nagrody i niepewności przez neurony dopaminowe. Nauka. 2003; 299: 1898 – 1902. [PubMed]
  50. Fuster JM. Pamięć w korze mózgowej. Cambridge: prasa MIT; 1995.
  51. Gallistel CR, Fairhurst S, Balsam P. Krzywa uczenia się: implikacje analizy ilościowej. Proc Natl Acad Sci US A. 2004; 101: 13124 – 13131. [Artykuł bezpłatny PMC] [PubMed]
  52. Idź do Y, Grace AA. Dopaminergiczna modulacja napędu limbicznego i korowego jądra półleżącego w zachowaniu ukierunkowanym na cel. Nat Neurosci. 2005; 8: 805 – 812. [PubMed]
  53. Grace AA, Floresco SB, Goto Y, Lodge DJ. Regulacja odpalania neuronów dopaminergicznych i kontrola zachowań ukierunkowanych na cel. Trendy Neurosci. 2007; 30: 220 – 227. [PubMed]
  54. Groenewegen HJ, Berendse HW, Wolters JG, Lohman AH. Anatomiczny związek kory przedczołowej z układem striatopallidalnym, wzgórzem i ciałem migdałowatym: dowody na równoległą organizację. Prog Brain Res. 1990; 85: 95 – 116. dyskusja 116 – 118. [PubMed]
  55. Guthrie ER. Psychologia uczenia się. Nowy Jork: Harfiarze; 1935.
  56. Haber SN. Zwoje podstawne naczelnych: sieci równoległe i integracyjne. J Chem Neuroanat. 2003; 26: 317 – 330. [PubMed]
  57. Haber SN, Fudge JL, McFarland NR. Striatonigrostriatalne szlaki u naczelnych tworzą wstępującą spiralę od powłoki do grzbietowo-bocznego prążkowia. J Neurosci. 2000; 20: 2369 – 2382. [PubMed]
  58. Hammond LJ. Wpływ przygodności na apetyczne uwarunkowania zachowania swobodnego działania. Journal of Experimental Analysis of Behavior. 1980; 34: 297 – 304. [Artykuł bezpłatny PMC] [PubMed]
  59. Haruno M, Kawato M. Heterarchiczny model uczenia się wzmacniającego do integracji wielu pętli korowo-prążkowia: badanie fMRI w uczeniu się skojarzenia bodziec-nagroda. Sieć neuronowa. 2006a; 19: 1242 – 1254. [PubMed]
  60. Haruno M, Kawato M. Różne korelacje neuronowe oczekiwania nagrody i błędu oczekiwania nagrody w skorupie i jądrze ogoniastym podczas uczenia się skojarzeń bodziec-nagroda. J Neurophysiol. 2006b; 95: 948 – 959. [PubMed]
  61. Haruno M, Kuroda T, Doya K, Toyama K, Kimura M, Samejima K, Imamizu H, Kawato M. Neuronowy korelator behawioralnego uczenia się opartego na nagrodzie w jądrze ogoniastym: funkcjonalne badanie rezonansu magnetycznego zadania decyzyjnego stochastycznego. J Neurosci. 2004; 24: 1660 – 1665. [PubMed]
  62. Hernandez PJ, Sadeghian K, Kelley AE. Wczesna konsolidacja uczenia się instrumentalnego wymaga syntezy białek w jądrze półleżącym. Nat Neurosci. 2002; 5: 1327 – 1331. [PubMed]
  63. Hernandez PJ, Andrzejewski ME, Sadeghian K, Panksepp JB, Kelley AE. Funkcje AMPA / kainate, NMDA i dopaminy D1 w jądrze półleżącym: ograniczona rola w kodowaniu i konsolidacji pamięci instrumentalnej. Learn Mem. 2005; 12: 285 – 295. [Artykuł bezpłatny PMC] [PubMed]
  64. Hershberger WA. Podejście przez lustro. Uczenie się i zachowanie zwierząt. 1986; 14: 443–451.
  65. Heyes CM, Dawson GR. Pokaz uczenia się obserwacyjnego u szczurów z wykorzystaniem kontroli dwukierunkowej. The Quarterly Journal of Experimental Psychology. 1990; 42 (1): 59 – 71. [PubMed]
  66. Hikosaka O, Sakamoto M, Usui S. Funkcjonalne właściwości małpich neuronów ogoniastych. III. Działania związane z oczekiwaniem na cel i nagrodę. J Neurophysiol. 1989; 61: 814 – 832. [PubMed]
  67. Holland PC. Relacje między przekazem Pavlovian-instrumental a wzmocnieniem dewaluacji. J Exp Psychol Anim Behav Process. 2004; 30: 104 – 117. [PubMed]
  68. Holland PC, Rescorla RA. Wpływ dwóch sposobów dewaluacji bodźca bezwarunkowego po warunkowaniu apetycznym pierwszego i drugiego rzędu. J Exp Psychol Anim Behav Process. 1975; 1: 355 – 363. [PubMed]
  69. Hollerman JR, Tremblay L, Schultz W. Wpływ oczekiwań związanych z nagrodami na zależną od zachowania aktywność neuronów w prążkowiu prymasa. J Neurophysiol. 1998; 80: 947 – 963. [PubMed]
  70. Houk JC, Adams JL, Barto AG. Model tego, jak zwoje podstawy generują i wykorzystują sygnały neuronowe, które przewidują wzmocnienie. W: Houk JC, JD, DB, redaktorzy. Modele przetwarzania informacji w zwojach podstawy mózgu. Cambridge, MA: MIT Press; 1995. str. 249 – 270.
  71. Kadłub C. Zasady zachowania. Nowy Jork: Appleton-Century-Crofts; 1943.
  72. Hyman SE, Malenka RC, Nestler EJ. Mechanizmy neuronalne uzależnienia: rola uczenia się i pamięci związanej z nagrodami. Annu Rev Neurosci. 2006; 29: 565 – 598. [PubMed]
  73. Jedynak JP, Uslaner JM, Esteban JA, Robinson TE. Plastyczność indukowana metamfetaminą w prążkowiu grzbietowym. Eur J Neurosci. 2007; 25: 847 – 853. [PubMed]
  74. Joel D, Weiner I. Organizacja obwodów zwojów podstawnych-wzgórzowo-korowych: otwarte, połączone ze sobą, a nie zamknięte. Neuroscience. 1994; 63: 363 – 379. [PubMed]
  75. Joel D, Weiner I. Połączenia układu dopaminergicznego z prążkowiem u szczurów i naczelnych: analiza w odniesieniu do funkcjonalnej i przedziałowej organizacji prążkowia. Neuroscience. 2000; 96: 451 – 474. [PubMed]
  76. Jueptner M, Frith CD, Brooks DJ, Frackowiak RS, Passingham RE. Anatomia uczenia się motorycznego. II. Struktury podkorowe i uczenie się metodą prób i błędów. J Neurophysiol. 1997a; 77: 1325 – 1337. [PubMed]
  77. Jueptner M, Stephan KM, Frith CD, Brooks DJ, Frackowiak RS, Passingham RE. Anatomia uczenia się motorycznego. I. Kora czołowa i uwaga na działanie. J Neurophysiol. 1997b; 77: 1313 – 1324. [PubMed]
  78. Kanazawa I, Murata M, Kimura M. Role dopaminy i jej receptorów w generowaniu ruchów choreologicznych. Adv Neurol. 1993; 60: 107 – 112. [PubMed]
  79. Kawagoe R, Takikawa Y, Hikosaka O. Oczekiwanie nagrody moduluje sygnały poznawcze w zwojach podstawy mózgu. Nat Neurosci. 1998; 1: 411 – 416. [PubMed]
  80. Kimura M, Aosaki T, Ishida A. Neurofizjologiczne aspekty ról różnicowych skorupy i jądra ogoniastego w ruchu dobrowolnym. Adv Neurol. 1993; 60: 62 – 70. [PubMed]
  81. Konorski J. Aktywność integracyjna mózgu. Chicago: University of Chicago Press; 1967.
  82. Lerchner A, La Camera G, Richmond B. Bez wiedzy. Nat Neurosci. 2007; 10: 15 – 17. [PubMed]
  83. Ljungberg T, Apicella P, Schultz W. Odpowiedzi małpich neuronów dopaminowych podczas uczenia się reakcji behawioralnych. J Neurophysiol. 1992; 67: 145 – 163. [PubMed]
  84. Lohrenz T, McCabe K, Camerer CF, Montague PR. Sygnatura neuronowa fikcyjnych sygnałów uczenia się w sekwencyjnym zadaniu inwestycyjnym. Proc Natl Acad Sci US A. 2007; 104: 9493 – 9498. [Artykuł bezpłatny PMC] [PubMed]
  85. Lovibond PF. Ułatwienie zachowania instrumentalnego przez apolityczny bodziec warunkowy Pawłowa. J Exp Psychol Anim Behav Process. 1983; 9: 225 – 247. [PubMed]
  86. Mackintosh NJ. Psychologia uczenia się zwierząt. London: Academic Press; 1974.
  87. Miller EK, Cohen JD. Integracyjna teoria funkcji kory przedczołowej. Annu Rev Neurosci. 2001; 24: 167 – 202. [PubMed]
  88. Miller R. Znaczenie i cel w nietkniętym mózgu. Nowy Jork: Oxford University Press; 1981.
  89. Miyachi S, Hikosaka O, Lu X. Różnicowa aktywacja małpich neuronów prążkowia we wczesnych i późnych stadiach uczenia się proceduralnego. Exp Brain Res. 2002; 146: 122 – 126. [PubMed]
  90. Miyachi S, Hikosaka O, Miyashita K, Karadi Z, Rand MK. Różnicowe role prążkowia małpy w uczeniu się sekwencyjnego ruchu ręki. Exp Brain Res. 1997; 115: 1 – 5. [PubMed]
  91. Montague PR, Hyman SE, Cohen JD. Role obliczeniowe dopaminy w kontroli behawioralnej. Natura. 2004; 431: 760 – 767. [PubMed]
  92. Morris G, Nevet A, Arkadir D, Vaadia E, Bergman H. Midbrain neurony dopaminowe kodują decyzje do przyszłych działań. Nat Neurosci. 2006; 9: 1057 – 1063. [PubMed]
  93. Murschall A, Hauber W. Inaktywacja brzusznej strefy nakrywkowej zniosła ogólny pobudzający wpływ pawłowskich wskazówek na instrumentalne wykonanie. Learn Mem. 2006; 13: 123 – 126. [PubMed]
  94. Nauta WJ, Smith GP, Faull RL, Domesick VB. Skuteczne połączenia i nigral aferents jądra półleżącego septi u szczura. Neuroscience. 1978; 3: 385 – 401. [PubMed]
  95. Nauta WJH. Wzajemne połączenia prążkowia z korą mózgową i układem limbicznym: wspólne podłoże dla ruchu i myśli? W: Mueller, redaktor. Neurologia i psychiatria: spotkanie umysłów. Bazylea: Karger; 1989. str. 43 – 63.
  96. Niv Y, Daw ND, Joel D, Dayan P. Tonic dopamina: koszty alternatywne i kontrola siły reakcji. Psychopharmacology (Berl) 2007; 191: 507 – 520. [PubMed]
  97. O'Doherty J, Dayan P, Schultz J, Deichmann R, Friston K, Dolan RJ. Dysocjujące role prążkowia brzusznego i grzbietowego w kondycjonowaniu instrumentalnym. Nauka. 2004; 304: 452 – 454. [PubMed]
  98. Ostlund SB, Balleine BW. Zaangażowanie różnicowo-boczno-boczne ciała migdałowatego i wzgórza śródocznego w dobór akcji instrumentalnej. J Neurosci. 2008; 28: 4398 – 4405. [Artykuł bezpłatny PMC] [PubMed]
  99. Parkinson JA, Willoughby PJ, Robbins TW, Everitt BJ. Odłączenie przedniej części kory zakrętu obręczy i jądra półleżącego osłabia zachowanie podejścia Pavlovian: dalsze dowody na układ limfatyczny korowo-brzuszny striatopallidal. Behav Neurosci. 2000; 114: 42 – 63. [PubMed]
  100. Parkinson JA, Dalley JW, Cardinal RN, Bamford A, Fehnert B, Lachenal G, Rudarakanchana N, Halkerston KM, Robbins TW, Everitt BJ. Nucleus accumbens zubożenie dopaminy osłabia zarówno nabycie, jak i działanie apetycznego zachowania Pawłowa: implikacje dla funkcji dopaminy mesoaccumbens. Behav Brain Res. 2002; 137: 149 – 163. [PubMed]
  101. Paxinos G, Franklin K. Mózg myszy o współrzędnych stereotaktycznych. New York: Academic Press; 2003.
  102. Pecina S, Smith KS, Berridge KC. Hedoniczne gorące punkty w mózgu. Neurobiolog. 2006; 12: 500 – 511. [PubMed]
  103. Pothuizen HH, Jongen-Relo AL, Feldon J, Yee BK. Podwójna dysocjacja efektów wybiórczego jądra półleżącego rdzenia półkulistego i uszkodzeń skorupy na zachowanie impulsywnego wyboru i uczenie się salience u szczurów. Eur J Neurosci. 2005; 22: 2605 – 2616. [PubMed]
  104. Rescorla RA. Prawdopodobieństwo wstrząsu w obecności i braku CS w warunkowaniu strachu. J Comp Physiol Psychol. 1968; 66: 1 – 5. [PubMed]
  105. Rescorla RA. Badania behawioralne warunkowania Pawłowskiego. Annu Rev Neurosci. 1988; 11: 329 – 352. [PubMed]
  106. Rescorla RA, Solomon RL. Dwuprocesowa teoria uczenia się: związki między uwarunkowaniem Pawłowa a uczeniem się instrumentalnym. Psychol Rev. 1967; 74: 151 – 182. [PubMed]
  107. Restle F. Dyskryminacja wskazówek w labiryntach: rozwiązanie pytania „miejsce kontra odpowiedź”. Przegląd psychologiczny. 1957; 64: 217. [PubMed]
  108. Reynolds JN, Wickens JR. Plastyczność zależna od dopaminy w synapsach kortykostriatalnych. Sieć neuronowa. 2002; 15: 507 – 521. [PubMed]
  109. Rice ME, Cragg SJ. Nikotyna wzmacnia związane z nagrodą sygnały dopaminy w prążkowiu. Nat Neurosci. 2004; 7: 583 – 584. [PubMed]
  110. Rice ME, Cragg SJ. Przenikanie dopaminy po uwolnieniu ilościowym: ponowne przemyślenie transmisji dopaminy w szlaku nigrostriatalnym. Brain Res Rev. 2008 [Artykuł bezpłatny PMC] [PubMed]
  111. Robinson S, Rainwater AJ, Hnasko TS, Palmiter RD. Wirusowe przywrócenie dopaminy przekazującej sygnał do prążkowia grzbietowego przywraca instrumentalne warunkowanie myszom z niedoborem dopaminy. Psychopharmacology (Berl) 2007; 191: 567 – 578. [PubMed]
  112. Roitman MF, Wheeler RA, Carelli RM. Nukleusowe neurony półleżące są z natury dostrojone do nagradzających i awersyjnych bodźców smakowych, kodują swoje predyktory i są powiązane z mocą wyjściową silnika. Neuron. 2005; 45: 587 – 597. [PubMed]
  113. Samejima K, Ueda Y, Doya K, Kimura M. Reprezentacja specyficznych dla akcji wartości nagrody w prążkowiu. Nauka. 2005; 310: 1337 – 1340. [PubMed]
  114. Schultz W. Sygnał nagradzania neuronów dopaminowych naczelnych. Adv Pharmacol. 1998a; 42: 686 – 690. [PubMed]
  115. Schultz W. Predykcyjny sygnał nagrody neuronów dopaminowych. J Neurophysiol. 1998b; 80: 1 – 27. [PubMed]
  116. Schultz W, Dayan P, Montague PR. Neuronowy substrat przewidywania i nagrody. Nauka. 1997; 275: 1593 – 1599. [PubMed]
  117. Schwartz B, Gamzu E. Pawłowska kontrola zachowania operantów. W: Honig W, Staddon JER, redaktorzy. Podręcznik zachowania operantów. New Jersey: Prentice Hall; 1977. str. 53 – 97.
  118. Sheffield FD. Relacja między warunkowaniem klasycznym a instrumentalnym. W: Prokasy WF, redaktor. Klimatyzacja klasyczna. Nowy Jork: Appleton-Century-Crofts; 1965. str. 302 – 322.
  119. Skinner B. Zachowanie organizmów. Nowy Jork: Appleton-Century-Crofts; 1938.
  120. Smith-Roe SL, Kelley AE. Jednoczesna aktywacja receptorów NMDA i dopaminy D1 w rdzeniu jądra półleżącego jest wymagana do apetytowego uczenia się instrumentalnego. J Neurosci. 2000; 20: 7737 – 7742. [PubMed]
  121. Sotak BN, Hnasko TS, Robinson S, Kremer EJ, Palmiter RD. Deregulacja sygnalizacji dopaminy w prążkowiu grzbietowym hamuje karmienie. Brain Res. 2005; 1061: 88 – 96. [PubMed]
  122. Spence K. Rola wzmocnienia wtórnego w opóźnionym uczeniu się o nagrodach. Przegląd psychologiczny. 1947; 54: 1 – 8.
  123. Spence K. Teoria zachowań i nauka. Englewood Cliffs, NJ: Prentice-Hall; 1960.
  124. Sutton RS, Barto AG. Uczenie się o wzmocnieniu. Cambridge: MIT Press; 1998.
  125. Swanson LW. Regulacja zmysłów w półkuli mózgowej. Brain Res. 2000; 886: 113 – 164. [PubMed]
  126. Taha SA, Fields HL. Kodowanie smakowitości i zachowań apetycznych przez różne populacje neuronalne w jądrze półleżącym. J Neurosci. 2005; 25: 1193 – 1202. [PubMed]
  127. Taha SA, Fields HL. Hamowanie neuronów jądra półleżącego koduje sygnał bramkowania dla zachowania ukierunkowanego na nagrodę. J Neurosci. 2006; 26: 217 – 222. [PubMed]
  128. Thorndike EL. Inteligencja zwierząt: badania eksperymentalne. Nowy Jork: Macmillan; 1911.
  129. Tobler PN, Dickinson A, Schultz W. Kodowanie przewidywanego pominięcia nagrody przez neurony dopaminowe w warunkowanym paradygmacie hamowania. J Neurosci. 2003; 23: 10402 – 10410. [PubMed]
  130. Tobler PN, O'Doherty JP, Dolan RJ, Schultz W. Ludzkie uczenie się neuronów zależy od błędów przewidywania nagrody w paradygmacie blokowania. J Neurophysiol. 2006; 95: 301–310. [Artykuł bezpłatny PMC] [PubMed]
  131. Tobler PN, O'Doherty JP, Dolan RJ, Schultz W. Kodowanie wartości nagrody różni się od kodowania niepewności związanego z postawą ryzyka w ludzkich systemach nagrody. J Neurophysiol. 2007; 97: 1621–1632. [Artykuł bezpłatny PMC] [PubMed]
  132. Trapold MA, Overmier JB. Klasyczna klimatyzacja II: Aktualne badania i teoria. Appleton-Century-Crofts; 1972. Drugi proces uczenia się w uczeniu instrumentalnym; str. 427 – 452.
  133. Tricomi EM, Delgado MR, Fiez JA. Modulacja aktywności ogoniastej przez przygodność działania. Neuron. 2004; 41: 281 – 292. [PubMed]
  134. Waelti P, Dickinson A, Schultz W. Odpowiedzi dopaminowe są zgodne z podstawowymi założeniami teorii uczenia się formalnego. Natura. 2001; 412: 43 – 48. [PubMed]
  135. Biały NM. Hipoteza funkcjonalna dotycząca macierzy prążkowia i łat: mediacja pamięci i nagrody SR. Życie Sci. 1989; 45: 1943 – 1957. [PubMed]
  136. Wickens JR, Budd CS, Hyland BI, Arbuthnott GW. Wkład prążkowia w nagradzanie i podejmowanie decyzji: zrozumienie różnic regionalnych w powtarzanej matrycy przetwarzania. Ann NY Acad Sci. 2007; 1104: 192 – 212. [PubMed]
  137. Williams DR. Klasyczne uwarunkowania i motywacyjna motywacja. W: Prokasy WF, redaktor. Klimatyzacja klasyczna. Nowy Jork: Appleton-Century-Crofts; 1965. str. 340 – 357.
  138. Williams DR, Williams H. Konserwacja gołębi: długotrwałe dziobanie pomimo warunkowego braku wzmocnienia. Journal of the Experimental analysis of Behaviour. 1969; 12: 511 – 520. [Artykuł bezpłatny PMC] [PubMed]
  139. Wiltgen BJ, Law M, Ostlund S, Mayford M, Balleine BW. Wpływ sygnałów Pawłowa na wydajność instrumentalną zależy od aktywności CaMKII w prążkowiu. Eur J Neurosci. 2007; 25: 2491 – 2497. [PubMed]
  140. Wyvell CL, Berridge KC. Amfetamina półleżąca zwiększa uwarunkowany efekt zachęty nagrody sacharozy: zwiększenie „chęci” nagrody bez zwiększonego „lubienia” lub wzmocnienia odpowiedzi. J Neurosci. 2000; 20: 8122 – 8130. [PubMed]
  141. Yin HH. Wydział Psychologii. Los Angeles: UCLA; 2004. Rola prążkowia grzbietowego w działaniach ukierunkowanych na cel.
  142. Yin HH, Knowlton BJ. Dewaluacja wzmacniacza znosi preferencje uwarunkowanego bodźca: dowody na skojarzenia bodźców stymulujących. Behav Neurosci. 2002; 116: 174 – 177. [PubMed]
  143. Yin HH, Knowlton BJ. Wkład podregionów prążkowia do uczenia się i reagowania. Learn Mem. 2004; 11: 459 – 463. [Artykuł bezpłatny PMC] [PubMed]
  144. Yin HH, Knowlton BJ. Uzależnienie i nauka. W: Stacy A, redaktor. Podręcznik ukrytego poznania i uzależnienia. Tysiąc Oaks: Mędrzec; 2005.
  145. Yin HH, Knowlton BJ, Balleine BW. Zmiany w prążkowiu grzbietowo-bocznym zachowują oczekiwane wyniki, ale zakłócają tworzenie nawyku w uczeniu instrumentalnym. Eur J Neurosci. 2004; 19: 181 – 189. [PubMed]
  146. Yin HH, Knowlton BJ, Balleine BW. Blokada receptorów NMDA w prążkowiu grzbietowo-przyśrodkowym zapobiega uczeniu się wyników w warunkowaniu instrumentalnym. Eur J Neurosci. 2005a; 22: 505 – 512. [PubMed]
  147. Yin HH, Knowlton BJ, Balleine BW. Dezaktywacja prążkowia grzbietowo-bocznego zwiększa wrażliwość na zmiany warunkowości wyniku działania w warunkowaniu instrumentalnym. Behav Brain Res. 2006a; 166: 189 – 196. [PubMed]
  148. Yin HH, Zhuang X, Balleine BW. Instrumentalne uczenie się myszy hiperdopaminergicznych. Neurobiol Learn Mem. 2006b; 85: 283 – 288. [PubMed]
  149. Yin HH, Ostlund SB, Knowlton BJ, Balleine BW. Rola prążkowia grzbietowo-przyśrodkowego w warunkowaniu instrumentalnym. Eur J Neurosci. 2005b; 22: 513 – 523. [PubMed]
  150. Zahm DS. Integracyjna neuroanatomiczna perspektywa na niektórych podkorowych podłożach odpowiedzi adaptacyjnej z naciskiem na jądro półleżące. Neurosci Biobehav Rev. 2000; 24: 85 – 105. [PubMed]
  151. Zahm DS. Ewoluująca teoria „makrosystemów” funkcjonalno-anatomicznych części podstawnej przodomózgowia. Neurosci Biobehav Rev. 2005 [PubMed]