Nierównowaga hierarchii decyzji u uzależnionych od wynaturzonego przez narkotyki obwodu dopaminy (2013)

 

  • Mehdi Keramati Poczta,
     
  • Boris Gutkin

 

Abstrakcyjny

Pomimo wyraźnej chęci rzucenia palenia, długotrwale uzależnieni są bezsilni, aby oprzeć się narkotykom, pomimo świadomości, że zażywanie narkotyków może być szkodliwym sposobem działania. Taka niespójność między jawną wiedzą o negatywnych konsekwencjach a kompulsywnymi wzorcami zachowań stanowi konflikt poznawczy / behawioralny, który jest centralną cechą uzależnienia. Z neurobiologicznego punktu widzenia, zróżnicowana aktywność indukowana bodźcem w różnych podregionach prążkowia, jak również łączność dopaminowa przemieszczająca się spiralnie z obszarów prążkowia brzusznego do obszarów grzbietowych, odgrywają krytyczną rolę w kompulsywnym poszukiwaniu narkotyków. Jednak mechanizm funkcjonalny, który integruje te obserwacje neurofarmakologiczne z wyżej wymienionym konfliktem poznawczo-behawioralnym, jest nieznany. Podajemy tutaj formalne, obliczeniowe wyjaśnienie wywołanej narkotykiem niespójności poznawczej, która jest widoczna w „opisywanym przez siebie błędzie” osób uzależnionych. Pokazujemy, że środki odurzające stopniowo powodują tendencję motywacyjną do poszukiwania narkotyków w nawykowych procesach decyzyjnych niskiego poziomu, pomimo niskiej abstrakcyjnej wartości poznawczej tego zachowania. Ta patologia pojawia się w hierarchicznej strukturze uczenia się poprzez wzmacnianie, gdy przewlekła ekspozycja na lek farmakologicznie wytwarza patologicznie uporczywe fazowe sygnały dopaminy. W ten sposób lek przejmuje spirale dopaminergiczne, które kaskadowo kierują sygnały wzmacniające w dół hierarchii gardłowo-grzbietowo-korowo-prążkowanej. Z neurobiologicznego punktu widzenia nasza teoria wyjaśnia szybki rozwój wywołanego lekami wypływu dopaminy w prążkowiu brzusznym i opóźnioną odpowiedź w prążkowiu grzbietowym. Nasza teoria pokazuje również, jak ten wzorzec odpowiedzi zależy krytycznie od obwodu spiralnego dopaminy. Z behawioralnego punktu widzenia nasz schemat wyjaśnia stopniową niewrażliwość poszukiwania narkotyków na kary związane z narkotykami, zjawisko blokowania skutków narkotyków oraz uporczywe preferowanie narkotyków przez osoby uzależnione od naturalnych korzyści. Model sugeruje możliwe do przetestowania prognozy, a poza tym stanowi podstawę dla spojrzenia na uzależnienie jako patologię hierarchicznych procesów decyzyjnych. Pogląd ten jest uzupełnieniem tradycyjnej interpretacji uzależnienia jako interakcji między nawykowymi i ukierunkowanymi na cel systemami decyzyjnymi.

Wprowadzenie

„Przyznaliśmy, że byliśmy bezsilni w stosunku do naszego uzależnienia - że nasze życie stało się niemożliwe do opanowania”, stwierdza pierwszy punkt programu 12 Anonimowych Narkomanów [1]. To pokazuje, jak bezsilni uzależnieni znajdują się, jeśli chodzi o przeciwstawianie się narkotykom, mimo że wiedzą, że zażywanie narkotyków jest niewłaściwym sposobem postępowania [2]-[4]. W rzeczywistości cechą uzależnienia jest kompulsywne poszukiwanie leków, nawet kosztem oczywistych negatywnych konsekwencji [5]. Podpis takich patologicznych zachowań staje się oczywisty w kontrolowanych eksperymentach, w których uzależnieni wykazują charakterystyczną „opisaną przez siebie pomyłkę”: niespójność między silną reakcją behawioralną na wybory związane z lekiem a stosunkowo niską wartością subiektywną, którą uzależniony zgłasza za lek [4], [6], [7]. W połączeniu z utratą hamującej kontroli poznawczej nad zachowaniem, po przedłużającym się narażeniu na leki, ta rozbieżność między planami poznawczymi a utrwalonymi nawykami może skutkować przejściem od zwyczajnego do kompulsywnego zachowania związanego z poszukiwaniem narkotyków [8].

Utrata kontroli poznawczej i opisany przez siebie błąd dotychczas wymykały się wyjaśnieniom opartym na formalnych modelach uzależnienia [9]-[13]. Poprzednie teorie obliczeniowe uzależnienia od narkotyków, głównie w ramach uczenia się przez wzmacnianie, postrzegają uzależnienie jako patologiczny stan systemu uczenia się nawyków (odpowiedzi na bodziec) [9]-[13]. Centralną hipotezą stojącą za wszystkimi tymi modelami jest to, że farmakologiczny wpływ leków na sygnalizację dopaminową, rzekomo niosącą sygnał uczący w odpowiedzi na bodziec, powoduje stopniowe nadmierne wzmacnianie takich skojarzeń. Ten efekt z kolei prowadzi do kompulsywnego poszukiwania narkotyków. Chociaż ten ograniczony pogląd na uzależnienie uchwycił niektóre aspekty tego zjawiska, rosnący konsensus w literaturze na temat uzależnień wskazuje, że w patologię zaangażowanych jest wiele systemów uczenia się. Tylko tak złożony obraz, który obejmuje procesy poznawcze mózgu, a także procesy nawykowe niskiego poziomu, może wyjaśnić różnorodność zachowań podobnych do uzależnienia [8], [14].

W tym artykule przyjęliśmy hierarchiczne podejście do uczenia się o wzmocnieniu [15] gdzie decyzje są reprezentowane na różnych poziomach abstrakcji, w hierarchii poznawczo-motorycznej. Zakładamy, że kaskada sygnałów uczenia się zależnych od dopaminy łączy poziomy hierarchii razem [16]. Dalej zakładamy, że narkotyki nadużywają farmakologicznie mechanizmu komunikacji między poziomami abstrakcji. Opierając się na tych założeniach, pokazujemy, że zgłaszany dysonans poznawczy u uzależnionych pojawia się w ramach hierarchicznego uczenia się wzmacniania, gdy chroniczne narażenie na lek zakłóca uczenie się wartości w hierarchii decyzyjnej. To zakłócenie skutkuje patologiczną przeceną wyborów leków w procesach nawykowych niskiego poziomu, a tym samym napędza nawykowe poszukiwania leków. Następnie demonstrujemy, że „nielubiany”, ale kompulsywne poszukiwanie narkotyków można wyjaśnić jako przejęte przez narkotyki opanowane zachowania o niskim poziomie nawyków, podczas gdy zdrowe systemy poznawcze na najwyższych poziomach reprezentacji tracą kontrolę nad zachowaniem. Co więcej, wykazaliśmy, że proponowany model może wyjaśnić najnowsze dowody na szybki i opóźniony rozwój wypływu dopaminy wywołanego lekami, odpowiednio w prążkowiu brzusznym i grzbietowym, jak również zależność tego wzorca od spiralnych obwodów dopaminy.

Materiały i Metody

Czynności wstępne

Zgodnie z bogatą literaturą psychologii poznawczej, nasza hierarchiczna nauka wzmacniania [15], [18] Ramy zakładają, że abstrakcyjny plan poznawczy, taki jak „parzenie herbaty”, może zostać podzielony na sekwencję działań niższego poziomu: gotująca się woda, wkładanie herbaty do garnka itd. Taki rozkład zachodzi aż do konkretnych reakcji na poziomie motorycznym na najniższym poziomie hierarchia (Rysunek 1A). Neurobiologicznie, różne poziomy hierarchii decyzji od poziomów poznawczych do motorycznych są reprezentowane wzdłuż osi rostro-ogonowej obwodu zwojów korowo-podstawnych (BG) [19]-[21]. Obwód ten składa się z kilku równoległych zamkniętych pętli między korą czołową a zwojami podstawnymi [22], [23] (Rysunek 1B). Podczas gdy przednie pętle leżą u podstaw bardziej abstrakcyjnej reprezentacji czynności, pętle ogonowe, składające się z kory czuciowo-ruchowej i grzbietowo-bocznego prążkowia, kodują nawyki niskiego poziomu [19]-[21].

miniatur

Rysunek 1. Hierarchiczna organizacja zachowania i obwód korowo-BG.

A, Przykład hierarchii decyzyjnej dla dwóch alternatywnych wyborów: lek vs. jedzenie. Każdy kierunek działania jest reprezentowany na różnych poziomach abstrakcji, przypuszczalnie zakodowanych w różnych pętlach korowo-BG. Poszukiwanie każdego z dwóch rodzajów nagród może nastąpić po ukaraniu wielkością 16. B, Połączenia glutaminergiczne z różnych obszarów przedczołowych wystają do podregionów prążkowia, a następnie rzutują z powrotem do PFC przez bladość i wzgórze, tworząc kilka równoległych pętli. Poprzez sieć dopaminową prążkowato-prążkowia, brzuszne obszary prążkowia wpływają na więcej obszarów grzbietowych. vmPFC, brzuszna przyśrodkowa kora przedczołowa; OFC, orbitalna kora czołowa; dACC, grzbietowa kora obręczy przedniej; SMC, kora czuciowo-ruchowa; VTA, brzuszny obszar nakrywkowy; SNc, istota czarna pars compacta. Rysunek 1B Zmodyfikowany z ref 21.

doi: 10.1371 / journal.pone.0061489.g001

W tym obwodzie aktywność fazowa neuronów dopaminowych (DA) śródmózgowia wystających do prążkowia sygnalizuje błąd między przewidywanymi i otrzymanymi nagrodami, przenosząc w ten sposób informacje wzmacniające reakcję bodźca [24]. Te projekcje DAergic tworzą kaskadową łączność szeregową łączącą bardziej brzuszne regiony prążkowia z coraz bardziej grzbietowymi regionami poprzez tak zwane połączenia spiralne. [25]-[27] (Rysunek 1B). Funkcjonalnie taka organizacja przekazująca sprzężenie zwrotne do pętli korowo-BG ogonowej umożliwia ukierunkowane sprzężenie z reprezentacjami zgrubnymi do dokładnych. W związku z tym zakłada się, że spirale DA zapewniają podłoże neurobiologiczne dla progresywnego dostrajania błędu przewidywania nagrody przez wyższe poziomy hierarchii (kodowanie abstrakcyjnej wiedzy o wartości opcji behawioralnych). Ten błąd jest następnie wykorzystywany do aktualizacji wartości działań na bardziej szczegółowych poziomach [16]. Innymi słowy, spirale DA pozwalają na abstrakcyjne poznawcze poziomy wyceny, aby kierować uczeniem się w bardziej szczegółowych procesach wyceny akcji.

Szkic teorii

W zakresie obliczeniowej teorii uczenia się przez wzmacnianie [28] (RL), agent (w naszym przypadku osoba lub zwierzę) uczy się dokonywać świadomych wyborów, aktualizując wcześniejszą szacowaną wartość, , dla każdej pary stan-akcja, , kiedy nagroda jest odbierany przez agenta na czas w wyniku wykonania akcji w stanie kontekstowym (bodziec) . Wartość jest aktualizowany przez obliczenie sygnału błędu przewidywania nagrody. Ten sygnał zależy nie tylko od natychmiastowej nagrody (), ale także na wartość nowego stanu, w którym agent kończy się po wykonaniu tej czynności. Oznaczony przez ta tymczasowo zaawansowana funkcja wartości reprezentuje sumę przyszłych nagród, których zwierzę oczekuje od stanu wynikowego, dalej. Błąd przewidywania można obliczyć za pomocą następującego równania:


(1)

Intuicyjnie, sygnał błędu prognozowania oblicza rozbieżność między oczekiwaną a zrealizowaną wartością nagradzającą akcji. Jednak w hierarchicznej strukturze decyzyjnej zamiast uczenia się -wartości niezależnie na różnych poziomach, więcej poziomów abstrakcyjnych może dostroić sygnał nauczania obliczony na niższych poziomach. Ponieważ wyższe poziomy hierarchii reprezentują bardziej abstrakcyjną reprezentację okoliczności środowiskowych, uczenie się odbywa się szybciej na tych poziomach. Wynika to z relatywnie niskiej wymiarowości abstrakcyjnej reprezentacji zachowania: plan działania może być reprezentowany jako pojedynczy krok (jeden wymiar) na najwyższym poziomie hierarchii i jako wiele szczegółowych działań (wiele wymiarów) na niższych poziomach hierarchii. Wartość najwyższego poziomu tego planu działania byłaby szybko poznawana w porównaniu ze szczegółowymi poziomami, na których błędy nagrody musiałyby propagować wszystkie szczegółowe kroki działania. Strojenie wartości niższego poziomu za pomocą informacji o wartościach z wyższych poziomów może przyspieszyć zbieżność tych wartości. Jednym ze statystycznie skutecznych sposobów jest założenie, że przy obliczaniu sygnału błędu prognozowania na -ty poziom abstrakcji, , funkcja wartości zaawansowanych czasowo, , pochodzi z jednego wyższego poziomu abstrakcji, [16]:


(2)

Aby zachować optymalność, równanie 2 można wykorzystać do obliczenia błędu przewidywania tylko wtedy, gdy wykonywana jest ostatnia elementarna akcja składowa opcji abstrakcyjnej (patrz rysunek S1 w Plik S1). W innych przypadkach uczenie się wartości na różnych poziomach odbywa się niezależnie, jak w równaniu 1. W obu przypadkach sygnał dydaktyczny jest następnie wykorzystywany do aktualizacji wcześniejszych wartości na odpowiednim poziomie:


(3)
gdzie to szybkość uczenia się. Ta forma wymiany informacji między poziomami jest biologicznie wiarygodna, ponieważ odzwierciedla spiralną strukturę obwodów DA, przenosząc informacje w dół hierarchii w kierunku wentylacyjno-grzbietowym. Jednocześnie kierowanie się bardziej abstrakcyjnymi poziomami znacznie przyspiesza proces uczenia się, łagodząc wysokie wymiary uczenia się wartości na szczegółowych poziomach [16].

W tym artykule pokazujemy, że interakcja między zmodyfikowaną wersją modelu rozwinęła się w [16] a specyficzne efekty farmakologiczne nadużywania na układ dopaminergiczny mogą uchwycić dane związane z uzależnieniem w radykalnie różnych skalach analizy: neurobiologicznej behawioralnej i obwodowej. Po pierwsze, nowy model daje potencjalne przekonujące wyjaśnienie kilku intrygujących aspektów behawioralnych związanych z uzależnieniem od narkotyków (np. Samookreślony błąd [4], [6], [7]). Po drugie, możemy wyjaśnić szeroki zakres dowodów dotyczących dynamiki uwalniania dopaminy wywołanego przez lek [17].

Zmieniamy model prezentowany w [16] następująco. Sprawiamy, że model jest bardziej wydajny pod względem pojemności pamięci roboczej poprzez wymianę w , w równaniu 2, ponieważ dwie wartości zbiegają się na tym samym stałym poziomie (patrz rysunek S2 w Plik S1, dla podstawy obliczeniowej i neurobiologicznej):


(4)

Tutaj, jest stosunkowo abstrakcyjną opcją i jest ostatnią prymitywną akcją w sekwencji behawioralnej, która w pełni wypełnia tę opcję. Podobnie, jest satysfakcjonującą wartością , Która obejmuje (satysfakcjonująca wartość ).

Co najważniejsze, różne leki nadużywane przez ludzi mają fundamentalną właściwość farmakologicznie zwiększającego się stężenia dopaminy w prążkowiu [29]. W związku z tym włączamy ten efekt farmakologiczny leku, dodając dodatnie odchylenie, , (Zobacz też [9]-[12]) do sygnału błędu prognozowania przenoszonego przez neurony dopaminowe (patrz rysunek S3 w Plik S1, dla podstawy obliczeniowej i neurobiologicznej):


(5)

Tutaj rejestruje bezpośrednie działanie farmakologiczne leku na układ DA i jest jego wartością wzmacniającą ze względu na efekty euforyczne (patrz Plik S1 dodatkowe informacje).

Podczas gdy równania 3 i 5 wspólnie definiują mechanizm obliczeniowy do aktualizacji wartości w naszym modelu, zakładamy również, że mechanizm konkurencji oparty na niepewności określa poziom abstrakcji kontrolującej zachowanie. Inspiruje go mechanizm zaproponowany w [29] do arbitrażu między systemami nawykowymi i celowymi. Pod tym względem w każdym punkcie decyzyjnym jedynie zachowanie abstrakcji z najwyższą pewnością w szacowaniu wartości wyborów kontroluje zachowanie. Gdy ten poziom podejmie decyzję o działaniu, wszystkie niższe poziomy hierarchii zostaną rozmieszczone przez ten dominujący poziom w celu wdrożenia wybranej akcji jako sekwencji prymitywnych reakcji motorycznych (patrz Plik S1 w celu uzyskania informacji uzupełniających; Rysunek S4 w Plik S1; Rysunek S5 w Plik S1). Po otrzymaniu informacji zwrotnej od środowiska wartości na wszystkich poziomach są aktualizowane. Ten oparty na niepewności mechanizm arbitrażu przewiduje, że ponieważ procesy abstrakcyjne są bardziej elastyczne, mają one doskonałą zdolność przybliżania wartości we wczesnych etapach uczenia się, a tym samym kontrolują zachowanie na tych etapach. Ponieważ jednak poziomy abstrakcyjne używają zgrubnej reprezentacji środowiska (np. Z powodu relatywnie małej liczby funkcji bazowych), ich ostateczna zdolność aproksymacji wartości nie jest tak precyzyjna, jak w przypadku poziomów szczegółowych. Innymi słowy, po intensywnym szkoleniu pewność związana z oszacowanymi wartościami jest niższa dla niższych poziomów hierarchii w porównaniu z górnymi poziomami. Tak więc, przy postępującym uczeniu się, niższe poziomy hierarchii przejmują kontrolę nad wyborem działania, ponieważ ich niepewność stopniowo się zmniejsza. Jest to zgodne z kilkoma liniami dowodowymi wykazującymi postępującą dominację grzbietowej części nad prążkowiem brzusznym w kontroli nad poszukiwaniem narkotyków (jak również poszukiwanie naturalnych nagród) [8], [30], [31].

Efekt

Hierarchiczna niespójność wyceny pojawia się pod wpływem narkotyków, ale nie naturalnych

W przeciwieństwie do wcześniejszych opartych na uczeniu się modeli obliczeniowych uzależnienia [9]-[13] które są oparte na podejściu opartym na jednym systemie decyzyjnym, nasze konto jest oparte na strukturze wielu wzajemnie oddziałujących systemów. W rezultacie, chociaż forma modelowania wpływu leku na sygnał błędu predykcji w naszym modelu jest podobna do poprzednich [9]-[12], skutkuje to zasadniczo różnymi konsekwencjami. Przejściowy wzrost dopaminy wywołany przez lek zwiększa natychmiastowy błąd przewidywania na każdym poziomie hierarchii, aw rezultacie wywołuje błąd, , na transfer wiedzy z jednego poziomu abstrakcji do następnego, wzdłuż prostego do dokładnego kierunku hierarchii. Ten błąd powoduje, że asymptotyczna wartość poszukiwania leku na danym poziomie jest jednostki wyższe niż jedna dodatkowa warstwa abstrakcyjna (Rysunek 2B). Nagromadzenie tych rozbieżności wzdłuż osi rostro-ogonowej powoduje stopniowo znaczne różnice w wartości zachowań związanych z poszukiwaniem narkotyków między górną i dolną granicą hierarchii. Tak więc, nawet gdy następuje za nią silna kara, wartość zachowania związanego z lekiem pozostaje dodatnia w pętlach motorycznych niskiego poziomu, podczas gdy staje się ujemna na poziomach poznawczych. Innymi słowy, model przewiduje, że nagromadzenie efektu leku w stosunku do spirali DA zwiększa wartość poszukiwania leku na przyzwyczajeniach na poziomie motorycznym do tak wysokiej amplitudy, że nawet silna kara naturalna nie będzie w stanie jej wystarczająco zmniejszyć. Sugerujemy, że wyjaśnia to niespójność między poznawczą i niskopoziomową oceną zachowań związanych z narkotykami u osób uzależnionych. Innymi słowy, proponujemy, że kompulsywne poszukiwanie narkotyków i znacznie zmniejszona elastyczność w odniesieniu do związanych z tym kosztów wynika z farmakologicznego działania leku przejmującego mechanizm zależny od dopaminy, który przekazuje informacje między poziomami hierarchii decyzji.

miniatur

Rysunek 2. Motywacja do jedzenia a lek na różnych poziomach abstrakcji (wyniki symulacji).

W pierwszych próbach 150, w których nie ma kary za nagrodą, wartość poszukiwania naturalnych nagród na wszystkich poziomach zbiega się z 10 (A). Jednak w przypadku leku bezpośredni efekt farmakologiczny leku (, Ustawić) skutkuje wartością asymptotyczną na każdym poziomie jednostki wyższe niż jednostki wyższego poziomu abstrakcji (B). Tak więc, gdy następuje kara, podczas gdy pętle poznawcze prawidłowo przypisują wartość negatywną do wyboru poszukiwania narkotyków, pętle na poziomie motorycznym znajdują pożądane poszukiwanie narkotyków (wartość dodatnia). Krzywe na tym rysunku pokazują ewolucję wartości w „jednym” symulowanym zwierzęciu, a zatem nie zastosowano żadnej analizy statystycznej.

doi: 10.1371 / journal.pone.0061489.g002

Podczas gdy leki w naszym modelu powodują niezrównoważoną wycenę na różnych poziomach, wartość nagród naturalnych zbiega się do tej samej wartości na wszystkich poziomach, z powodu braku bezpośredniego efektu farmakologicznego na mechanizm sygnalizacji DA (). W konsekwencji ani niespójność, ani przeszacowanie na poziomie szczegółowym nie będą obserwowane w przypadku nagród naturalnych (Rysunek 2A). Przewartościowanie odpowiedzi w poszukiwaniu narkotyków na niższych poziomach hierarchii powinno skutkować nienormalną preferencją narkotyków w stosunku do nagród naturalnych i nadmiernym zaangażowaniem w działania związane z narkotykami.

Różnicująca dopamina reagująca w brzusznym i grzbietowym prążkowiu na sygnały związane z lekiem

Neurobiologicznie zróżnicowane role podregionów prążkowia w nabywaniu i wyrażaniu zachowań związanych z poszukiwaniem narkotyków zajęły centralne miejsce w badaniach nad uzależnieniami. Zbieżne dowody z różnych kierunków badań sugerują, że behawioralne przejście z rekreacyjnego na kompulsywne używanie narkotyków odzwierciedla neurobiologiczne przesunięcie wyceny z brzusznego do grzbietowo-bocznego prążkowia [8], [33], [34], co odpowiada przejściu od poziomów poznawczych do szczegółowych w naszym modelu. Zgodnie z naszym modelem, sieć spiralna DA łącząca brzuszną z stopniowo coraz większą powierzchnią grzbietową prążkowia odgrywa kluczową rolę w tej przemianie [25].

W jednym z ostatnich badań Willuhn i in. [17] ocenił wzorzec uwalniania dopaminy w odpowiedzi na związane z lekiem sygnały w brzusznym i grzbietowo-bocznym prążkowiu szczurów podczas trzech tygodni doświadczania kokainy. Za pomocą szybkiej woltamperometrii z szybkim skanowaniem krytyczna obserwacja wykazała, że ​​wywołany przez sygnał wypływ DA w brzusznym prążkowiu pojawia się nawet po bardzo ograniczonym treningu. W przeciwieństwie do tego, prążkowate grzbietowo-boczne wykazywało wypływ DA wywołany przez cue dopiero po intensywnym treningu, a rozwój tego wzoru uwalniania zanikł, gdy brzuszne prążkowie uległo uszkodzeniu w półkuli ipsilateralnej.

Ponieważ rozdzielczość czasowa woltamperometrii z szybkim skanowaniem wychwytuje wahania stężenia po upływie drugiej sekundy, obserwowany wzór wypływu DA należy przypisać sygnałowi fazowemu DA, a zatem sygnałowi błędu prognozowania, zgodnie z teorią dopaminy RL [24]. Zgodnie z teorią RL, sygnał błędu prognozowania po zaobserwowaniu nieoczekiwanego bodźca jest równy wartości nagrody, którą przewiduje ten bodziec. Dlatego wyzwalanie DA indukowane cue jest równoważne wartości przewidywanej przez tę wskazówkę.

Pod tym względem nasze hierarchiczne ramy stanowią formalne wyjaśnienie zróżnicowanego wzoru wypływu DA z brzusznego i grzbietowego prążkowia opisanego w [17]. Wartość przewidywana przez sygnał związany z lekiem na abstrakcyjnych poziomach poznawczych hierarchii gwałtownie wzrasta na bardzo wczesnych etapach treningu (Rysunek 2B), ze względu na niską wymiarowość problemu uczenia się na wysokich poziomach abstrakcji. W rezultacie nasz model pokazuje, że wywołany przez sygnał wypływ DA powinien być obserwowany w prążkowiu brzusznym nawet po ograniczonym treningu (Rysunek 3). Jednak przy bardziej szczegółowych poziomach reprezentacji proces uczenia się jest powolny (Rysunek 2B), ze względu na dużą wymiarowość przestrzeni problemowej, a także zależność uczenia się od bardziej abstrakcyjnych poziomów poprzez spirale DA. W związku z tym wywołany przez sygnał wypływ DA w grzbietowo-bocznym prążkowiu powinien rozwijać się stopniowo i stać się obserwowalny dopiero po intensywnym treningu (Rysunek 3).

miniatur

Rysunek 3. Wypływ dopaminy w różnych podregionach prążkowia w odpowiedzi na sygnały związane z lekiem (wyniki symulacji).

Zgodnie z danymi eksperymentalnymi [17], model pokazuje (lewa kolumna), że w odpowiedzi na sygnały związane z narkotykami, po ograniczonym i intensywnym treningu, nastąpi wypływ dopaminy w prążkowiu brzusznym. Jednak w podregionach grzbietowo-bocznych wypływ DA wywołany cue będzie się stopniowo rozwijał w trakcie uczenia się. Model przewiduje (druga kolumna od prawej), że ten opóźniony rozwój wypływu DA wywołanego przez cue w prążkowiu grzbietowym zależy od seryjnego połączenia DA, które łączy brzuszne z grzbietowym prążkowiem. Oznacza to, że w wyniku odłączenia spirali DA, podczas gdy odpowiedź DA wywołana cue pozostaje nienaruszona w prążkowiu brzusznym, znacznie zmniejsza się w prążkowiu grzbietowo-bocznym. Ponadto model przewiduje (trzecia kolumna od prawej) podobne wyniki dla wywołanego przez sygnał wypływu DA w grzbietowo-bocznym prążkowiu w przypadku uszkodzonego prążkowia brzusznego. Wreszcie, jeśli po rozległym parowaniu leków w nienaruszonych zwierzętach, kara podąża za lekiem, model przewiduje (prawa kolumna), że wskazówka związana z lekiem powoduje zahamowanie brzusznej nogi spirali DA, nawet po ograniczonym treningu. Jednak w większej liczbie regionów grzbietowych wypływ DA zmniejsza się powoli podczas uczenia się, ale pozostanie dodatni, nawet po intensywnym parowaniu narkotyków. Dane przedstawione na tym rysunku pochodzą z „jednego” symulowanego zwierzęcia, a zatem nie zastosowano żadnej analizy statystycznej.

doi: 10.1371 / journal.pone.0061489.g003

Ponadto nasz model wyjaśnia dowody w [17] że taki opóźniony rozwój wypływu DA wywołanego przez cue w grzbietowo-bocznym prążkowiu zależy od prążkowia brzusznego (Rysunek 3). W naszym modelu symulowana jednostronna zmiana w prążkowiu brzusznym (abstrakcyjny poziom wyceny w modelu) znacząco zmniejsza wartość przewidywaną przez wskazówkę lekową na szczegółowych poziomach w półkuli ipsilateralnej, a zatem znacznie zmniejsza poziom wypływu DA wywołanego przez sygnał. Aby modelować uszkodzenie prążkowia brzusznego, po prostu ustalamy wartość wszystkich bodźców na najwyższym poziomie hierarchii na zero.

Podobnie nasz model przewiduje, że rozwój fazowej sygnalizacji DA w grzbietowo-bocznym prążkowiu zależy od integralności obwodu spiralnego DA (Rysunek 3). W rzeczywistości rozłączenie w obwodzie spiralnym DA w naszym modelu odcina komunikację między poziomami abstrakcji, co z kolei zapobiega gromadzeniu się błędu indukowanego lekiem na sygnale wzmacniającym, wzdłuż poziomów hierarchii decyzyjnej. Aby modelować rozłączenie w zależnym od DA obwodzie szeregowym brzusznego do grzbietowego prążkowia, zamykamy każdy poziom abstrakcji, aby obliczyć sygnał błędu prognozowania lokalnie (jak w równaniu 3), bez otrzymywania wartości stanu chwilowo zaawansowanego od bezpośrednio wyższej poziom abstrakcji.

Ponadto, model przewiduje, że wzorzec wypływu DA wywołanego przez cue zmieni się, jeśli po intensywnym treningu z sygnałami związanymi z kokainą i kokainą, jak w powyższym eksperymencie, zacznie się parowanie dostarczania kokainy z silną karą. Przewidujemy, że wypływ DA w odpowiedzi na sygnał związany z kokainą powinien gwałtownie spadać poniżej linii podstawowej w prążkowiu brzusznym. Jednak w prążkowiu grzbietowo-bocznym uwalnianie DA wywołane przez cue powinno pozostać powyżej wartości wyjściowej (Rysunek 3) z możliwym opóźnieniem częściowego zmniejszenia. Wskazuje to na przypisanie bodźca lekowego dodatniej wartości subiektywnej na szczegółowych poziomach, pomimo ujemnych (poniżej wartości wyjściowych) wartości na poziomach poznawczych. Warto zauważyć, że ta prognoza zależy od założenia, że ​​kara jest traktowana przez mózg po prostu jako negatywna nagroda. To założenie jest nieco kontrowersyjne: jest wyraźnie poparte badaniami eksperymentalnymi [35], ale także omówione inaczej przez innych [14], [36]. Z wyjątkiem tej prognozy, inne aspekty modelu nie zależą od tego, czy kara jest kodowana przez dopaminę, czy przez inny system sygnalizacji.

Schemat treningowy zastosowany przez Willuhna i in. [34] nie jest wystarczająco rozszerzony, by wywoływać kompulsywne zachowania poszukujące narkotyków, charakteryzujące się niewrażliwością na kary związane z narkotykami [37], [38]. Zatem kluczowym pytaniem, na które należy odpowiedzieć, jest związek między opóźnionym rozwojem odpowiedzi DA wywoływanej przez cue w DLS a późnym rozwojem odpowiedzi kompulsywnych. Zgodnie z naszym modelem, kompulsywne zachowanie wymaga nie tylko nadmiernej wyceny wyboru leku na niskim poziomie hierarchii, ale także przeniesienia kontroli nad zachowaniem z abstrakcyjnego procesu poznawczego na procesy nawykowe niskiego poziomu. Skala czasowa tych dwóch procesów jest tylko częściowo zależna od siebie: proces przeszacowania zależy od sygnału błędu prognozowania, podczas gdy przekazywanie kontroli behawioralnej zależy również od względnych niepewności w oszacowaniu wartości. W związku z tym nadmierna wycena sygnałów związanych z narkotykami na niskich poziomach hierarchii może poprzedzać przesunięcie kontroli nad zachowaniem z góry na dół hierarchii. Dokładne skale czasowe obu procesów zależą odpowiednio od szybkości uczenia się i szumu na różnych poziomach (patrz Plik S1 dodatkowe informacje). Innymi słowy, prawdopodobne jest, że wywołany przez sygnał wypływ dopaminy w DLS może się znacznie rozwinąć, zanim kompulsywne poszukiwanie narkotyków przejawi się behawioralnie.

Behawioralne implikacje niespójnej wyceny leków a nagrody naturalne

Zachowawczo, w naszym modelu, jeśli kara jest łączona z lekiem na wczesnych etapach dobrowolnego zażywania narkotyków, abstrakcyjna wartość reakcji na poszukiwanie narkotyków szybko staje się negatywna. Zakładając, że poszukiwanie narkotyków jest kontrolowane przez poziomy abstrakcyjne podczas tych wczesnych etapów, negatywna abstrakcyjna ocena wyboru narkotyków sprawia, że ​​podmiot nie chce już dłużej doświadczać tego sposobu działania. Zapobiegnie to utrwaleniu silnych preferencji niskiego poziomu w stosunku do leków w miarę upływu czasu. W ten sposób model wyjaśnia elastyczność wyboru leków na koszty we wczesnych etapach konsumpcji narkotyków, ale nie po długotrwałym stosowaniu. Konsekwentnie, zwierzęce modele uzależnienia pokazują, że niewrażliwość na poszukiwanie narkotyków odpowiedzi na szkodliwe konsekwencje związane z lekiem rozwija się dopiero po przedłużonym samopodawaniu leku, ale nie ograniczonym zażywaniu narkotyków [37], [38]. W przeciwieństwie do naszej teorii, wcześniejsze modele obliczeniowe uzależnienia [9], [10] są w bezpośredniej sprzeczności z tym materiałem dowodowym, ponieważ przewidują, że niekorzystne wyniki behawioralne, które bezpośrednio następują po zażywaniu narkotyków, nie mają żadnego efektu motywacyjnego nawet na bardzo wczesnych etapach doświadczania narkotyków (patrz Plik S1 dodatkowe informacje).

Nasz model uwzględnia ponadto występowanie efektu blokującego dla wyników leczenia [39]. Blokowanie jest zjawiskiem warunkującym, w którym wcześniejsze sparowanie bodźca A z wynikiem blokuje tworzenie się powiązania między innym bodźcem B z tym wynikiem w kolejnej fazie szkolenia, gdzie zarówno A, jak i B są prezentowane przed dostarczeniem wyniku [40]. Wyniki symulacji naszego modelu w pawilowskim projekcie eksperymentalnym (patrz Plik S1 w celu uzyskania dodatkowych informacji na temat pawłowskiej wersji modelu pokazuje, że w obu przypadkach naturalnych nagród i leków, gdy szacowana wartość na pewnym poziomie hierarchii osiąga stan ustalony (zamiast rosnąć bez ograniczeń), nie dochodzi do tego dalsze uczenie się poziom, ponieważ sygnał błędu prognozowania spadł do zera (Rysunek 4). Tak więc skojarzenie nowego bodźca z przewidywaną już nagrodą zostanie zablokowane. Dowody behawioralne wykazujące efekt blokujący związany zarówno z lekami, jak i wzmacniaczami naturalnymi [39] został użyty jako główny argument krytykujący wcześniej zaproponowany oparty na dopaminie model obliczeniowy uzależnienia [9]. Pokazaliśmy tutaj, że skupienie się na hierarchicznej reprezentacji i spiralnej organizacji pętli dopaminowej grzbietowo-brzusznej może faktycznie stanowić dane blokujące, omijając tym samym krytykę (patrz Plik S1 dodatkowe informacje).

miniatur

Rysunek 4. Efekt blokowania dla nagród naturalnych i leków.

Model przewiduje, że blokowanie ma miejsce w przypadku nagród naturalnych (A) i narkotyki (B), tylko jeśli początkowy okres szkolenia jest „rozległy”, tak że pierwszy bodziec w pełni przewiduje wartość wyniku. Po treningu „umiarkowanym” poziomy poznawcze, które są bardziej elastyczne, w pełni przewidują wartości, a tym samym blokują dalszą naukę. Jednak nauka jest nadal aktywna w procesach niskiego poziomu, gdy rozpoczyna się druga faza treningowa (jednoczesna prezentacja obu bodźców). Dlatego nasz model przewiduje, że umiarkowane początkowe szkolenie w eksperymencie blokującym z naturalnymi nagrodami spowoduje również niespójność poznawczo-behawioralną. Dane przedstawione na tym rysunku pochodzą z „jednego” symulowanego zwierzęcia, a zatem nie zastosowano żadnej analizy statystycznej.

doi: 10.1371 / journal.pone.0061489.g004

Jak wspomniano wcześniej, kilka linii dowodowych pokazuje postępującą dominację grzbietowej części nad prążkowiem brzusznym w kontroli zachowania w trakcie nauki [8], [31], [32]. Interpretując na tle tych dowodów, niezrównoważona wycena poszukiwania narkotyków w całej hierarchii wyjaśnia również nieudane wysiłki uzależnionych w celu ograniczenia używania narkotyków po długotrwałym doświadczeniu z narkotykami, kiedy kontrola nad wyborami związanymi z narkotykami zmieniła się z poznawczej na niską. poziom nawykowych procesów. Ta supremacja procesów zdominowanych przez narkotyki w naturalny sposób prowadzi do nieelastyczności behawioralnej w stosunku do kosztów związanych z narkotykami (kompulsywne poszukiwanie narkotyków), czemu prawdopodobnie towarzyszy samozwańczy błąd. Jednak w przypadku nagród naturalnych, nasz model przewiduje, że nawet jeśli nieelastyczność behawioralna wzrasta w trakcie uczenia się, ponieważ na poziomach hierarchii nie rozwija się żadna niespójność w ocenie, kary związane z nagrodą ostatecznie zahamują poszukiwanie nagrody.

Nasz model koncentruje się na ocenie działań w hierarchii decyzyjnej „przypuszczalnie danej” i pomija sposób, w jaki opcje abstrakcyjne i odpowiadające im podprogramy niskiego poziomu są początkowo odkryte podczas rozwoju. Odkrycie hierarchii decyzyjnej jest proponowane jako proces oddolny, realizowany poprzez dzielenie sekwencji sekwencji działań niskiego poziomu i konstruowanie bardziej abstrakcyjnych opcji [41]. Ten proces, rzekomo przechodzący z grzbietowego do brzusznego prążkowia, jest w odwrotnym kierunku niż zaproponowany tu mechanizm konkurencji, w celu przejęcia kontroli nad zachowaniem.

Dyskusja

Coraz więcej dowodów na zróżnicowaną rolę różnych podregionów prążkowia w uzależnieniu jest zwykle interpretowane w ramach dychotomii nawykowej i ukierunkowanej na cel [8], [14], [34]. Hierarchiczne podejście do podejmowania decyzji, które tutaj stosujemy, jest komplementarne wobec takich kont dwusystemowych. Podczas gdy podejście dwuprocesowe dotyczy różnych algorytmów (bez modelu i bazy modelowej) [30]) w celu rozwiązania pojedynczego problemu hierarchiczna struktura RL skupia się na różnych reprezentacjach tego samego problemu na różnych poziomach abstrakcji czasowej. Teoretycznie algorytm zwykły lub ukierunkowany na cel może rozwiązać każdą z tych różnych reprezentacji problemu. W naszym modelu nagromadzenie błędów indukowanych lekiem nad spiralami DA występuje w warunkach, w których algorytm szacowania wartości jest wolny od modelu (uczenie się nawyków). Nie wyklucza to jednak istnienia systemów opartych na modelach pracujących na najwyższych poziomach hierarchii. Można po prostu włączyć do modelu zależną od PFC wycenę celu i system decyzyjny, zakładając, że działania na najwyższych poziomach abstrakcji są oceniane przez system ukierunkowany na cel. Podczas gdy taka komplikacja nie zmienia charakteru wyników przedstawionych w niniejszym manuskrypcie, jej dodatkowa elastyczność w wyjaśnianiu innego aspektu uzależnienia pozostaje w przyszłych badaniach. W rzeczywistości, w naszym modelu, niezależnie od tego, czy istnieje system bezpośredniego celu, czy też nie, rozbieżność w asymptotycznej wartości poszukiwania leku między dwoma skrajnościami hierarchii rośnie wraz z liczbą poziomów decyzyjnych zarządzanych przez „nawykowy” proces .

W świetle naszej teorii nawrót można postrzegać jako ożywienie uśpionych nawyków nieprzystosowawczych na poziomie motorycznym, po okresie dominacji poziomów poznawczych. W rzeczywistości można sobie wyobrazić, że w wyniku terapii poznawczej (u ludzi uzależnionych) lub wymuszonego wymierania (w zwierzęcych modelach abstynencji) wysoka wartość poszukiwania narkotyków na szczegółowym poziomie hierarchii nie wygasa, ale staje się uśpiona z powodu przesunąć kontrolę z powrotem do poziomów poznawczych. Ponieważ zachowania związane z narkotykami są wrażliwe na negatywne konsekwencje na poziomach abstrakcyjnych, dlatego można unikać poszukiwania narkotyków, o ile dominujące procesy poznawcze dominują w kontrolowaniu zachowań. Można nawet spekulować, że popularne programy krokowe 12 (np. Anonimowi Alkoholicy, Anonimowi Narkomani itp.) Działają częściowo poprzez wyraźne wymaganie od uczestników przyznania się do niespójności ich stylu życia związanego z narkotykami, tym samym wzmacniając abstrakcyjne poziomy poznawcze, aby wywierać wyraźną kontrolę nad ich zachowanie. Stresujące warunki lub ponowna ekspozycja na lek (priming) mogą być uważane za czynniki ryzyka, które osłabiają dominację abstrakcyjnych poziomów nad zachowaniem, co może skutkować ponownym pojawieniem się reakcji poszukiwania leków (z powodu utajonych wysokich wartości poznawczych) ).

Podsumowując, proponujemy spójne ujęcie kilku pozornie odmiennych zjawisk charakterystycznych dla narkomanii. Nasz model zapewnia normatywne wyjaśnienie danych na temat zróżnicowanych ról obwodów prążkowia brzusznego i grzbietowego w nabywaniu narkotyków i wykonywaniu nawyków, a także selektywnej roli sprzężenia zwrotnego DA dla wpływu leku w porównaniu z naturalnymi wzmacniaczami. Co najważniejsze, pokazujemy, w jaki sposób wywołana narkotykami patologia w brzuszno-grzbietowej DA sygnalizuje spływanie informacji motywacyjnych w dół hierarchii reprezentacji poznawczej, może prowadzić do niezgodności między abstrakcyjnymi postawami osób uzależnionych wobec poszukiwania narkotyków a tym, co faktycznie robią. Oczywiście nasz model nie daje pełnego opisu narkomanii i nie ma do tego celu. Wyjaśnienie innych niewyjaśnionych aspektów uzależnienia wymaga włączenia wielu innych układów mózgowych, na które wykazano, że są podatne na nadużywanie narkotyków [42]. Sposób włączenia takich systemów do formalnej sieci obliczeniowej pozostaje tematem do dalszych badań.

Informacje uzupełniające

File_S1.pdf
 

Rysunek S1,Przykładowa hierarchia decyzyjna z pięcioma poziomami abstrakcji. Rysunek S2, Odpowiednim obwodem neuronowym dla trzech omawianych algorytmów uczenia się wartości jest hierarchiczna struktura decyzyjna. A, Używając prostego algorytmu uczenia TD (równanie S7), sygnał błędu prognozowania na każdym poziomie abstrakcji jest obliczany niezależnie od innych poziomów. B, W modelu zaproponowanym przez Haruno i Kawato (4) (równanie S8) wartość stanu tymczasowo zaawansowanego pochodzi z jednego wyższego poziomu abstrakcji. C, w naszym modelu (równanie S9) wartość stanu tymczasowo zaawansowanego jest zastępowana kombinacją nagrody i wartości Q wykonanej akcji na wyższym poziomie abstrakcji. Rysunek S3, Nasz model przewiduje różne miejsca działania leków w układzie uczenia się nagrody: strony 1 na 3. Leki wpływające na witryny 4 na 6, w przeciwieństwie do tego, nie będą skutkować wzorcami behawioralnymi i neurobiologicznymi wytworzonymi przez symulację modelu leków, ale przyniosą wyniki podobne do przypadku nagród naturalnych. Rysunek S4, Zadanie wykorzystywane do symulowania mechanizmu konkurencji opartego na niepewności na poziomach hierarchii w celu przejęcia kontroli nad zachowaniem. Rysunek S5, Wynik symulacji, pokazujący stopniowe przesunięcie kontroli nad zachowaniem z wyższych na niższe poziomy hierarchii. Q (s, a) i USA) pokaż szacunkową wartość i niepewność par stan-działanie, odpowiednio.

Plik S1.

Rysunek S1,Przykładowa hierarchia decyzyjna z pięcioma poziomami abstrakcji. Rysunek S2, Odpowiednim obwodem neuronowym dla trzech omawianych algorytmów uczenia się wartości jest hierarchiczna struktura decyzyjna. A, Używając prostego algorytmu uczenia TD (równanie S7), sygnał błędu prognozowania na każdym poziomie abstrakcji jest obliczany niezależnie od innych poziomów. B, W modelu zaproponowanym przez Haruno i Kawato (4) (równanie S8) wartość stanu tymczasowo zaawansowanego pochodzi z jednego wyższego poziomu abstrakcji. C, w naszym modelu (równanie S9) wartość stanu tymczasowo zaawansowanego jest zastępowana kombinacją nagrody i wartości Q wykonanej akcji na wyższym poziomie abstrakcji. Rysunek S3, Nasz model przewiduje różne miejsca działania leków w układzie uczenia się nagrody: strony 1 na 3. Leki wpływające na witryny 4 na 6, w przeciwieństwie do tego, nie będą skutkować wzorcami behawioralnymi i neurobiologicznymi wytworzonymi przez symulację modelu leków, ale przyniosą wyniki podobne do przypadku nagród naturalnych. Rysunek S4, Zadanie wykorzystywane do symulowania mechanizmu konkurencji opartego na niepewności na poziomach hierarchii w celu przejęcia kontroli nad zachowaniem. Rysunek S5, Wynik symulacji, pokazujący stopniowe przesunięcie kontroli nad zachowaniem z wyższych na niższe poziomy hierarchii. Q (s, a) i USA) pokaż szacunkową wartość i niepewność par stan-działanie, odpowiednio.

doi: 10.1371 / journal.pone.0061489.s001

(PDF)

Podziękowanie

Dziękujemy S. Ahmedowi i P. Dayanowi za krytyczne dyskusje oraz M. Reinoudowi, D. Redishowi, N. Dawowi, E. Koechlinowi i A. Dezfouli za komentowanie manuskryptu.

Autorskie Wkłady

Pomyślano i zaprojektowano eksperymenty: MK. Wykonał eksperymenty: MK. Przeanalizowano dane: MK BG. Przyczyniły się odczynniki / materiały / narzędzia do analizy: MK. Napisał artykuł: MK BG.

Referencje

  1. 1. Anonimowi Narkomani (2008). 6th ed. Światowe Biuro Obsługi.
  2. 2. Uzależnienie od Goldsteina A (2001): od biologii do polityki antynarkotykowej. Oxford University Press, USA.
  3. 3. Volkow ND, Fowler JS, Wang GJ, Swanson JM (2004) Dopamina w narkomanii i uzależnieniach: wyniki badań obrazowych i implikacje leczenia. Molecular Psychiatry 9: 557 – 569. doi: 10.1038 / sj.mp.4001507. Znajdź ten artykuł online
  4. 4. Stacy AW, Wiers RW (2010) Niejawne poznanie i uzależnienie: narzędzie do wyjaśniania paradoksalnego zachowania. Roczny przegląd psychologii klinicznej 6: 551 – 575. doi: 10.1146 / annurev.clinpsy.121208.131444. Znajdź ten artykuł online
  5. 5. Podręcznik diagnostyczny i statystyczny zaburzeń psychicznych (DSM-IV) (2000). 4th ed. Waszyngton: Amerykańskie Stowarzyszenie Psychiatryczne.
  6. 6. Lamb RJ, Preston KL, Schindler CW, Meisch RA, Davis F, et al. (1991) Wzmacniające i subiektywne działanie morfiny u osób po uzależnieniu: badanie odpowiedzi na dawkę. The Journal of farmakology and experimental therapeutics 259: 1165 – 1173. Znajdź ten artykuł online
  7. 7. Goldstein RZ, Woicik PA, Moeller SJ, Telang F, Jayne M, i in. (2010) Polubienie i brak nagród związanych z narkotykami i innymi lekami u osób aktywnych kokainą: kwestionariusz STRAP-R. Journal of psychopharmacology 24: 257 – 266. doi: 10.1177/0269881108096982. Znajdź ten artykuł online
  8. 8. Everitt BJ, Robbins TW (2005) Neuronowe systemy wzmacniania uzależnienia od narkotyków: od działań po przyzwyczajenia. Nature Neuroscience 8: 1481 – 1489. doi: 10.1038 / nn1579. Znajdź ten artykuł online
  9. 9. Redish AD (2004) Addiction jako proces obliczeniowy poszedł nie tak. Science 306: 1944 – 1947. doi: 10.1126 / science.1102384. Znajdź ten artykuł online
  10. 10. Dezfouli A, Piray P, Keramati MM, Ekhtiari H, Lucas C i in. (2009) Neurokomputacyjny model uzależnienia od kokainy. Obliczenia neuronowe 21: 2869 – 2893. doi: 10.1162 / neco.2009.10-08-882. Znajdź ten artykuł online
  11. 11. Piray P, Keramati MM, Dezfouli A, Lucas C, Mokri A (2010) Indywidualne różnice w jądrze półleżącym receptory dopaminy przewidują rozwój zachowania podobnego do uzależnienia: podejście obliczeniowe. Obliczenia neuronowe 22: 2334 – 2368. doi: 10.1162 / NECO_a_00009. Znajdź ten artykuł online
  12. 12. Dayan P (2009) Dopamina, uczenie się wzmacniania i uzależnienie. Pharmacopsychiatry 42: 56 – 65. doi: 10.1055 / s-0028-1124107. Znajdź ten artykuł online
  13. 13. Takahashi Y, Schoenbaum G, Niv Y (2008) Uciszanie krytyków: rozumienie skutków uwrażliwienia na kokainę na prążkowate grzbietowo-boczne i brzuszne w kontekście modelu aktora / krytyka. Frontiers in Neuroscience 2: 86 – 99. doi: 10.3389 / neuro.01.014.2008. Znajdź ten artykuł online
  14. 14. Redish AD, Jensen S, Johnson A (2008) Zunifikowane ramy uzależnienia: luki w procesie decyzyjnym. Behavioral and Brain Sciences 31: 415 – 487. doi: 10.1017 / S0140525X0800472X. Znajdź ten artykuł online
  15. 15. Botvinick MM (2008) Hierarchiczne modele zachowania i funkcji przedczołowych. Trendy w naukach kognitywnych 12: 201 – 208. doi: 10.1016 / j.tics.2008.02.009. Znajdź ten artykuł online
  16. 16. Haruno M, Kawato M (2006) Heterarchiczny model uczenia się wzmacniającego do integracji wielu pętli korowo-prążkowia: badanie fMRI w uczeniu się skojarzenia bodziec-nagroda. Sieci neuronowe 19: 1242 – 1254. doi: 10.1016 / j.neunet.2006.06.007. Znajdź ten artykuł online
  17. 17. Willuhn I, Burgeno LM, Everitt BJ, Phillips PEM (2012) Hierarchiczna rekrutacja fazowej sygnalizacji dopaminy w prążkowiu podczas postępu używania kokainy. Materiały National Academy of Sciences 109: 20703 – 20708. doi: 10.1073 / pnas.1213460109. Znajdź ten artykuł online
  18. 18. Botvinick MM, Niv Y, Barto AC (2009) Hierarchicznie zorganizowane zachowanie i jego podstawy neuronowe: perspektywa uczenia się wzmacniania. Cognition 113: 262 – 280. doi: 10.1016 / j.cognition.2008.08.011. Znajdź ten artykuł online
  19. 19. Badre D, D'Esposito M (2009) Czy oś czołowo-ogonowa płata czołowego jest hierarchiczna? Nature Reviews Neuroscience 10: 659–669. doi: 10.1038 / nrn2667. Znajdź ten artykuł online
  20. 20. Koechlin E, Ody C, Kouneiher F (2003) Architektura kontroli poznawczej w ludzkiej korze przedczołowej. Science 302: 1181 – 1185. doi: 10.1126 / science.1088545. Znajdź ten artykuł online
  21. 21. Badre D, Hoffman J, Cooney JW, D'Esposito M (2009) Hierarchical cognitive control defits after damage to the human frontal lobe. Nature neuroscience 12: 515–522. doi: 10.1038 / nn.2277. Znajdź ten artykuł online
  22. 22. Alexander GE, DeLong MR, Strick PL (1986) Równoległa organizacja funkcjonalnie segregowanych obwodów łączących zwoje podstawy i korę. Roczny przegląd Neuroscience 9: 357 – 381. doi: 10.1146 / annurev.neuro.9.1.357. Znajdź ten artykuł online
  23. 23. Alexander GE, Crutcher MD, DeLong MR (1990) Podstawowe zwoje nerwowo-korowe: równoległe substraty dla funkcji motorycznych, okulomotorycznych, przedczołowych i limbicznych. Postęp w Brain Research 85: 119 – 146. Znajdź ten artykuł online
  24. 24. Schultz W, Dayan P, Montague PR (1997) Neuronowy substrat przewidywania i nagrody. Science 275: 1593 – 1599. doi: 10.1126 / science.275.5306.1593. Znajdź ten artykuł online
  25. 25. Belin D, Everitt BJ (2008) Zwyczaje związane z poszukiwaniem kokainy zależą od zależnej od dopaminy łączności szeregowej łączącej brzuszną z grzbietowym prążkowiem. Neuron 57: 432 – 441. doi: 10.1016 / j.neuron.2007.12.019. Znajdź ten artykuł online
  26. 26. Haber SN, Fudge JL, McFarland NR (2000) Striatonigrostriatalne ścieżki w naczelnych tworzą wstępującą spiralę od skorupy do grzbietowo-bocznego prążkowia. The Journal of Neuroscience 20: 2369 – 2382. Znajdź ten artykuł online
  27. 27. Haber SN (2003) Zwoje podstawne naczelnych: sieci równoległe i integracyjne. Journal of Chemical Neuroanatomy 26: 317 – 330. doi: 10.1016 / j.jchemneu.2003.10.003. Znajdź ten artykuł online
  28. 28. Sutton RS, Barto AG (1998) Reinforcement Learning: Wprowadzenie. Cambridge: MIT Press.
  29. 29. Di Chiara G, Imperato A (1988) Leki nadużywane przez ludzi preferencyjnie zwiększają synaptyczne stężenia dopaminy w mezolimbicznym układzie swobodnie poruszających się szczurów. Materiały Narodowej Akademii Nauk Stanów Zjednoczonych Ameryki 85: 5274 – 5278. doi: 10.1073 / pnas.85.14.5274. Znajdź ten artykuł online
  30. 30. Daw ND, Niv Y, Dayan P (2005) Konkurencja oparta na niepewności między przedczołowymi i grzbietowo-bocznymi układami prążkowia do kontroli zachowania. Nature Neuroscience 8: 1704 – 1711. doi: 10.1038 / nn1560. Znajdź ten artykuł online
  31. 31. Vanderschuren LJMJ, Ciano PD, Everitt BJ (2005) Zaangażowanie prążkowia grzbietowego w poszukiwaniu kontrolowanej kokainy. The Journal of Neuroscience 25: 8665 – 8670. doi: 10.1523 / JNEUROSCI.0925-05.2005. Znajdź ten artykuł online
  32. 32. Volkow ND, Wang GJ, Telang F, Fowler JS, Logan J, et al. (2006) Sygnały kokainowe i dopamina w prążkowiu grzbietowym: mechanizm głodu uzależnienia od kokainy. The Journal of Neuroscience 26: 6583 – 6588. doi: 10.1523 / JNEUROSCI.1544-06.2006. Znajdź ten artykuł online
  33. 33. Kalivas PW, Volkow ND (2005) Neuralna podstawa uzależnienia: patologia motywacji i wyboru. The American Journal of Psychiatry 162: 1403 – 1413. doi: 10.1176 / appi.ajp.162.8.1403. Znajdź ten artykuł online
  34. 34. Belin D, Jonkman S, Dickinson A, Robbins TW, Everitt BJ (2009) Równoległe i interaktywne procesy uczenia się w zwojach podstawy mózgu: znaczenie dla zrozumienia uzależnienia. Behavioral Brain Research 199: 89 – 102. doi: 10.1016 / j.bbr.2008.09.027. Znajdź ten artykuł online
  35. 35. Matsumoto M, Hikosaka O (2009) Dwa typy neuronów dopaminowych wyraźnie przekazują pozytywne i negatywne sygnały motywacyjne. Nature 459: 837 – 841. doi: 10.1038 / nature08028. Znajdź ten artykuł online
  36. 36. Frank MJ, Surmeier DJ (2009) Czy neurony dopaminergiczne istoty czarnej różnią się między nagrodą a karą? Journal of Molecular Cell Biology 1: 15 – 16. doi: 10.1093 / jmcb / mjp010. Znajdź ten artykuł online
  37. 37. Vanderschuren LJMJ, Everitt BJ (2004) Poszukiwanie narkotyków staje się kompulsywne po długotrwałym samopodawaniu kokainy. Science 305: 1017 – 1019. doi: 10.1126 / science.1098975. Znajdź ten artykuł online
  38. 38. Deroche-Gamonet V, Belin D, Piazza PV (2004) Dowody na zachowanie uzależniające u szczura. Science 305: 1014 – 1017. doi: 10.1126 / science.1099020. Znajdź ten artykuł online
  39. 39. Panlilio LV, Thorndike EB, Schindler CW (2007) Blokowanie warunkowania do bodźca sparowanego kokainą: testowanie hipotezy, że kokaina nieustannie wytwarza sygnał większej niż oczekiwana nagrody. Farmakologia, biochemia i zachowanie 86: 774 – 777. doi: 10.1016 / j.pbb.2007.03.005. Znajdź ten artykuł online
  40. 40. Kamin L (1969) Przewidywalność, niespodzianka, uwaga i uwarunkowania. W: Campbell BA, Church RM, redaktorzy. Kara i awersyjne zachowanie. Nowy Jork: Appleton-Century-Crofts. str. 279 – 296.
  41. 41. Dezfouli A, Balleine BW (2012) Nawyki, sekwencje akcji i nauka wzmacniania. Europejskie czasopismo neuroscience 35: 1036 – 1051. doi: 10.1111 / j.1460-9568.2012.08050.x. Znajdź ten artykuł online
  42. 42. Koob GF, Le Moal M (2005) Neurobiologia uzależnienia. San Diego: Academic Press