Opublikowano online 2018 May 14. doi: 10.1038 / s41593-018-0152-y
Abstrakcyjny
Dopamina jest krytycznym modulatorem zarówno uczenia się, jak i motywacji. Stanowi to problem: w jaki sposób komórki docelowe mogą wiedzieć, czy zwiększona dopamina jest sygnałem do nauki, czy do poruszania się? Często zakłada się, że motywacja wiąże się z powolnymi („tonicznymi”) zmianami dopaminy, podczas gdy szybkie („fazowe”) fluktuacje dopaminy przenoszą błędy przewidywania nagrody do uczenia się. Jednak ostatnie badania wykazały, że dopamina przenosi wartość motywacyjną i promuje ruch, nawet w sub-sekundowych skalach czasowych. Opisuję tutaj alternatywny opis tego, w jaki sposób dopamina reguluje bieżące zachowanie. Uwalnianie dopaminy związane z motywacją jest szybko i lokalnie kształtowane przez receptory na końcówkach dopaminy, niezależnie od wypalania komórek dopaminy. Docelowe neurony gwałtownie przełączają się między trybami uczenia się i wydajności, z cholinergicznymi interneuronami prążkowia zapewniającymi jeden potencjalny mechanizm przełączania. Zachowawczy wpływ dopaminy różni się w zależności od podregionu, ale w każdym przypadku dopamina zapewnia dynamiczne oszacowanie, czy warto wydatkować ograniczone zasoby wewnętrzne, takie jak energia, uwaga lub czas.
Czy dopamina jest sygnałem do nauki, motywacji czy obu?
Nasze rozumienie dopaminy zmieniło się w przeszłości i zmienia się ponownie. Jednym z kluczowych rozróżnień jest wpływ na dopaminę aktualne zachowanie (wydajność) i wpływ na dopaminę przyszłość zachowanie (uczenie się). Oba są prawdziwe i ważne, ale w różnych momentach były przychylne, a inne nie.
Kiedy (w „70”) stało się możliwe dokonanie selektywnych, kompletnych uszkodzeń szlaków dopaminowych, oczywistą konsekwencją behawioralną było poważne zmniejszenie ruchu1. Jest to zgodne z akinetycznymi skutkami utraty dopaminy u ludzi, wywołanymi przez zaawansowaną chorobę Parkinsona, toksyczne leki lub zapalenie mózgu2. Jednak ani szczury, ani ludzkie przypadki nie wykazują podstawowej niezdolności do poruszania się. Szczury z uszkodzoną dopaminą pływają w zimnej wodzie3, a akinetyczni pacjenci mogą wstać i biegać, jeśli włączy się alarm pożarowy („paradoksalna” kineza). Nie ma też podstawowego deficytu w docenianiu nagród: szczury z uszkodzoną dopaminą spożywają pokarm umieszczony w ich ustach i wykazują oznaki cieszenia się nim4. Przeciwnie, nie będą podejmować wysiłków, aby aktywnie uzyskać nagrody. Te i wiele innych wyników dało fundamentalny związek między dopaminą a motywacją5. Nawet spowolnienie ruchu obserwowane w mniej ciężkich przypadkach choroby Parkinsona można uznać za deficyt motywacyjny, odzwierciedlający ukryte decyzje, że nie warto wydatkować energii wymaganej do szybszych ruchów6.
Następnie (w „80”) pojawiły się pionierskie zapisy neuronów dopaminowych u zachowujących się małp (w obszarach śródmózgowia, które przechodzą w przodomózgowie: brzuszny obszar nakrywkowy, VTA / istota czarna pars compacta, SNc). Wśród zaobserwowanych wzorców strzelania były krótkie wybuchy aktywności na bodźce, które wywołały natychmiastowe ruchy. To „fazowe” wypalanie dopaminy początkowo interpretowano jako wspomaganie „aktywacji behawioralnej”7 i „pobudzenie motywacyjne”8 - innymi słowy, jako ożywczy obecne zachowanie zwierzęcia.
W 90 nastąpiła radykalna zmiana, z reinterpretacją fazowych impulsów dopaminowych jako kodowania błędy przewidywania nagrody (RPE9). Opierało się to na kluczowej obserwacji: komórki dopaminy reagują na nieoczekiwane bodźce związane z przyszłą nagrodą, ale często przestają odpowiadać, jeśli te bodźce staną się oczekiwane10. Pomysł RPE powstał we wcześniejszych teoriach uczenia się, a zwłaszcza w rozwijającej się wówczas dziedzinie informatyki dotyczącej uczenia się przez wzmacnianie11. Punktem sygnału RPE jest aktualizacja wartości(szacunki przyszłych nagród). Te wartości są używane później, aby pomóc w dokonaniu wyborów, które maksymalizują nagrodę. Ponieważ wypalanie komórek dopaminowych przypominało RPE, a RPE są wykorzystywane do uczenia się, naturalne stało się podkreślenie roli dopaminy w uczeniu się. Późniejsze manipulacje optogenetyczne potwierdziły tożsamość dopaminergiczną komórek kodujących RPE12,13 i pokazali, że rzeczywiście modulują naukę14,15.
Pomysł, że dopamina zapewnia sygnał uczenia się, doskonale pasuje do literatury, że dopamina moduluje plastyczność synaptyczną w prążkowiu, pierwotnym celu dopaminy w przodomózgowiu. Na przykład potrójna koincydencja stymulacji glutaminianu kręgosłupa dendrytowego prążkowia, depolaryzacja postsynaptyczna i uwalnianie dopaminy powoduje wzrost kręgosłupa16. Dopaminergiczna modulacja mechanizmów uczenia się długoterminowego pomaga wyjaśnić uporczywe działanie behawioralne uzależniających leków, które mają właściwość zwiększania uwalniania dopaminy z prążkowia17. Nawet dogłębna akinezja z utratą dopaminy może częściowo wynikać z takich mechanizmów uczenia się18. Brak dopaminy można traktować jako stale ujemny RPE, który stopniowo aktualizuje wartości działań w kierunku zera. Podobny postępujący, wymierający wpływ na zachowanie może być wywołany przez antagonistów dopaminy19,20.
Jednak idea, że dopamina jest krytycznie zaangażowana w ciągłą motywację, nigdy nie zniknęła - wręcz przeciwnie, jest powszechnie uważana za rzecz oczywistą przez neuronaukowców behawioralnych. Jest to właściwe, biorąc pod uwagę mocne dowody na to, że funkcje dopaminy w motywacji / ruchu / ożywieniu można oddzielić od uczenia się15,20-23. Mniej doceniane jest wyzwanie związane z pogodzeniem tej motywacyjnej roli z teorią, że DA zapewnia sygnał uczenia RPE.
Motywacja „patrzy w przyszłość”: wykorzystuje prognozy przyszłych nagród (wartości), aby odpowiednio zasilić obecne zachowanie. Natomiast nauka „patrzy wstecz” na stany i działania w niedalekiej przeszłości i aktualizuje ich wartości. Są to uzupełniające się fazy cyklu: zaktualizowane wartości mogą być wykorzystane w późniejszym podejmowaniu decyzji, jeśli stany te zostaną ponownie napotkane, a następnie ponownie zaktualizowane i tak dalej. Ale która faza cyklu jest związana z dopaminą - wykorzystywanie wartości do podejmowania decyzji (wydajność) lub aktualizowanie wartości (uczenie się)?
W niektórych okolicznościach łatwo jest sobie wyobrazić, że dopamina gra jednocześnie w obie role.24Nieoczekiwane, przewidujące nagrody sygnały są archetypowymi zdarzeniami wywołującymi odpalanie i uwalnianie komórek dopaminy, a takie sygnały zazwyczaj zarówno ożywiają zachowanie, jak i wywołują naukę (Rys. 1). W tej konkretnej sytuacji zarówno przewidywanie nagrody, jak i błędy przewidywania nagrody rosną jednocześnie - ale nie zawsze tak jest. Jako tylko jeden przykład, ludzie i inne zwierzęta są często zmotywowani do pracy na rzecz nagród, nawet jeśli zdarza się niewiele lub nic zaskakującego. Mogą pracować coraz ciężej, gdy zbliżają się coraz bardziej do nagrody (wartość rośnie, gdy nagrody się zbliżają). Chodzi o to, że uczenie się i motywacja różnią się koncepcyjnie, obliczeniowo i behawioralnie - a jednak dopamina wydaje się spełniać obie te funkcje.
Poniżej krytycznie oceniam obecne pomysły na to, jak dopamina jest w stanie osiągnąć zarówno funkcje uczenia się, jak i funkcje motywacyjne. Proponuję zaktualizowany model oparty na trzech kluczowych faktach: 1) uwalnianie dopaminy z terminali nie powstaje po prostu z odpalania komórek dopaminowych, ale może być również kontrolowane lokalnie; 2) dopamina wpływa zarówno na plastyczność synaptyczną, jak i pobudliwość komórek docelowych, z wyraźnymi konsekwencjami odpowiednio dla uczenia się i wydajności; 3) wpływ dopaminy na plastyczność można włączyć lub wyłączyć za pomocą pobliskich elementów obwodu. Wszystkie te cechy mogą pozwolić obwodom mózgu na przełączanie między dwoma różnymi komunikatami dopaminy, odpowiednio do uczenia się i motywacji.
Czy istnieją oddzielne „fazowe” i „toniczne” sygnały dopaminy o różnych znaczeniach?
Często twierdzi się, że role uczenia się i motywacji dopaminy występują w różnych skalach czasowych25. Komórki dopaminowe strzelają w sposób ciągły („tonicznie”) przy kilku skokach na sekundę, z sporadycznymi krótkimi („fazowymi”) impulsami lub pauzami. Wybuchy, zwłaszcza jeśli są sztucznie zsynchronizowane w komórkach dopaminowych, powodują gwałtowny wzrost dopaminy w przodomózgowiu26 które są bardzo przejściowe (czas trwania sub-sekund27). Oddzielny udział tonicznego wypalania komórek dopaminowych w przodomózgowiu stężenia dopaminy jest mniej wyraźny. Niektóre dowody sugerują, że ten wkład jest bardzo mały28. Może być wystarczające, aby wytworzyć niemal ciągłą stymulację receptorów D2 o wyższym powinowactwie, dzięki czemu system zauważy krótkie przerwy w odpalaniu komórek dopaminowych29 i używaj tych przerw jako błędów przewidywania negatywnego.
Mikrodializa była szeroko stosowana do bezpośredniego pomiaru poziomów dopaminy w przodomózgowiu, aczkolwiek z niską rozdzielczością czasową (zazwyczaj uśredniającą w ciągu wielu minut). Takie powolne pomiary dopaminy mogą być trudne do precyzyjnego odniesienia do zachowania. Niemniej jednak mikrodializa dopaminy w jądrze półleżącym (NAc; brzuszne / przyśrodkowe prążkowie) wykazuje dodatnią korelację z aktywnością lokomotoryczną30 i inne wskaźniki motywacji5. Powszechnie uważa się, że oznacza to powolne („toniczne”) zmiany w stężeniu dopaminy i że te powolne zmiany przenoszą sygnał motywacyjny. Dokładniej, modele obliczeniowe zaproponowały, że toniczne poziomy dopaminy śledzą długoterminową średnią stawkę nagrody31 - użyteczna zmienna motywacyjna przy alokacji czasu i decyzjach dotyczących żerowania. Warto podkreślić, że bardzo niewiele artykułów jednoznacznie definiuje „tonizujące” poziomy dopaminy - zwykle po prostu zakłada się, że stężenie dopaminy zmienia się powoli w wielominutowej skali mikrodializy.
Jednak widok „fazowej dopaminy = RPE / nauka, toniczna dopamina = motywacja” stoi przed wieloma problemami. Po pierwsze, nie ma bezpośrednich dowodów na to, że toniczne odpalanie komórek dopaminowych zwykle zmienia się w wolnej skali czasowej. Szybkości wypalania tonów nie zmieniają się wraz ze zmianą motywacji32,33. Argumentowano, że toniczne poziomy dopaminy zmieniają się ze względu na zmieniający się udział aktywnych komórek dopaminy34,35. Ale w wielu badaniach na nieuszkodzonych, nieuszkodzonych zwierzętach nigdy nie zgłaszano, że komórki dopaminy przełączają się między stanami cichymi i aktywnymi.
Ponadto fakt, że mikrodializa mierzy poziomy dopaminy powoli, nie oznacza, że poziomy dopaminy rzeczywiście zmieniają się powoli. Ostatnio15 zbadał dopaminę szczura NAc w probabilistycznym zadaniu nagrody, stosując zarówno mikrodializę, jak i cykliczną woltamperometrię z szybkim skanowaniem. Potwierdziliśmy, że mezolimbiczna dopamina, mierzona za pomocą mikrodializy, koreluje ze stopą nagrody (nagrody / min). Jednak nawet przy ulepszonej rozdzielczości czasowej mikrodializy (1min) dopamina fluktuowała tak szybko, jak próbowaliśmy: nie widzieliśmy dowodów na z natury wolny sygnał dopaminy.
Korzystając z dokładniejszej rozdzielczości woltamperometrycznej w czasie, zaobserwowaliśmy bliski związek między sub-sekundowymi wahaniami dopaminy a motywacją. Gdy szczury wykonywały sekwencję czynności potrzebnych do osiągnięcia nagród, dopamina wzrastała coraz wyżej, osiągając szczyt, tak jak otrzymywały nagrodę (i szybko spadały, gdy ją spożywały). Pokazaliśmy, że dopamina koreluje silnie z chwilową wartością stanu - zdefiniowaną jako oczekiwana przyszła nagroda, zdyskontowana przez oczekiwany czas potrzebny na jej otrzymanie. Te szybkie dynamiki dopaminy mogą również wyjaśnić wyniki mikrodializy, bez wywoływania oddzielnych sygnałów dopaminy w różnych skalach czasowych. W miarę jak zwierzęta doświadczają więcej nagród, zwiększają swoje oczekiwania co do przyszłych nagród na każdym etapie sekwencji próbnej. Zamiast powoli ewoluującego sygnału średniej stawki nagrody, korelacja między dawką dopaminy i szybkością nagrody jest najlepiej wyjaśniona jako średnia tych szybko rozwijających się wartości stanu w przedłużonym czasie pobierania próbek mikrodializy.
Ta interpretacja wartości mezolimbicznego uwalniania dopaminy jest zgodna z wynikami woltamperometrii z innych grup badawczych, którzy wielokrotnie stwierdzili, że uwalnianie dopaminy narasta wraz ze wzrostem bliskości nagrody36-38(Rys. 2). Ten sygnał motywacyjny nie jest z natury „powolny”, ale można go zaobserwować w ciągłym zakresie skal czasowych. Chociaż rampy dopaminy mogą trwać kilka sekund, gdy zachowanie podejścia trwa również kilka sekund38, odzwierciedla to przebieg zachowania w czasie, a nie wewnętrzną dynamikę dopaminy. Związek między mezolimbicznym uwalnianiem dopaminy a zmienną wartością jest widoczny tak szybko, jak pozwala na to technika zapisu, tj. W skali czasowej ~ 100ms z elektrodami woltamperometrycznymi15.
Szybkie wahania dopaminy nie odzwierciedlają jedynie motywacji, ale także natychmiast motywują do zachowań. Większe reakcje fazowe komórek dopaminowych, aby wywołać sygnały, przewidują krótsze czasy reakcji w tym samym badaniu39. Optogenetyczna stymulacja komórek dopaminowych VTA powoduje, że szczury częściej rozpoczynają pracę w naszym probabilistycznym zadaniu15, tak jakby mieli większe oczekiwania na nagrodę. Optogenetyczna stymulacja neuronów dopaminowych SNc lub ich aksonów w prążkowiu grzbietowym zwiększa prawdopodobieństwo ruchu40,41. Krytycznie, te efekty behawioralne są widoczne w ciągu kilkuset milisekund od początku stymulacji optogenetycznej. Zdolność prognostycznych wskazówek do zwiększenia motywacji wydaje się być mediowana przez bardzo szybką modulację dopaminergiczną pobudliwości neuronów kolczystych NAc42. Ponieważ dopamina szybko się zmienia, a te zmiany dopaminy szybko wpływają na motywację, funkcje motywacyjne dopaminy są lepiej opisane jako szybkie („fazowe”), a nie wolne („toniczne”).
Co więcej, wywołanie oddzielnych skal szybkich i wolnych samo w sobie nie rozwiązuje problemu dekodowania, z którym borykają się neurony z receptorami dopaminy. Jeśli dopamina sygnalizuje uczenie się, modulacja plastyczności synaps wydaje się odpowiednią odpowiedzią komórkową. Jednak natychmiastowy wpływ na zmotywowane zachowanie implikuje natychmiastowy wpływ na wzrost - np. Poprzez gwałtowne zmiany pobudliwości. Dopamina może mieć oba te efekty postsynaptyczne (i więcej), więc czy dane stężenie dopaminy ma określone znaczenie? Czy też należy skonstruować to znaczenie - np. Porównując poziomy dopaminy w czasie lub używając innych zbieżnych sygnałów, aby określić, która maszyneria komórkowa ma się zaangażować? Ta możliwość jest omówiona poniżej.
Czy uwalnianie dopaminy przekazuje te same informacje, co wypalanie komórek dopaminy?
Związek między szybkimi fluktuacjami dopaminy a wartością motywacyjną wydaje się dziwny, biorąc pod uwagę, że odpalanie komórek dopaminowych przypomina RPE. Ponadto niektóre badania donosiły o sygnałach RPE w mezolimbicznym uwalnianiu dopaminy43. Należy zwrócić uwagę na wyzwanie związane z interpretacją niektórych form danych neuronowych. Sygnały wartości i RPE są ze sobą skorelowane - nic dziwnego, ponieważ RPE jest zwykle definiowane jako zmiana wartości z jednego momentu do drugiego (RPE „różnicy w czasie”). Z powodu tej korelacji niezwykle ważne jest stosowanie eksperymentalnych projektów i analiz, które odróżniają wartość od rachunków RPE. Problem komplikuje się, gdy używa się miary neuronowej, która opiera się na względnych, a nie bezwzględnych zmianach sygnału. Analizy woltamperometryczne zwykle porównują dopaminę w pewnym punkcie czasowym z epoką „linii bazowej” wcześniej w każdej próbie (w celu usunięcia składowych sygnału, które nie są zależne od dopaminy, w tym ładowanie elektrod przy każdym przejściu napięcia i dryfcie w skali czasu minut). Ale odejmowanie linii bazowej może sprawić, że sygnał wartości będzie przypominał sygnał RPE. To właśnie zaobserwowaliśmy w naszych własnych danych woltamperometrycznych (Rys. 2e). Zmiany w oczekiwaniu na nagrodę znalazły odzwierciedlenie w zmianach stężenia dopaminy na początku każdej próby, a zmiany te są pomijane, jeśli tylko przyjmie się stałą linię podstawową w próbach15. Dlatego wnioski dotyczące uwalniania dopaminy i kodowania RPE należy traktować z ostrożnością. To niebezpieczeństwo interpretacji danych dotyczy nie tylko woltamperometrii, ale każdej analizy, która opiera się na zmianach względnych - potencjalnie włączając niektóre fMRI i fotometrię44.
Niemniej jednak nadal musimy pogodzić zależne od wartości uwalnianie dopaminy w rdzeniu NAc z konsekwentnym brakiem wzbogacania wartości przez neurony dopaminowe13, nawet w bocznym obszarze VTA, który dostarcza dopaminę do rdzenia NAc45. Jednym z potencjalnych czynników jest to, że komórki dopaminy są zwykle rejestrowane u zwierząt z ograniczeniami głowy, wykonujących klasyczne czynności kondycjonujące, podczas gdy uwalnianie dopaminy jest zwykle mierzone u zwierząt niepohamowanych, które aktywnie przemieszczają się w ich otoczeniu. Zaproponowaliśmy, że mezolimbiczna dopamina może szczególnie wskazywać na wartość „pracy”15 - że odzwierciedla wymóg poświęcenia czasu i wysiłku w celu uzyskania nagrody. Zgodnie z tym poziom dopaminy wzrasta wraz z sygnałami instruującymi ruch, ale nie z sygnałami nakazującymi bezruch, nawet jeśli wskazują one na podobną przyszłą nagrodę46. Jeśli - jak w wielu klasycznych zadaniach warunkujących - nie ma korzyści z aktywnej „pracy”, to zmiany dopaminergiczne wskazujące na wartość pracy mogą być mniej widoczne.
Jeszcze ważniejszy może być fakt, że uwalnianie dopaminy może być lokalnie kontrolowane w samych terminalach, a tym samym pokazywać wzory przestrzenno-czasowe niezależne od wzbogacania ciała komórkowego. Na przykład, podstawno-boczne ciało migdałowate (BLA) może wpływać na uwalnianie dopaminy z NAc, nawet gdy VTA jest inaktywowane47. Z drugiej strony, inaktywacja BLA zmniejsza uwalnianie dopaminy z NAc i odpowiednie motywowane zachowanie, bez widocznego wpływu na wypalanie VTA48. Terminale dopaminowe mają receptory dla szeregu neuroprzekaźników, w tym glutaminianu, opioidów i acetylocholiny. Nikotynowe receptory acetylocholiny umożliwiają interneuronom cholinergicznym prążkowia (CIN) szybkie kontrolowanie uwalniania dopaminy49,50. Chociaż od dawna zauważono, że miejscowa kontrola uwalniania dopaminy jest potencjalnie ważna7,51, nie został włączony do obliczeniowych rachunków funkcji dopaminy. Proponuję, aby dynamika uwalniania dopaminy związana z kodowaniem wartości pojawiła się w dużej mierze przez miejscowy kontrola, nawet gdy odpalanie komórek dopaminowych dostarcza ważnych sygnałów podobnych do RPE do nauki.
Jak dopamina może oznaczać zarówno uczenie się, jak i motywację bez zamieszania?
Zasadniczo sygnał wartości jest również wystarczający do przekazania RPE, ponieważ RPE różnic czasowych są po prostu szybkimi zmianami wartości (Rys. 2B). Na przykład, różne szlaki wewnątrzkomórkowe w docelowych neuronach mogą być różnie wrażliwe na bezwzględne stężenie dopaminy (reprezentujące wartość) w stosunku do szybkich względnych zmian stężenia (reprezentujących RPE). Ten schemat wydaje się wiarygodny, biorąc pod uwagę złożoną modulację dopaminy w fizjologii neuronów kolczastych52 i ich wrażliwość na czasowe wzorce stężenia wapnia53. Jednak wydaje się to również trochę zbędne. Jeśli już istnieje sygnał podobny do RPE w impulsowaniu komórek dopaminy, powinno być możliwe użycie go zamiast ponownego wyprowadzania RPE z sygnału wartości.
Aby odpowiednio wykorzystać różne sygnały RPE i wartości, obwody dopaminy-biorcy mogą aktywnie zmieniać sposób interpretacji dopaminy. Istnieje intrygujący dowód, że acetylocholina może również pełnić tę rolę. W tym samym czasie, gdy komórki dopaminowe wystrzeliwują impulsy do nieoczekiwanych sygnałów, CIN pokazują krótkie (~ 150ms) przerwy w wypalaniu, które nie skalują się z RPE54. Te przerwy CIN mogą być sterowane przez neurony GABAergiczne VTA55 jak również komórki związane z „niespodzianką” we wzgórzu śródmiąższowym i zaproponowano, aby działały jako sygnał asocjatywności promujący naukę56. Morris i Bergman zasugerowali54 że przerwy cholinergiczne definiują okna czasowe dla plastyczności prążkowia, podczas których dopamina może być stosowana jako sygnał uczenia się. Plastyczność zależna od dopaminy jest stale tłumiona przez mechanizmy obejmujące muskarynowe receptory m4 na neuronach prążkowia w szlaku bezpośrednim57. Modele sygnalizacji wewnątrzkomórkowej sugerują, że podczas przerw CIN brak wiązania m4 może działać synergistycznie z fazowymi impulsami dopaminowymi w celu zwiększenia aktywacji PKA58, tym samym promując zmianę synaptyczną.
Komórki cholinergiczne prążkowia są zatem dobrze rozmieszczone, aby dynamicznie zmieniać znaczenie multipleksowanego komunikatu dopaminergicznego. Podczas przerw CIN ulga w blokowaniu muskarynowym nad plastycznością synaptyczną pozwoliłaby na wykorzystanie dopaminy do nauki. Innym razem uwalnianie z terminali dopaminowych byłoby lokalnie wyrzeźbione, aby wpłynąć na ciągłe zachowanie behawioralne. Obecnie ta sugestia jest zarówno spekulacyjna, jak i niekompletna. Zaproponowano, że CIN integrują informacje z wielu otaczających neuronów kolczastych, aby wyodrębnić użyteczne sygnały na poziomie sieci, takie jak entropia59,60. Ale nie jest jasne, czy dynamika aktywności CIN może być wykorzystana do generowania sygnałów wartości dopaminy61, a także do wprowadzania sygnałów uczenia się dopaminy.
Czy dopamina oznacza to samo w całym przodomózgowiu?
W miarę jak pojawiał się pomysł RPE, wyobrażano sobie, że dopamina jest sygnałem globalnym, nadającym komunikat o błędzie w całym obszarze prążkowia i kory czołowej. Schultz podkreślił, że małpie komórki dopaminowe w VTA i SNc wykazują bardzo podobne odpowiedzi62. Badania zidentyfikowanych komórek dopaminy wykazały również dość jednorodne reakcje podobne do RPE u gryzoni, przynajmniej dla bocznych neuronów VTA w klasycznych kontekstach warunkujących13. Jednak komórki dopaminy są molekularnie i fizjologicznie zróżnicowane63-65 a obecnie istnieje wiele doniesień, że wykazują one różne wzorce wypalania w zachowaniu zwierząt. Obejmują one fazowe wzrosty strzelania do zdarzeń awersyjnych66 i wyzwalać sygnały67 które źle pasują do standardowego konta RPE. Wiele komórek dopaminowych wykazuje początkową reakcję krótkich latencji na zdarzenia sensoryczne, które odzwierciedlają zaskoczenie lub „alarmowanie” bardziej niż określone kodowanie RPE68,69. Ten aspekt alarmowania jest bardziej widoczny w SNc69, gdzie komórki dopaminowe projektują więcej na „sensomotoryczne” grzbietowe / boczne prążkowie (DLS45,63). Doniesiono, że subpopulacje SNC komórek dopaminowych zwiększają się41 lub zmniejsz70 strzelanie w połączeniu ze spontanicznymi ruchami, nawet bez zewnętrznych sygnałów.
Kilka grup wykorzystało fotometrię włókien i wskaźnik wapnia GCaMP, aby zbadać masową aktywność subpopulacji neuronów dopaminowych71,72. Komórki dopaminowe, które projektują do prążkowia grzbietowego / środkowego (DMS), wykazywały przejściowo obniżoną aktywność do niespodziewanych krótkich wstrząsów, podczas gdy te, które rzutowały na DLS wykazywały zwiększoną aktywność71- bardziej spójne z reakcją ostrzegawczą. Wyraźne odpowiedzi dopaminergiczne w różnych podregionach przodomózgowia zaobserwowano również przy użyciu GCaMP do badania aktywności aksonów dopaminy i końcówek40,72,73. Wykorzystując obrazowanie dwufotonowe u myszy z ograniczeniami głowy, Howe i Dombeck40 zgłaszali fazową aktywność dopaminy związaną z ruchami spontanicznymi. Było to głównie obserwowane u poszczególnych aksonów dopaminy z SNc, które kończyły się w prążkowiu grzbietowym, podczas gdy aksony VTA dopaminy w NAc reagowały bardziej na nagradzanie dostarczania. Inni odkryli także zależną od nagrody aktywność dopaminergiczną w NAc, a DMS bardziej powiązana z działaniami kontralateralnymi72 i tylny ogon prążkowia reagujący na awersyjne i nowe bodźce74.
Bezpośrednie pomiary uwalniania dopaminy ujawniają również niejednorodność między podregionami30,75. Za pomocą mikrodializy stwierdziliśmy, że dopamina jest skorelowana z wartością konkretnie w rdzeniu NAc i korze czołowo-przyśrodkowej brzusznej, nie w innych środkowych częściach prążkowia (powłoka NAc, DMS) lub kory czołowej. Jest to intrygujące, ponieważ wydaje się dobrze odwzorowywać dwa „gorące punkty” kodowania wartości konsekwentnie obserwowane w badaniach nad ludzkim fMRI76,77. W szczególności sygnał NAc BOLD, który ma bliski związek z sygnalizacją dopaminy78, rośnie wraz z oczekiwaniem na nagrodę (wartość) - bardziej niż w przypadku RPE76.
Niezależnie od tego, czy te przestrzenne wzory uwalniania dopaminy powstają w wyniku wystrzelenia różnych subpopulacji komórek dopaminy, lokalnej kontroli uwalniania dopaminy, czy też obu, kwestionują ideę globalnego komunikatu dopaminy. Można wnioskować, że istnieje wiele różnych funkcji dopaminy, z (na przykład) dopaminą w prążkowiu grzbietowym sygnalizującym „ruch” i dopaminą w brzusznym prążkowiu sygnalizującym „nagrodę”40. Opowiadam się jednak za innym podejściem koncepcyjnym. Różne podregiony prążkowia otrzymują dane wejściowe z różnych regionów korowych, a więc będą przetwarzać różne rodzaje informacji. Jednak każdy subregion prążkowia ma wspólną architekturę mikroukładów, w tym oddzielne neurony kolczaste z receptorem D1 i D279, CIN i tak dalej. Chociaż powszechne jest odwoływanie się do różnych podregionów prążkowia (np. DLS, DMS, rdzeń NAc), tak jakby były one odrębnymi obszarami, nie ma między nimi ostrych granic anatomicznych (powłoka NAc jest nieco bardziej neurochemicznie różna). Zamiast tego istnieją tylko łagodne gradienty gęstości receptorów, proporcje interneuronów itp., Które wydają się bardziej poprawiać parametry wspólnego algorytmu obliczeniowego. Biorąc pod uwagę tę wspólną architekturę, czy możemy opisać wspólną funkcję dopaminy, pozbawioną konkretnych informacji obsługiwanych przez każdy subregion?
Dopamina prążkowia i przydział ograniczonych zasobów.
Proponuję, aby różnorodne efekty dopaminy na zachowanie ciągłe można było rozumieć jako modulację decyzje o alokacji zasobów. W szczególności dopamina dostarcza szacunków, jak warto wydać ograniczony zasób wewnętrzny, przy czym poszczególne zasoby różnią się między podregionami prążkowia. W przypadku prążkowia „silnikowego” (~ DLS) zasobem jest ruch, który jest ograniczony, ponieważ przenoszenie kosztuje energię, a ponieważ wiele działań jest ze sobą niezgodnych80. Zwiększenie dopaminy zwiększa prawdopodobieństwo, że zwierzę zdecyduje, że warto wydatkować energię na poruszanie się lub poruszanie się szybciej6,40,81. Zauważ, że sygnał dopaminy, który koduje „ruch jest wart zachodu”, wytworzy korelacje między dopaminą a ruchem, nawet bez „ruchu” kodowania dopaminy per se.
W przypadku „poznawczego” prążkowia (~ DMS) zasoby są procesami poznawczymi, w tym uwagą (która z definicji ma ograniczoną pojemność)82) i pamięć robocza83. Bez dopaminy najistotniejsze zewnętrzne sygnały, które zwykle wywołują ruchy orientacyjne, są pomijane, jakby uważano je za mniej warte uwagi3. Co więcej, celowe przeprowadzanie procesów kontroli poznawczej jest trudne (kosztowne)84). Dopamina - szczególnie w DMS85 - odgrywa kluczową rolę w podejmowaniu decyzji, czy warto podjąć ten wysiłek86,87. Może to obejmować to, czy zastosować bardziej wymagające poznawczo strategie decyzyjne (oparte na modelu)88.
Dla „motywacyjnego” prążkowia (~ NAc) jednym z kluczowych ograniczonych zasobów może być czas zwierzęcia. Mezolimbiczna dopamina nie jest wymagana, gdy zwierzęta wykonują prostą, stałą akcję, aby szybko uzyskać nagrody89. Ale wiele form nagrody można uzyskać tylko przez długotrwałą pracę: przedłużone sekwencje działań bez ochrony, jak w przypadku żerowania. Wybór pracy oznacza, że inne korzystne sposoby spędzania czasu muszą zostać pominięte. Wysoka mezolimbiczna dopamina wskazuje, że angażowanie się w czasowo przedłużoną, wysiłkową pracę jest warte zachodu, ale ponieważ dopamina jest obniżona, zwierzęta nie przeszkadzają i mogą zamiast tego przygotować się do snu90.
W obrębie każdego obwodu pętli korowo-prążkowia wkład dopaminy w bieżące zachowanie jest zatem zarówno ekonomiczny (dotyczy alokacji zasobów), jak i motywacyjny (czy to jest wart wydać środki81). Obwody te nie są w pełni niezależne, ale mają hierarchiczną, spiralną organizację: bardziej brzuszne części prążkowia wpływają na komórki dopaminy, które przemieszczają się do większej części grzbietowej5,91. W ten sposób decyzje o zaangażowaniu się w pracę mogą również pomóc w ożywieniu określonych, krótszych ruchów. Ale ogólnie dopamina dostarcza sygnały „aktywujące” - zwiększając prawdopodobieństwo podjęcia jakiejś decyzji - zamiast sygnałów „kierunkowych” określających w jaki sposób zasoby powinny zostać wydane5.
Jaka jest obliczeniowa rola dopaminy przy podejmowaniu decyzji?
Jednym ze sposobów myślenia o tej aktywnej roli są „progi” podejmowania decyzji. W niektórych modelach matematycznych procesy decyzyjne wzrastają, dopóki nie osiągną poziomu progowego, kiedy system staje się zaangażowany w działanie92. Wyższa dopamina byłaby równoważna niższej odległości do progu, aby decyzje były podejmowane szybciej. Ten pomysł jest uproszczony, ale potwierdza przewidywania ilościowe. Obniżenie progów ruchu spowodowałoby szczególną zmianę kształtu rozkładu czasu reakcji, co widać po podaniu amfetaminy do prążkowia sensomotorycznego20.
Zamiast ustalonych progów, dane behawioralne i neuronowe mogą być lepiej dopasowane, jeśli progi zmniejszają się z czasem, tak jakby decyzje stały się coraz pilniejsze. Zaproponowano wyjście zwojów podstawy, aby zapewnić dynamicznie rozwijający się sygnał pilności, który pobudza mechanizmy selekcji w korze mózgowej93. Pilność była również większa, gdy przyszłe nagrody były bliżej w czasie, czyniąc tę koncepcję podobną do kodowania wartości, aktywnej roli dopaminy.
Czy taka aktywna rola wystarcza do opisania modulujących działanie dopaminy w prążkowiu? Jest to związane z długotrwałym pytaniem, czy obwody jądra podstawnego bezpośrednio wybierają spośród wyuczonych działań80 lub po prostu ożywiać wybory dokonane gdzie indziej93,94. Istnieją co najmniej dwa sposoby, w jakie dopamina może wydawać się mieć bardziej „kierunkowy” efekt. Po pierwsze, dopamina działa w podregionie mózgu, który przetwarza informacje z natury kierunkowe. Obwody zwojów podstawy mają ważną, częściowo zliberalizowaną rolę skierowaną ku potencjalnym nagrodom i zbliżającym się do nich. Głowa ogoniasta (~ DMS) bierze udział w napędzaniu ruchów oczu w kierunku przeciwległych pól przestrzennych95. Sygnał dopaminergiczny, że coś w przestrzeni przeciwnej jest warte ukierunkowania, może tłumaczyć obserwowaną korelację między aktywnością dopaminergiczną w DMS a ruchami kontralateralnymi72, jak również zachowania rotacyjne wywołane manipulacjami dopaminy96. Drugi „kierunkowy” wpływ dopaminy jest widoczny, gdy (obustronne) uszkodzenia dopaminy odchylają szczury w kierunku wyborów o niskim wysiłku / niskiej nagrodzie, a nie alternatyw o wysokim wysiłku / wysokiej nagrodzie97. Może to odzwierciedlać fakt, że niektóre decyzje są bardziej seryjne niż równoległe, a szczury (i ludzie) oceniają opcje pojedynczo98. W tych kontekstach decyzyjnych dopamina może nadal pełnić fundamentalnie aktywną rolę, przekazując wartość obecnie rozważanej opcji, która może być następnie zaakceptowana lub nie.24.
Aktywne zwierzęta podejmują decyzje na wielu poziomach, często przy wysokich stawkach. Oprócz myślenia o indywidualnych decyzjach pomocne może być rozważenie ogólnej trajektorii poprzez sekwencję stanów (Rys. 1). Dzięki ułatwieniu przejścia z jednego stanu do drugiego dopamina może przyspieszyć przepływ wzdłuż wyuczonych trajektorii99. Może to dotyczyć ważnego wpływu dopaminy na czas zachowania44,100. Jedną z kluczowych granic przyszłej pracy jest pogłębienie wiedzy na temat mechanistycznego wpływu takiego wpływu dopaminy na zachowanie ciągłe, poprzez zmianę przetwarzania informacji w pojedynczych komórkach, mikroukładach i dużych pętlach zwojów korowo-podstawnych. Podkreśliłem również wspólne role obliczeniowe dopaminy w wielu celach prążkowia, ale w dużej mierze zaniedbano cele korowe i dopiero okaże się, czy funkcje dopaminy w obu strukturach można opisać w tych samych ramach.
Podsumowując, odpowiedni opis dopaminy wyjaśniłby, w jaki sposób dopamina może sygnalizować zarówno uczenie się, jak i motywację, w tej samej szybkiej skali czasowej, bez zamieszania. Wyjaśniłoby to, dlaczego uwalnianie dopaminy w kluczowym celu jest skierowane do kowarian z oczekiwaniem nagrody, nawet jeśli odpalanie komórek dopaminy nie. Zapewniłoby to ujednolicone konto obliczeniowe działań dopaminy w prążkowiu i gdzie indziej, co wyjaśnia odmienny wpływ behawioralny na ruch, poznanie i czas. Niektóre konkretne pomysły przedstawione tutaj mają charakter spekulacyjny, ale mają na celu ożywienie ponownej dyskusji, modelowania i nowych eksperymentów.
Podziękowanie.
Dziękuję wielu współpracownikom, którzy dostarczyli wnikliwych komentarzy na temat wcześniejszych wersji tekstowych, w tym Kenta Berridge'a, Petera Dayana, Briana Knutsona, Jeffa Beelera, Petera Redgrave, Johna Lismana, Jesse Goldberga i anonimowych sędziów. Żałuję, że ograniczenia przestrzeni uniemożliwiły omówienie wielu ważnych wcześniejszych badań. Niezbędne wsparcie zapewnił Narodowy Instytut Chorób Neurologicznych i Udaru, Narodowy Instytut Zdrowia Psychicznego oraz Narodowy Instytut ds. Nadużywania Narkotyków.