Neistota dopamínu a učenie TD (2005)

KOMENTÁRE: Neistota znamená novosť. Táto komplexná štúdia potvrdzuje, že novinka zvyšuje dopamín. Vysvetľuje to tiež, že čím neistejšia je odmena, tým silnejšie je učenie. Internetové porno sa líši od porno minulosti z dôvodu nekonečnej novinky - čo znamená nekonečné množstvo dopamínu. Závislosť v jej jadre je učenie a pamäť. Prechod na nový žáner pornografie aktivuje dopamín a učenie - kvôli neistote toho, čo sa chystáte zažiť. Neistota nastáva aj vtedy, keď používatelia pornografie surfujú po pornografii. Neviete, čo sa chystáte vidieť, a to zvyšuje dopamín.
Novosť, neistota a snaha o aktiváciu dopamínu

Úplná štúdia: Dopamínová neistota a TD učenie

Behaviorálne a mozgové funkcie 2005, 1:6doi:10.1186/1744-9081-1-6

Yael Niv1,2, Michael O Duff2 a Peter Dayan2
1 Interdisciplinárne centrum pre neurálne výpočty, Hebrejská univerzita, Jeruzalem, Izrael
2 Gatsby Computational Neuroscience Unit, University College London, Londýn, Veľká Británia
Elektronická verzia tohto článku je úplná a možno ju nájsť na adrese: http://www.behavioralandbrainfunctions.com/content/1/1/6
© 2005 Niv et al; držiteľ licencie BioMed Central Ltd.

abstraktné

Podstatné dôkazy naznačujú, že fázové aktivity dopaminergných neurónov v strednom mozgu primátov predstavujú chybu časového rozdielu (TD) v predpovediach budúcej odmeny, pričom nárasty sú vyššie a klesajú pod základnú líniu v dôsledku pozitívnych a negatívnych predikčných chýb. Avšak dopamínové bunky majú veľmi nízku základnú aktivitu, čo znamená, že reprezentácia týchto dvoch druhov chýb je asymetrická. Skúmame dôsledky tejto zdanlivo neškodnej asymetrie pre interpretáciu dopaminergných striel v experimentoch s pravdepodobnostnými odmenami, ktoré prinášajú pretrvávajúce predikčné chyby. Najmä ukazujeme, že pri priemerovaní nestacionárnych predikčných chýb naprieč pokusmi by mal byť zrejmý nárast aktivity dopamínových neurónov, ktorého veľkosť závisí od rýchlosti učenia. Tento exaktný fenomén bol pozorovaný v nedávnom experimente, aj keď sa tu interpretoval v antipodálnych termínoch ako vnútropodnikové kódovanie neistoty.

úvod

Existuje impozantne veľké množstvo fyziologických, zobrazovacích a psychofarmakologických údajov týkajúcich sa fázovej aktivity dopaminergných (DA) buniek v stredných mozgoch opíc, potkanov a ľudí v klasických a inštrumentálnych úlohách, ktoré zahŕňajú predpovede budúcich odmien [1-5]. Tieto údaje boli urobené s cieľom navrhnúť [6,7], že aktivita DA neurónov predstavuje časové rozdiely (TD) v predpovediach budúcej odmeny [8,9]. Táto TD teória dopamínu poskytuje presný výpočtový základ pre pochopenie celého radu behaviorálnych a neurálnych dát. Ďalej navrhuje, aby DA poskytoval signál, ktorý je teoreticky vhodný na riadenie učenia predpovedí a akcií optimalizujúcich odmenu.

Niektoré z najpôsobivejších dôkazov v prospech teórie TD pochádzajú zo štúdií skúmajúcich fázovú aktiváciu dopamínových buniek v reakcii na svojvoľné stimuly (ako napríklad fraktálne vzory na monitore), ktoré predpovedajú najbližšiu dostupnosť odmien (napríklad kvapiek šťavy). , V mnohých variantoch tieto ukázali, že pri výcviku, fázové DA signály prenášajú z času pôvodne nepredvídateľnej odmeny, do času najskoršieho cue predpovedajúceho odmenu. To je presne očakávaný výsledok pre predikčnú chybu založenú na časovom rozdiele (napr. [1,2,10-13]). Základným zistením [7] je, že keď je odmena neočakávaná (čo je nevyhnutné v skorých štúdiách), bunky dopamínu na ňu silne reagujú. Keď sa predpovedá odmena, bunky reagujú na prediktor a nie na očakávanú odmenu.

Ak je predpokladaná odmena neočakávane vynechaná, potom sú bunky v normálnom čase odmeny postupne potlačené, inhibícia, ktorá odhaľuje presné načasovanie predikcie odmeny [10] a ktorej časové ukazovatele sú v súčasnosti pod forenzným zameraním [14]. Posun aktivity z času odmeny na čas prediktora sa podobá posunu apetitívnej behaviorálnej reakcie zvieraťa z času odmeny (nepodmienený stimul) na podmienený stimul v klasických podmieňovacích experimentoch [7,10] .

V najzaujímavejšej nedávnej štúdii Fiorillo et al. [15] skúmal prípad čiastočného zosilnenia, v ktorom je perzistentná, neodvratná, predikčná chyba na každom jednom pokuse. Priama interpretácia hypotézy chyby predikcie TD by naznačovala, že v tomto prípade (a) aktivita dopamínu v čase prediktívnych stimulov by sa zmenšovala s pravdepodobnosťou odmeny a (b) v priemere za štúdie, dopaminergná odpoveď po stimulácii a až do času odmeny by mali byť nulové. Hoci prvá hypotéza bola potvrdená v experimentoch, druhá nebola. Spriemerované odpovede medzi pokusmi ukázali jasný nárast aktivity počas oneskorenia medzi nástupom stimulu a odmenou, ktoré sa zdali byť v rozpore s účtom TD. Fiorillo a kol. Predpokladá sa, že táto činnosť predstavuje skôr neistotu pri poskytovaní odmeny než chybu predpovede.

V tomto príspevku sa venujeme problematike pretrvávajúcej predikčnej chyby. Ukázali sme, že kľúčová asymetria v kódovaní pozitívnych a negatívnych predikčných chýb vedie k očakávaniu rampy v priemernom dopamínovom signáli medzi pokusmi, a tiež dobre zodpovedá dvom ďalším charakteristikám DA signálu - zdanlivo pretrvávajúcej aktivity v čase (potenciálnej) odmeny a zmiznutia (alebo aspoň oslabenia) rampingového signálu, ale nie signálu v čase odmeny, tvárou v tvár stopám namiesto oneskorenia. Obidva tieto javy boli pozorované aj v príbuzných inštrumentálnych experimentoch Morris et al. [16]. Nakoniec interpretujeme signál rampingu ako najlepší dôkaz, ktorý je v súčasnosti k dispozícii pre charakter mechanizmu učenia, ktorým dochádza k posunu aktivity dopamínu k času prediktívnych stimulov.

Neistota pri výskyte odmeny: DA ramping

Fiorillo a kol. [15] spájali prezentáciu piatich rôznych vizuálnych stimulov pre makaky s oneskoreným, pravdepodobnostným (pr = 0, 0.25, 0.5, 0.75, 1) dodaním šťavy. Použili paradigmu podmieňovania oneskorenia, v ktorej stimul pretrváva pevne stanovený interval 2 s, pričom odmena sa poskytne, keď stimul zmizne. Po výcviku predvídateľné chovanie opíc naznačilo, že si uvedomujú rôzne pravdepodobnosti odmeny spojené s každým podnetom.

Obrázok 1a ukazuje histogramy populácie extracelulárne zaznamenanej aktivity DA buniek pre každú pr. Teória TD predpovedá, že fázová aktivácia DA buniek v čase vizuálnych podnetov by mala zodpovedať priemernej očakávanej odmene, a preto by sa mala zvyšovať s pr. Obrázok 1a ukazuje presne toto - naozaj, v celej populácii, nárast je pomerne lineárny. Morris a kol. [16] uvádzajú podobný výsledok v inštrumentálnej (stopovej) úlohe, ktorá zahŕňa aj pravdepodobnostnú výstuž.

Obrázok 1. Spriemerované predikčné chyby v úlohe pravdepodobnostnej odmeny
a) DA odpoveď v pokusoch s rôznymi pravdepodobnosťami odmeny. Populačné peri-stimulačné časové histogramy (PSTH) ukazujú súhrnnú aktivitu stočenia niekoľkých DA neurónov počas mnohých pokusov, pre každý pr, združenú nad odmenenými a neodmenenými skúškami so strednou pravdepodobnosťou. b) Chyba predikcie TD s asymetrickým škálovaním. V simulovanej úlohe bol v každej skúške náhodne vybraný jeden z piatich stimulov a zobrazený v čase t = 5. Stimul bol vypnutý v čase t = 25, kedy bola poskytnutá odmena s pravdepodobnosťou pr špecifikovanou stimulom. Použili sme zastúpenie stimulov so zníženou čiarou (pozri text), pričom každý stimul predstavuje inú množinu jednotiek („neurónov“). Chyba TD bola δ (t) = r (t) + w (t - 1) • x (t) - w (t - 1) • x (t - 1), pričom r (t) bola odmena v čase t a x (t) a w (t) vektory stavu a hmotnosti pre jednotku. Použilo sa štandardné online pravidlo učenia TD s pevnou rýchlosťou učenia α, w (t) = w (t - 1) + αδ (t) x (t - 1), takže každá váha predstavovala očakávanú budúcu hodnotu odmeny. Podobne ako Fiorillo a kol., Zobrazujeme chybu predikcie δ (t) spriemerovanú v mnohých pokusoch po tom, čo sa úloha naučí. Reprezentačná asymetria vzniká tak, že záporné hodnoty δ (t) boli pred súčtom simulovaného PSTH zmenšené o d = 1/6, aj keď učenie prebieha podľa chýb bez mierky. Nakoniec, aby sme zohľadnili malé pozitívne reakcie v čase stimulu pre pr = 0 a v čase (predpokladanej) odmeny za pr = 1 v bode (a), predpokladali sme malú (8%) šancu, že prediktívny stimul je nesprávne identifikovaný. (c) DA odpoveď v pr = 0.5 pokusoch, rozdelená do testov s odmenou (vľavo) a bez odmien (vpravo). (d) TD model z (c). (a, c) Dotlač so súhlasom [15] © 2003 AAAS. Na všetky ďalšie použitia je potrebné povolenie od AAAS.

Na rozdiel od toho, v čase možného poskytnutia odmeny, teória TD predpovedá, že v priemere by nemala existovať žiadna aktivita, pretože v priemere v tom čase neexistuje žiadna chyba predikcie. Samozrejme, v pravdepodobnostnom zosilňovacom dizajne (aspoň pre pr for 0, 1) je v skutočnosti chyba predikcie v čase dodania alebo nedoručenia odmeny v každom jednom pokuse. Pri skúškach, v ktorých je odmena doručená, by mala byť predikčná chyba pozitívna (keďže získaná odmena je väčšia ako očakávaná priemerná odmena). Naopak, na skúškach bez odmeny by mala byť záporná (pozri obrázok 1c). V rámci TD by mal byť priemer týchto rozdielov vážený pravdepodobnosťou ich výskytu nulový. Ak to nie je nula, potom táto predikčná chyba by mala fungovať ako signál plasticity, ktorý mení predpovede, kým nie je žiadna chyba predikcie. V rozpore s týmto očakávaním, údaje na Obrázku 1a, ktoré sú spriemerované v rámci odmeňovaných aj nezodpovedaných štúdií, ukazujú, že v tomto čase je v skutočnosti pozitívna priemerná aktivita. To je zrejmé aj z údajov Morrisa a kol. [16] (pozri obrázok 3c). Pozitívne odpovede DA nevykazujú žiadne známky zmiznutia dokonca ani pri značnom tréningu (v priebehu mesiacov).

Horšie, ako je to pre model TD, a naozaj zameranie Fiorillo et al. [15], je zdanlivá ramping aktivity DA smerom k očakávanému času odmeny. Keďže veľkosť rampy je najväčšia pre pr = 0.5, Fiorillo et al. navrhol, že uvádza neistotu v poskytovaní odmeny, skôr ako chybu predikcie, a špekuloval, že tento signál by mohol vysvetliť zdanlivo príťažlivé vlastnosti neistoty (ako je vidieť v hazardných hrách).

Aktivita rampingu a aktivita v očakávanom čase odmeny predstavujú kritické výzvy pre teóriu TD. TD učenie funguje tým, že zabezpečuje pre DA aktivitu naraz v štúdii, ktorá sa dá predpovedať pokynmi dostupnými skôr v tomto skúšaní. Nie je teda jasné, ako akákoľvek zdanlivo predvídateľná aktivita, či už v čase odmeny alebo na rampe, môže pretrvávať bez toho, aby sa predpovedalo, že sa objaví vizuálny podnet. Koniec koncov, pr-závislá aktivita v odozve na podnet potvrdzuje jeho stav ako platný prediktor. Okrem toho, kľúčovým aspektom TD [17] je, že spája predikciu s výberom akcie s využitím hodnoty štátu ako indikácie budúcich odmien, ktoré sú z tohto štátu k dispozícii, a teda jeho atraktívnosti ako cieľa pre činnosť. Z tohto hľadiska, pretože rampová činnosť nie je explicitne predpovedaná skorším cue, nemôže ovplyvniť skoré akcie, ako je rozhodnutie hazardovať. Predstavme si napríklad súťaž medzi dvomi činmi: jedna nakoniec vedie k stavu s deterministickou odmenou, a teda žiadna rampa, a druhá k stavu, po ktorom nasleduje pravdepodobnostná odmena s rovnakým priemerom a rampa. Keďže rampa nemá vplyv na aktivitu v čase podmieneného stimulu, nemôže byť použitá na vyhodnotenie alebo uprednostnenie druhej akcie (hazardnej hry) pred prvou, napriek mimoriadnej neistote.

Navrhujeme alternatívnu hypotézu, že obidva tieto anomálne spúšťacie modely vyplývajú priamo z obmedzení vyplývajúcich z nízkej základnej rýchlosti aktivity DA neurónov (2 – 4 Hz) na kódovaní podpísanej predikčnej chyby. Ako poznamenal Fiorillo a kol. [15], pozitívne predikčné chyby sú reprezentované rýchlosťami pálenia ~ 270% nad základnou líniou, zatiaľ čo záporné chyby sú reprezentované poklesom iba ~ 55% pod základnou hodnotou (pozri tiež [14,18]). Táto asymetria je priamym dôsledkom kódovania podpísaného množstva vystrelením, ktoré má nízku základnú líniu, hoci, samozrejme, môže byť len pozitívne. Rýchlosti vypaľovania nad základnou úrovňou môžu kódovať pozitívne predikčné chyby použitím veľkého dynamického rozsahu, avšak pod základnou rýchlosťou zapaľovania môže ísť len na nulu, čo obmedzuje kódovanie negatívnych predikčných chýb.

Preto je potrebné pozorne interpretovať súčty (alebo priemery) aktivity peri-stimulačno-časových histogramov (PSTH) aktivity v rôznych pokusoch, ako to bolo urobené na obrázku 1a. Asymetricky kódované pozitívne a negatívne chybové signály v čase prijatia alebo neprijatia odmeny by skutočne nemali predstavovať nulu, aj keď predstavujú správne chyby predikcie TD. Keď sa to sčíta, nízka streľba predstavujúca negatívne chyby v neodmenených pokusoch „nezruší“ rýchle streľby kódujúce pozitívne chyby v pokusoch s odmenou a celkovo bude priemer vykazovať pozitívnu odozvu. V mozgu, samozrejme, keďže odpovede nie sú spriemerované pri pokusoch (odmenených a neodmenených), ale pri neurónoch v rámci pokusu, nemusí to predstavovať problém.

To vysvetľuje pretrvávajúcu pozitívnu aktivitu (v priemere) v čase dodania alebo nedodania odmeny. Ale čo rampa pred týmto časom? Aspoň v určitých neurálnych reprezentáciách času medzi podnetom a odmenou, keď sú skúšky spriemerované, táto rovnaká asymetria vedie TD k tomu, aby vyústil presne do skoku aktivity smerom k času odmeny. Mechanizmus učenia TD má za následok šírenie prediktívnych chýb, ktoré vznikajú naraz v skúške (napríklad v čase odmeňovania), na základe pokusov na základe pokusov, smerom k potenciálnym prediktorom (napríklad CS), ktoré vznikajú v predchádzajúcich pokusoch. Pod asymetrickým zastúpením pozitívnych a negatívnych predikčných chýb, o ktorých sme práve diskutovali, bude priemerovanie týchto šíriacich sa chýb v priebehu viacerých štúdií (ako na obrázku 1a) viesť k pozitívnym prostriedkom pre epoch v rámci procesu pred odmenou. Presný tvar výslednej rampy aktivity závisí od spôsobu, akým sú stimuly zastúpené v čase, ako aj od rýchlosti učenia, ako bude uvedené nižšie.

Obrázok 2 ilustruje tento pohľad na pôvod aktivity rampy. Tu sa zobrazuje klepnutím znázornená čiara oneskorenia na riadku času od podnetu. Za týmto účelom sa každá jednotka („neurón“) stane aktívnym (tj. Predpokladá hodnotu 1) v určitom oneskorení po predložení stimulu, takže každý časový krok po začiatku stimulu je konzistentne predstavený spustením jednej jednotky. Učenie je založené na (dopaminergicky hlásenej) chybe TD formalizovanej ako δ (t) = r (t) + V (t) - V (t - 1), pričom V (t) je vážený vstup z aktívnej jednotky pri čas t a r (t) odmena získaná v čase t. Aktualizácia váh jednotiek podľa štandardného pravidla aktualizácie TD s pevnou rýchlosťou učenia umožňuje, aby V (t) v priemere predstavoval očakávané budúce odmeny (pozri titulok na obrázku 1). Pretože je každý nasledujúci časový údaj znázornený osobitne, môžu sa chyby predikcie TD vyskytnúť kedykoľvek v priebehu skúšky. Obrázok 2a zobrazuje tieto chyby v šiestich po sebe idúcich simulovaných pokusoch, v ktorých pr = 0.5. V každej skúške sa v čase odmeny vyskytne nová pozitívna alebo negatívna chyba, ktorá nasleduje po prijatí alebo neprijatí odmeny a chyby z predchádzajúcich pokusov sa postupne šíria späť do času stimulu, prostredníctvom neustále aktualizovanie váh (napr. chyba zvýraznená červenou farbou). Pri priemerovaní (alebo ako v PSTHs, sčítaní) počas pokusov sa tieto chyby v priemere navzájom zrušia, čo vedie k celkovému plochému histogramu v intervale po nástupe stimulu a vedie až k času odmeny (čierna čiara na obrázku) 2b, súčet za 10 pokusov znázornených tenkou modrou farbou). Keď sa však sčíta po asymetrickom škálovaní negatívnych chýb faktorom d = 1/6 (ktorý simuluje asymetrické kódovanie pozitívnych a negatívnych predikčných chýb DA neurónmi), nasleduje pozitívny nábeh aktivity, čo ilustruje čierna čiara na obrázku 2c. Upozorňujeme, že toto preškálovanie je iba reprezentačným problémom, ktorý vyplýva z obmedzení kódovania negatívnej hodnoty týkajúcej sa nízkej základnej rýchlosti streľby a nemal by mať vplyv na učenie váh, aby sa nenaučili nesprávne hodnoty (pozri diskusiu). Pretože sú však PSTH priamo súčtom neurónových špičiek, táto reprezentačná záležitosť súvisí s výsledným histogramom.

Obrázok 2. Spätné hlásenie chýb predpovedí vysvetľuje rampovú aktivitu.
a) Chyba predikcie TD vo všetkých šiestich po sebe idúcich pokusoch (zhora nadol) od simulácie na obrázku 1b, s pr = 0.5. Červenou farbou je zvýraznená chyba v čase odmeňovania v prvom zo skúšok a jej postupné šírenie smerom k času stimulu v nasledujúcich pokusoch. Písomnými písmenami sa uvádza výsledok každej konkrétnej skúšky (R = odmenený; N = neodmenený). Poradie odmien pred týmito pokusmi je uvedené vpravo hore. b) Prekrýva sa chyba TD v týchto šiestich pokusoch a ďalšie štyri po nich. Červené a zelené čiary znázorňujú obálku chýb v týchto pokusoch. Zhrnutie týchto pokusov nemá za následok priemernú aktivitu nad východiskovou hodnotou (čierna čiara), pretože k pozitívnym a negatívnym chybám dochádza náhodne v 50% času, a preto sa navzájom rušia. c) Ak sú však predikčné chyby asymetricky zastúpené nad a pod základnou frekvenciou prepúšťania (tu boli negatívne chyby asymetricky upravené mierkou d = 1 / 6, aby sa simulovalo asymetrické kódovanie chýb predikcie DA neurónmi), priemerné zvýšenie aktivity objavuje sa pri priemerovaní pokusov, ako ukazuje čierna čiara. Všetky parametre simulácie sú rovnaké ako na obrázku 1b, d.

Obrázky 1b, d znázorňujú rampu vyplývajúcu z tejto kombinácie asymetrického kódovania a priemerovania medzi pokusmi na porovnanie s experimentálnymi údajmi. Obrázok 1b ukazuje PSTH vypočítané z našich simulovaných údajov spriemerovaním cez asymetricky reprezentovaný signál 5 (t) v pokusoch ~ 50 pre každý typ stimulu. Obrázok 1d zobrazuje výsledky pre pr = 0.5 prípad, rozdelené do odmeňovaných a neodporúčaných pokusov na porovnanie s obrázkom 1c. Simulované výsledky sa veľmi podobajú experimentálnym údajom v tom, že replikujú čistú pozitívnu reakciu na neisté odmeny, ako aj na efekt zvyšovania, ktorý je najvyšší v prípade pr = 0.5.

Je jednoduché odvodiť priemernú odozvu v čase odmeny (t = N) v pokuse T, tj priemernú chybu TD δT(N) , z pravidla učenia TD so zjednodušenou reprezentáciou času oneskorenej linky a pevná rýchlosť učenia α. Hodnota v predposlednom časovom kroku v pokuse ako funkcia čísla pokusu (s počiatočnými hodnotami považovanými za nulu) je

kde r (t) je odmena na konci skúšky t. Chybový signál v poslednom časovom kroku skúšky T je jednoducho rozdiel medzi získanou odmenou r (T) a hodnotou predpovedajúcou túto odmenu VT - 1 (N - 1). Táto chyba je pozitívna s pravdepodobnosťou pr a negatívna s pravdepodobnosťou pr (1 ​​- pr). Škálovaním záporných chýb faktorom d ∈ (0, 1] tak dostaneme

Pre symetrické kódovanie pozitívnych a negatívnych chýb (d = 1) je priemerná odpoveď 0. Pre asymetrické kódovanie (0 Sledovanie stopy: skúšobný prípad

Dôležitý testovací prípad pre našu interpretáciu vyvstáva vo variante úlohy [15] Fiorilla et al., Ako aj v analogickej inštrumentálnej úlohe Morris et al. [16], obidve zahŕňajú stopovú úpravu. Na rozdiel od podmieňovania oneskorenia (obrázok 3a), pri ktorom sa odmena kryje s posunom prediktívneho stimulu, tu existuje podstatná medzera medzi posunom prediktívneho stimulu a poskytnutím odmeny (obrázok 3b). Je zrejmé, že v tomto prípade by sa neistota v súvislosti s odmenou mohla len zväčšiť z dôvodu šumu v načasovaní intervalu medzi stimulom a odmenou [19], takže podľa účtu neistoty by mali existovať porovnateľné alebo dokonca väčšie rampy. Experimentálne výsledky však ukazujú, že aktivita rampy je menšia alebo dokonca zanedbateľná (obrázok 3c; d). Upozorňujeme však, že veľkosť priemernej aktivity pokusu v očakávanom čase odmeny je zachovaná, čo ukazuje na disociáciu medzi výškou rampy a množstvom pozitívnej aktivity v očakávanom čase odmeny.

Obrázok 3. Sledovanie kondicionovania s pravdepodobnostnými odmenami.
(a) Ilustrácia jedného pokusu o úlohu úpravy oneskorenia od Fiorilla a kol. [15]. Pokus pozostáva z 2-sekundového vizuálneho stimulu, ktorého posun sa zhoduje s dodaním odmeny za džús, ak je takáto odmena naprogramovaná podľa pravdepodobnosti spojenej s vizuálnym znamením. V pokusoch bez odmeny sa stimul ukončil bez odmeny. V obidvoch prípadoch pokusy oddeľuje v priemere 9-sekundový interval medzi pokusmi. (b) Ilustrácia jedného pokusu s úlohou upravovať stopy podľa Morris et al. [16]. Zásadný rozdiel je v tom, že medzi offsetom stimulu a začiatkom odmeny („stopové“ obdobie) teraz existuje značné časové oneskorenie a žiadny externý stimul neoznačuje očakávaný čas odmeny. To dáva ďalšiu neistotu, pretože presné načasovanie predpokladanej odmeny musí byť vnútorne vyriešené, najmä v odmeňovaných pokusoch. V tejto úlohe, ako v [15], bol v každej štúdii predstavený jeden z niekoľkých vizuálnych stimulov (nezobrazených) a každý stimul bol spojený s pravdepodobnosťou odmeny. Aj tu bola opica požiadaná, aby vykonala inštrumentálnu reakciu (stlačenie klávesy zodpovedajúcej strane, na ktorej bol podnet podaný), ktorej neúspech ukončil proces bez odmeny. Skúšky boli oddelené variabilnými inter-testovacími intervalmi. (c, d) Rýchlosť streľby DA (vyhladená) v porovnaní s východiskovou hodnotou, okolo očakávaného času odmeny, v pokusoch s odmenou (c) a v odmenených pokusoch (d). (c, d) Dotlač z [16] © 2004 so súhlasom Elseviera. Stopy znamenajú celkovú pozitívnu reakciu v očakávanom čase odmeny, avšak s veľmi malou alebo žiadnou rampou, ktorá tomu predchádza. Podobné výsledky sa dosiahli pri klasickej kondicionovacej úlohe, ktorá bola stručne opísaná v [15] a ktorá použila procedúru stopovej úpravy, ktorá potvrdzuje, že rozhodujúcim rozdielom od (a) bola stopová perióda, a nie inštrumentálna povaha úlohy zobrazenej v písmene b). .

TD model DA ľahko vysvetľuje tieto záhadné údaje. Ako je znázornené na obrázku 4, tvar rampy, aj keď nie jej výška, je ovplyvnená rýchlosťou učenia. Veľkosť chýb pri predpovedi spätného šírenia je sčasti určená mierou učenia, pretože tieto chyby vznikajú ako súčasť online učenia sa nových predpovedí. Skutočne existuje neustála aktualizácia predpovedí tak, že po odmeňovanom súdnom konaní sa očakáva vyššie očakávané odmeňovanie (a teda pri ďalšej odmeňovaní sa vyskytne menšia chyba predikcie), a naopak po neodsúdenom súdnom konaní [18] (pozri obrázok) 2). Táto aktualizácia predpovedí priamo súvisí s rýchlosťou učenia - čím vyššia je rýchlosť učenia, tým väčšia je aktualizácia predpovedí podľa aktuálnej predikčnej chyby a čím väčšia je časť predikčnej chyby, ktorá sa šíri späť. Týmto spôsobom, s vyššou mierou učenia, bude rozdiel v očakávaniach po odmeňovaní verzus neodovzdaný pokus väčší, a teda budú chyby v predikcii, keď bude alebo nie je k dispozícii ďalšia odmena, väčšie - teda väčšia a postupnejšia rampa.

Obrázok 4. Závislosť rampy od rýchlosti výučby.
Tvar rampy, ale nie výška jej vrcholu, závisí od rýchlosti učenia sa. Graf ukazuje simulovanú aktivitu v prípade pr = 0.5 blízko času očakávanej odmeny, pri rôznych mierach učenia, spriemerovaných za odmeňované aj neodporúčané skúšky. Podľa učenia TD s pretrvávajúcimi asymetricky kódovanými chybami predpovedania vedie priemerovanie aktivity v odmeňovaných a neodporúčaných pokusoch k nárastu až do času odmeňovania. Výška vrcholu rampy je určená pomerom odmeňovaných a neodporúčaných pokusov, ale šírka rampy je určená mierou spätného šírenia týchto chybových signálov od času (očakávanej) odmeny do čas prediktívneho stimulu. Vyššia miera učenia vedie k väčšiemu zlomku chyby šíriacej sa späť, a teda k vyššej rampe. Pri nižších mierach učenia sa rampa stáva zanedbateľnou, aj keď pozitívna aktivita (v priemere) v čase odmeňovania je stále zachovaná. Všimnite si, že hoci rýchlosť učenia použitá v simuláciách znázornených na obrázku 1b, d bola 0.8, nemala by sa považovať za doslovnú synaptickú rýchlosť učenia nervového substrátu, vzhľadom na naše schematické znázornenie stimulu. V realistickejšom vyjadrení, v ktorom je populácia neurónov aktívna v každom časovom okamihu, by podobné výsledky priniesla oveľa nižšia miera učenia.

V skutočnosti v porovnaní s kondicionovaním oneskorenia je stopová úprava notoricky pomalá, čo naznačuje, že miera učenia je nízka, a teda by mala existovať nižšia rampa v súlade s experimentálnymi výsledkami. Priame preskúmanie miery učenia sa v údajoch Morris et al. [16], ktorého úloha si vyžadovala nadmerné školenie, pretože to nebolo len sledovanie stôp, ale zahŕňalo aj inštrumentálne kroky, potvrdilo to, že je skutočne veľmi nízka (Genela Morris - osobná komunikácia, 2004).

Diskusia

Rozdielne kódovanie pozitívnych a negatívnych hodnôt DA neurónmi je zrejmé vo ​​všetkých štúdiách fázového DA signálu a možno ho považovať za nevyhnutný dôsledok nízkej základnej aktivity týchto neurónov. Posledne menovaný priamo inšpiroval návrhy, aby sa do reprezentácie a teda na učenie sa negatívnych predikčných chýb [20] zapojil aj oponentský neurotransmiter, pravdepodobne serotonín, takže majú tiež celú štvrtinu. Tu sme sa však obmedzili na zváženie účinkov asymetrie na priemernú pokusnú analýzu dopamínovej aktivity a ukázali sme, že rastúca DA aktivita, ako aj priemerná pozitívna reakcia v čase odmeňovania, vyplývajú priamo z asymetrické kódovanie predikčných chýb.

Okrem jasnejšieho zobrazenia chybového signálu je najdôležitejším dôsledkom novej interpretácie to, že na rampy sa dá pozerať ako na znak fenoménu TD, ktorý bol doteraz mimoriadne nepolapiteľný. Toto je progresívne spätné šírenie chybového signálu predstavovaného DA aktivitou od času odmeny po čas prediktora (obrázok 2a). Väčšina predchádzajúcich štúdií dopaminergnej aktivity používala pr = 1, takže táto spätná propagácia je prinajlepšom prechodným javom zjavným až na začiatku tréningu (keď sa zvyčajne ešte nezačali záznamy) a potenciálne je ťažké ho rozoznať pomaly. pálenie DA neurónov. Ďalej, ako už bolo uvedené, spätná propagácia závisí od spôsobu, akým je zobrazený čas medzi prediktívnym stimulom a odmenou - je prítomná pre zobrazenie s oneskorením odloženého riadku ako v [6], ale nie pre reprezentácie, ktoré pokrývajú celý oneskorenie, napríklad v [21]. Všimnite si, že tvar rampy tiež závisí od použitia stôp spôsobilosti a takzvaného pravidla učenia TD (λ) (simulácia nie je zobrazená), ktoré poskytujú ďalší mechanizmus na preklenutie času medzi udalosťami počas učenia. Bohužiaľ, keďže formy ramp v údajoch sú dosť variabilné (obrázok 1) a hlučné, nemôžu poskytnúť silné obmedzenia na presný mechanizmus TD používaný mozgom.
Novšie štúdie zahŕňajúce pretrvávajúce chyby predikcie tiež ukazujú aktivitu naznačujúcu spätnú propagáciu, najmä Obrázok 4 z [13]. V tejto štúdii boli chyby predikcie výsledkom periodických zmien v úlohe a zaznamenávali sa DA od začiatku výcviku, takže aktivita podobná spätnému množeniu je priamo zrejmá, hoci táto aktivita nebola kvantifikovaná.

Očakávame, že rampy budú pretrvávať počas celého výcviku iba vtedy, ak sa rýchlosť vzdelávania neznižuje na nulu s postupujúcim učením. Teória Pearceho a Halla [22] o riadení učenia neistotou naznačuje presne túto perzistenciu učenia - a z plánov čiastočného posilnenia vyplýva, že miera učenia môže byť vyššia, keď je s odmenou spojená väčšia neistota. Z „racionálneho“ štatistického hľadiska by učenie malo skutočne pretrvávať, ak existuje značná neistota vo vzťahu medzi prediktormi a výsledkami, čo môže vyplynúť z neustále existujúcej možnosti zmeny prediktívnych vzťahov. Táto forma pretrvávajúcej neistoty spolu s neistotou spôsobenou počiatočnou neznalosťou úlohy bola použitá na formalizáciu Pearceovej a Hallovej teórie spôsobu, akým neistota vedie k učeniu [23]. Naše tvrdenie, že rampy nemôžu predstavovať neistotu priamo, by sa teda určite nemalo chápať v tom zmysle, že jej znázornenie a manipulácia nie sú dôležité. Naopak, navrhli sme, že neistota ovplyvňuje kortikálnu inferenciu a učenie prostredníctvom iných neuromodulačných systémov [24] a že môže tiež určovať aspekty výberu akcií [25].

Treba poznamenať rôzne ďalšie znaky asymetrie. Najkritickejší je vplyv asymetrie na vzdelávanie závislé od DA [26], ak je aktivita DA pod základnou úrovňou sama o sebe zodpovedná za znižovanie predpovedí, ktoré sú príliš vysoké. Aby sa zabezpečilo, že naučené predpovede zostanú správne, museli by sme predpokladať, že asymetrická reprezentácia neovplyvňuje učenie, tj, že mechanizmus, ako napríklad rôzne škálovanie na potenciovanie a zníženie synaptických síl, kompenzuje signál asymetrickej chyby. Samozrejme by to malo za následok priepasť, ak sa proti učení neurotransmiter zapojí do učenia sa z negatívnych predikčných chýb. Tento problém komplikuje návrh spoločnosti Bayer [14], že sadzby paľby DA sú v skutočnosti podobné pre všetky chyby predikcie pod určitým negatívnym prahom, pravdepodobne v dôsledku podlahového efektu nízkej rýchlosti paľby. Takéto stratové kódovanie nemá vplyv na kvalitatívny obraz o účinkoch priemerovania medzi pokusmi na výskyt ramp, ale posilňuje potrebu protiváhového signálu pre nevyhnutne symetrické učenie.

Nakoniec, najpriamejším testom našej interpretácie by bolo porovnanie priemerovania signálu v rámci pokusu a medzi pokusmi. Bolo by dôležité urobiť to dočasne sofistikovaným spôsobom, aby sa zabránilo problémom s priemerovaním nestacionárnych signálov. Aby sme prekonali šum v nervovom výboji a určili, či skutočne došlo k postupnému nábehu pokusu, alebo ako by sme predpovedali - občasné pozitívne a negatívne predikčné chyby, bolo by potrebné spriemerovať viac neurónov zaznamenaných súčasne v rámci jeden pokus a navyše neuróny spojené s podobnou rýchlosťou učenia. Alternatívne môžu byť jednotlivé neurónové stopy regresné proti spätnej propagačnej reakcii predpovedanej ich predchádzajúcimi pokusmi a TD učením. Porovnanie miery variability vysvetlené takýmto modelom v porovnaní s regresiou proti monotónnej rampe aktivity by mohlo poukázať na najvhodnejší model. Menej priama, ale testovateľnejšia predpoveď je, že tvar rampy by mal závisieť od rýchlosti učenia. Miera učenia sa dá hodnotiť z reakcie na pravdepodobnostné odmeny, nezávisle od tvaru rampy (Nakahara et al. [18] ukázali, že pri úlohe podmieňovania stopových prvkov čiastočného zosilnenia bola miera učenia 0.3), a potenciálne manipulovateľné zmenou rozsahu školenia alebo frekvencie, s akou sa menia a znovu získavajú nepredvídané udalosti. Skutočne, kvantifikácia existencie a tvaru rampy v zaznamenanej DA aktivite Nakahara et al., By mohla dobre osvetliť súčasný návrh.

Konkurenčné záujmy
Autor (i) vyhlasujú, že nemajú žiadne konkurenčné záujmy.

Príspevky autorov
YN, MD a PD spoločne koncipovali a vykonali túto štúdiu a pomohli navrhnúť rukopis. Všetci autori prečítali a schválili konečný rukopis.

Poďakovanie
Sme veľmi vďační H. Bergmanovi, C. Fiorillovi, N. Dawovi, D. Joelovi, P. Toblerovi, P. Shizgalovi a W. Schultzovi za diskusie a komentáre, v niektorých prípadoch aj napriek rôznej interpretácii údajov. Sme mimoriadne vďační Genela Morrisovej za analýzu jej vlastných publikovaných a nezverejnených údajov týkajúcich sa nábehu. Táto práca bola financovaná z tematickej siete ES (YN), Gatsby Charitable Foundation a projektu EÚ BIBA.

Referencie

1. Ljungberg T, Apicella P, Schultz W: Reakcie opičích dopamínových neurónov počas učenia sa behaviorálnych reakcií.
Neurofyziol 1992, 67: 145-163.
Návrat na text
2. Schultz W: Prediktívny odmeňovací signál dopamínových neurónov. [http://jn.physiology.org/cgi/content/full/80/1/1] webcit
Žurnál neurofyziológie 1998, 80: 1-27. PubMed Abstrakt
Návrat na text
3. O'Doherty J, Dayan P, Friston K, Critchley H, Dolan R: Modely časových rozdielov a učenie súvisiace s odmenou v ľudskom mozgu.
Neuron 2003, 38: 329-337. PubMed Abstrakt | Plné znenie vydavateľa
Návrat na text
4. Seymour B, O'Doherty J, Dayan P, Koltzenburg M, Jones A, Dolan R, Friston K, Frackowiak R: Modely časových rozdielov popisujú učenie vyššieho rádu u ľudí.
Príroda 2004, 429: 664-667. PubMed Abstrakt | Plné znenie vydavateľa
Návrat na text
5. Montague PR, Hyman SE, Cohan JD: Výpočtové úlohy dopamínu pri kontrole správania.
Príroda 2004, 431: 760-767. PubMed Abstrakt | Plné znenie vydavateľa
Návrat na text
6. Montague PR, Dayan P, Sejnowski TJ: Rámec pre mezencefalické dopamínové systémy založené na prediktívnom Hebbovom učení.
The Journal of Neuroscience 1996, 16: 1936-1947. PubMed Abstrakt | Plné znenie vydavateľa
Návrat na text
7. Schultz W, Dayan P, Montague PR: Neurónový substrát predikcie a odmeny.
Science 1997, 275: 1593-1599. PubMed Abstrakt | Plné znenie vydavateľa
Návrat na text
8. Sutton RS: Naučiť sa predpovedať metódou časového rozdielu.
Strojové učenie 1988, 3: 9-44.
Návrat na text
9. Sutton RS, Barto AG: [http://www.cs.ualberta.ca/~sutton/book/ebook/the-book.html] webová stránka
Výučba posilnenia: úvod. MIT Press; 1998.
Návrat na text
10. Hollerman J, Schultz W: Dopamínové neuróny hlásia chybu v časovej predikcii odmeny počas učenia.
Nature Neuroscience 1998, 1: 304-309. PubMed Abstrakt | Plné znenie vydavateľa
Návrat na text
11. Schultz W, Apicella P, Ljungberg T: Reakcie opičích dopamínových neurónov na odmeňovanie a podmienené stimuly počas postupných krokov učenia sa úlohy oneskorenej reakcie.
The Journal of Neuroscience 1993, 13: 900-913. PubMed Abstrakt | Plné znenie vydavateľa
Návrat na text
12. Tobler P, Dickinson A, Schultz W: Kódovanie predpovedaného vynechania odmeny dopamínovými neurónmi v paradigme podmienenej inhibície.
Journal of Neuroscience 2003, 23 (32): 10402-10410. PubMed Abstrakt | Plné znenie vydavateľa
Návrat na text
13. Takikawa Y, Kawagoe R, Hikosaka O: Možná úloha dopamínových neurónov stredného mozgu pri krátkodobej a dlhodobej adaptácii sakád na mapovanie odmeňovania polohy.
Journal of Neurophysiology 2004, 92: 2520-2529. PubMed Abstrakt | Vydavateľ Úplný text
Návrat na text
14. Bayer H: Úloha substantia nigra v učení a motorickej kontrole.
Diplomová práca, New York University 2004.
Návrat na text
15. Fiorillo C, Tobler P, Schultz W: Diskrétne kódovanie pravdepodobnosti a neistoty odmeny dopamínovými neurónmi.
Veda 2003, 299 (5614): 1898-1902. PubMed Abstrakt | Vydavateľ Úplný text
Návrat na text
16. Morris G, Arkadir D, Nevet A, Vaadia E, Bergman H: Zhodné, ale odlišné správy dopamínu stredného mozgu a striatálnych tonicky aktívnych neurónov.
Neuron 2004, 43: 133-143. PubMed Abstrakt | Plné znenie vydavateľa
Návrat na text
17. Barto A, Sutton R, Watkins C: Učenie a postupné rozhodovanie. In Learning and Computational Neuroscience: Základy adaptívnych sietí. Editoval Gabriel M, Moore J. Cambridge, MA: MIT Press; 1990:539-602.
Návrat na text
18. Nakahara H, Itoh H, Kawagoe R, Takikawa Y, Hikosaka O: Dopamínové neuróny môžu predstavovať kontextovo závislú chybu predikcie.
Neuron 2004, 41: 269-280. PubMed Abstrakt | Plné znenie vydavateľa
Návrat na text
19. Gallistel ČR, Gibbon J: Čas, rýchlosť a kondicionovanie.
Psychologický prehľad 2000, 107: 289-344. PubMed Abstrakt | Vydavateľ Úplný text
Návrat na text
20. Daw ND, Kakade S, Dayan P: Oponentné interakcie medzi serotonínom a dopamínom.
Neurónové siete 2002, 15 (4 – 6): 603-616. PubMed Abstrakt | Vydavateľ Úplný text
Návrat na text
21. Suri RE, Schultz W: Model neurónovej siete so zosilňovacím signálom podobným dopamínu, ktorý sa učí priestorovej úlohe oneskorenej odozvy.
Neuroscience 1999, 91: 871-890. PubMed Abstrakt | Vydavateľ Úplný text
Návrat na text
22. Pearce JM, Hala G: Model pre pavlovovské učenie: Variácie v účinnosti podmienených, ale nie nepodmienených stimulov.
Psychologický prehľad 1980, 87: 532-552. PubMed Abstrakt | Vydavateľ Úplný text
Návrat na text
23. Dayan P, Kakade S, Montague PR: Učenie a selektívna pozornosť.
Nature Neuroscience 2000, 3: 1218-1223. PubMed Abstrakt | Plné znenie vydavateľa
Návrat na text
24. Dayan P, Yu A: Očakávaná a neočakávaná neistota: Ach a NE v neokortexe. [http://books.nips.ce/papers/files/nips15/NS08.pdf] webcit
V pokrokoch v spracovaní neurónových informácií Sysytems editoval Dietterich T, Becker S, Ghahramani Z. Cambridge, MA: MIT Press; 2002, 14: 189-196.
Návrat na text
25. Daw N, Niv Y, Dayan P: Akcie, politiky, hodnoty a bazálna ganglia. In Nedávne prelomy vo výskume bazálnych ganglií. Editoval Bezard E. New York, USA: Nova Science Publishers, Inc; v tlači.
Návrat na text
26. Wickens J, Kötter R: Bunkové modely výstuže. In Modely spracovania informácií v bazálnych gangliách. Editoval Houk JC, Davis JL, Beiser DG. MIT Press; 1995:187-214.
Návrat na text