La Apero de Salececo kaj Novtempaj Respondoj de Renforta Lernado Principoj (2008)

KOMENTOJ: Alia studo montranta, ke novaĵo estas ĝia propra rekompenco. Unu el la dependigaj aspektoj de interreta porno estas la senfina noveco kaj vario, la kapablo rapide alklaki de unu sceno al alia, kaj la serĉadon de ĝusta bildo / video. Ĉiuj ĉi tiuj pliigas dopaminon. Jen kio faras interretan pornon diferenca de revuoj aŭ luitaj DVD-oj.

Plena Studo: La Apero de Saleco kaj Novaj Respondoj de Plifortigaj Lernaj Principoj

Neŭra Reto. 2008 decembro; 21 (10): 1493 – 1499.

Eldonita enreta 2008 septembro 25. doi: 10.1016 / j.neunet.2008.09.004

Patryk A. Laurent, Universitato de Pittsburgh;

Direktu ĉiun korespondadon al: Patryk Laurent, Universitato de Pittsburgh, 623 LRDC, 3939 O'Hara St., Pittsburgh, PA 15260 Usono, Retpoŝto: [retpoŝte protektita], Oficejo: (412) 624-3191, Telefaksilo: (412) 624-9149

abstrakta

Lastatempaj provoj mapi rekompenc-lernajn modelojn, kiel Plifortigo-Lernado [17], al la cerbo baziĝas sur la observado, ke fazaj pliiĝoj kaj malkreskoj en la spikado de neŭron-liberigantaj neŭronoj signalas diferencojn inter antaŭvidita kaj ricevita rekompenco [16,5]. Ĉi tiu rekompenco-antaŭdiro-eraro estas nur unu el pluraj signaloj komunikitaj de tiu fazika agado; alia implikas kreskon de dopaminergia spikado, reflektante la aspekton de elstaraj sed nepredikitaj ne-rekompencaj stimuloj [4,6,13], precipe kiam organismo poste orientiĝas al la stimulo [16]. Por klarigi ĉi tiujn trovojn, Kakade kaj Dayan [7] kaj aliaj konstatis tiun romanon, neatenditaj stimuloj estas nepre rekompencaj. La simulado raportita en ĉi tiu artikolo pruvas, ke ĉi tiu supozo ne estas necesa, ĉar la efiko kiun ĝi celas kapti eliras el la mekanismoj pri rekompenco-antaŭdiro de rekompenco-lernado. Tiel, principoj pri Plifortiga Lernado povas esti uzataj por kompreni ne nur rekompencan rilatan agadon de la dopaminergiaj neŭronoj de la bazaj ganglioj, sed ankaŭ iujn el iliaj ŝajne ne-rekompencaj agadoj.

Plifortiga Lernado (RL) pli kaj pli gravas en la disvolviĝo de komputaj modeloj de rekompenco-bazita lernado en la cerbo. RL estas klaso de komputaj algoritmoj, kiuj specifas kiel artefarita "agento" (ekz. Reala aŭ simulata roboto) povas lerni elekti agojn por maksimumigi totalan atendatan rekompencon [17]. En ĉi tiuj algoritmoj, agento bazas siajn agojn sur valoroj, kiujn ĝi lernas asocii kun diversaj statoj (ekz., La perceptaj signoj asociitaj kun stimulo). Ĉi tiuj valoroj povas esti iom post iom lernitaj per tempodiferenca lernado, kiu agordas ŝtatajn valorojn bazitajn sur la diferenco inter la ekzistanta rekompenco de agento por la ŝtato kaj la reala rekompenco, kiu poste estas akirita de la medio. Ĉi tiu kalkulita diferenco, nomata rekompenca prognoza eraro, montriĝis, ke ĝi rilatas tre bone kun la fazo-aktiveco de dopamin-liberigantaj neŭronoj projekciantaj de la substantia nigra en ne-homaj primatoj [16]. Plue, ĉe homoj, la striatum, kiu estas grava celo de dopamino, elmontras fMRI BOLD-signalon, kiu ŝajnas reflekti rekompencon-prognozan eraron dum rekompenco-lernado-taskoj [10,12,18]. Ĉi tiu fMRI-trovo kompletigas la fiziologiajn datumojn ĉar striata BOLD supozas ke ili reflektas, almenaŭ parte, afran sinaptan agadon [9] kaj la dopaminaj neŭronoj projektas peze al la striatumo.

Kvankam la menciitaj fiziologiaj respondoj ŝajnas rilati al la rekompenco-prognozaj komputadoj de RL, ekzistas ankaŭ pliigo de dopaminergia fazo-aktiveco en respondo al vekantaj kaj / aŭ novaj stimuloj, kiuj ŝajne neniel rilatas al rekompenco [4,6,14,3]. Simila fenomeno estis observita lastatempe ĉe homoj per fMRI [2]. Ekzistas pluraj kialoj, ke ĉi tiu "noveco" aŭ "malabunda" respondo laŭdire ne rilatas al rekompenco-antaŭdira eraro: (1) ĝi aperas tre frue, antaŭ ol la identeco de la stimulo estis taksita, tiel ke ĝusta rekompenca antaŭdiro ne povas esti generita; (2) ĝi respondas al pliigo de neŭra aktiveco (t.e., ĝi estas pozitiva) por kaj avaraj kaj apetitaj stimuloj; kaj (3) ĝi kutimas [13]. Efektive, ĉi tiuj malkaŝaj / novedzaj respondoj de la dopamin-liberigantaj neŭronoj estas plej fidindaj, kiam la stimuloj estas senpripensitaj kaj rezultas orienti kaj / aŭ alproksimiĝi konduton [16] sendepende de la eventuala rezulto, emfazante la fakton, ke ili kvalite diferencas de lernita rekompenco. antaŭdiro. La defio, do, estis klarigi ĉi tiun ŝajnan paradokson (t.e., kiel noveco efikas sur la rekompenco-antaŭdiro-eraro) en la teoria kadro de RL.

Kakade kaj Dayan [7] provis ĝuste fari tion; en ilia artikolo, ili postulas du manierojn kiel novegaj respondoj povus esti korpigitaj al RL-modeloj de dopaminergia funkcio - ambaŭ implikis la inkluzivon de novaj teoriaj supozoj. La unua supozo, referita kiel novigaj gratifikoj, implikas enkonduki aldonan rekompencon kiam ĉeestas novaj stimuloj, pli kaj pli ol la kutima rekompenco ricevita de la agento. Ĉi tiu aldona rekompenco enkalkulas la komputadon tiel ke lernado baziĝas sur la diferenco inter la ekzistanta rekompenco de la agento kaj la sumo de ambaŭ kutimaj rekompencoj de la medio kaj la novega bonzo. Tiel, la noveco fariĝas parto de la rekompenco, kiun la agento provas maksimumigi. La dua supozo, nomata bonformado, povas esti efektivigita per artefarite pliigo de la valoroj de ŝtatoj asociitaj kun novaj stimuloj. Ĉar la temp-diferenca lernado-regulo uzata en RL baziĝas sur la diferenco en rekompenco-antaŭdiro inter pluaj ŝtatoj, la aldono de konstanta konformiga bonuso al ŝtatoj koncernataj kun la novaj stimuloj havas neniun efikon sur la fina konduto de la agento. Tamen novaĵo-respondo ankoraŭ aperas kiam la agento eniras la parton de la ŝtata spaco kiu estis "formita" (t.e. tio estas asociita kun noveco).

Kvankam la aldono de ĉiu el ĉi tiuj supozoj sufiĉas por klarigi multajn observitajn efikojn de noveco, la supozoj ankaŭ enmiksiĝas en la progresadon de lernado. Kiel Kakade kaj Dayan [7] atentigas, novedzinaj gratifikoj povas malatentigi la valorfunkcion (t.e., la valorojn asociitajn kun ĉiu ŝtato fare de la agento) kaj efiki tion, kio estas finfine lernita ĉar ili estas efektivigitaj kiel aldona rekompenco, kiu estas nepre asociita kun romano. ŝtatoj. La problemo estas, ke la agento lernas antaŭdiri kaj la primarajn kaj novajn komponentojn de la rekompenco. Kvankam Kakade kaj Dayan atentigas, ke formi gratifikojn ne kaŭzas ĉi tiun tipon de problemoj ĉar ili iĝas enmetitaj en la antaŭdiroj de rekompenco de antaŭaj ŝtatoj, ilia aldono ankoraŭ estas problema, ĉar formado de gratifikoj enkondukas flekseblecojn laŭ la maniero kiel agento esploros sian ŝtatan spacon. Tiel, kvankam ĉi tiuj aldonaj supozoj eble klarigas, kiel noveco efikas sur la rekompenco-antaŭdiro-eraro en RL, ili estas problemaj. Plue, la eksplikoj kostas redukti la paradimonion de modeliga laboro, kiu provas uzi RL por kompreni la konduton de realaj biologiaj organismoj.

La simulado raportita sube estis realigita por testi la hipotezon, ke simpla RL-agento, sen iuj aldonaj supozoj, disvolvos rekompencon-antaŭdiro-eraran respondon, kiu similas al la ne-rekompencaj dopaminaj respondoj, kiuj estas observataj en biologiaj organismoj. . Al RL-agento ricevis la taskon interagi kun du specoj de objektoj - unu pozitiva kaj la alia negativa -, kiuj aperis ĉe hazardaj lokoj en sia medio. Por maksimumigi sian rekompencon, la agento devis lerni alproksimiĝi kaj "konsumi" la pozitivan objekton, kaj eviti (t.e. ne "konsumi") la negativan objekton. Estis tri ĉefaj prognozoj por la simulado.

La unua prognozo estis simple, ke por maksimumigi sian rekompencon, la agento fakte lernus alproksimiĝi kaj "konsumi" la pozitivajn, rekompencajn objektojn dum samtempe lernus eviti la negativajn, punantajn objektojn. La dua antaŭdiro estis iomete malpli evidenta: ke la agento elmontru orientan respondon (t.e. lernu ŝanĝi sian orientiĝon) direkte al negativaj kaj pozitivaj celoj. Ĉi tiu prognozo estis ĉar kvankam la agento povus "senti" la aspekton de objekto kaj ĝia loko, la pozitiva aŭ negativa identeco de la objekto (t.e., la indico, kiun la agento fine lernus asocii kun la rekompenca valoro de la objekto) ne povus esti determinita de la agento ĝis post kiam la agento efektive orientiĝis al la objekto. Fine, la tria (kaj plej grava) antaŭdiro rilatis al la simulita dopaminergia fazo-respondo en la modelo; ĉi tiu antaŭdiro estis ke, kiam la objekto aperis, la agento montrus rekompencon-antaŭdiro-eraro, kiu estis komputike analoga al la fazo-dopamina respondo observita en biologiaj organismoj, estante pozitiva por kaj pozitivaj kaj negativaj objektoj. Ĉi tiu respondo ankaŭ estis antaŭvidita varii kiel funkcio de la distanco inter la agento kaj la stimulo, kiu en la kunteksto de la simulado estis prokura mezuro por stimula "intenseco" aŭ saleco. Kiel evidentiĝos ĉi-sube, ĉi tiuj prognozoj estis konfirmitaj de la simulaj rezultoj, pruvante, ke la ŝajne ne-rekompencaj dopaminaj respondoj principe povas esti el la bazaj principoj de RL. La teoriaj implicoj de ĉi tiuj rezultoj por uzi RL por kompreni ne-rekompencan rilatan agadon en biologiaj organismoj estos diskutitaj en la fina sekcio de ĉi tiu artikolo.

telefono

Kiel jam menciite, RL-algoritmoj specifas kiel agento povas uzi momentajn nombrajn rekompencojn por lerni, kiujn agojn ĝi devas fari por maksimumigi la tutan sumon de rekompenco, kiun ĝi ricevas. En plej multaj formuladoj, ĉi tiu lernado estas atingita per uzado de rekompenco-antaŭdiro eraroj (t.e., la diferenco inter la nuna rekompenco de agento kaj la reala rekompenco akirita) por ĝisdatigi la rekompencon de agento. Kiel la rekompencaj prognozoj estas lernitaj, la antaŭdiroj ankaŭ povas esti uzataj de agento por elekti sian sekvan agon. La kutima politiko (difinita en Ekvacio 2) estas por la agento elekti la agon antaŭviditan rezultigi la plej grandan rekompencon. La efektiva rekompenco, kiu estas donita al la agento en iu antaŭfiksita tempo, estas la sumo de la tuja rekompenco plus iu parto de la valoro de la ŝtato, kiun la agento eniras kiam la ago finiĝas. Tiel, se la agento eventuale spertas pozitivajn rekompencojn post estado en aparta stato, la agento selektos agojn en la estonteco, kiuj verŝajne rezultigos tiujn rekompencitajn ŝtatojn; inverse, se la agento spertas negativajn rekompencojn (t.e. punon) ĝi evitos agojn estonte konduki al tiuj "punitaj" ŝtatoj.

La specifa algoritmo, kiu determinas la rekomendojn pri rekompenco, kiujn oni lernas por la diversaj statoj (t.e., la valoro-funkcio V) nomiĝas Valora iteracio [Piednoto 1] kaj povas esti formale priskribita kiel:

Por ĉiuj eblaj ŝtatoj,

(Ekvacio 1)

kie s korespondas al la aktuala stato, V (j) estas la nuna antaŭdiro de rekompenco por stato s lernita de la agento, maxaction∈M {} estas telefonisto por la maksimuma valoro de la krampa kvanto super la aro de ĉiuj agoj. M havebla por la agento, V (s ′) estas la nuna antaŭdiro de agento por la sekva ŝtato s ′, α estas iu lernokosto (inter 0 kaj 1), kaj γ estas rabata faktoro reflektanta kiom estontaj rekompencoj devas esti pesitaj. relative al tuja rekompenco. La komenca valorfunkcio estis agordita tiel ke V (s) estis 0 por ĉiuj statoj.

La valorvaloro V (j) estis efektivigita kiel serĉa tablo, kiu estas formale ekvivalenta al la supozo de perfekta memoro. Kvankam funkciaj proksimumiloj kiel neŭralaj retoj estis uzataj kun iom da sukceso por reprezenti valorfunkciojn [1], serĉa tabelo estis uzata por certigi, ke la rezultoj ne dependas de la specoj de ĝeneraligaj mekanismoj, provizitaj de diversaj funkciaj proksimumiloj. La agento estis trejnita por 1,500-lernaj iteracioj super sia ŝtata spaco. Pro la neantaŭvidebleco de la identeco de la objektoj, valoro-ĝisdatiga parametro de malpli ol unu (α = 0.01) estis uzata dum la lernado por permesi averaĝon de malsamaj rezultoj. Fine la rabata faktoro estis agordita al γ = 0.99 por instigi la agenton serĉi rekompencon pli frue ol prokrasti ĝian alproksimiĝan konduton ĝis la fino de la provo (kvankam ŝanĝi ĝin de defaŭlta valoro de 1 havis neniun efikon sur la rezultoj raportitaj ĉi tie. ) Por sendepende determini ĉu 1,500-lernaj iteracioj estis sufiĉaj por lerni kompletigi, la averaĝa kvanto de ŝanĝo en la lernita estis kontrolita kaj estis trovita esti konverĝinta antaŭ ĉi tiu nombro de iteracioj.

Post trejnado, la specifa algoritmo, kiu regas la konduton de la agento (t.e., la politiko pri agoj, kiujn ĝi faras de ĉiu donita stato) estas:

(Ekvacio 2)

kie π (s) estas la agado, kiun la agento elektos el stato s, kaj la dekstra flanko de la ekvacio redonas la agon (ekz., ŝanĝo de orientiĝo, movo aŭ neniu ago) kio maksimumigas la sumon de la rekompenco kaj la rabatita valoro. de la rezulta stato s ′.

En la simulado, kiu estas raportita sube, ĉiuj ŝtatoj vizititaj de la agento estis koditaj kiel 7-dimensiaj vektoroj, kiuj reprezentis informojn pri kaj la ekstera "fizika" stato de la agento kaj ĝia interna stato de "scio". La fizikaj informoj inkluzivis ambaŭ la nunan pozicion de la agento en spaco kaj ĝia orientiĝo. La informoj pri scio inkluzivis la pozicion de la objekto (se oni ĉeestis) kaj la identecon de tiu objekto (se ĝi estis determinita de la agento). La specifaj specoj de informoj, kiuj estis reprezentitaj de la agento, estas montritaj en Tabelo 1.

tablo 1

La dimensioj uzataj en la simuladoj de RL kaj la eblaj valoroj de tiuj dimensioj.

Ekzistis entute 21,120-ŝtatoj en la simulado [Piednoto 2]. Tamen la ŝtatoj, en kiuj ekzistis ne identigita pozitiva kaj neidentigita negativa objekto, estas, el la perspektivo de la agento, identaj, do ekzistas nur 16,280 distingaj statoj. Tiel, dum ĉiu iteracio de lernado, necesis viziti du el tiuj "identaj" statoj dufoje por permesi la fakton, ke la duonon de la tempo ili povus sekvi kun la malkovro de pozitiva objekto, kaj la duonon de la tempo ili eble esti sekvata kun la malkovro de negativa objekto [Piednoto 3].

Komence de ĉiu simulita provoprocento, la agento estis metita en la centron de simulita lineara 11 × 1-trako kun kvin spacoj al la "oriento" (t.e., dekstre) de la agento kaj kvin spacoj okcidente. ”(T.e. maldekstre) de la agento. Kiel Tabelo 1 montras, la stato-vektoro de la agento inkluzivis elementon indikantan ĝian nunan lokon sur la aŭtoveturejo (t.e., entjero de 0 al 10), same kiel elemento (t.e., karaktero "n", "s", " e ", aŭ" w ") reprezentanta ĝian nunan orientiĝon (t.e., nordo, sudo, oriento, aŭ okcidento, respektive). La komenca orientiĝo de la agento ĉiam estis agordita kiel "norda", kaj neniu alia objekto ĉeestis en la medio (t.e., la valoro de "OBJECT" en la stato-vektoro de la agento estis agordita al egala al "0").

Dum ĉiu tempo-paŝo de la simulado, la agento povus plenumi unu el la jenaj agoj: (1) faru nenion, kaj restu en la aktuala loko kaj orientiĝo; (2) orienti norde, suden, oriente aŭ okcidente; aŭ (3) movi unu spacon en la medio (oriente aŭ okcidente). La rezulto de ĉiu ago okazis sur la posta simulita tempopaso. Ĉiuj ŝanĝoj en la loko kaj / aŭ orientiĝo de la agento en spaco okazis per la elekto de agoj fare de la agento. Tamen, dum ĉiu tempo-paŝo de la simulado, eĉ kiam agado "faru nenion" estis elektita, tempo estis pliigita de 1 ĝis la fino de la provo (t.e., tempo-paŝo 20).

La medio de la agento estis agordita tiel ke duono de la tempo, objekto aperis ĉe hazarda loko (sed ne en la sama loko kiel la agento) post dek tempaj paŝoj; 50% de la celoj estis pozitivaj (reprezentitaj per "+"; vidu Tabelon 1) kaj 50% de la objektoj estis negativaj (reprezentitaj per "-"). La prokrasto antaŭ la apero de la objekto estis enkondukita por permesi la observadon de iu ajn konduto, kiun la agento eble montris antaŭ la apero de la objekto. Se la agento ne estis orientita al la objekto kiam ĝi aperis, tiam la elemento reprezentanta la identecon "OBJECT" en la ŝtata vektoro de la agento estis ŝanĝita de "0" al "?" Por reflekti la fakton ke la identeco de la objekto nun estis. nuna estis nuntempe nekonata. Tamen, se la agento estis orientita al la objekto, tiam sur la posta tempopaso la elemento "OBJECT" estis agordita al egala al la identeco de la objekto, tiel ke "0" fariĝis aŭ "+" aŭ "-" por pozitiva. kaj negativaj objektoj respektive.

Se la agento translokiĝis al la loko de la objekto, tiam dum la sekva tempo paŝo la objekto malaperis. Se la objekto estis pozitiva, tiam la flago "Konsumita" de la agento estis agordita egala al vera kaj la agento estis rekompencita (rekompenco = + 10); tamen, se la objekto estis negativa, tiam la flago "SHOCKED" estis agordita al vera kaj la agento estis punita (rekompenco = −10). (Rimarku, ke la flagoj estis agorditaj tiamaniere sendepende de tio, ĉu la agento havis aŭ ne identigis la objekton; ekz. La agento povus konsumi objekton sen iam ajn orientiĝi al ĝi.) Sur la posta tempopaso, la "SHOCKED" aŭ Flago "konsumita" estis forigita. La agento ankaŭ ricevis malgrandan punon (plifortigo = −1) por ĉiu movado aŭ orienta ago kaj ricevis neniun rekompencon aŭ punon (plifortigo = 0) se ĝi ne plenumis agon.

Ambaŭ la troaj kondutoj (t.e. orientiĝado kaj movo) kaj mezuro de rekompenco-antaŭdira eraro estis kvantigitaj por la agento. La prema konduto (t.e., la listo de agoj selektitaj de la agento) estis uzata kiel indiko pri ĉu la tasko estis lernita. La mezuro de rekompenco-prognoza eraro estis uzata por testi la hipotezon pri la apero de la ne-rekompenca dopaminergia fazo-signalo. La eraro de rekompenco-antaŭdiro, δ, estis mezurita en la momento t de la apero de objekto subtrahante la antaŭdiron de rekompenco en la antaŭa tempo-paŝo, t.e., V (s) en la paŝo t-1, de la antaŭdiro de rekompenco kiam la objekto aperis, te, V (s) je la tempo t, donante la kvanton δ = V (st) - V (st − 1).

rezultoj
Simulita Konduto

La troa konduto de la agentoj unue estis kvantigita. La rezultoj de ĉi tiu analizo montris, ke post trejnado, la agento alproksimiĝis kaj akiris pozitivan plifortigon de ĉiuj pozitivaj objektoj kaj neniam alproksimiĝis al iuj el la negativaj objektoj. Kune, ĉi tiuj rezultoj donas kondutan konfirmon, ke la agentoj lernis plenumi la taskon ĝuste. Ĉi tiu konkludo estas pliigita per la plia observado, ke dum la provoj kiam neniu objekto aperis, la agento restis senmova. Kiel antaŭvidite, la agento orientiĝis al pozitivaj kaj negativaj objektoj.

Simulita Rekomparo-Antaŭdiro-Eraro

La centra hipotezo de ĉi tiu artikolo estas, ke la apero de neantaŭvidebla stimulo konstante generas pozitivan eraran rekompencon-predikon, eĉ se tiu objekto estas "negativa" objekto, kiu ĉiam punas. Helpe de ĉi tiu hipotezo, la agento elmontris pozitivan rekompencon-antaŭdiron de eraro kiam ajn (neidentigita) objekto aperis, sed ne kiam nenio aperis. Ankaŭ konforma al la centra hipotezo estas la fakto, ke la amplekso de la fazo-respondo de la agento (δ, mezurita kiel priskribita en la sekcio Metodo) estis sentema al la simulita "intenseco" de la stimulo, difinita uzante la distancon inter la agento kaj la objekto (vidu Bildon 1). Regresa analizo indikis, ke la grando de δ inverse rilatas al la distanco de la objekto, tiel ke pli proksimaj objektoj kaŭzis pli fortan respondon (r = −0.999, p <0.001; β = 0.82). Ĉi tiu negativa korelacio estis kaŭzita de la malgranda puno (plifortigo = −1), kiu estis trudita por ĉiu movado, kiun la agento devis fari por moviĝi al la pozitiva objekto, konsumi ĝin kaj tiel akiri rekompencon.

figuro 1

Ĉi tiu figuro montras la rekompencan-antaŭdiran eraron (t.e., δ) kiam la objekto aperis kiel funkcio de la loko de la objekto rilate al la loko de la agento. La respondoj estas identaj por pozitivaj kaj negativaj objektoj. Kiam neniu objekto (pli ...)

Konsiderante, ke pozitivaj kaj negativaj objektoj aperis en ĉi tiu simulado kun egala probablo (p = .25), ekestas la demando: Kial la rekompenco-antaŭdiro-eraro de la agento estis pozitiva en la momento de la apero de la objekto? Rezonante laŭ la linioj de Kakade kaj Dayan [7], oni povus antaŭdiri, ke la signalo devas reflekti la mezumon de ĉiuj lernitaj rekompencoj de tiaj situacioj, kaj tial egalas al nulo. La ŝlosilo por kompreni ĉi tiun rezulton estas konstati, ke ne nur RL igas agenton malpli probable elekti agojn, kiuj rezultigas negativan plifortigon, sed ankaŭ faras ke agento malpli emas eniri ŝtatojn, kiuj eventuale kondukas al negativa plifortigo. Ĉi tio rezultas kiel speco de "pli alta ordo" de lernado, kiu estas prezentita en Figuro 2 kaj priskribita sekva.

figuro 2

Ilustraĵo montranta kiel RL-agento disvolvas pozitivan rekompencan-antaŭdiran eraron, kiam ĝi estas trejnita kun ambaŭ rekompencaj kaj punaj stimuloj en sia ĉirkaŭaĵo kaj povas elekti ĉu alproksimiĝi kaj konsumi ilin. (A) La situacio antaŭ lerni: (pli ...)

En la komenco de la lernado (vidu Figuron 2A), la agento orientas ambaŭ objektojn "+" kaj "-", alproksimiĝas al ili, kaj estas rekompencita kaj punita per konsumado de ĉiu tipo de objekto. Se la lernitaj stataj valoroj de la agento ne povus influi la agojn de la agento (vidu Figuron 2B), tiam la agento daŭre alproksimiĝus kaj konsumos la objektojn. La apero de la kvino tiam antaŭdirus mezuman rekompencon de 0 kaj subite kreskus eraro-rekompenco-antaŭdiro. Tamen la agento en ĉi tiu simulado uzas lernitajn ŝtatvalorojn por influi siajn agojn (vidu Figuron 2C), kaj kvankam la agento ankoraŭ devas orientiĝi al la nekonata objekto por determini ĝian identecon, ĝi ne plu konsumos negativan objekton se ĝi alproksimiĝus. (kiel eble trejnita kun hazarda esplorado-algoritmo kiel specimen de trajektorio [Piednoto 1]). Krome, ĉar lernado de tempo-diferenco permesas la antaŭdiron de negativa rekompenco "propagi" reen al antaŭaj statoj, kaj ĉar ekzistas malgranda kosto por movo en spaco, la agento lernas eviti alproksimiĝi tute al la negativa objekto. Tiel, post kiam ĉi tiuj informoj eksciis, la valoro de la stato, kiam la objekto unue aperas (indikita kiel "V" en la unua rondo en ĉiu sinsekvo) ne baziĝas sur la mezumo de la pozitivaj kaj negativaj rezultaj ŝtataj valoroj, sed estas Anstataŭe surbaze de la mezumo de pozitivaj kaj de la "neŭtrala" rezulto atingita post kiam la agento lernas eviti la negativajn objektojn. Jen kial la mezumo de ĉiuj rekompencoj efektive akiritaj de la trejnita agento estis pli granda ol nulo, kaj klarigas kial la antaŭdiro de rekompenco de la agento (kaj tial rekompenco-antaŭdira eraro kiam subite aperas la objekto) estis neta pozitiva. Ĉi tio estas ilustrita en Figuro 3. Fakte, tiel longe kiel la agento povas lerni ŝanĝi sian konduton kaj eviti la negativan objekton, la valoro de la negativa objekto estas finfine senrilata al la fina konduto de la aganto kaj la grando de la noveco / saluma respondo.

figuro 3

(A) Montras la ŝanĝojn en antaŭdiro de rekompenco okazintaj se RL ne rezultigus pli altan lernadon (t.e., se la agento ne povus fari rimedojn por eviti la negativan rezulton), tiel ke la agento estis devigita konsumi ĉiujn objektoj (pli ...)

La simuladaj rezultoj kritike dependas de tri supozoj. Unue, la stimuloj devis esti "elstaraj", pro tio ke la grando de la plifortigo antaŭvidita de la komenca signo estis sufiĉe granda (ekz., + 10) rilate al la kostoj orientiĝi kaj alproksimiĝi (ekz., −1). Se la grando estus estinta relative malgranda, la agento ne estus lerninta orientiĝi, nek ĝi estus generinta la pozitivan rekompencon-prognozan eraran respondon. Due, prokrasto antaŭ ol rekoni la stimulojn ankaŭ estis necesa. (Malfruo estas prokrasto por "noveco" sub la rezonado ke familiara stimulo estus rapide rekonita.) Sen prokrasto la agento simple generis la taŭgan pozitivan aŭ negativan rekompencan eraron taŭgan por la efektiva perceptita objekto. Fine, la konduto de la agento devis esti determinita de la valoroj, kiujn ĝi lernis. Se la agento ne povis regi sian propran konduton (t.e. ĉu alproksimiĝi al la stimuloj), tiam ĝia rekompenca antaŭdiro kiam objekto aperis egaligus 0, la mezumo de la ekipeblaj pozitivaj kaj negativaj rezultoj.

Ĝenerala diskuto

La simulado raportita en ĉi tiu artikolo pruvis ke pozitiva rekompenco-antaŭdiro-eraro okazas kiam neantaŭvidebla stimulo, rekompencanta aŭ punanta, aperas sed ne povas esti tuj identigita. Plue, la simulado indikis, ke la grandeco de la rekompenco-antaŭdiro-eraro pliigas kun proksimeco de la stimulo al la agento, kiu en la kunteksto de la simulado estas prokura mezuro por stimula intenseco kaj tiel rilatas al saleco. En la teoria kadro de RL, rekomendaj antaŭdiroj kutime komprenas reflekti la lernitan valoron de agnoskitaj stimuloj aŭ de la fizikaj kaj / aŭ kognaj statoj de agento [15]. Tamen, la rekompenco-prognoza eraro raportita ĉi tie havas kvalite malsaman interpreton ĉar ĝi estas generita antaŭ ol la agento rekonis la objekton. Kune, ĉi tiuj rezultoj subtenas la hipotezon, ke RL-principoj sufiĉas por produkti respondon, ŝajne senrilata por rekompenci, sed anstataŭe rilatas al la ecoj de noveco kaj saĝeco. Ĉi tiu konkludo havas plurajn gravajn rampojn por nia ĝenerala kompreno de RL kaj por nia interpreto de RL kiel raporto pri rekompenco-lernado en realaj biologiaj organismoj.

Unue, la antaŭdiro de rekompenco generita de RL-agento kiam neidentigita stimulo aperas ne nepre estas strikta mezumo de la akireblaj rekompencoj kiel sugestitaj de Kakade kaj Dayan [7], sed fakte povas esti pli granda ol tiu aparta mezumo. Kakade kaj Dayan antaŭdirus, ke la mezuma antaŭdiro devas esti egala al nulo ĉar, ĉar la provoj estis rekompencitaj kaj punitaj same ofte. Ĉi tiu mirinda rezulto aperis ĉar la agento lernis per "sur-politika" maniero; tio estas, la agento lernis ne nur pri negativaj rezultoj, sed ankaŭ pri sia kapablo eviti tiujn rezultojn. Ĉi tiu kapablo de la rekompenca sistemo kaŭzi agenton eviti negativajn rezultojn devas esti zorge pripensita en tradukado de nia kompreno de RL al realaj organismoj. Ĉi tiu fakto estas eble eĉ pli grava donita la ŝajna nesimetrio en la kapablo de la dopaminergia fazo-respondo por reprezenti pozitivan rekompencon-antaŭdiro eraro pli bona ol negativa rekompenca eraro de antaŭdiro [11]. Eble sufiĉas indiki, ke aparta sinsekvo de eventoj kondukas al negativa rezulto, sed ke por la celoj de agado-elekto, la grando de tiu rezulto estas sensignifa.

Dua ramifo de la nuna simulado estas, ke la novega respondo povas estiĝi de interago inter perceptaj pretigaj sistemoj kaj rekompenco-prognozaj sistemoj. Specife, la novega respondo eble ŝuldiĝas al formo de simileco inter romanaj objektoj kaj objektoj, kiuj ankoraŭ ne spertis kompletan perceptan pretigon [Piednoto 4]. En ĉi tiu simulado, noveco estis efektivigita per enkonduko de prokrasto antaŭ la identeco de la objekto (kaj sekve, ĝia rekompenca aŭ puninda naturo) evidentiĝis por la aganto. Ĉi tio okazis sub la supozo, ke novaj objektoj daŭras pli longe por identigi, sed ĉi tiu supozo ankaŭ rezultis, ke la pozitivaj kaj negativaj objektoj estas perceptataj simile kiam ili unue aperis (t.e., ambaŭ estis koditaj kiel "?"). En kontrasto, Kakade kaj Dayan [7] sugestas, ke novecaj respondoj kaj "ĝeneraligaj" respondoj estas esence malsamaj malgraŭ manifestiĝi simile en la datumoj pri neurofisiologio.

Tria ramifo de la aktualaj simuladaj rezultoj estas, ke ili montras, ke la aldonaj supozoj pri novedzeco kaj formado de gratifikoj proponitaj de Kakade kaj Dayan [7] ne estas necesaj. Anstataŭe, novedzinaj respondoj povas eliri el realismaj perceptaj prilaboraj limigoj kaj la scio pri povi eviti negativajn rezultojn. Ĉi tio estas bonŝanca ĉar, kiel notis Kakade kaj Dayan, novedzinaj gratifikoj distordas la valorfunkcion, kiun lernas agento, kaj formaj gratifikoj influas la manieron kiel agentoj esploras iliajn ŝtatajn spacojn. La inkludo de ambaŭ de ĉi tiuj supozoj tiel reduktas la analizadon de modeloj bazitaj sur RL-teorio. Interese, ke la rezultoj ĉi tie ankaŭ helpas klarigi kial la biologia novega respondo eble ne malhelpos rekompenc-bazitan lernadon en realaj organismoj: la novega respondo estas fakte jam antaŭdirita de RL. Tio estas, ke la novega respondo reflektas kondutojn kaj rekompencajn prognozojn, kiuj estas enecaj de agento, kiu jam lernis ion pri ĝia medio.

Alternativa (sed ne reciproke ekskluziva) interpreto de la nunaj simuladaj rezultoj estas, ke estas ja abstrakta (eble kognitiva) rekompenco, kiun agentoj akiras orientante kaj identigante objektojn. En studoj pri dopaminergia agado, pozitivaj fazaj respondoj povas okazi al neatenditaj signoj, pri kiuj oni scias antaŭdiri rekompencon. Ĉi tiu simulado, tamen, montras, kiel ĉi tiuj specoj de respondoj povas okazi ankaŭ en respondo al kaŝo, kiu povus finfine antaŭdiri aŭ rekompencon aŭ punon. La sola konsekvenca avantaĝo antaŭdirita de la kvizo estas la gajno en informoj akiritaj kiam la agento ĝi determinas la identecon de la objekto. Tiel, se ekzistas valida, lernita "antaŭdiro de rekompenco" kiam la neidentigita objekto aperas, ĝi estas kontenta post kiam la agento akiras la scion pri ĉu alproksimiĝi aŭ eviti la stimulon. La valoro de ĉi tiuj informoj baziĝas ne sur la mezumo de la akireblaj rezultoj, sed anstataŭe baziĝas sur la scio pri la efikaj rezultoj - ke la agento povas aŭ konsumi la pozitivan rekompencon aŭ eviti la negativan rekompencon (vidu Figuron 2).

Fine, gravas rimarki, ke la ŝancoj agi por apartaj agoj (ekz. Orientiĝi) eble mem alprenas rekompencajn propraĵojn per iu ĝeneraligo aŭ lernada mekanismo ne inkluzivita en ĉi tiu simulado. Ekzemple, la propra ago orientiĝi kaj determini "kio estas tie" povus fariĝi rekompenca al organismo bazita sur la asocio inter tiu ago kaj la ĉi-supre montrita emerĝa, ĉiam pozitiva rekompenco-antaŭdiro-eraro kiam novaj stimuloj aperas. Simila ideo estis lastatempe progresinta de Redgrave kaj Gurney [13], kiuj hipotezas, ke grava celo de la fazo de dopamina respondo estas plifortigi agojn okazantajn antaŭ neviditaj elstaraj eventoj. La rezultoj ĉi tie ne kongruas kun tiu hipotezo, tamen oni devas rimarki, ke la hipotezo de Redgrave kaj Gurney ne estas rekte testita en ĉi tiu simulado, ĉar neniuj agoj (t.e., esplorado) estis postulataj de la agento por la elstara evento (la apero de la objekto) okazi. Tamen la simulita fazo-signalo koincidis kun la tempo de la orienta respondo sugestante, ke la du eble forte rilatas.

En fermo, ĉi tiu artikolo pruvis, ke RL-principoj povas esti uzataj por klarigi specon de ŝajne ne-rekompenca rilata agado de la dopaminergiaj neŭronoj. Ĉi tiu rezulto rezultis el la fakto, ke la regulo pri tempodiferenca lernado (kiel tiu uzata de Kakade kaj Dayan [7]) estis enigita en simulado, en kiu la agento povis elekti agojn, kiuj efikis sur la eventuala rezulto. En la simulado, la agento eksciis, ke la rezulto orientiĝi al objekto, kiu subite aperis, povus ĉiam esti rekompenca aŭ neŭtrala ĉar la negativa rezulto povus esti evitata. Tial kiam la agento havis ŝancon orientiĝi, ĝia rekompenco-antaŭdiro eraro estis ĉiam pozitiva, komputile analoga al la novedzaj kaj malbelaj respondoj observitaj en biologiaj organismoj.

Dankojn

La laboro priskribita en ĉi tiu artikolo estis subtenita de NIH R01 HD053639 kaj de NSF Training Grant DGE-9987588. Mi ŝatus danki Erik Reichle, Tessa Warren, kaj anoniman recenziston pro helpemaj komentoj pri pli frua versio de ĉi tiu artikolo.

Algoritmo de 1Alia Plifortiga Lernado, nomata Trajektora Samplado [17], estas ofte uzata anstataŭ Valora Iterado kiam la ŝtata spaco fariĝas tiel granda, ke ĝi ne povas esti ĝisfunde iterata aŭ facile stokita en la memoro de komputilo. Prefere ol ripeti ĉiun ŝtaton en la ŝtata spaco kaj apliki la valoron de ĝisdatiga ekvacio surbaze de la agoj, kiuj ŝajnas konduki al la plej rekompenco, Trajectory Sampling funkcias sekvante vojojn tra la ŝtata spaco. Simile al valor-iteracio, la agoj gvidantaj al la plej multe da rekompenco estas kutime elektitaj el ĉiu stato, sed foje estas hazarda esplora ago elektita kun iom da probableco. Tiel la algoritmo estas: El iu komenca stato s, elektu agon kondukantan al la plej rekompenco [ekz., Rekompencu + γV (s ′)] kun probablo ε, aŭ elektu hazardan esploran agon kun probablo 1 - ε. Apliku V (j) → V (j) + α [rekompenco + γV (s ′) - V (j)] dum neesploraj agoj de stato.

Krom superi la teknikajn limojn de komputila tempo kaj memoro, Trajectory Sampling eble allogas, ĉar ĝi eble pli bone reflektas la manieron kiel realaj biologiaj organismoj lernas: esplorante vojojn en ŝtata spaco. En la tasko priskribita en ĉi tiu papero, Trajectory Sampling donas rezultojn kvalite identajn al tiuj akiritaj kun Value Iteration. Tamen, pro koncizeco, tiuj rezultoj ne estas raportitaj ĉi tie en detalo. Valora Iterado estis elektita por la simulado en ĉi tiu papero pro du ĉefaj kialoj. Unue, ĉar Trajectory Sampling implikas stokastikecon en la elekto de trajektorioj, la granda kvanto de branĉado ŝuldata al la multaj eblaj sinsekvoj de agoj en ĉi tiu tasko povas rezultigi agentojn, kiuj mankas sperton kun iuj ŝtatoj krom se la esplorado-ekspluata parametro ε-avideco [17]) estas zorge elektita. Ĉi tiu manko de sperto kun apartaj ŝtatoj povas malatentigi la agadon de agento kiam serĉa memor-strukturo estas uzata pro manko de ĝeneraligi valoron al similaj (sed eble neviditaj) ŝtatoj. Tiel oni preferis utiligi ĝisfundan esploradon de ŝtata spaco, kiu estas garantiita per Valora Iterado. Due, la uzo de Value Iteration obviis la bezonon specifi tiun aldonan esplorad-ekspluatan parametron, tiel simpligante la simuladon. Notu, ke Trajektorekzemplero povas finfine proksimumi Valoron-Iteration kiel la nombro de trajektorioj alproksimiĝas al malfinio [17].

2La nombro de 21,120-ŝtatoj povas esti kalkulata jene: 11 eblaj agaj lokoj × 4 eblaj agaj orientiĝoj × (10 tempodaŭroj antaŭ ol objekto povus aperi + 10 tempodaŭroj kie neniu objekto aperis + 10 tempodaŭroj kie la agento estis farita pozitive plifortigitaj + 10 tempodaŭroj kie la objekto estis negative plifortigita + 11 eblaj objektaj lokoj * (10 tempodaŭroj kun pozitiva identigita objekto + 10 tempodaŭroj kun negativa identigita objekto + 10 tempodaŭroj kun neidentigita pozitiva objekto + 10 tempodaŭroj kun neidentigita negativa objekto))].

3La ekzisto de ĉi tiuj "kaŝitaj" statoj devas esti pripensita dum trejnado ĉar Valora Iterado nur aspektas "unu paŝon antaŭen" de ĉiu ŝtato en la ŝtata spaco. La fakto ke ŝtatoj kun negativaj kaj pozitivaj neidentigitaj objektoj estas efike identaj malebligus lerni kaj mezuri la valorojn en la du malsamaj postaj statoj en kiuj aŭ la pozitiva aŭ negativa objekto fariĝas identigitaj. Alproksimiĝo pri Trajektoria Samplado aliflanke konservas la kaŝitajn ŝtatinformojn (t.e. la identecon de la neidentigita stimulo) dum la proceso kaj do kun tiu varianto de RL la kaŝitaj statoj ne zorgas.

4One ebla obĵeto pri la nuna laboro estas, ke la orienta respondo ŝajnas malmola kabligita en la mamula cerbo, ekzemple en projekcioj de la supera kolikulo [3,14]. En la nuna simulado, la agentoj ne estis malfacilaj orientiĝi al celoj sed anstataŭe lernis orientigan konduton, kiu permesis la eventualan elekton de ago (ekz. Ĉu alproksimiĝo aŭ evitado), kiu maksimumigis rekompencon. Simile al malmodernaj respondoj, ĉi tiuj orientaj kondutoj okazis tre rapide, antaŭ ol la objektoj estis identigitaj, kaj estis direktitaj al ĉiuj objektoj. La celo de ĉi tiu laboro ne estis pretendi, ke oni lernu ĉiujn tiajn respondojn, sed prefere ke ili povu kunekzisti en la RL-kadro. Tamen, estus interese esplori ĉu rekompencaj mekanismoj povus esti implikitaj en starigado de konektebleco en cerbaj areoj por generi ĉi tiun fazan dopaminan respondon.

Ĉi tio estas PDF-dosiero de unita manuskripto, kiu estis akceptita por publikigado. Kiel servo al niaj klientoj ni provizas ĉi tiun fruan version de la manuskripto. La manuskripto suferas kopion, kompostadon kaj revizion de la rezultanta pruvo antaŭ ol ĝi estas publikigita en ĝia fina maniero. Bonvolu noti, ke dum la procezo de produktado povas malkovri erarojn, kiuj povus influi la enhavon, kaj ĉiujn laŭleĝajn malvirtojn, kiuj aplikeblas al la ĵurnalo.

Referencoj

1 Baird LC. Restaj Algoritmoj: Plifortiga Lernado kun Funkcia Proksimumo. En: Priedetis A, Russell S, redaktistoj. Maŝina Lernado: Procedoj de la Dekdua Internacia Konferenco; 9 – 12 julio.1995.

2 Bunzeck N, Düzel E. Absoluta kodado de stimula noveco en la homa substanca nigra / VTA. Neŭrono. 2006; 51 (3): 369 – 379. [PubMed]

3 Dommett E, Coizet V, Blaha CD, Martindale J, Lefebvre V, Walton N, Mayhew JEW, Overton PG, Redgrave P. Kiel vidaj stimuloj aktivigas dopaminergiajn neŭronojn je mallonga latenco. Scienco. 2005; 307 (5714): 1476 – 1479. [PubMed]

4 Doya K. Metalearning kaj neuromodulado. Neŭralaj Retoj. 2002 Jun – Jul; 15 (4 – 6): 495 – 506. [PubMed]

5 Gillies A, Arbuthnott G. Komputilaj modeloj de la bazaj ganglioj. Malordoj de Movado. 2000; 15 (5): 762 – 770. [PubMed]

6 Horvitz JC. Mezolimbocortaj kaj nigrostriatalaj dopaminaj respondoj al elstaraj ne-rekompencaj eventoj. Neŭroscienco. 2000; 96 (4): 651 – 656. [PubMed]

7 Kakade S, Dayan P. Dopamine: ĝeneraligo kaj gratifikoj. Neŭralaj Retoj. 2002; 15 (4 – 6): 549 – 559. [PubMed]

8 Knutson B, Cooper JC. La allogon de la nekonato. Neŭrono. 2006; 51 (3): 280 – 282. [PubMed]

9 Logothetis NK, Pauls J, Augath M, Trinath T, Oeltermann A. Neŭrofiziologia enketo de la bazo de la fMRI-signalo. Naturo. 2001; 412 (6843): 150 – 157. [PubMed]

10 McClure SM, Berns GS, Montague PR. Tempaj prognozaj eraroj en pasiva lernada tasko aktivigas homan striatumon. Neŭrono. 2003; 38 (2): 339 – 346. [PubMed]

11 Niv Y, Duff MO, Dayan P. Dopamine, necerteco kaj TD-lernado. Kondutaj kaj Cerbaj Funkcioj. 2005 Majo 4; 1: 6. [PMC senpaga artikolo] [PubMed]

12 O'Doherty JP, Dayan P, Friston K, Critchley H, Dolan RJ. Modelaj temporaj diferencoj kaj rekompenco-rilata lernado en la homa cerbo. Neŭrono. 2003; 38 (2): 329 – 337. [PubMed]

13 Redgrave P, Gurney K. La mallong-latenta dopamina signalo: rolo por malkovri novajn agojn? Naturo Recenzoj Neŭroscienco. 2006 Dec; 7 (12): 967 – 975.

14 Redgrave P, Prescott TJ, Gurney K. Ĉu la respondo de dopamina de mallonga latenco estas tro mallonga por signali eraran rekompencon? Tendencoj en Neŭrosciencoj. 1999 Apr; 22 (4): 146 – 151. [PubMed]

15 Reichle ED, Laurent PA. Uzante plifortigan lernadon por kompreni la aperon de "inteligenta" okulmovada konduto dum legado. Psikologia Revizio. 2006; 113 (2): 390 – 408. [PubMed]

16 Schultz W. Antaŭdira rekompenca signalo de dopaminaj neŭronoj. Revuo por Neŭrofiziologio. 1998; 80 (1): 1 – 27. [PubMed]

17 Sutton RS, Barto AG. Plifortiga Lernado: Enkonduko. MIT Gazetaro; Kembriĝo: 1998.

18 Tanaka SC, Doya K, Okada G, Ueda K, Okamoto Y, Yamawaki S. Antaŭdiro de tuja kaj estonta rekompenco diferencas varbojn de kortiko-bazaj ganglioj. Naturo-Neŭroscienco. 2004; 7 (8): 887 – 893.