Senkonsilita Decida Hierarkio en Addiktoj Emergantaj de Drug-Hijacked Dopamine Spiraling Circuit (2013)

 

  • Mehdi Keramati poŝto,
     
  • Boris Gutkin

 

abstrakta

Malgraŭ eksplicite voli ĉesi, longtempaj droguloj trovas sin senpovaj rezisti drogojn, malgraŭ scii, ke drogado povas esti malutila agmaniero. Tia nekonsekvenco inter la eksplicita scio pri negativaj konsekvencoj kaj la sindevigaj kondutaj ŝablonoj reprezentas kognan / kondutan konflikton, kiu estas centra karakterizaĵo de toksomanio. Neŭrobiologie, diferenciala induktita agado en apartaj striataj subregionoj, same kiel la dopamina konektebleco de ventraj striataj regionoj al la dorsaj regionoj, ludas kritikajn rolojn en sindeviga serĉado de drogoj. Tamen, la funkcia mekanismo, kiu integras ĉi tiujn neŭrofarmakologiajn observojn kun la supre menciita kogna / konduta konflikto, estas nekonata. Ĉi tie ni provizas formalan komputilan klarigon por la drog-induktita kogna nekonsekvenco, kiu videblas en la "mem-priskribita eraro" de la toksomaniuloj. Ni montras, ke dependaj drogoj iom post iom produktas motivan antaŭjuĝon al serĉado de drogoj ĉe malaltaj nivelaj kutimaj decidaj procezoj, malgraŭ la malalta abstrakta kogna taksado de ĉi tiu konduto. Ĉi tiu patologio aperas ene de la hierarkia plifortiga lerna kadro, kiam kronika ekspozicio al la drogo farmakologie produktas patologie persistajn fazajn dopaminajn signalojn. Tiel la drogo kaperas la dopaminergiajn spiralojn, kiuj kaskadas la plifortigajn signalojn laŭ la ventro-dorsa kortika-striata hierarkio. Neŭrobiologie, nia teorio respondecas pri rapida disvolviĝo de drogo-provokita dopamina elfluo en la ventrala striato kaj malfrua respondo en la dorsa striato. Nia teorio ankaŭ montras, kiel ĉi tiu responda ŝablono dependas kritike de la dopamina spirala cirkvito. Kondute, nia kadro klarigas laŭpaŝan nesentemon de drog-serĉado al drogaj punoj, la blokadan fenomenon por drogaj rezultoj, kaj la konstantan preferon por drogoj super naturaj rekompencoj de toksomaniuloj. La modelo sugestas testeblajn antaŭdirojn kaj preter tio, starigas la scenejon por vidado de toksomanio kiel patologio de hierarkiaj decidaj procezoj. Ĉi tiu vidpunkto komplementas al la tradicia lego de toksomanio kiel interago inter kutimaj kaj celaj decidaj sistemoj.

Enkonduko

"Ni agnoskis, ke ni estis senpovaj pro nia toksomanio - ke niaj vivoj fariĝis nerefuteblaj" deklaras la unua principo de la Narcotics Anonymous 12-programo. [1]. Ĉi tio montras kiom senpovaj toksomaniuloj troviĝas kiam temas pri rezisto al medikamentoj, kvankam sciante, ke preni drogojn estas malĝusta kurso de ago. [2]-[4]. Fakte, la marko de toksomanio estas deviga serĉado de la medikamentoj eĉ koste de evidentaj adversaj konsekvencoj [5]. Subskribo de tia patologia konduto evidentiĝas en kontrolitaj eksperimentoj kie droguloj elmontras karakterizan "mem-priskribitan eraron": malkonsekvenco inter la potenca konduta respondo al drog-asociaj elektoj kaj la relative malalta subjektiva valoro kiun la toksomaniuloj raportas pri la drogo. [4], [6], [7]. Kiam ĝi estas kombinita kun la perdo de inhibicia kogna kontrolo de konduto, post longdaŭra ekspozicio al medikamentoj, ĉi tiu diverĝo inter la kognaj planoj kaj la firmigitaj kutimoj povas rezulti en transiro de neformala ĝis compulsiva serĉa konduto. [8].

La perdo de kogna kontrolo kaj mem-priskribita eraro ĝis nun eskapis principan klarigon per formalaj modeloj de toksomanio [9]-[13]. Antaŭaj komputaj teorioj pri drogomanio, plejparte prezentitaj en la kadro de lernado de plifortigo, vidas la dependecon kiel patologia stato de la sistemo de stimula-respondo de kutimoj. [9]-[13]. La centra hipotezo malantaŭ ĉiuj tiuj modeloj estas, ke la farmakologia efiko de drogoj sur dopamina signalado, supozeble kun stimula responda instrua signalo, rezultigas laŭpaŝan tro-plifortigon de tiaj asocioj. Ĉi tiu efiko siavice kondukas al sindevigaj drogokutimaj kutimoj. Dum ĉi tiu reduktita vidpunkto pri toksomanio kaptis iujn aspektojn de la fenomeno, kreskanta konsento en la toksomanio-literaturo indikas, ke multaj lernaj sistemoj partoprenas en la patologio. Nur tia pli kompleksa bildo, kiu inkluzivas cerbajn kognajn, kaj ankaŭ malaltnivelajn kutimajn procezojn, povas klarigi la varion de dependecaj kondutoj. [8], [14].

En ĉi tiu papero, ni adoptas hierarkian plifortikan lernan aliron [15] kie decidoj estas reprezentitaj je malsamaj niveloj de abstraktado, en cognitiva-al-motora hierarkio. Ni supozas ke akvofalo de dopamin-dependaj lernaj signaloj ligas nivelojn de la hierarkio kune [16]. Ni plue supozas, ke drogoj de misuzo farmakologie forrabas la komunikan mekanismon inter niveloj de abstraktado. Surbaze de ĉi tiuj supozoj, ni montras, ke la raportita kognitiva disonanco en toksomaniuloj ŝprucas en la hierarkia plifortigo lernante kadron kiam kronika drogo-ekspozicio interrompas valor-lernadon trans la decida hierarkio. Ĉi tiu interrompo rezultas en patologia troraksado de drogaj elektoj ĉe malaltaj nivelaj kutimaj procezoj kaj tial pelas kutiman drog-serĉantan konduton. Ni tiam montras, ke "malplaĉita" sed compulsiva serĉado de drogoj povas esti klarigita kiel drogo-forĵetita malalta nivelo kutimaj procezoj superregante konduton, dum sanaj kognaj sistemoj ĉe la supraj reprezentaj niveloj perdas kontrolon de konduto. Plue, ni montras, ke la proponita modelo povas klarigi lastatempajn pruvojn pri rapida kontraŭ malfrua evoluo de drog-eluziĝo de dopamina efluo en la ventra kontraŭ dorsa striato, respektive, kaj ankaŭ la dependeco de ĉi tiu skemo pri dopamina spiralanta cirkulado.

Materialoj kaj metodoj

Preliminaraj

En konsento kun riĉa kognitiva psikologia literaturo, nia hierarkia plifortigo lernado [15], [18] kadro supozas, ke abstrakta kognitiva plano kiel "farado de teo" povas esti rompita en sekvencon de pli malaltaj agoj: bolanta akvo, metante teon en la poton, ktp. Tia malkomponaĵo okazas ĝis konkretaj motornivelaj respondoj ĉe la plej malalta nivelo de la nivelo hierarkio (Figuro 1A). Neŭrobiologie, la malsamaj niveloj de decida hierarkio de kognitivaj al motoraj niveloj estas reprezentitaj laŭ la roztrud-akso de la cirkvito-bazaj ganglioj (BG) cirkvito [19]-[21]. Ĉi tiu cirkvito konsistas el pluraj paralelaj fermitaj bukloj inter la frontala kortego kaj la bazaj ganglioj [22], [23] (Figuro 1B). Dum la antaŭaj bukloj subasas pli abstraktan reprezentadon de agoj, la kapitalaj bukloj, konsistantaj el sensa-motora kortekso kaj dorsolateral-striatro, kodas malaltajn kutimojn [19]-[21].

bildeton

Figuro 1. Hierarkia organizo de konduto kaj la kortiko-BG-cirkvito.

A, Ekzemplo de decida hierarkio por du alternativaj elektoj: drogo kontraŭ manĝo. Ĉiu agokampo estas reprezentita je malsamaj niveloj de abstraktado, supozeble koditaj ĉe malsamaj kortiko-Bg-bukloj. Serĉi ĉiun el la du specoj de rekompenco povus sekvi punon de grando 16. BGlutamatergiaj ligoj de malsamaj antaŭfrontaj areoj projektas al striataj subregionoj kaj tiam projekcias reen al la PFC tra la pallidum kaj tálamo, formante plurajn paralelajn buklojn. Per la stiato-nigra-striateca dopamena reto, la ventraj regionoj de la striato influas la pli dorsajn regionojn. vmPFC, ventra mezala prefrontala kortekso; OFC, orbita frontala kortekso; dACC, dorsa antaŭa cingula kortekso; SMC, sensa-motora kortekso; VTA, ventregala areo; SNc, substantia nigra pars compacta. Figuro 1B Modifita de ref 21.

doi: 10.1371 / journal.pone.0061489.g001

En ĉi tiu cirkvito, la fazika agado de neŭronoj de mezsinaj dopaminoj (DA) projekciantaj al la striato indikas la eraron inter antaŭdirita kaj ricevita rekompencoj, tiel portante stimulan-respondan plifortigan informon. [24]. Ĉi tiuj projekcioj DAergic formas interreton en serio en akvofalo, kiu ligas la pli ventralajn regionojn de la striato al pli laŭgrade dorsaj regionoj tra la tielnomitaj "spiralaj" konektoj. [25]-[27] (Figuro 1B). Funkcie, tia antaŭeniga organizo konektanta la rostral al caudal-cortico-Bg-buklojn permesas direkti kunigadon de krudaj ĝis fajnaj reprezentadoj. Sekve, la DA spiraloj estas hipotezis provizi neurobiológica substrato por la progresema agordo de rekompenco prognozo eraro de la pli altaj niveloj de la hierarkio (kodante la abstrakta scio pri la valoro de kondutaj opcioj). Ĉi tiu eraro estas tiam uzata por ĝisdatigi agajn valorojn je pli detalaj niveloj [16]. Alivorte, la DA spiraloj permesas ke la abstraktaj kognitivaj niveloj de taksado gvidas la lernadon en la pli detalaj agaj-taksaj procezoj.

Teoria skizo

Laŭ la komputa teorio de plifortiga lernado [28] (RL), la agento (en nia kazo persono aŭ besto) lernas fari informitajn elektojn pri agado ĝisdatigante sian antaŭan taksitan valoron, , por ĉiu ŝtat-aga paro, , kiam rekompenco estas ricevita de la agento tuj kiel rezulto de agado en la kunteksta ŝtato (stimulo) . La valoro estas ĝisdatigita komputante la signalon pri prognozo pri rekompenco. Ĉi tiu signalo ne nur dependas de la tuj ricevita rekompenco (), sed ankaŭ pri la valoro de la nova stato en kiu la agento finas, post kiam tiu ago estis farita. Indikita per ĉi tiu temporal-antaŭita valoro-funkcio reprezentas la sumon de estontaj rekompencoj kiujn la besto atendas ricevi de la rezulta stato, , pluen. La prognozo-eraro povas esti kalkulita per jena ekvacio:


(1)

Intuicie, la antaŭdira erara signalo kalkulas la diferencon inter la atendita kaj la realigita rekompencanta valoro de ago. En hierarkia decida strukturo, tamen, anstataŭ lerni la -Valvaloroj sendepende je malsamaj niveloj, pli abstraktaj niveloj povas agordi la instruan signalon kalkulitan ĉe pli malaltaj niveloj. Ĉar pli altaj niveloj de la hierarkio reprezentas pli abstraktan reprezenton de mediaj eventualaĵoj, lernado okazas pli rapide en tiuj niveloj. Ĉi tio estas pro la relativa malalt-dimensionaleco de la abstrakta reprezento de konduto: aga plano povas esti reprezentita kiel unu paŝo (unu dimensio) ĉe la plej alta nivelo de la hierarkio kaj kiel multoblaj detalaj agoj (multoblaj dimensioj) ĉe la pli malaltaj niveloj. de la hierarkio. La altnivela valoro de ĉi tiu agadplano rapide lerniĝus kompare kun la detalaj niveloj, kie la rekompencaj eraroj bezonus propagandi ĉiujn detalajn agadajn paŝojn. Tiel, agordi la pli malaltajn nivelajn valorojn per la valora informo de la pli altaj niveloj povas rapidigi la konverĝon de ĉi tiuj valoroj. Unu statistike efika maniero fari tion estas supozi ke por komputi la prognozan eraran signalon ĉe la la 1-a nivelo de abstraktado, , la provizora valora funkcio, , devenas de pli alta nivelo de abstraktado, [16]:


(2)

Por konservi optimumon, ekvacio 2 povas esti uzata por komputi la prognozan eraron nur kiam la lasta konsistiga primitiva ago de abstrakta opcio estas farita (vidu Figuron S1 en Dosiero S1). En aliaj kazoj, valor-lernado ĉe malsamaj niveloj okazas sendepende, kiel en ekvacio 1. Ambaŭkaze oni uzas la instruan signalon por ĝisdatigo de la antaŭaj valoroj je la responda nivelo:


(3)
kie estas la lernokosto. Ĉi tiu formo de inter-nivela interŝanĝo de informoj estas biologie plaŭdebla, ĉar ĝi reflektas la spiralan strukturon de la DA-cirkvito, portante la informojn laŭ la hierarkio en la ventro-dors-direkto. Samtempe, gvidado de pli abstraktaj niveloj signife akcelas lernadon, malpezigante altan dimensiecon de valor-lernado ĉe detalaj niveloj [16].

En ĉi tiu artikolo ni montras, ke la interago inter modifita versio de la modelo disvolviĝis en [16] kaj la specifaj farmakologiaj efikoj de drogoj de misuzo sur la dopaminergia sistemo povas kapti datum-rilatajn datumojn je radikale malsamaj skaloj de analizo: kondutisma kaj cirkla-nivela neurobiologia. Unue, la nova modelo provokas eblan koran klarigon por pluraj intrigaj kondutaj aspektoj asociitaj kun toksomanio al drogoj (ekz. La mem-priskribita eraro [4], [6], [7]). Due, ni povas kalkuli larĝan evidentecon rilate al la dinamiko de la drog-elvokita dopamina liberigo [17].

Ni modifas la modelon prezentitan en [16] kiel sekvas. Ni plifaciligas la modelon rilate al funkcia memora kapacito per anstataŭado kun , en ekvacio 2, ĉar la du valoroj konverĝas al la sama konstanta nivelo (vidu Figuron S2 en Dosiero S1, por komputila kaj neurobiologia bazo):


(4)

ĉi tie, estas la relative abstrakta eblo kaj estas la lasta primitiva ago en la kondutisma sinsekvo, kiu plenigas ĉi tiun eblon. Simile, estas la rekompenca valoro de , kiu inkluzivas (la rekompenca valoro de ).

Klare, la diversaj drogoj misuzitaj de homoj dividas fundamentan posedaĵon de farmacologie kreskanta dopamina koncentriĝo ene de la striatumo [29]. Laŭe, ni korpigas ĉi tiun farmakologian efikon de la drogo aldonante pozitivan fleksion, , (Vidu ankaŭ [9]-[12]) al la antaŭdira erara signalo portata de dopaminaj neŭronoj (vidu Figuron S3 en.) Dosiero S1, por komputila kaj neurobiologia bazo):


(5)

tie kaptas la rektan farmakologian efikon de drogo sur la DA-sistemo, kaj estas ĝia plifortiga valoro pro la eŭforigenaj efikoj (vidu Dosiero S1 por suplementaj informoj).

Dum ekvacioj 3 kaj 5 kune difinas la komputan mekanismon por ĝisdatigi la valorojn en nia modelo, ni ankaŭ hipotezas, ke necertec-bazita konkurenca mekanismo determinas la nivelon de abstraktado, kiu regas konduton. Ĉi tio estas inspirita per la mekanismo proponita en [29] por arbitracio inter la kutimaj kaj cel-direktitaj sistemoj. Tiurilate, ĉe ĉiu decida punkto, nur la nivelo de abstrakto kun la plej alta certeco taksi la valoron de elektoj kontrolas konduton. Post kiam ĉi tiu nivelo faris la decidon agi, ĉiuj subaj niveloj de la hierarkio estos disfalditaj de ĉi tiu reganta nivelo por efektivigi la elektitan agon kiel sinsekvon de primitivaj motorrespondoj (vidu Dosiero S1 por suplementaj informoj; Ilustru S4 en Dosiero S1; Ilustru S5 en Dosiero S1). Ricevinte la rekompencon de la medio, la valoroj ĉe ĉiuj niveloj estas ĝisdatigitaj. Ĉi tiu arbitracia mekanismo pri necerteco antaŭdiras, ke kiel abstraktaj procezoj estas pli flekseblaj, ili havas superan valor-proksimuman kapablon dum la fruaj stadioj de lernado kaj tiel regas konduton ĉe ĉi tiuj stadioj. Tamen, ĉar la abstraktaj niveloj uzas malglatan reprezentadon de la medio (ekz. Pro enhavi relative malgrandan nombron da bazaj funkcioj), ilia fina valor-proksimuma kapablo ne estas tiel preciza kiel tiuj de detalaj niveloj. Alivorte, post vasta trejnado, la certeco asociita kun la taksitaj valoroj estas pli malalta por la pli malaltaj niveloj de la hierarkio kompare kun la supraj niveloj. Tiel, kun progresiva lernado, la pli malaltaj niveloj de la hierarkio transprenas la kontrolon de la agado-elekto, ĉar ilia necerteco malpliiĝas laŭgrade. Ĉi tio konsentas plurajn evidentecojn, kiuj montras progresivan regadon de la dorsoj super la ventrala striatumo en la kontrolo de serĉado de drogoj (krom serĉi naturajn rekompencojn) [8], [30], [31].

rezultoj

Hierarkia taksada malkonsekvenco aperas sub drogo sed ne naturaj rekompencoj

Kontraŭe al la antaŭa plifortiga lernado-bazitaj komputikaj modeloj de toksomanio [9]-[13] kiuj baziĝas sur unu-decida-sistema aliro, nia konto baziĝas sur multkombina sistemo. Rezulte, kvankam la formo de modela efiko de drogo sur la prognoz-erara signalo en nia modelo similas al la antaŭaj [9]-[12], tio rezultigas esence malsamajn konsekvencojn. La transit-induktita dopamina kresko de drogoj akcelas la tujan prognozan eraron ĉe ĉiu nivelo de la hierarkio kaj rezulte enkondukas biason, , pri la transdono de scio de unu nivelo de abstraktado al la sekva, laŭ la malglata-al-fina direkto de la hierarkio. Ĉi tiu parodio kaŭzas ke la asimptota valoro de serĉado de drogoj je donita nivelo unuoj pli altaj ol tiu de pli abstrakta tavoloFiguro 2B). La amasiĝo de ĉi tiuj discrepancoj laŭ la vizaĝo-kaŭsa akso progresive induktas signifajn diferencojn en la valoro de drog-serĉantaj kondutoj inter la supraj kaj subaj ekstremoj de la hierarkio. Tiel, eĉ kiam sekvita de forta puno, la valoro de drog-asociita konduto restas pozitiva ĉe la malalt-nivelaj motoraj bukloj, dum ĝi fariĝas negativa ĉe kognaj niveloj. Alivorte, la modelo antaŭdiras, ke amasiĝo de drog-efiko super DA-spiraloj pliigas drog-serĉantan valoron ĉe motor-nivelaj kutimoj ĝis tiom alta amplekso, ke eĉ forta natura puno ne povos malpliigi ĝin sufiĉe. Ni sugestas, ke ĉi tio klarigas la malkonsekvencon inter kognitiva kaj malaltnivela taksado de drog-rilataj kondutoj en toksomaniuloj. Alivorte, ni proponas, ke deviga drog-serĉado kaj la signife reduktita elasteco al asociitaj kostoj devenas de la farmakologia efiko de la drogo kidnapanta la dopamin-dependan mekanismon, kiu transigas la informojn inter la nivelojn de decida hierarkio.

bildeton

Figuro 2. Motivigo por manĝaĵo kontraŭ drogo ĉe malsamaj niveloj de abstraktado (rezultoj de simulado).

En la unuaj 150-provoj, kie neniu puno sekvas la rekompencon, la valoro serĉi naturajn rekompencojn al ĉiuj niveloj konverĝas al 10 (A). Por la kazo de drogo, tamen la rekta farmakologia efiko de drogo (, agordita al) rezultigas la asimptotan valoron je ĉiu nivelo esti unuoj pli altaj ol tiu de pli alta nivelo de abstraktadoB). Tiel, kiam sekvas puno, dum kognaj bukloj ĝuste asignas negativan valoron al drog-serĉanta elekto, motor-nivelaj bukloj trovas deziratajn drogojn (pozitivan valoron). La kurboj en ĉi tiu figuro montras la evoluon de valoroj en "unu" simulita besto kaj tial neniu statistika analizo estis aplikebla.

doi: 10.1371 / journal.pone.0061489.g002

Dum drogoj, laŭ nia modelo, rezultigas malekvilibran taksadon trans niveloj, la valoro de naturaj rekompencoj konverĝas al la sama valoro tra ĉiuj niveloj, pro manko de rekta farmakologia efiko sur DA-signalanta mekanismo (). Sekve, nek nekonsento nek trovaloro ĉe detalaj niveloj estos observataj por la kazo de naturaj rekompencoj (Figuro 2A). Supervalorigo de drog-serĉantaj respondoj ĉe pli malaltaj niveloj de la hierarkio devus rezultigi eksternorman preferon de drogoj ol naturaj rekompencoj kaj tro-engaĝiĝo en drog-rilataj agadoj.

Diferenca dopamino respondanta en la ventra kontraŭ dorsa striatumo al medikament-rilataj asertoj

Neurobiologie, diferencaj roloj de la striktaj subregionoj en akiro kaj esprimo de drog-serĉantaj kondutoj okupis centron en esplorado pri toksomanio. Konverĝaj evidentaĵoj el diversaj linioj de esplorado sugestas, ke la kondutisma transiro de distra ĝis deviga uzado de drogoj reflektas neŭrobiologian ŝanĝon de taksado de ventrala al dorsolatera striato. [8], [33], [34], responda al ŝanĝo de kognitiva al detalaj niveloj en nia modelo. Konforma al nia modelo, DA spirala reto konektanta la ventralon al iom post iom pli dorsaj regionoj de la striatum estas montrita ludi pivotan rolon en ĉi tiu transiro. [25].

En ŝlosila lastatempa studo Willuhn et al. [17] taksis la padronon de dopamina liberigo en respondo al drog-asociitaj indikoj en la ventrala kaj dorsolatera striato de ratoj dum tri semajnoj spertante kokainon. Uzante rapidan ciklan voltammetrion, la maltrankviliga observo estis, ke DA-elfluita indico en la ventra striatumo ekaperas eĉ post tre limigita trejnado. En kontrasto, la dorsolateral striatum montris DA-ekigita DA eflugo nur post vasta trejnado, kaj la disvolviĝo de ĉi tiu liberiga padrono malaperis kiam la ventrala striatumo lezis en la ipsilateral hemisfero.

Ĉar la tempo-rezolucio de rapida-skana voltammetrio kaptas subsekundajn fluktuojn en koncentriĝo, la observita ŝablono de DA-elfluo devas esti atribuita al "fasa" DA signalado kaj tiel, al la antaŭdira erara signalo, laŭ la RL-teorio de dopamino. [24]. Laŭ RL-teorio, la antaŭdira erara signalo sur observado de neatendita stimulo egalas al la rekompencanta valoro kiun tiu stimulo antaŭdiras. Tial, _Cue_-induktita _D "liberigo estas ekvivalento al la valoro antaŭdirita per tiu cue.

Tiurilate, nia hierarkia kadro provizas formalan eksplikon por la diferenciala ŝablono de ventra kontraŭ dorsa stria efio. [17]. La valoro antaŭdirita de la kuracilo asociita al la abstraktaj kognitivaj niveloj de la hierarkio rapide kreskas ĉe la tre fruaj stadioj de trejnado (Figuro 2B), pro malaltaj dimensioj de la lernada problemo ĉe altaj niveloj de abstraktado. Rezulte, nia modelo montras, ke la eligo induktita de la indiko devas esti observata en la ventra striato eĉ post limigita trejnado (figuro 3). Ĉe pli detalaj niveloj de reprezentado, tamen, la lernado estas malrapida (Figuro 2B), pro alta dimensio de la problema spaco, kaj ankaŭ dependeco de lernado je pli abstraktaj niveloj tra DA spiraloj. Konsekvence, indukso-indukto de elfluo en la dorsolateral striato devas disvolviĝi laŭgrade kaj fariĝi observebla nur post ampleksa trejnado (figuro 3).

bildeton

Figuro 3. Akcelado de dopamina en malsamaj subregiones striatal en respondo al signaloj asociitaj al drogoj (rezultoj de simulación).

En linio kun eksperimentaj datumoj [17], la modelo montras (maldekstran kolonon), ke responde al rilataj drogoj, estos efluo de dopamino en la ventra striato, post limigita kaj ampleksa trejnado. En pli da dorso-flankaj subregionoj, tamen, efikeco de efikeco de DEI disvolvas laŭgrade dum la kurso de lernado. La modelo antaŭdiras (dua kolumno de dekstra) ke ĉi tiu malfrua evoluo de eligo elvokis DA elfluon en dorsa striato dependas de la DA-dependa seria konektebleco kiu ligas la ventralon al la dorsa striato. Tio estas, kiel rezulto de malkonektado de la DA-spiraloj, dum cue-elicited DA-respondo restas sendifekta en la ventra striatum, ĝi signife malpliiĝas en la dorsolateral-striatum. Krome, la modelo antaŭdiras (tria kolumno de dekstra) similajn rezultojn por eligo induktita de efluo en dorsolateral-striatum por la kazo de lezita ventra striato. Finfine, se post vasta parenc-inda paro en sendifektaj bestoj, puno sekvas drogon, la modelo antaŭdiras (dekstra kolumno), ke drog-rilata respondo rezultigas inhibicion de la ventra kruro de spiraloj DA, eĉ post limigita trejnado. En pli dorsaj regionoj, tamen, efuzo DA malpliiĝas malrapide dum lernado, sed restos pozitiva, eĉ post ampleksa drogrompado. La datumoj prezentitaj en ĉi tiu figuro ricevas de "unu" simulita besto kaj tiel, neniu statistika analizo estis aplikebla.

doi: 10.1371 / journal.pone.0061489.g003

Krome nia modelo klarigas la atestaĵojn en [17] ke tia prokrastita evoluo de efikeco de eligo sugestita en la dorsolateral-striat dependas de la ventra striatum (figuro 3). En nia modelo, simulita unuflanka lezo de la ventra striatum (la abstrakta taksa nivelo en la modelo) signife malpliigas la valoron antaŭviditan de la drogo je detalaj niveloj en la ipsatera flanka hemisfero kaj tiel malpliigas signife la nivelon de eluziĝo de indico. Por modeli lezon de la ventra striato, ni simple fiksas la valoron de ĉiuj stimuloj je la plej alta nivelo de la hierarkio al nulo.

Simile, nia modelo antaŭdiras, ke la evoluo de fazikaj DA-signalado en la dorsolateral-striatum dependas de la integreco de la spirala cirkvito de DA.figuro 3). Fakte, malkonektiĝo en la cirkla spirala DA en nia modelo tranĉas la komunikadon trans niveloj de abstraktado, kiu siavice malebligas amasiĝon de la antaŭjuĝo de medikamento al la signalo de plifortigo laŭ la niveloj de decida hierarkio. Por modeligi la malkonektiĝon en la DA-dependa seria cirkvito de ventra al dorsa striato, ni premas ĉiun nivelon de abstraktado por kalkuli la antaŭdiran signalon loke (kiel en la ekvacio 3), sen ricevi la valoron de la provizore ŝtato de la tuj pli alta. nivelo de abstraktado.

Krome, la modelo antaŭdiras, ke la ŝablono de eligo sugestita de eliĝo ŝanĝiĝos se post ampleksa trejnado kun kokaino kaj kokaino asociis signojn, kiel en la antaŭa eksperimento, oni komencas pari la transdonon de kokaino kun forta puno. Ni antaŭdiras, ke la efluvado de DA en respondo al la kokain-ligita indiko devas rapide malkreski sub la komenco en la ventra striato. En la dorsolateral-striatum, tamen, cita-induktita DA-liberigo devus resti super la kurento.figuro 3) kun ebla prokrastita parta malkresko. Ĉi tio indikas atribuadon de pozitiva subjektiva valoro al la medikamentaj stimuloj ĉe detalaj niveloj, malgraŭ negativaj (sub baza linio) valoroj je kognaj niveloj. Estas notinde, ke ĉi tiu prognozo dependas de la supozo, ke la cerbo punas punon simple kiel negativan rekompencon. Ĉi tiu supozo estas iom kontestata: ĝi estas klare subtenata de eksperimentaj studoj [35], tamen ankaŭ diskutis alie de aliaj [14], [36]. Krom ĉi tiu prognozo, aliaj aspektoj de la modelo ne dependas de ĉu puno estas kodita per dopamino aŭ alia signala sistemo.

La trejna reĝimo uzata de Willuhn et al. [34] estas ne sufiĉe etendita por produkti compulsiva drog-serĉada konduto, karakterizita per sensenta al medikament-rilataj punoj [37], [38]. Tiel, ŝlosila demando al esti respondita estas kiu estas la rilato inter malfrua evoluo de indico-induktita DA-respondo en DLS, kaj malfrua evoluo de compulsiva respondo. Laŭ nia modelo, deviga konduto postulas ne nur la troan taksadon de drogelekto ĉe malaltaj niveloj de la hierarkio, sed ankaŭ la transdono de kontrolo de konduto de la abstrakta kognitivo al la malalta nivelo kutimaj procezoj. La temposkalo de ĉi tiuj du procezoj nur parte dependas unu de la alia: la tro-taksa procezo dependas de la antaŭdira erara signalo, dum la translokigo de konduta kontrolo ankaŭ dependas de la relativaj necertecoj pri valorvaloro. Sekve, la troa taksado de drog-rilataj indikoj ĉe malaltaj niveloj de la hierarkio povas antaŭi la ŝanĝon de kontrolo de konduto de supre al fundo de la hierarkio. La ĝusta tempo-skaloj de la du procezoj dependas respektive de la lernoprocento kaj la bruo en la malsamaj niveloj (vidu Dosiero S1 por suplementaj informoj). En aliaj vortoj, estas verŝajne, ke la efiko de dopamina induktita de la indiko en la DLS povas disvolvi signife antaŭ ol la compulsivo serĉado de drogoj estas kondutece manifestita.

Kondutaj implicoj de la malkonsekvenca taksado de medikamentoj kontraŭ naturaj rekompencoj

Kutime, en nia modelo, se puno estas parigita kun drogo en la fruaj stadioj de libervola uzado de drogoj, la abstrakta valoro de respondo por serĉado de drogo iĝas negativa rapide. Supoze ke drogoserĉado estas kontrolata de abstraktaj niveloj dum ĉi tiuj fruaj stadioj, negativa abstrakta taksado de drogelekto faras la subjekton nevolonte sperti tiun agmanieron. Ĉi tio malebligos firmigon de forta malalt-nivela prefero al medikamentoj tra la tempo. Tiel, la modelo klarigas elastecon de drogelektoj laŭ kostoj dum la fruaj stadioj de konsumado de drogoj, sed ne post kronika uzo. Konsekvence, bestaj modeloj de dependeco montras, ke sensenceco de drogoripaj respondoj al danĝeraj konsekvencoj asociitaj kun drogo nur disvolviĝas post daŭrigita mem-administrado de drogoj, sed ne limigita droguzo. [37], [38]. Kontraste al nia teorio, pli fruaj komputaj modeloj de dependeco [9], [10] estas rekte kontraŭdiraj al ĉi tiu aro de pruvoj, ĉar ili antaŭdiras, ke malfavoraj kondutaj rezultoj, kiuj tuj sekvas drogan uzon, ne havas motivigajn efikojn eĉ ĉe la tre fruaj stadioj de drogoj. Dosiero S1 por suplementaj informoj).

Nia modelo plue klarigas la okazon de blokado de efiko de drogaj rezultoj [39]. Blokado estas kondiĉa fenomeno, kie antaŭa parigo de stimulo A kun rezulto blokas formiĝon de asocio inter malsama stimulo B kun tiu rezulto en posta trejna fazo, kie kaj A kaj B estas prezentitaj antaŭ la livera rezulto [40]. Rezultoj de simulado de nia modelo en pavlova eksperimenta desegno (vidu.) Dosiero S1 por aldonaj informoj pri la Pavlova versio de la modelo) montras, ke por ambaŭ kazoj de naturaj rekompencoj kaj medikamentoj, kiam la taksita valoro je iu nivelo de la hierarkio atingas sian konstantan staton (anstataŭ kreskigi nedifinite), neniu plia lernado okazas ĉe tio nivelo, ĉar la antaŭdira erara signalo malpliiĝis al nulo (figuro 4). Tiel, asocii novan stimulon kun la jam antaŭdirita rekompenco estos blokita. Kondutaj pruvoj montras blokan efikon asociitan kun ambaŭ drogoj kaj naturaj plifortigantoj [39] estis uzita kiel grava argumento por kritiki la antaŭe proponitan dopamin-bazitan komputan modelon de dependeco [9]. Ĉi tie ni montris, ke koncentriĝante pri la hierarkia naturo de reprezentoj kaj la dors-ventra spirala dupleksa bukla organizo povas fakte klarigi la blokajn datumojn, tiel ke ĝi superas ĉi tiun kritikon. Dosiero S1 por suplementaj informoj).

bildeton

Figuro 4. Blokanta efiko por naturaj kontraŭ medikamentaj rekompencoj.

La modelo antaŭdiras, ke blokado okazas por naturaj rekompencoj (A) kaj drogoj (B), nur se la komenca trejnado estas "vasta", tiel ke la unua stimulo antaŭdiras plene la valoron de la rezulto. Post "modera" trejnado, kognaj niveloj pli flekseblaj plene antaŭdiras la valorojn kaj tiel blokas plian lernadon. Tamen, lernado ankoraŭ aktivas en malalta-nivelaj procezoj kiam la dua trejnada fazo (samtempa prezento de ambaŭ stimuloj) komenciĝas. Tiel, nia modelo antaŭdiras, ke modera komenca trejnado en blokado-eksperimento kun naturaj rekompencoj ankaŭ rezultos je kognaj / kondutaj malkonsekvenco. La datumoj prezentitaj en ĉi tiu figuro ricevas de "unu" simulita besto kaj tiel, neniu statistika analizo estis aplikebla.

doi: 10.1371 / journal.pone.0061489.g004

Kiel mi menciis antaŭe, pluraj indikoj montras progresivan superregadon de la dorsaj super la ventra striato en la kontrolo de konduto dum la kurso de lernado. [8], [31], [32]. Interpretita sur fono de tiuj pruvoj, la malekvilibra drog-serĉanta taksado tra la hierarkio ankaŭ klarigas la malsukcesajn klopodojn de toksomaniuloj redukti drogmanion post longdaŭra sperto kun drogo, kiam kontrolo pri drogaj elektoj ŝanĝiĝis de kognaj al malaltaj nivelaj kutimaj procezoj. Ĉi tiu supereco de drogregataj procezoj nature kondukas al konduta malelasteco al drogaj rilataj kostoj (sindeviga serĉado de drogoj), probable akompanata de mem-priskribita eraro. Por la kazo de naturaj kompensoj, tamen nia modelo antaŭdiras, ke kvankam konduta malelasteco pliiĝas dum la lernado, ĉar neniu taksado-nekohereco disvolviĝas tra la niveloj de la hierarkio, punoj asociitaj kun rekompenco fine malhelpos rekompencon.

Nia modelo temigas taksadon de agoj en "supozeble donita" decida hierarkio, kaj lasas flanken kiel la abstraktaj opcioj kaj iliaj respondaj malaltaj subrutinoj estas komence malkovritaj dum disvolviĝo. Malkovri la decidan hierarkion estas proponita esti malsupro-supren procezo, plenumita per chunking kune sekvencojn de malalt-nivelaj agoj kaj konstruado de pli abstraktaj opcioj [41]. Ĉi tiu procezo, supozeble trapasanta la dorsan al la ventra striato, estas en la kontraŭa direkto de la konkurenciva me proposedanismo proponita ĉi tie, por preni kontrolon de konduto.

diskuto

La kreskanta atestaĵo pri la diferenciala rolo de malsamaj striataj subregionoj en kutimo estas kutime interpretata en la kadro de kutima kontraŭ celo-direktita dicotomio. [8], [14], [34]. La hierarkia decida aliro, kiun ni uzas ĉi tie, estas komplementa al tiaj du-sistemaj kontoj. Dum la duala procezo alproksimiĝas al malsamaj algoritmoj (modelo-libera kontraŭ modelo-bazo [30]) por solvi ununuran problemon, la hierarkia RL-kadro temigas malsamajn reprezentojn de la sama problemo je malsamaj niveloj de tempa abstraktado. En teorio, aŭ kutima aŭ celo-direktita algoritmo povas solvi ĉiun de ĉi tiuj malsamaj reprezentoj de la problemo. En nia modelo, la amasiĝo de drog-induktitaj biasoj super DA spiraloj okazas en opcio kie la valoro-takso algoritmo estas modelo-libera (kutimo lernado). Tamen, ĉi tio ne ekskludas ekziston de model-bazitaj sistemoj laborantaj ĉe la plej altaj niveloj de la hierarkio. Oni povas simple enkorpigi la PFC-dependan cel-direktitan taksadon kaj decidan sistemon en la modelon supozante ke agoj ĉe la plej altaj niveloj de abstraktado estas taksitaj de celo-direktita sistemo. Kvankam tia komplikaĵo ne ŝanĝas la naturon de rezultoj prezentitaj en ĉi tiu manuskripto, ĝia sekvanta plia fleksebleco en klarigado de alia aspekto de dependeco estas lasita al estontaj studoj. Fakte, en nia modelo, sendepende de ĉu celo-rekta sistemo ekzistas aŭ ne, la diferenco en la asimptota valoro de drogo-serĉado inter la du ekstremoj de la hierarkio kreskas kun la nombro de decidaj niveloj regataj de la "kutima" procezo. .

En la lumo de nia teorio, recidivo povas esti vidata kiel reviviĝo de neaktivaj kutimoj de adaptiĝo de motoraj niveloj, post periodo de supereco de kognaj niveloj. Fakte oni povas imagi, ke rezulte de kognitiva terapio (en homaj droguloj) aŭ deviga malapero (en bestaj modeloj de abstinado), alta valoro de serĉado de drogoj ĉe la detala nivelo de la hierarkio ne estingiĝas, sed fariĝas dormanta pro ŝanĝi reen al regoj al kognaj niveloj. Ĉar drogrilata konduto estas sentema al malfavoraj konsekvencoj je abstraktaj niveloj, tial drogo-serĉado povas esti evitita dum altnivelaj kognaj procezoj regas kontrolon de konduto. Oni eĉ povas spekuli, ke la popularaj paŝaj programoj de 12 (ekz. Alkoholuloj Anonimaj, Narkotaĵaj Anonimaj, ktp.) Parte funkcias eksplicite postulante al la partoprenantoj agnoski la nekonsekvencon de ilia drogrilata vivstilo, tiel kapabligante la abstraktajn kognitivajn nivelojn praktiki eksplicitan kontrolon de siaj partoprenantoj. konduto. Streĉemaj kondiĉoj aŭ re-ekspozicio al drogo (priming) povas esti konsiderataj kiel faktoroj de risko, kiuj malfortigas la superecon de abstraktaj niveloj super konduto, kio povas rezulti en reapero de respondemaj serĉantaj drogoj (pro la latentaj altaj ne-kognaj valoroj) ).

Resume, ni proponas koheran raporton pri pluraj, ŝajne malsimilaj fenomenoj karakterizaj por drogmanio. Nia modelo provizas normigan raporton pri datumoj pri la diferencaj roloj de la ventraj kontraŭ dorsaj striataj cirkvitoj en akiro de drogoj kaj kutima agado, same kiel la selektema rolo de nutrado DA-konektebleco por efikoj de drogo kontraŭ naturaj plifortigiloj. Plej grave, ni montras, kiel la drogo-induktita patologio en ventraj al-dorsaj DA-signaloj fluantaj la motivajn informojn laŭ kogna reprezenta hierarkio povus konduki al malakordo inter la abstraktaj sintenoj de toksomaniuloj al drog-serĉado kaj kion ili efektive faras. Evidente, nia modelo ne donas kaj ne celas doni kompletan raporton pri drogmanio. Klarigi aliajn neklarigitajn aspektojn de toksomanio postulas enkorpigi multajn aliajn cerbajn sistemojn, kiuj pruviĝas esti trafitaj de drogoj de misuzo [42]. Kiel inkluzivi tiajn sistemojn en la formala komputila reto restas temo por plia enketo.

Subtenanta Informon

Dosiero_S1.pdf
 

Figuro S1,Specimeno de decida hierarkio kun kvin niveloj de abstraktado. Figuro S2, La responda neŭra cirkvito por la tri diskutitaj valoraj lernaj algoritmoj estas hierarkia decida strukturo. A, Uzante simplan TD-lernadan algoritmon (ekvacio S7), la antaŭdira erara signalo en ĉiu nivelo de abstraktado estas kalkulita sendepende de aliaj niveloj. B, En la modelo proponita de Haruno kaj Kawato (4) (ekvacio S8), la valoro de la provizore ŝtato venas de pli alta nivelo de abstraktado. C, en nia modelo (ekvacio S9) la valoro de la provizora stato estas anstataŭigita per kombinaĵo de la rekompenco kaj Q-valoro de la farita ago je pli alta nivelo de abstraktado. Figuro S3, Nia modelo antaŭdiras malsamajn agokampojn de drogoj en la rekompenca-lernada cirkvito: lokoj 1 al 3. Kontraŭe, medikamentoj, kiuj influas lokojn 4 al 6, ne rezultos en kondutaj kaj neŭobiobiologiaj skemoj produktitaj de simulado de la modelo de medikamentoj, sed produktos rezultojn similajn al la kazo de naturaj rekompencoj. Figuro S4, La tasko uzata por simuli la necertec-bazan konkurencan mekanismon inter la niveloj de la hierarkio por preni kontrolon de konduto. Figuro S5, Simula rezulto, montrante laŭpaŝan ŝanĝon de kontrolo de konduto de pli alta al pli malaltaj niveloj de la hierarkio. Q (s, a) kaj Usono) montru la taksitan valoron kaj necertecon de la ŝtat-agaj paroj respektive.

Dosiero S1.

Figuro S1,Specimeno de decida hierarkio kun kvin niveloj de abstraktado. Figuro S2, La responda neŭra cirkvito por la tri diskutitaj valoraj lernaj algoritmoj estas hierarkia decida strukturo. A, Uzante simplan TD-lernadan algoritmon (ekvacio S7), la antaŭdira erara signalo en ĉiu nivelo de abstraktado estas kalkulita sendepende de aliaj niveloj. B, En la modelo proponita de Haruno kaj Kawato (4) (ekvacio S8), la valoro de la provizore ŝtato venas de pli alta nivelo de abstraktado. C, en nia modelo (ekvacio S9) la valoro de la provizora stato estas anstataŭigita per kombinaĵo de la rekompenco kaj Q-valoro de la farita ago je pli alta nivelo de abstraktado. Figuro S3, Nia modelo antaŭdiras malsamajn agokampojn de drogoj en la rekompenca-lernada cirkvito: lokoj 1 al 3. Kontraŭe, medikamentoj, kiuj influas lokojn 4 al 6, ne rezultos en kondutaj kaj neŭobiobiologiaj skemoj produktitaj de simulado de la modelo de medikamentoj, sed produktos rezultojn similajn al la kazo de naturaj rekompencoj. Figuro S4, La tasko uzata por simuli la necertec-bazan konkurencan mekanismon inter la niveloj de la hierarkio por preni kontrolon de konduto. Figuro S5, Simula rezulto, montrante laŭpaŝan ŝanĝon de kontrolo de konduto de pli alta al pli malaltaj niveloj de la hierarkio. Q (s, a) kaj Usono) montru la taksitan valoron kaj necertecon de la ŝtat-agaj paroj respektive.

doi: 10.1371 / journal.pone.0061489.s001

(PDF)

Dankojn

Ni dankas al S. Ahmed kaj P. Dayan por kritikaj diskutoj, kaj M. Reinoud, D. Redish, N. Daw, E. Koechlin, kaj A. Dezfouli pro komentoj pri la manuskripto.

Aŭtoro Kontribuoj

Koncipita kaj desegnita la eksperimentojn: MK. Efektivigis la eksperimentojn: MK. Analizis la datumojn: MK BG. Kontribuantaj reakciantoj / materialoj / analizo-iloj: MK. Skribis la artikolon: MK BG.

Referencoj

  1. 1. Narcotics Anonymous (2008). 6th red. Monda Serva Oficejo.
  2. 2. Goldstein A (2001) Dependeco: De Biologio al Droga Politiko. Oxford University Press, Usono.
  3. 3. Volkow ND, Fowler JS, Wang GJ, Swanson JM (2004) Dopamino en drogmanio kaj dependeco: rezultoj de bildigaj studoj kaj kuracaj implikaĵoj. Molekula Psikiatrio 9: 557-569. doi: 10.1038 / sj.mp.4001507. Trovu ĉi tiun artikolon enrete
  4. 4. Stacy AW, Wiers RW (2010) Implicita sciiĝo kaj dependeco: ilo por klarigi paradoksan konduton. Ĉiujara revizio de klinika psikologio 6: 551-575. doi: 10.1146 / annurev.clinpsy.121208.131444. Trovu ĉi tiun artikolon enrete
  5. 5. Manlibro diagnóstico kaj estadístico de mensaj malordoj (DSM-4a) (2000). 4th red. Washington, DC: American Psychiatric Association.
  6. 6. Ŝafido RJ, Preston KL, Schindler CW, Meisch RA, Davis F, et al. (1991) La plifortikigaj kaj subjektivaj efikoj de morfino en post-droguloj: studo de dozo-respondo. La pharmacurnalo pri Farmakologio kaj eksperimentaj terapioj 259: 1165-1173. Trovu ĉi tiun artikolon enrete
  7. 7. Goldstein RZ, Woicik PA, Moeller SJ, Telang F, Jayne M, kaj aliaj. (2010) Ŝatado kaj manko de medikamentoj kaj ne-medikamentaj rekompencoj en aktivaj kokainaj uzantoj: la KUDA BIKOJO-R. Urnalo de psikofarmacologio 24: 257-266. doi: 10.1177/0269881108096982. Trovu ĉi tiun artikolon enrete
  8. 8. Everitt BJ, Robbins TW (2005) Neŭtralaj sistemoj de plifortigo por drogomanio: de agoj ĝis kutimoj al devigo. Nature Neuroscience 8: 1481-1489. doi: 10.1038 / nn1579. Trovu ĉi tiun artikolon enrete
  9. 9. Redish AD (2004) Dependeco kiel komputa procezo misfunkciata. Scienco NENIU: NOMO-NE. doi: 10.1126 / science.1102384. Trovu ĉi tiun artikolon enrete
  10. 10. Dezfouli A, Piray P, Keramati MM, Ekhtiari H, Lucas C, kaj aliaj. (2009) Neŭkomputa modelo por toksomanio al kokaino. Neŭrala Komputado 21: 2869-2893. doi: 10.1162 / neco.2009.10-08-882. Trovu ĉi tiun artikolon enrete
  11. 11. Piray P, Keramati MM, Dezfouli A, Lucas C, Mokri A (2010) Individuaj diferencoj en kerno accumbens riceviloj de dopaminoj antaŭdiras evoluon de dependeco-simila konduto: komputa aliro. Neŭrala Komputado 22: 2334-2368. doi: 10.1162 / NECO_a_00009. Trovu ĉi tiun artikolon enrete
  12. 12. Dayan P (2009) Dopamino, plifortikigado kaj toksomanio. Pharmacopsychiatry 42: 56-65. doi: 10.1055 / s-0028-1124107. Trovu ĉi tiun artikolon enrete
  13. 13. Takahashi Y, Schoenbaum G, Niv Y (2008) Silenti la kritikistojn: komprenante la efikojn de koka sentivigado sur dorsolateral kaj ventra striatum en la kunteksto de aktoro / kritika modelo. Landlimoj en Neŭroscienco NENIU: NOMO-NE. doi: 10.3389 / neuro.01.014.2008. Trovu ĉi tiun artikolon enrete
  14. 14. Redish AD, Jensen S, Johnson A (2008) Unuigita kadro por dependeco: vundeblecoj en la decida procezo. La Kondutaj kaj Cerbaj Sciencoj 31: 415-487. doi: 10.1017 / S0140525X0800472X. Trovu ĉi tiun artikolon enrete
  15. 15. Botvinick MM (2008) Hierarkiaj modeloj de konduto kaj prefrontala funkcio. Tendencoj en kognaj sciencoj 12: 201-208. doi: 10.1016 / j.tics.2008.02.009. Trovu ĉi tiun artikolon enrete
  16. 16. Haruno M, Kawato M (2006) Heterarkia plifortigo-lernanta modelo por integriĝo de multaj kortiko-striaraj bukloj: fMRI-ekzameno en stimula-aga-rekompenciĝa lernado. Neŭrona Retoj 19: 1242-1254. doi: 10.1016 / j.neunet.2006.06.007. Trovu ĉi tiun artikolon enrete
  17. 17. Willuhn I, Burgeno LM, Everitt BJ, Phillips PEM (2012) Hierarkia rekrutado de fazikaj dopaminaj signaladoj en la striato dum la progreso de kokaino. Agadoj de la Nacia Akademio de Sciencoj NULO: NOMO-NOMBRO. doi: 10.1073 / pnas.1213460109. Trovu ĉi tiun artikolon enrete
  18. 18. Botvinick MM, Niv Y, Barto AC (2009) Hierarkie organizita konduto kaj ĝiaj neŭrala fundamentoj: plifortigo lernado perspektivo. Scii 113: 262-280. doi: 10.1016 / j.cognition.2008.08.011. Trovu ĉi tiun artikolon enrete
  19. 19. Badre D, D'Esposito M (2009) Ĉu la rostro-kaŭdala akso de la frunta lobo estas hierarkia? Nature Reviews Neuroscience 10: 659-669. doi: 10.1038 / nrn2667. Trovu ĉi tiun artikolon enrete
  20. 20. Koechlin E, Ody C, Kouneiher F (2003) La arkitekturo de kogna kontrolo en la homa prefrontala kortekso. Scienco NENIU: NOMO-NE. doi: 10.1126 / science.1088545. Trovu ĉi tiun artikolon enrete
  21. 21. Badre D, Hoffman J, Cooney JW, D'Esposito M (2009) Jeraricaliaj kognaj kontrolaj deficitoj post damaĝo al la homa frunta lobo. Natura neŭroscienco 12: 515-522. doi: 10.1038 / nn.2277. Trovu ĉi tiun artikolon enrete
  22. 22. Alexander GE, DeLong MR, Strick PL (1986) Paralela organizo de funkcie apartigitaj cirkvitoj ligantaj bazajn ganglionojn kaj kortekso. Ĉiujara Revizio de Neŭroscienco 9: 357-381. doi: 10.1146 / annurev.neuro.9.1.357. Trovu ĉi tiun artikolon enrete
  23. 23. Alexander GE, Crutcher MD, DeLong MR (1990) Bazaj ganglioj-thalamocortical cirkvitoj: paralelaj substratoj por motoro, oculomotor, prefrontal kaj limbic funkcioj. Progreso en Brain Research 85: 119-146. Trovu ĉi tiun artikolon enrete
  24. 24. Schultz W, Dayan P, Montague PR (1997) Neŭra substrato de antaŭdiro kaj rekompenco. Scienco NENIU: NOMO-NE. doi: 10.1126 / science.275.5306.1593. Trovu ĉi tiun artikolon enrete
  25. 25. Belin D, Everitt BJ (2008) Kokainaj serĉaj kutimoj dependas de dopamina-dependa serio-konektebleco liganta la ventralon kun dorsa striato. Neŭrono 57: 432-441. doi: 10.1016 / j.neuron.2007.12.019. Trovu ĉi tiun artikolon enrete
  26. 26. Haber SN, Fudge JL, McFarland NR (2000) Striatonigrostriatalaj Vojoj en Primatoj formas Ascendan Spiralon de la Ŝelo ĝis la Dorsolateral-Striatum. La urnalo de Neŭroscienco 20: 2369-2382. Trovu ĉi tiun artikolon enrete
  27. 27. Haber SN (2003) La primatoj bazaj ganglioj: paralelaj kaj integralaj retoj. Ofurnalo de Kemia Neŭronoatomio 26: 317-330. doi: 10.1016 / j.jchemneu.2003.10.003. Trovu ĉi tiun artikolon enrete
  28. 28. Sutton RS, Barto AG (1998) Lernado de Plifortigo: Enkonduko. Kembriĝo: MIT-Gazetaro.
  29. 29. Di Chiara G, Imperato A (1988) Drogoj mistraktitaj de homoj pliigas sinaptikan dopaminan koncentriĝon en la mesolimba sistemo de libere movaj ratoj. Agadoj de la Nacia Akademio de Sciencoj de Usono de Ameriko. Xuste: ĈIUJN-NULO. doi: 10.1073 / pnas.85.14.5274. Trovu ĉi tiun artikolon enrete
  30. 30. Daw ND, Niv Y, Dayan P (2005) Necertec-bazita konkurenco inter antaŭfrontaj kaj dorsolateraj stria sistemoj por konduteca kontrolo. Nature Neuroscience 8: 1704-1711. doi: 10.1038 / nn1560. Trovu ĉi tiun artikolon enrete
  31. 31. Vanderschuren LJMJ, Ciano PD, Everitt BJ (2005) Implikiĝo de la dorsstriato en serĉ-kokana serĉado. La urnalo de Neŭroscienco 25: 8665-8670. doi: 10.1523 / JNEUROSCI.0925-05.2005. Trovu ĉi tiun artikolon enrete
  32. 32. Volkow ND, Wang GJ, Telang F, Fowler JS, Logan J, kaj aliaj. (2006) Kokainaj indikoj kaj dopamino en dorsstrato: mekanismo de avido en kokaindependeco. La urnalo de Neŭroscienco 26: 6583-6588. doi: 10.1523 / JNEUROSCI.1544-06.2006. Trovu ĉi tiun artikolon enrete
  33. 33. Kalivas PW, Volkow ND (2005) La neŭra bazo de toksomanio: patologio de instigo kaj elekto. Amerika Revuo pri Psikiatrio 162: 1403 – 1413. doi: 10.1176 / appi.ajp.162.8.1403. Trovu ĉi tiun artikolon enrete
  34. 34. Belin D, Jonkman S, Dickinson A, Robbins TW, Everitt BJ (2009) Paralelaj kaj interagaj lernadaj procezoj ene de la bazaj ganglioj: graveco por kompreno de toksomanio. Konduta Cerbo-Esploro 199: 89 – 102. doi: 10.1016 / j.bbr.2008.09.027. Trovu ĉi tiun artikolon enrete
  35. 35. Matsumoto M, Hikosaka O (2009) Du specoj de dopamina neŭro distingas distinge pozitivajn kaj negativajn motivajn signalojn. Naturo 459: 837 – 841. doi: 10.1038 / nature08028. Trovu ĉi tiun artikolon enrete
  36. 36. Frank MJ, Surmeier DJ (2009) Ĉu substantia nigra dopaminergiaj neŭronoj diferencas inter rekompenco kaj puno? Journal of Molecular Cell Biology (Revuo por Molekula Ĉela Biologio) 1: 15 – 16. doi: 10.1093 / jmcb / mjp010. Trovu ĉi tiun artikolon enrete
  37. 37. Vanderschuren LJMJ, Everitt BJ (2004) La serĉado de drogoj fariĝas deviga post longedaŭra administrado de kokaino. Scienco 305: 1017 – 1019. doi: 10.1126 / science.1098975. Trovu ĉi tiun artikolon enrete
  38. 38. Deroche-Gamonet V, Belin D, Piazza PV (2004) Evidenteco por toksomaniul-simila konduto en la rato. Scienco 305: 1014 – 1017. doi: 10.1126 / science.1099020. Trovu ĉi tiun artikolon enrete
  39. 39. Panlilio LV, Thorndike EB, Schindler CW (2007) Blokado de kondiĉado al kokaina parigita stimulo: testi la hipotezon, ke kokaino eterne produktas signalon de pli granda ol atendata rekompenco. Farmakologio, Biokemio, kaj Konduto 86: 774 – 777. doi: 10.1016 / j.pbb.2007.03.005. Trovu ĉi tiun artikolon enrete
  40. 40. Kamin L (1969) Antaŭvidebleco, surprizo, atento kaj kondiĉado. En: Campbell BA, Church RM, redaktistoj. Puno kaj avara konduto. New York: Appleton-Century-Crofts. pp 279 – 296.
  41. 41. Dezfouli A, Balleine BW (2012) Kutimoj, agaj sekvencoj kaj plifortiga lernado. La eŭropa gazeto pri neŭroscienco 35: 1036 – 1051. doi: 10.1111 / j.1460-9568.2012.08050.x. Trovu ĉi tiun artikolon enrete
  42. 42. Koob GF, Le Moal M (2005) Neurobiologio de toksomanio. San-Diego: Akademia Gazetaro