Незбалансована ієрархія прийняття рішень у наркоманів, що вийшли зі спіралі допаміну (2013)

 

  • Мехді Керамати пошта,
     
  • Борис Гуткін

 

абстрактний

Незважаючи на те, що явно хочуть кинути палити, довготривалі наркомани виявляються безсилими протистояти наркотикам, незважаючи на те, що прийом наркотиків може бути шкідливим шляхом. Така невідповідність між явним знанням негативних наслідків та компульсивними поведінковими моделями представляє когнітивний / поведінковий конфлікт, який є основною характеристикою наркоманії. Нейробіологічно, диференційована індукована активність в окремих стриатальних субрегіонах, а також дофаміновий зв’язок, що спіралізується з вентральних смугастих областей до спинних, відіграють важливу роль у компульсивному пошуку наркотиків. Однак функціональний механізм, який інтегрує ці нейрофармакологічні спостереження із вищезазначеним когнітивним / поведінковим конфліктом, невідомий. Тут ми пропонуємо офіційне обчислювальне пояснення когнітивної невідповідності, спричиненої наркотиками, яка виявляється в "самоописаній помилці" наркоманів. Ми показуємо, що наркотики, що викликають залежність, поступово створюють мотиваційний ухил до пошуку наркотиків у звичних процесах прийняття рішень на низькому рівні, незважаючи на низьку абстрактну когнітивну оцінку цієї поведінки. Ця патологія виникає в рамках ієрархічного підкріплення, коли хронічний вплив препарату фармакологічно виробляє стійкі патологічні фазові сигнали дофаміну. Тим самим препарат викрадає дофамінергічні спіралі, які каскадно підкріплюють сигнали вниз по вентро-дорсальній кортико-смуговій ієрархії. Нейробіологічно наша теорія пояснює швидкий розвиток викиду дофаміну, викликаного ліками, у вентральний смугастий вузол та уповільнену реакцію в спинному стриатумі. Наша теорія також показує, як цей шаблон реакції критично залежить від схеми спіралі дофаміну. Поведінково, наші рамки пояснюють поступову нечутливість людей, які шукають наркотики, до покарань, пов'язаних з наркотиками, явище блокування наслідків наркотиків та стійку перевагу наркоманів перед природними винагородами наркоманів. Модель пропонує прогнозовані прогнози, і крім цього, створює основу для погляду на залежність як на патологію ієрархічних процесів прийняття рішень. Цей погляд доповнює традиційне трактування залежності як взаємодії між звичними та цілеспрямованими системами рішень.

Вступ

"Ми визнали, що ми були безсилі над нашою залежністю, що наше життя стало некерованим", - стверджує перший принцип програми "Анонімний наркотик 12" [1]. Це свідчить про те, як безправні наркомани опиняються, коли йдеться про протидію наркотикам, незважаючи на те, що прийом наркотиків є неправильним [2]-[4]. Насправді, відмітною ознакою наркоманії є компульсивний пошук наркотиків навіть за рахунок явних несприятливих наслідків [5]. Підпис такого патологічного поведінки стає очевидним в контрольованих експериментах, де наркомани виявляють характерну «самоописану помилку»: невідповідність між потужною поведінковою реакцією на асоційований з наркотиками вибір і відносно низькою суб'єктивною цінністю, про яку повідомляє наркоман про препарат [4], [6], [7]. У поєднанні з втратою інгібуючого когнітивного контролю над поведінкою, після тривалого впливу на наркотики, ця розбіжність між когнітивними планами і зведеними звичками може призвести до переходу від випадкової до компульсивної поведінки, що вимагає наркотиків. [8].

Втрата когнітивного контролю та самоописана помилка дотепер уникли принципового пояснення формальними моделями звикання [9]-[13]. Попередні обчислювальні теорії наркоманії, в основному в рамках підкріплення, розглядають залежність як патологічний стан системи навчання (стимул-відповідь). [9]-[13]. Центральною гіпотезою всіх цих моделей є те, що фармакологічний вплив ліків на передачу сигналів дофаміну, який, як передбачається, несе в собі сигнал про стимул-відповідь, призводить до поступового надмірного посилення таких асоціацій. Цей ефект, у свою чергу, призводить до примусових звичок до пошуку наркотиків. Хоча цей зменшений погляд на наркоманію охопив деякі аспекти явища, зростаючий консенсус у літературі про наркоманію вказує на те, що до патології залучені численні системи навчання. Тільки така більш складна картина, яка включає когнітивні, а також звичні процеси на низькому рівні, може пояснити різноманітність поведінки, подібної до залежності. [8], [14].

У цій роботі ми застосовуємо підхід до навчання ієрархічного підкріплення [15] де рішення представлені на різних рівнях абстракції, в ієрархії когнітивно-рухової. Ми припускаємо, що каскад дофамін-залежних навчальних сигналів пов'язує рівні ієрархії разом [16]. Далі ми припускаємо, що наркотичні засоби фармакологічно захоплюють механізм зв'язку між рівнями абстракції. Виходячи з цих припущень, ми показуємо, що повідомлений когнітивний дисонанс у наркоманів виникає в рамках ієрархічного підкріплення, коли хронічне вплив на наркотики порушує навчання цінності в ієрархії рішень. Цей зрив призводить до патологічної переоцінки вибору наркотиків на звичних процесах на низькому рівні і, отже, призводить до звичної поведінки, пов'язаної з наркотиками. Потім ми продемонструємо, що «нелюбові», але компульсивні пошуки наркотиків можна пояснити, як захоплені наркотиками приховані процеси низького рівня, що домінують, а здорові когнітивні системи на найвищих рівнях представництва втрачають контроль над поведінкою. Крім того, ми продемонстрували, що запропонована модель може врахувати недавні докази швидкого проти затримки розвитку дофамінового витікання з дофаміном у вентральній і дорзальній смужці відповідно, а також залежність цієї моделі від спіралінгу допаміну.

Матеріали та методи

Попередні заходи

У відповідності до багатої літератури пізнавальної психології наше ієрархічне навчання [15], [18] Рамка передбачає, що абстрактний пізнавальний план, як «заварювання чаю», може бути розбитий на послідовність дій нижнього рівня: кип'ятіння води, нанесення чаю в горщик і т.д. Таке розкладання триває до тих пір, поки конкретні реакції на моторному рівні на найнижчому рівні ієрархія (Малюнок 1A). Нейробіологічно, різні рівні ієрархії рішень від когнітивних до рухових рівнів представлені уздовж ростро-каудальної осі ланцюга кортико-базальних гангліїв (БГ). [19]-[21]. Цей контур складається з декількох паралельних замкнутих петель між лобовою корою і базальними гангліями [22], [23] (Малюнок 1B). В той час як передні петлі лежать в основі більш абстрактного уявлення про дії, каудальні петлі, що складаються з сенсорно-моторної кори і дорсолатерального стриатума, кодують звички низького рівня [19]-[21].

слайдами

Малюнок 1. Ієрархічна організація поведінки і кортико-БГ ланцюга.

A, Приклад ієрархії рішень для двох альтернативних варіантів: препарат проти їжі. Кожен курс дії представлений на різних рівнях абстракції, нібито кодованих на різних кортико-BG петель. Пошук кожного з двох типів винагороди може спричинити покарання величини 16. BГлутаматергічні з'єднання з різних префронтальних ділянок проектуються до стриатичних субрегіонів і потім проектуються назад до ПФУ через паллідум і таламус, утворюючи кілька паралельних петель. Через стриато-нігро-стриарную мережу дофаміну вентральні області стриатуму впливають на більш дорсальні області. vmPFC, вентральна медіальна префронтальна кора; OFC, орбітальна лобова кора; dACC, дорсальна передня поясна кору головного мозку; SMC, сенсорно-моторна кора; VTA, вентральна тегментальна область; SNc, substantia nigra pars compacta. Малюнок 1B Змінено з ref 21.

doi: 10.1371 / journal.pone.0061489.g001

У межах цієї схеми фазова активність допамінових нейронів (DA) середнього мозку, що проектуються в смугасте тіло, сигналізує про помилку між передбаченими і отриманими винагородами, тим самим несучи підсилюючу інформацію про стимул-відповідь. [24]. Ці DAergic проекції утворюють каскадний послідовний зв'язок, що зв'язує більш вентральні області смугастого тіла з прогресивно більш дорсальними областями через так звані «спіральні» з'єднання [25]-[27] (Малюнок 1B). Функціонально така переадресуюча організація, що з'єднує ростраль з каудальними петлями кортико-BG, дозволяє спрямовувати зв'язок від грубих до тонких зображень. Відповідно, спіралі ДА висувають гіпотезу, щоб забезпечити нейробіологічний субстрат для прогресивного налаштування помилки прогнозування винагороди вищими рівнями ієрархії (кодування абстрактних знань про значення поведінкових варіантів). Потім ця помилка використовується для оновлення значень дій на більш деталізованих рівнях [16]. Іншими словами, спіралі ДА дозволяють абстрактним когнітивним рівням оцінювання керувати навчанням у більш детальних процесах оцінки дій.

Теорія ескізу

З точки зору обчислювальної теорії підкріплення навчання [28] (RL), агент (у нашому випадку людина або тварина) навчається робити обґрунтовані вибір дій шляхом оновлення свого попереднього оціночного значення, , для кожної пари дій держави, , коли винагорода отримується агентом вчасно в результаті виконання дії в контекстному стані (стимул) . Значення оновлюється шляхом обчислення сигналу про помилку прогнозування винагороди. Цей сигнал залежить не тільки від миттєво отриманої винагороди (), але також і про значення нового стану, в якому агент закінчується, після того, як було виконано цю дію. Позначається ця тимчасово-розширена функція цінності являє собою суму майбутніх нагород, яку тварина очікує отримати від результуючого стану, , далі. Помилка прогнозування може бути обчислена за допомогою наступного рівняння:


(1)

Інтуїтивно, сигнал помилки передбачення обчислює розбіжність між очікуваним і реалізованим винагороджувальним значенням дії. Однак у ієрархічній структурі прийняття рішень, а не вивчення -значення самостійно на різних рівнях, більш абстрактні рівні можуть налаштувати навчальний сигнал, розрахований на нижчих рівнях. Оскільки більш високі рівні ієрархії являють собою більш абстрактне уявлення про екологічні обставини, навчання відбувається швидше в цих рівнях. Це пов'язано з відносною низькою розмірністю абстрактного подання поведінки: план дій може бути представлений як єдиний крок (один вимір) на верхньому рівні ієрархії і як багаторазові деталізовані дії (кілька розмірів) на нижчих рівнях ієрархії. Значення найвищого рівня цього плану дій буде вивчено швидко, порівняно з деталізованими рівнями, де помилки винагороди потребуватимуть зворотного поширення всіх детальних дій. Таким чином, налаштування значень нижнього рівня на значення інформації з більш високих рівнів може прискорити зближення цих значень. Один статистично ефективний спосіб цього полягає в тому, щоб припустити, що для обчислення сигналу помилки прогнозування в -й рівень абстракції, , функція тимчасового розширення, , надходить з одного вищого рівня абстракції, [16]:


(2)

Щоб зберегти оптимальність, рівняння 2 можна використовувати для обчислення помилки прогнозування тільки тоді, коли виконується остання примітивна дія абстрактної опції (див. Малюнок S1 в Файл S1). В інших випадках ціннісне навчання на різних рівнях відбувається незалежно, як у рівнянні 1. В обох випадках навчальний сигнал потім використовується для оновлення попередніх значень на відповідному рівні:


(3)
де - швидкість навчання. Ця форма міжрівневого обміну інформацією є біологічно правдоподібною, оскільки вона відображає спіральну структуру схеми ДА, несучи інформацію вниз по ієрархії у вентро-дорсальному напрямку. У той же час, орієнтовані на більш абстрактні рівні значно прискорює навчання, полегшуючи високомірність навчання цінності на деталізованих рівнях [16].

У цій роботі ми показуємо, що взаємодія між модифікованою версією моделі розвивалася в Росії [16] і специфічні фармакологічні ефекти наркотичних засобів на дофамінергічну систему можуть фіксувати дані, пов'язані з наркоманією, в радикально різних масштабах аналізу: поведінкові та нейробіологічні рівні. По-перше, нова модель призводить до можливого переконливого пояснення декількох інтригуючих поведінкових аспектів, пов'язаних з пристрастю до наркотиків (наприклад, сама описана помилка) [4], [6], [7]). По-друге, ми можемо пояснити широкий спектр доказів щодо динаміки вивільнення дофаміну, викликаного препаратом [17].

Ми модифікуємо представлену модель [16] наступним чином. Ми робимо модель більш ефективною за обсягом робочої пам'яті шляхом заміни з , в рівнянні 2, оскільки ці два значення збігаються до одного рівномірного рівня (див. малюнок S2 в Файл S1для обчислювальної та нейробіологічної бази):


(4)

Тут, є відносно абстрактним варіантом і є останньою примітивною дією в поведінковій послідовності, яка повністю заповнює цей варіант. Аналогічно є корисним значенням , Який включає в себе (корисна цінність ).

Важливим є те, що різні наркотики, які зловживають люди, мають основне властивість фармакологічно підвищувати концентрацію дофаміну в смугастому тілі [29]. Відповідно, ми враховуємо цей фармакологічний ефект препарату, додаючи позитивне зміщення, , (Дивіться також [9]-[12]) до сигналу помилки передбачення, що переноситься дофаміновими нейронами (див. малюнок S3 в Файл S1для обчислювальної та нейробіологічної бази):


(5)

тут фіксує прямий фармакологічний ефект препарату на систему DA, і це його зміцнювальне значення внаслідок ейфогенних ефектів (див Файл S1 для додаткової інформації).

Хоча рівняння 3 і 5 разом визначають обчислювальний механізм для оновлення значень в нашій моделі, ми також припускаємо, що механізм конкуренції на основі невизначеності визначає рівень абстракції, що керує поведінкою. Це надихає запропонований механізм [29] для арбітражу між звичними і цілеспрямованими системами. У цьому відношенні в кожній точці рішення тільки поведінка контролює рівень абстракції з найвищою впевненістю в оцінці значення вибору. Як тільки цей рівень прийняв рішення діяти, всі нижчі рівні ієрархії будуть розгорнуті цим домінантним рівнем для реалізації вибраної дії як послідовності примітивних моторних відповідей (див. Файл S1 для додаткової інформації; Малюнок S4 в Росії Файл S1; Малюнок S5 в Росії Файл S1). Після отримання зворотного зв'язку від навколишнього середовища, значення на всіх рівнях оновлюються. Цей арбітражний механізм, заснований на невизначеності, передбачає, що оскільки абстрактні процеси є більш гнучкими, вони мають кращу здатність до наближення вартості на ранніх стадіях навчання і, таким чином, контролюють поведінку на цих етапах. Однак, оскільки абстрактні рівні використовують грубе представлення навколишнього середовища (наприклад, завдяки наявності відносно невеликої кількості базисних функцій), їхня здатність до наближення кінцевої величини не є настільки точної, як деталізовані рівні. Іншими словами, після тривалого навчання достовірність, пов'язана з розрахунковими значеннями, є нижчою для нижчих рівнів ієрархії порівняно з верхніми рівнями. Таким чином, за допомогою прогресивного навчання нижчі рівні ієрархії приймають контроль над відбором дій, оскільки їх невизначеність поступово зменшується. Це узгоджується з кількома лініями доказів, що свідчать про прогресивне домінування спинного над вентральним стриатумом у контролі за пошуком наркотиків (а також у пошуках природних винагород). [8], [30], [31].

результати

Невідповідність оцінки ієрархії виникає під впливом наркотиків, але не природних

На відміну від попереднього підкріплення навчально-орієнтовані обчислювальні моделі залежності [9]-[13] які базуються на підході до єдиного рішення, наш обліковий запис побудований на системі, що взаємодіє з кількома взаємодіючими системами. Як результат, хоча форма моделювання впливу препарату на сигнал про помилку прогнозування в нашій моделі подібна до попередньої [9]-[12]це призводить до принципово різних наслідків. Індуковане препаратом перехідне збільшення дофаміну підвищує помилку негайного прогнозування на кожному рівні ієрархії і, як наслідок, залучає зміщення, , про перенесення знань з одного рівня абстракції на наступний, уздовж грубого і точного напрямку ієрархії. Це зміщення викликає асимптотичну цінність пошуку наркотиків на даному рівні одиниць вище, ніж у ще одного абстрактного шару (Малюнок 2B). Накопичення цих розбіжностей по ростро-каудальній осі поступово викликає значні відмінності у значенні поведінки, що шукає наркотики, між верхньою і нижньою крайностями ієрархії. Таким чином, навіть якщо супроводжується сильним покаранням, цінність пов'язаної з наркотиками поведінки залишається позитивною на моторних петлях низького рівня, тоді як вона стає негативною на когнітивних рівнях. Іншими словами, модель передбачає, що накопичення ефекту препарату над спіралями ДА підвищує цінність наркотиків на звичках до моторного рівня до такої амплітуди, що навіть сильне природне покарання не зможе достатньо зменшити його. Ми припускаємо, що це пояснює невідповідність між когнітивною та низькою оцінкою поведінки, пов'язаної з наркотиками, у наркоманів. Іншими словами, ми пропонуємо, що компульсивний пошук наркотиків і значно знижена еластичність до супутніх витрат випливають з фармакологічного ефекту захоплення препарату дофамін-залежним механізмом, який передає інформацію між рівнями ієрархії рішень.

слайдами

Малюнок 2. Мотивація на харчування проти наркотиків на різних рівнях абстракції (результати моделювання).

У перших випробуваннях 150, де за винагородою не відбувається покарання, значення пошуку природних винагород на всіх рівнях сходяться до 10 (A). Однак у разі застосування препарату прямий фармакологічний ефект препарату (, встановлений в) призводить до асимптотичного значення на кожному рівні одиниць вище, ніж у одного вищого рівня абстракції (B). Таким чином, коли підуть покарання, тоді як когнітивні петлі правильно привласнюють від'ємне значення до вибору наркотиків, петлі на моторному рівні знаходять бажаний наркотик (позитивне значення). Криві на цьому малюнку показують еволюцію значень у «одній» імітованій тварині і, таким чином, не було застосовано статистичного аналізу.

doi: 10.1371 / journal.pone.0061489.g002

Хоча ліки, в нашій моделі, призводять до незбалансованої оцінки рівнів, значення природних винагород збігається до того ж значення на всіх рівнях, через відсутність прямого фармакологічного впливу на механізм сигналізації DA (). Отже, не буде спостерігатися невідповідності або переоцінки на деталізованих рівнях у випадку природних винагород (Малюнок 2A). Переоцінка відповідей на пошук наркотиків на нижчих рівнях ієрархії повинна призвести до аномальних переваг наркотиків над природними винагородами та надмірної участі у діяльності, пов'язаній з наркотиками.

Диференціальний допамін, що реагує на вентральну і проти дорсального стриатума, на пов'язані з лікарським засобом сигнали

Нейробіологічно, диференційовані ролі стриатичних субрегіонів у придбанні та вираженні наркотичної поведінки посідають центральне місце у дослідженні наркоманії. Збігаються докази з різних ліній досліджень свідчать про те, що поведінковий перехід від рекреаційного до компульсивного вживання наркотиків відображає нейробіологічний зсув оцінки від вентрального до дорзолатерального стриатуму [8], [33], [34], що відповідає переходу від когнітивних до детальних рівнів у нашій моделі. Відповідно до нашої моделі, спіральна мережа DA, що з'єднує вентраль з прогресивно більш дорсальними ділянками смугастого тіла, грає ключову роль у цьому переході [25].

У ключовому недавньому дослідженні Willuhn et al. [17] оцінювали картину вивільнення дофаміну у відповідь на асоційовані з лікарським засобом сигнали в вентральній і дорсолатеральній стриатумі щурів протягом трьох тижнів випробування кокаїну. Використовуючи циклічну вольтамперометрію швидкого сканування, критичне спостереження полягало в тому, що індукований cue витік DA в вентральному стриатуме виникає навіть після дуже обмеженої підготовки. На відміну від цього, дорсолатеральний стриатум показав спричинену cue-витіканням DA тільки після тривалого навчання, і розвиток цієї картини вивільнення зникло, коли венчастого стриатума було ушкоджено в іпсилатеральній півкулі.

Оскільки тимчасове дозвіл швидкого сканування вольтамперометрії фіксує другорядні флуктуації концентрації, спостережувана картина витікання DA повинна бути віднесена до «фазової» сигналізації DA і, таким чином, до сигналу помилки прогнозування, згідно з теорією RL дофаміну [24]. Відповідно до теорії RL, сигнал помилки прогнозування при спостереженні несподіваного стимулу дорівнює корисному значенню, яке передбачає цей стимул. Таким чином, індукований cue вивільнення DA еквівалентний величині, передбаченої цим cue.

У цьому відношенні наша ієрархічна структура надає формальне пояснення диференційованої схеми випадання вентральної в порівнянні з дорзальним стриатальним Д. [17]. Значення, яке передбачено асоційованим з наркотиками сигналом на абстрактних когнітивних рівнях ієрархії, швидко зростає на самих ранніх етапах навчання (Малюнок 2B), внаслідок низької розмірності проблеми навчання на високих рівнях абстракції. Як результат, наша модель показує, що індукований cue витік DA повинен спостерігатися в вентральному стриатумі навіть після обмеженої підготовки (малюнок 3). На більш детальному рівні представництва, однак, процес навчання повільний (Малюнок 2B), внаслідок високої розмірності проблемного простору, а також залежність навчання на більш абстрактних рівнях через спіралі ДА. Отже, індукований cue витік DA в дорсолатеральному смугастому тілі повинен розвиватися поступово і ставати помітним тільки після тривалого навчання (малюнок 3).

слайдами

Малюнок 3. Витік дофаміну в різних стриатичних субрегіонах у відповідь на пов'язані з наркотиками сигнали (результати моделювання).

Відповідно до експериментальних даних [17]Модель демонструє (лівий стовпець), що у відповідь на пов'язані з наркотиками сигнали виникне допамін у вентральному стриатумі після обмеженої та інтенсивної підготовки. Проте в більш дорсолатеральних субрегіонах викид ДА, що викликається, буде розвиватися поступово в процесі навчання. Модель передбачає (друга колонка справа), що це уповільнене розвиток cue-викликаного витікання DA в спинному стриатумі залежить від DA-залежної послідовної зв'язності, яка зв'язує вентраль з дорзальним стриатумом. Тобто, в результаті відключення спіралей DA, тоді як cue-викликаний відповідь DA залишається інтактним у вентральному стриатуме, він значно зменшується в дорсолатеральному смугастому тілі. Більш того, модель передбачає (третя колонка праворуч) подібні результати для індукованого cue витікання DA в дорсолатеральній смужці для випадку ураження черевної порожнини. Нарешті, якщо після великого спаровування препарату-інфекції у інтактних тварин покарання слідує за препаратом, то модель передбачає (праворуч), що пов'язаний з наркотиками сигнал призводить до пригнічення вентральної ніжки спіралей DA, навіть після обмеженої підготовки. У більш дорсальних областях, однак, витік ДА повільно зменшується під час навчання, але залишатиметься позитивним навіть після великого спаровування наркотиків. Дані, представлені на цій фігурі, отримані від «одного» імітаційного тварини і, таким чином, не було застосовано статистичного аналізу.

doi: 10.1371 / journal.pone.0061489.g003

Крім того, наша модель пояснює докази [17] що таке уповільнене розвиток cue-викликаного витікання DA в дорсолатеральній стриатумі залежить від вентрального стриатума (малюнок 3). У нашій моделі модельоване одностороннє ураження вентрального стриатума (абстрактний рівень оцінки в моделі) значно знижує прогнозовану цінність препарату на деталізованих рівнях в іпсилатеральній півкулі і, таким чином, значно знижує рівень витікання DA, викликаного києм. Для моделювання ураження вентрального стриатума ми просто фіксуємо значення всіх стимулів на найвищому рівні ієрархії до нуля.

Аналогічно, наша модель передбачає, що розвиток фазової сигналізації DA в дорсолатеральній смуговій смузі залежить від цілісності спірального контуру DA (малюнок 3). Насправді, розрив в круговому ланцюзі DA в нашій моделі скорочує зв'язок між рівнями абстракції, що, в свою чергу, запобігає накопиченню зміщеного від наркотиків зміщення сигналу підкріплення по рівнях ієрархії рішень. Для моделювання відключення в залежній від DA послідовної схеми вентрального до спинного стриатума ми затискаємо кожен рівень абстракції для обчислення сигналу помилки передбачення локально (як у рівнянні 3), не отримуючи значення тимчасово розширеного стану від безпосередньо вищого рівня рівень абстракції.

Більш того, модель передбачає, що картина витікання ДВ-синдрому буде змінена, якщо після тривалого навчання з кокаїном і пов'язаними з ним кокаїном, як у вищенаведеному експерименті, починається поєднання доставки кокаїну з сильним покаранням. Ми передбачаємо, що витік ДА у відповідь на асоційований з кокаїном кий швидко знижується нижче базової лінії в вентральному смугастому тілі. Однак у дорсолатеральному стриатумі вивільнення DA-індукованого DA повинно залишатися вище базового рівнямалюнок 3) з можливим частковим зменшенням затримки. Це свідчить про віднесення позитивного суб'єктивного значення до стимулюючого препарату на детальному рівні, незважаючи на негативні (нижче базових) значення на когнітивних рівнях. Примітно, що це передбачення залежить від припущення, що покарання трактується мозку просто як негативна винагорода. Це припущення дещо суперечливе: воно чітко підтверджується експериментальними дослідженнями [35], але також обговорювалися іншими [14], [36]. За винятком цього прогнозування, інші аспекти моделі не залежать від того, чи кодується покарання допаміном або іншою системою сигналізації.

Режим тренування, який використовували Willuhn et al. [34] недостатньо поширюється на виробництво компульсивної поведінки, що вимагає наркотиків, що характеризується нечутливістю до пов'язаних з наркотиками покарань [37], [38]. Таким чином, ключовим питанням, на яке необхідно відповісти, є співвідношення між затримкою розвитку відповіді, викликаної ким, в DLS, і пізнім розвитком компульсивного реагування. Згідно з нашою моделлю, компульсивна поведінка вимагає не тільки надмірної оцінки вибору лікарських засобів на низьких рівнях ієрархії, але й передачі контролю над поведінкою від абстрактного пізнання до звичних процесів низькому рівні. Масштаб часу цих двох процесів лише частково залежить один від одного: процес переоцінки залежить від сигналу помилки прогнозування, тоді як передача поведінкового контролю також залежить від відносної невизначеності оцінки вартості. Отже, переоцінка пов'язаних з наркотиками сигналів на низьких рівнях ієрархії може передувати зсуву контролю над поведінкою зверху внизу ієрархії. Точні часові шкали цих двох процесів залежать від швидкості навчання і шуму, притаманних різним рівням, відповідно (див Файл S1 для додаткової інформації). Іншими словами, ймовірно, що викид кишкового дофаміну в ДЛС може значно розвинутися до того, як компульсивний пошук наркотиків проявиться в поведінці.

Поведінкові наслідки непослідовної оцінки наркотиків проти природних винагород

У нашій моделі поведінки, якщо покарання поєднується з наркотиками на ранніх стадіях добровільного вживання наркотиків, абстрактне значення відповіді на пошук наркотиків швидко стає негативним. Припускаючи, що пошук наркотиків контролюється абстрактними рівнями на цих ранніх стадіях, негативна абстрактна оцінка вибору наркотиків робить суб'єкта не бажаючим пережити цей курс дії. Це дозволить запобігти консолідації сильного низького рівня переваги по відношенню до наркотиків з плином часу. Таким чином, модель пояснює еластичність вибору лікарських засобів щодо витрат на ранніх стадіях споживання наркотиків, але не після хронічного використання. Послідовно, тваринні моделі наркоманії показують, що нечутливість відповідей, що викликають наркотики, на шкідливі наслідки, пов'язані з лікарським засобом, розвивається тільки після тривалого самостійного застосування препарату, але не обмеженого вживання наркотиків. [37], [38]. На відміну від нашої теорії, більш ранні обчислювальні моделі залежності [9], [10] є прямим протиріччям з цією сукупністю доказів, оскільки вони передбачають, що негативні наслідки поведінки, які негайно слідують за вживанням наркотиків, не мають мотиваційного ефекту навіть на самих ранніх стадіях переживання наркотиків (див. Файл S1 для додаткової інформації).

Наша модель також пояснює виникнення блокуючого ефекту для результатів лікування [39]. Блокування є явищем кондиціонування, де попереднє спарювання стимулу A з результатом блокує формування асоціації між різним стимулом B з цим результатом у наступній фазі навчання, де і A, і B представлені до доставки результату [40]. Результати моделювання нашої моделі в павловському експериментальному проекті (див Файл S1 для додаткової інформації про павловську версію моделі) показано, що для обох випадків природних винагород і ліків, коли розрахункова величина на певному рівні ієрархії досягає сталого стану (а не зростає необмежено), подальшого навчання не відбувається рівень, оскільки сигнал помилки передбачення зменшився до нуля (малюнок 4). Таким чином, зв'язування нового стимулу з вже передбаченою винагородою буде заблоковано. Поведінкові докази, що показують блокуючий ефект, пов'язаний як з наркотичними, так і з природними підсилювачами [39] був використаний як основний аргумент для критики раніше запропонованої допамінової обчислювальної моделі залежності [9]. Тут ми показали, що фокусування на ієрархічній природі уявлень і дорсально-вентральних спіральних дофамінових петлях може насправді враховувати блокуючі дані, тим самим обходячи цю критику (див. Файл S1 для додаткової інформації).

слайдами

Малюнок 4. Блокуючий ефект для природної проти наркотиків нагороди.

Модель передбачає, що блокування відбувається для природних винагород (A) і ліків (B), тільки якщо початковий період навчання є «великим», так що перший стимул повністю прогнозує значення результату. Після «помірної» підготовки, когнітивні рівні, які є більш гнучкими, повністю передбачають значення і, таким чином, блокують подальше навчання. Проте, навчання продовжує діяти в процесах низького рівня, коли починається друга фаза навчання (одночасне представлення обох стимулів). Таким чином, наша модель передбачає, що помірне початкове навчання в блокувальному експерименті з природними нагородами також призведе до когнітивної / поведінкової неузгодженості. Дані, представлені на цій фігурі, отримані від «одного» імітаційного тварини і, таким чином, не було застосовано статистичного аналізу.

doi: 10.1371 / journal.pone.0061489.g004

Як згадувалося раніше, кілька рядків доказів свідчать про прогресивне домінування спинного над вентральним стриатумом у контролі за поведінкою під час навчання [8], [31], [32]. Будучи інтерпретована на основі цих доказів, незбалансована оцінка пошуку наркотиків у всій ієрархії також пояснює невдалі зусилля наркоманів скоротити вживання наркотиків після тривалого досвіду з наркотиками, коли контроль за виборами, пов'язаними з наркотиками, з когнітивного перейшов на низький рівень звичних процесів. Таке переважання процесів, в яких домінують наркотики, природно призводить до нееластичності поведінки до пов'язаних із наркотиками витрат (компульсивний пошук наркотиків), що, ймовірно, супроводжується помилкою, що описується собою. Однак у випадку природних винагород наша модель прогнозує, що, хоча поведінкова нееластичність зростає протягом навчання, оскільки на рівнях ієрархії не виникає невідповідності оцінки, покарання, пов'язані з винагородою, врешті-решт заважатимуть пошуку винагороди.

Наша модель фокусується на оцінці дій у “імовірно заданій” ієрархії рішень, і залишає осторонь те, як абстрактні параметри та їхні відповідні підпрограми низького рівня спочатку виявляються під час розробки. Виявлення ієрархії рішень запропоновано є процесом знизу-вгору, що виконується шляхом узгодження послідовностей низькорівневих дій і побудови більш абстрактних варіантів [41]. Цей процес, який ніби переживає перехід від дорсального до вентрального стриатуму, знаходиться в протилежному напрямку від запропонованого тут механізму конкуренції, для того, щоб взяти контроль над поведінкою.

Обговорення

Зростаючий обсяг свідчень про диференційну роль різних стриатичних субрегіонів залежність зазвичай інтерпретується в рамках звичної проти цілеспрямованої дихотомії [8], [14], [34]. Ієрархічний підхід до прийняття рішень, який ми використовуємо тут, доповнює такі подвійні облікові записи. В той час як подвійний підхід стосується різних алгоритмів (без моделі та моделі [30]) для вирішення єдиної задачі ієрархічна рамка РЛ фокусується на різних уявленнях однієї і тієї ж проблеми на різних рівнях часової абстракції. Теоретично, або звичний, або цілеспрямований алгоритм може вирішити кожне з цих різних уявлень про проблему. У нашій моделі накопичення індукованих наркотиками упереджень через спіралі ДА відбувається в умовах, де алгоритм оцінки вартості є вільним від моделі (навчання звички). Однак це не виключає існування модельних систем, що працюють на вищих рівнях ієрархії. Можна просто включити в модель PFC-залежну цільову оцінку і систему прийняття рішень, припускаючи, що дії на найвищих рівнях абстракції оцінюються системою, орієнтованою на цілі. Хоча таке ускладнення не змінює характер результатів, представлених у цій рукописі, її подальша гнучкість у поясненні інших аспектів залежності залишається для майбутніх досліджень. Насправді, в нашій моделі, незалежно від того, чи існує система прямих цілей, невідповідність в асимптотичному значенні пошуку наркотиків між двома крайнощами ієрархії зростає з числом рівнів прийняття рішень, що регулюються «звичним» процесом .

У світлі нашої теорії рецидив може розглядатися як відродження сплячих неадаптивних звичок моторного рівня після періоду домінування когнітивних рівнів. Насправді, можна собі уявити, що в результаті когнітивної терапії (у людей-наркоманів) або примусового вимирання (на тваринних моделях утримання) висока цінність пошуку наркотиків на детальному рівні ієрархії не згасає, а стає бездіяльним повернути контроль назад до когнітивних рівнів. Оскільки поведінка, пов'язана з наркотиками, є чутливою до несприятливих наслідків на абстрактних рівнях, то, таким чином, можна уникнути пошуку наркотиків, доки високий рівень когнітивних процесів переважає контроль над поведінкою. Можна навіть припустити, що популярні крокові програми 12 (наприклад, анонімні алкоголіки, анонімні наркомани та ін.) Працюють частково, явно вимагаючи від учасників визнати невідповідність їхнього способу життя, пов'язаного з наркотиками, тим самим надаючи можливість абстрактним когнітивним рівням здійснювати явний контроль над своїми поведінка. Стресові умови або повторне опромінення лікарськими засобами (праймінг) можна розглядати як фактори ризику, які послаблюють домінування абстрактних рівнів над поведінкою, що може призвести до повторного виникнення відповідей на пошук наркотиків (через латентні високі некогнітивні цінності). ).

Підводячи підсумок, ми пропонуємо послідовний виклад кількох, очевидно, різнорідних явищ, характерних для наркоманії. Наша модель забезпечує нормативний звіт про дані про різницю ролей вентрального та дорсального поперечно-смугових ланцюгів у набутті наркотиків та виконанні звичок, а також про вибіркову роль прямого зв’язку ДА для ефектів ліків від природних підсилювачів. Найголовніше, ми показуємо, як індукована наркотиками патологія в вентрально-дорсальних ДА сигналах, що стікає мотиваційну інформацію до ієрархії когнітивного представництва, може призвести до розбіжності між абстрактним ставленням наркоманів до пошуків наркотиків та тим, що вони насправді роблять. Очевидно, що наша модель не дає і не призначена давати повного опису наркоманії. Пояснення інших незрозумілих аспектів наркоманії вимагає включення багатьох інших систем мозку, які, як було продемонстровано, зазнають впливу наркоманії [42]. Тема для подальшого дослідження полягає в тому, як включити такі системи в офіційну обчислювальну мережу.

Підтримка інформації

File_S1.pdf
 

Малюнок S1,Ієрархія рішення зразка з п'ятьма рівнями абстракції. Малюнок S2, Відповідна нейронна схема для трьох обговорюваних алгоритмів навчання вартості є ієрархічною структурою прийняття рішень. A, Використовуючи простий алгоритм TD-навчання (рівняння S7), сигнал помилки передбачення на кожному рівні абстракції обчислюється незалежно від інших рівнів. B, У моделі, запропонованій Харуно і Кавато (4) (рівняння S8), значення тимчасово-розвиненого стану надходить з одного вищого рівня абстракції. C, У нашій моделі (рівняння S9) значення тимчасово-розвиненого стану замінюється поєднанням винагороди і Q-значення виконаної дії на більш високому рівні абстракції. Малюнок S3, Наша модель передбачає різні ділянки дії препаратів за схемою винагород-навчання: сайти 1 до 3. Препарати, що впливають на ділянки 4 на 6, навпаки, не призведуть до поведінкових і нейробіологічних моделей, вироблених моделюванням моделі для лікарських засобів, але дадуть результати, подібні до випадку природних винагород. Малюнок S4, Завдання, що використовується для моделювання механізму конкуренції на основі невизначеності між рівнями ієрархії для прийняття контролю над поведінкою. Малюнок S5, Результат моделювання показує поступовий зсув контролю над поведінкою з більш високих рівнів ієрархії. Q (s, a) та США) показують оцінене значення і невизначеність пар дій стану, відповідно.

Файл S1.

Малюнок S1,Ієрархія рішення зразка з п'ятьма рівнями абстракції. Малюнок S2, Відповідна нейронна схема для трьох обговорюваних алгоритмів навчання вартості є ієрархічною структурою прийняття рішень. A, Використовуючи простий алгоритм TD-навчання (рівняння S7), сигнал помилки передбачення на кожному рівні абстракції обчислюється незалежно від інших рівнів. B, У моделі, запропонованій Харуно і Кавато (4) (рівняння S8), значення тимчасово-розвиненого стану надходить з одного вищого рівня абстракції. C, У нашій моделі (рівняння S9) значення тимчасово-розвиненого стану замінюється поєднанням винагороди і Q-значення виконаної дії на більш високому рівні абстракції. Малюнок S3, Наша модель передбачає різні ділянки дії препаратів за схемою винагород-навчання: сайти 1 до 3. Препарати, що впливають на ділянки 4 на 6, навпаки, не призведуть до поведінкових і нейробіологічних моделей, вироблених моделюванням моделі для лікарських засобів, але дадуть результати, подібні до випадку природних винагород. Малюнок S4, Завдання, що використовується для моделювання механізму конкуренції на основі невизначеності між рівнями ієрархії для прийняття контролю над поведінкою. Малюнок S5, Результат моделювання показує поступовий зсув контролю над поведінкою з більш високих рівнів ієрархії. Q (s, a) та США) показують оцінене значення і невизначеність пар дій стану, відповідно.

doi: 10.1371 / journal.pone.0061489.s001

(PDF)

Подяки

Дякуємо С. Ахмеду і П. Даяну за критичні дискусії, а М. Рейнуд, Д. Редіш, Н. Дау, Е. Кохлін і А. Дезфулі за коментарі до рукопису.

Внески автора

Задуманий і спроектований експерименти: МК. Виконані експерименти: МК. Проаналізовано дані: МК БГ. Внесені реагенти / матеріали / інструменти аналізу: МК. Написав папір: MK BG.

посилання

  1. 1. Анонімні наркотики (2008). 6th ed. Служба Всесвітньої служби.
  2. 2. Залежність від Гольдштейна (2001): від біології до політики щодо наркотиків. Oxford University Press, США.
  3. 3. Volkow ND, Fowler JS, Wang GJ, Swanson JM (2004) Допамін у наркоманії та наркоманії: результати досліджень візуалізації та наслідків лікування. Молекулярна психіатрія 9: 557 – 569. doi: 10.1038 / sj.mp.4001507. Знайдіть цю статтю онлайн
  4. 4. Stacy AW, Wiers RW (2010) Неявне пізнання і залежність: інструмент для пояснення парадоксальної поведінки. Щорічний огляд клінічної психології 6: 551 – 575. doi: 10.1146 / annurev.clinpsy.121208.131444. Знайдіть цю статтю онлайн
  5. 5. Діагностичне та статистичне керівництво по психічним розладам (DSM-IV) (2000). 4th ed. Вашингтон, округ Колумбія: Американська психіатрична асоціація.
  6. 6. Lamb RJ, Preston KL, Schindler CW, Meisch RA, Davis F, et al. (1991) Підсилюючі та суб'єктивні ефекти морфіну у пост-наркоманів: дослідження реакції на дозу. Журнал фармакології та експериментальної терапії 259: 1165 – 1173. Знайдіть цю статтю онлайн
  7. 7. Goldstein RZ, Woicik PA, Moeller SJ, Telang F, Jayne M, et al. (2010) Насолоджуючись та бажаючим наркотиків і не наркотиків нагороди в активних користувачів кокаїну: STRAP-R анкета. Журнал психофармакології 24: 257 – 266. doi: 10.1177/0269881108096982. Знайдіть цю статтю онлайн
  8. 8. Everitt BJ, Robbins TW (2005) Нейронні системи підкріплення для наркоманії: від дій до звичок до примусу. Природа Neuroscience 8: 1481 – 1489. doi: 10.1038 / nn1579. Знайдіть цю статтю онлайн
  9. 9. Redish AD (2004) Наркоманія як обчислювальний процес пройшла не так. Наука 306: 1944 – 1947. doi: 10.1126 / science.1102384. Знайдіть цю статтю онлайн
  10. 10. Dezfouli A, Piray P, Keramati MM, Ekhtiari H, Lucas C, et al. (2009) Нейрокомп'ютерна модель для кокаїнової залежності. Нейронні обчислення 21: 2869 – 2893. doi: 10.1162 / neco.2009.10-08-882. Знайдіть цю статтю онлайн
  11. 11. Piray P, Keramati MM, Dezfouli A, Lucas C, Mokri A (2010) Індивідуальні відмінності в дофамінових рецепторах nucleus accumbens передбачають розвиток поведінки, подібної до залежності: обчислювальний підхід. Нейронні обчислення 22: 2334 – 2368. doi: 10.1162 / NECO_a_00009. Знайдіть цю статтю онлайн
  12. 12. Даяна P (2009) Допамін, навчання підкріплення та залежність. Фармакопсихіатрія 42: 56 – 65. doi: 10.1055 / s-0028-1124107. Знайдіть цю статтю онлайн
  13. 13. Takahashi Y, Schoenbaum G, Niv Y (2008) Приглушення критиків: розуміння ефектів сенсибілізації кокаїну на дорсолатеральний і вентральний стриатум у контексті моделі актора / критика. Кордони в неврології 2: 86 – 99. doi: 10.3389 / neuro.01.014.2008. Знайдіть цю статтю онлайн
  14. 14. Redish AD, Jensen S, Johnson A (2008) Єдина основа для залежності: уразливості в процесі прийняття рішень. Поведінкові та мозкові науки 31: 415 – 487. doi: 10.1017 / S0140525X0800472X. Знайдіть цю статтю онлайн
  15. 15. Ботвінік М.М. (2008) Ієрархічні моделі поведінки і префронтальна функція. Тенденції в когнітивних науках 12: 201 – 208. doi: 10.1016 / j.tics.2008.02.009. Знайдіть цю статтю онлайн
  16. 16. Haruno M, Kawato M (2006) Heterarchical модель підкріплення-навчання для інтеграції декількох корко-стриатальних петель: обстеження fMRI в навчанні асоціації стимулів-дій-винагороди. Нейронні мережі 19: 1242 – 1254. doi: 10.1016 / j.neunet.2006.06.007. Знайдіть цю статтю онлайн
  17. 17. Willuhn I, Burgeno LM, Everitt BJ, Phillips PEM (2012) Ієрархічний набір фазових дофамінових сигналів у смугастому тілі під час прогресування кокаїну. Праці Національної академії наук 109: 20703 – 20708. doi: 10.1073 / pnas.1213460109. Знайдіть цю статтю онлайн
  18. 18. Ботвінік М.М., Niv Y, Barto AC (2009) Ієрархічно організована поведінка та її нейронні основи: перспектива навчання підкріплення. Пізнання 113: 262 – 280. doi: 10.1016 / j.cognition.2008.08.011. Знайдіть цю статтю онлайн
  19. 19. Бадре Д, Д'Еспозіто М (2009) Чи є ієрархічно ростро-каудальна вісь лобової частки? Nature Reviews Neuroscience 10: 659–669. doi: 10.1038 / nrn2667. Знайдіть цю статтю онлайн
  20. 20. Koechlin E, Ody C, Kouneiher F (2003) Архітектура когнітивного контролю в людській префронтальній корі. Наука 302: 1181 – 1185. doi: 10.1126 / science.1088545. Знайдіть цю статтю онлайн
  21. 21. Badre D, Hoffman J, Cooney JW, D'Esposito M (2009) Ієрархічні дефіцити когнітивного контролю після пошкодження лобової частки людини. Nature neuroscience 12: 515–522. doi: 10.1038 / nn.2277. Знайдіть цю статтю онлайн
  22. 22. Олександр GE, DeLong MR, Strick PL (1986) Паралельна організація функціонально відокремлених схем, що зв'язують базальні ганглії і кору. Щорічний огляд неврології 9: 357 – 381. doi: 10.1146 / annurev.neuro.9.1.357. Знайдіть цю статтю онлайн
  23. 23. Олександр Г.Е., Крчечер М.Д., Делонг МР (1990) Базальні ланцюги ганглії-таламокортики: паралельні субстрати для рухових, окорухових, префронтальних і лімбічних функцій. Прогрес у дослідженні мозку 85: 119 – 146. Знайдіть цю статтю онлайн
  24. 24. Шульц В., Даян П, Монтегю ПР (1997) Нейронний субстрат передбачення і винагороди. Наука 275: 1593 – 1599. doi: 10.1126 / science.275.5306.1593. Знайдіть цю статтю онлайн
  25. 25. Belin D, Everitt BJ (2008) Звички домагання кокаїну залежать від допамін-залежної послідовної зв'язності, що зв'язує вентраль з дорзальним стриатумом. Нейрон 57: 432 – 441. doi: 10.1016 / j.neuron.2007.12.019. Знайдіть цю статтю онлайн
  26. 26. Haber SN, Fudge JL, McFarland NR (2000) Шляхи Striatonigrostriatal в приматах утворюють висхідну спіраль від оболонки до дорсолатеральної смужки. Журнал Neuroscience 20: 2369 – 2382. Знайдіть цю статтю онлайн
  27. 27. Haber SN (2003) Примат базальних гангліїв: паралельні та інтегративні мережі. Журнал хімічної нейроанатомії 26: 317 – 330. doi: 10.1016 / j.jchemneu.2003.10.003. Знайдіть цю статтю онлайн
  28. 28. Саттон Р.С., Барто А.Г. (1998) Підсилення навчання: Вступ. Cambridge: MIT Press.
  29. 29. Di Chiara G, Imperato A (1988) Наркотики, які зловживають люди, переважно підвищують концентрацію синаптичних дофаміну в мезолімбічної системі вільно рухаються щурів. Праці Національної академії наук Сполучених Штатів Америки 85: 5274 – 5278. doi: 10.1073 / pnas.85.14.5274. Знайдіть цю статтю онлайн
  30. 30. Daw ND, Niv Y, Dayan P (2005) Конкуренція на основі невизначеності між префронтальними і дорсолатеральними стриатальними системами для поведінкового контролю. Природа Neuroscience 8: 1704 – 1711. doi: 10.1038 / nn1560. Знайдіть цю статтю онлайн
  31. 31. Vanderschuren LJMJ, Ciano PD, Everitt BJ (2005) Залучення дорсального стриатума в кокаїновому контрольованому. Журнал Neuroscience 25: 8665 – 8670. doi: 10.1523 / JNEUROSCI.0925-05.2005. Знайдіть цю статтю онлайн
  32. 32. Volkow ND, Wang GJ, Telang F, Fowler JS, Logan J, et al. (2006) Кокаїнові киї і допамін в спинному стриатумі: механізм тяги до кокаїнової залежності. Журнал Neuroscience 26: 6583 – 6588. doi: 10.1523 / JNEUROSCI.1544-06.2006. Знайдіть цю статтю онлайн
  33. 33. Kalivas PW, Volkow ND (2005) Нейронні основи наркоманії: патологія мотивації та вибору. Американський журнал психіатрії 162: 1403 – 1413. doi: 10.1176 / appi.ajp.162.8.1403. Знайдіть цю статтю онлайн
  34. 34. Бєлін Д., Йонкман С., Дікінсон А., Роббінс Т.В., Еверітт Б.Я. (2009) Паралельні та інтерактивні процеси навчання в базальних гангліях: актуальність для розуміння залежності. Дослідження поведінкового мозку 199: 89 – 102. doi: 10.1016 / j.bbr.2008.09.027. Знайдіть цю статтю онлайн
  35. 35. Matsumoto M, Hikosaka O (2009) Два типи нейронів дофаміну чітко передають позитивні та негативні мотиваційні сигнали. Природа 459: 837 – 841. doi: 10.1038 / nature08028. Знайдіть цю статтю онлайн
  36. 36. Frank MJ, Surmeier DJ (2009) У дофамінергічних нейронах substantia nigra розрізняють винагороду та покарання? Журнал молекулярної клітинної біології 1: 15 – 16. doi: 10.1093 / jmcb / mjp010. Знайдіть цю статтю онлайн
  37. 37. Vanderschuren LJMJ, Everitt BJ (2004) Наркотичний пошук стає компульсивним після тривалого самоконтролю кокаїну. Наука 305: 1017 – 1019. doi: 10.1126 / science.1098975. Знайдіть цю статтю онлайн
  38. 38. Deroche-Gamonet V, Belin D, Piazza PV (2004) Докази поведінки, подібної до залежності, у щурів. Наука 305: 1014 – 1017. doi: 10.1126 / science.1099020. Знайдіть цю статтю онлайн
  39. 39. Panlilio LV, Thorndike EB, Schindler CW (2007) Блокування кондиціонування кокаїн-парних стимулів: тестування гіпотези, що кокаїн постійно дає сигнал про більшу, ніж очікувалося, винагороду. Фармакологія, біохімія та поведінка 86: 774 – 777. doi: 10.1016 / j.pbb.2007.03.005. Знайдіть цю статтю онлайн
  40. 40. Kamin L (1969) Передбачуваність, сюрприз, увага і кондиціонування. У: Кемпбелл Б.А., Церква Р.М., редактори. Покарання і аверсивна поведінка. Нью-Йорк: Appleton-Century-Crofts. С. 279 – 296.
  41. 41. Dezfouli A, Balleine BW (2012) Звички, послідовності дій та навчання підкріпленню. Європейський журнал нейронауки 35: 1036 – 1051. doi: 10.1111 / j.1460-9568.2012.08050.x. Знайдіть цю статтю онлайн
  42. 42. Koob GF, Le Moal M (2005) Нейробіологія наркоманії. Сан-Дієго: Академічна преса