Hiérarchie décisionnelle déséquilibrée chez les toxicomanes sortant d'un circuit en spirale dopaminergique détourné de drogue (2013)

 

  • Mehdi Keramati E-mail,
     
  • Boris Gutkin

 

Abstract

Bien qu'ils veuillent explicitement cesser de fumer, les toxicomanes de longue date se retrouvent impuissants à résister aux drogues, même s'ils savent que la consommation de drogues peut être un plan d'action dangereux. Une telle incohérence entre la connaissance explicite des conséquences négatives et les schémas comportementaux compulsifs représente un conflit cognitif / comportemental qui est une caractéristique centrale de la dépendance. Sur le plan neurobiologique, l'activité induite par des signaux différentiels dans des sous-régions striatales distinctes, ainsi que la connectivité dopaminergique en spirale des régions striatales ventrales aux régions dorsales, jouent un rôle essentiel dans la recherche compulsive de médicaments. Cependant, le mécanisme fonctionnel qui intègre ces observations neuropharmacologiques avec le conflit cognitif / comportemental mentionné ci-dessus est inconnu. Nous fournissons ici une explication informatique formelle de l'incohérence cognitive induite par la drogue qui est apparente dans «l'erreur auto-décrite» des toxicomanes. Nous montrons que les drogues addictives produisent progressivement un biais motivationnel en faveur de la recherche de drogue dans les processus de décision habituels de bas niveau, malgré la faible valorisation cognitive abstraite de ce comportement. Cette pathologie émerge dans le cadre d'apprentissage par renforcement hiérarchique lorsque l'exposition chronique au médicament produit pharmacologiquement des signaux dopaminergiques phasiques persistants. De ce fait, le médicament détourne les spirales dopaminergiques qui font passer les signaux de renforcement dans la hiérarchie cortico-striatale ventro-dorsale. Sur le plan neurobiologique, notre théorie explique le développement rapide de l'efflux de dopamine induit par un signal médicamenteux dans le striatum ventral et une réponse retardée dans le striatum dorsal. Notre théorie montre également comment ce modèle de réponse dépend de manière critique du circuit en spirale de la dopamine. Sur le plan comportemental, notre cadre explique l'insensibilité progressive de la recherche de drogue aux punitions associées à la drogue, le phénomène de blocage des résultats liés à la drogue et la préférence persistante pour les drogues par rapport aux récompenses naturelles des toxicomanes. Le modèle suggère des prédictions testables et au-delà, prépare le terrain pour une vision de la dépendance comme une pathologie des processus décisionnels hiérarchiques. Ce point de vue est complémentaire de l'interprétation traditionnelle de la toxicomanie en tant qu'interaction entre les systèmes de décision habituels et axés sur les objectifs.

Introduction

«Nous avons admis que nous étions impuissants face à notre dépendance - que nos vies étaient devenues ingérables» déclare le tout premier principe du programme Narcotics Anonymous 12-step . Cela met en lumière à quel point les toxicomanes sont impuissants face à la résistance aux drogues, tout en sachant que la prise de drogue est un mauvais plan d'action - . En fait, la toxicomanie est caractérisée par la recherche compulsive de drogues, même au prix de conséquences néfastes évidentes. . La signature d'un tel comportement pathologique devient évidente dans des expériences contrôlées où les toxicomanes présentent une «erreur auto-décrite» caractéristique: une incohérence entre la réponse comportementale puissante envers les choix associés à la drogue et la valeur subjective relativement faible que la toxicomane rapporte pour la drogue , , . Associée à la perte du contrôle cognitif inhibiteur sur le comportement, après une exposition prolongée à la drogue, cette divergence entre les plans cognitifs et les habitudes consolidées peut entraîner une transition du comportement de recherche occasionnel à la recherche compulsive de drogue. .

La perte de contrôle cognitif et l’erreur décrite par soi-même ont jusqu’à présent échappé à une explication de principe fondée sur des modèles formels de dépendance. - . Les précédentes théories informatiques de la toxicomanie, principalement posées dans le cadre d'apprentissage par renforcement, considèrent la dépendance comme un état pathologique du système d'apprentissage par habitude (stimulus-réponse) - . L'hypothèse centrale derrière tous ces modèles est que l'effet pharmacologique des médicaments sur la signalisation de la dopamine, supposément porteurs d'un signal d'enseignement stimulus-réponse, se traduit par un sur-renforcement progressif de ces associations. Cet effet conduit à son tour à des habitudes de recherche compulsive de drogue. Bien que cette vision réduite de la toxicomanie ait capturé certains aspects du phénomène, un consensus croissant dans la littérature sur la toxicomanie indique que de multiples systèmes d'apprentissage sont impliqués dans la pathologie. Seule une image aussi complexe qui inclut les processus cognitifs du cerveau, ainsi que des processus habituels de bas niveau, peut expliquer la variété des comportements de dépendance. , .

Dans cet article, nous adoptons une approche d’apprentissage par renforcement hiérarchique où les décisions sont représentées à différents niveaux d'abstraction, dans une hiérarchie cognitive à motrice. Nous supposons qu’une cascade d’apprentissage dépendante de la dopamine relie les niveaux de la hiérarchie ensemble . Nous supposons en outre que les drogues faisant l’abus abusent pharmacologiquement du mécanisme de communication entre les niveaux d’abstraction. Sur la base de ces hypothèses, nous montrons que la dissonance cognitive rapportée chez les toxicomanes émerge dans le cadre d’apprentissage par renforcement hiérarchique lorsque l’exposition chronique à la drogue perturbe l’apprentissage par la valeur dans la hiérarchie décisionnelle. Cette perturbation entraîne une surévaluation pathologique des choix de médicaments au niveau des processus habituels de bas niveau et entraîne donc un comportement habituel de recherche de drogues. Nous démontrons ensuite que la recherche de drogue «détestée», mais compulsive, peut s'expliquer par le fait que des processus habituels de bas niveau dominés par la drogue dominent le comportement, tandis que des systèmes cognitifs sains aux niveaux de représentation supérieurs perdent le contrôle du comportement. De plus, nous démontrons que le modèle proposé peut prendre en compte des preuves récentes concernant le développement rapide ou retardé d’un efflux de dopamine induit par un médicament dans le striatum ventral ou dorsal, respectivement, ainsi que de la dépendance de ce modèle aux circuits en spirale de la dopamine.

Matériels et méthodes

Préliminaires

En concordance avec une riche littérature en psychologie cognitive, notre apprentissage par renforcement hiérarchique , Ce cadre suppose qu’un plan cognitif abstrait tel que «préparer du thé» peut être divisé en une série d’actions de niveau inférieur: faire bouillir de l’eau, mettre le thé dans la casserole, etc. Cette décomposition se poursuit jusqu’à ce que les réponses motrices au niveau moteur se situent au niveau le plus bas de la surface. hiérarchie (Figure 1A). Sur le plan neurobiologique, les différents niveaux de la hiérarchie décisionnelle allant du niveau cognitif au niveau moteur sont représentés le long de l’axe rostro-caudal du circuit ganglionnaire cortico-basal (BG). - . Ce circuit est composé de plusieurs boucles fermées parallèles entre le cortex frontal et les ganglions de la base , (Figure 1B). Alors que les boucles antérieures sont à la base d'une représentation plus abstraite des actions, les boucles caudales, composées de cortex sensori-moteur et de striatum dorsolatéral, codent les habitudes de bas niveau. - .

thumbnail

Figure 1. Organisation hiérarchique du comportement et du circuit cortico-glycémique.

A, Exemple d’une hiérarchie décisionnelle pour deux choix: médicament versus nourriture. Chaque action est représentée à différents niveaux d'abstraction, supposés être codés à différentes boucles cortico-BG. La recherche de chacun des deux types de récompense pourrait faire l’objet d’une sanction de la grandeur 16. B, Les connexions glutamatergiques de différentes zones préfrontales se projettent dans les sous-régions du striatum, puis remontent vers le PFC à travers le pallidum et le thalamus, formant ainsi plusieurs boucles parallèles. Grâce au réseau dopaminergique striato-nigro-striatal, les régions ventrales du striatum influencent les régions les plus dorsales. vmPFC, cortex préfrontal médial ventral; OFC, cortex frontal orbital; DACC, cortex cingulaire antérieur dorsal; SMC, cortex sensori-moteur; VTA, zone tegmentale ventrale; SNc, substantia nigra pars compacta. Figure 1B Modifié à partir de la référence 21.

doi: 10.1371 / journal.pone.0061489.g001

Au sein de ce circuit, l'activité phasique des neurones de la dopamine du cerveau moyen se projetant sur le striatum signale l'erreur entre les récompenses prévues et les récompenses reçues, portant ainsi des informations renforçant la réponse stimulus. . Ces projections DAergic forment une connectivité série en cascade reliant les régions les plus ventrales du striatum à des régions progressivement plus dorsales par le biais de connexions dites "en spirale". - (Figure 1B). Sur le plan fonctionnel, une telle organisation feed-forward reliant les boucles corticales-BG corticales-caudales du rostral permet le couplage dirigé de représentations grossières à fines. En conséquence, on suppose que les spirales des DA fournissent un substrat neurobiologique pour le réglage progressif de l'erreur de prédiction de récompense par les niveaux supérieurs de la hiérarchie (codant la connaissance abstraite de la valeur des options comportementales). Cette erreur est ensuite utilisée pour mettre à jour des valeurs d’action à des niveaux plus détaillés. . En d'autres termes, les spirales des DA permettent aux niveaux d'évaluation cognitifs abstraits de guider l'apprentissage dans les processus d'évaluation d'actions plus détaillés.

Esquisse de théorie

En termes de théorie computationnelle de l'apprentissage par renforcement (RL), l'agent (dans notre cas une personne ou un animal) apprend à faire des choix d'action éclairés en mettant à jour sa valeur estimée antérieure, , pour chaque paire état-action, , quand une récompense est reçu par l'agent à l'heure à la suite de l'exécution d'une action dans l'état contextuel (stimulus) . La valeur est mis à jour en calculant le signal d'erreur de prédiction de récompense. Ce signal dépend non seulement de la récompense reçue instantanément (), mais aussi sur la valeur du nouvel état dans lequel l'agent se retrouve, après que cette action a été effectuée. Dénoté par , cette fonction de valeur temporellement avancée représente la somme des récompenses futures que l'animal espère recevoir de l'état résultant, , en avant. L'erreur de prédiction peut être calculée à l'aide de l'équation suivante:


(1)

Intuitivement, le signal d'erreur de prédiction calcule la différence entre la valeur de récompense attendue et réalisée d'une action. Dans une structure de décision hiérarchique, cependant, plutôt que d’apprendre la -des valeurs indépendamment à différents niveaux, des niveaux plus abstraits peuvent accorder le signal d'enseignement calculé aux niveaux inférieurs. Etant donné que les niveaux supérieurs de la hiérarchie représentent une représentation plus abstraite des contingences environnementales, l'apprentissage se fait plus rapidement à ces niveaux. Cela est dû à la faible dimensionnalité relative de la représentation abstraite du comportement: un plan d'action peut être représenté sous la forme d'une seule étape (une dimension) au niveau supérieur de la hiérarchie et de plusieurs actions détaillées (dimensions multiples) aux niveaux inférieurs. de la hiérarchie. La valeur de niveau supérieur de ce plan d'action serait apprise rapidement par rapport aux niveaux détaillés dans lesquels les erreurs de récompense auraient besoin de propager en arrière toutes les étapes d'action détaillées. Ainsi, le réglage des valeurs de niveau inférieur par les informations de valeur provenant des niveaux supérieurs peut accélérer la convergence de ces valeurs. Une façon statistiquement efficace de le faire est de supposer que, pour calculer le signal d’erreur de prédiction à la -le niveau d'abstraction, , la fonction de valeur temporellement avancée, , vient d'un niveau d'abstraction supérieur, :


(2)

Pour préserver l’optimalité, l’équation 2 peut être utilisée pour calculer l’erreur de prédiction uniquement lorsque la dernière action primitive constitutive d’une option abstraite est effectuée (voir la figure S1 en page précédente). Fichier S1). Dans d'autres cas, l'apprentissage de la valeur à différents niveaux se fait indépendamment, comme dans l'équation 1. Dans les deux cas, le signal d'apprentissage est ensuite utilisé pour mettre à jour les valeurs antérieures au niveau correspondant:


(3)
De est le taux d'apprentissage. Cette forme de partage d'informations entre niveaux est biologiquement plausible, car elle reflète la structure en spirale du circuit DA, transportant les informations dans la hiérarchie dans la direction ventro-dorsale. Dans le même temps, être guidé par des niveaux plus abstraits accélère considérablement l'apprentissage, atténuant ainsi la grande dimensionnalité de l'apprentissage de la valeur à des niveaux détaillés. .

Dans cet article, nous montrons que l’interaction entre une version modifiée du modèle développé dans et les effets pharmacologiques spécifiques des drogues sur le système dopaminergique peuvent capturer des données relatives à la dépendance à des échelles d'analyse radicalement différentes: comportementale et neurobiologique au niveau du circuit. Premièrement, le nouveau modèle apporte une explication convaincante de plusieurs aspects comportementaux fascinants associés à la dépendance aux drogues (par exemple, l’erreur , , ). Deuxièmement, nous pouvons rendre compte d’un large éventail de preuves concernant la dynamique de la libération de dopamine évoquée par un médicament. .

Nous modifions le modèle présenté dans comme suit. Nous rendons le modèle plus efficace en termes de capacité de mémoire de travail en remplaçant avec , dans l’équation 2, puisque les deux valeurs convergent vers le même niveau constant (voir la figure S2 dans Fichier S1, pour base informatique et neurobiologique):


(4)

Ici, est l'option relativement abstraite et est la dernière action primitive de la séquence comportementale qui remplit complètement cette option. De même, est la valeur enrichissante de , Qui comprend (la valeur enrichissante de ).

De manière cruciale, les divers médicaments consommés par les humains partagent une propriété fondamentale de l’augmentation pharmacologique de la concentration de dopamine dans le striatum. . En conséquence, nous incorporons cet effet pharmacologique du médicament en ajoutant un biais positif, , (voir également - ) au signal d’erreur de prédiction porté par les neurones dopaminergiques (voir la figure S3 dans Fichier S1, pour base informatique et neurobiologique):


(5)

Ici capture l'effet pharmacologique direct du médicament sur le système DA, et est sa valeur de renforcement en raison des effets euphorigènes (voir Fichier S1 pour des informations supplémentaires).

Bien que les équations 3 et 5 définissent ensemble le mécanisme de calcul permettant de mettre à jour les valeurs de notre modèle, nous émettons également l'hypothèse qu'un mécanisme de concurrence basé sur l'incertitude détermine le niveau d'abstraction qui contrôle le comportement. Ceci est inspiré par le mécanisme proposé dans pour l'arbitrage entre le système habituel et le système dirigé. À cet égard, à chaque point de décision, seul le niveau d'abstraction avec la plus grande certitude d'estimer la valeur des choix contrôle le comportement. Une fois que ce niveau a pris la décision d'agir, tous les niveaux inférieurs de la hiérarchie seront déployés par ce niveau dominant pour mettre en œuvre l'action sélectionnée sous la forme d'une séquence de réponses motrices primitives (voir Fichier S1 pour des informations supplémentaires; Figure S4 dans Fichier S1; Figure S5 dans Fichier S1). Après avoir reçu les commentaires de récompense de l'environnement, les valeurs à tous les niveaux sont mises à jour. Ce mécanisme d'arbitrage basé sur l'incertitude prédit que, les processus abstraits étant plus flexibles, ils ont une capacité supérieure d'approximation des valeurs pendant les premières étapes de l'apprentissage et contrôlent donc le comportement à ces étapes. Cependant, étant donné que les niveaux abstraits utilisent une représentation grossière de l'environnement (en raison, par exemple, du fait qu'ils contiennent un nombre relativement petit de fonctions de base), leur capacité d'approximation de la valeur ultime n'est pas aussi précise que celle des niveaux détaillés. En d'autres termes, après une formation approfondie, la certitude associée aux valeurs estimées est inférieure pour les niveaux inférieurs de la hiérarchie par rapport aux niveaux supérieurs. Ainsi, avec un apprentissage progressif, les niveaux inférieurs de la hiérarchie prennent le contrôle de la sélection des actions, leur incertitude diminuant progressivement. Ceci est en accord avec plusieurs sources de données montrant une domination progressive du dorsal sur le striatum ventral dans le contrôle de la recherche de drogue (ainsi que la recherche de récompenses naturelles). , , .

Résultats

Une incohérence dans l’évaluation de la hiérarchie émerge sous le bénéfice d’un médicament, mais pas de récompenses naturelles

Contrairement aux précédents modèles informatiques de dépendance basés sur l’apprentissage par renforcement - qui sont basés sur une approche de système de décision unique, notre compte est construit sur un cadre de systèmes à interactions multiples. En conséquence, bien que la forme de modélisation de l'effet du médicament sur le signal d'erreur de prédiction dans notre modèle soit similaire aux précédentes - , il en résulte des conséquences fondamentalement différentes. L’augmentation transitoire de la dopamine induite par le médicament amplifie l’erreur de prédiction immédiate à chaque niveau de la hiérarchie et entraîne par conséquent un biais, , sur le transfert des connaissances d’un niveau d’abstraction à un autre, dans le sens grossier à fin de la hiérarchie. Ce biais fait que la valeur asymptotique de la recherche de drogue à un niveau donné est unités supérieures à celle d'une couche abstraite supplémentaire (Figure 2B). L'accumulation de ces divergences le long de l'axe rostro-caudal induit progressivement des différences significatives dans la valeur des comportements de recherche de drogue entre les extrêmes haut et bas de la hiérarchie. Ainsi, même lorsqu'ils sont suivis d'une punition sévère, la valeur du comportement associé à la drogue reste positive aux boucles motrices de bas niveau, tandis qu'elle devient négative aux niveaux cognitifs. En d'autres termes, le modèle prédit que l'accumulation de l'effet de la drogue sur les spirales de la DA augmente la valeur de la recherche de la drogue dans les habitudes motrices à un niveau tel que même une punition naturelle forte ne pourra pas la réduire suffisamment. Nous pensons que cela explique l'incohérence entre l'évaluation cognitive et l'évaluation de bas niveau des comportements liés à la drogue chez les toxicomanes. En d’autres termes, nous proposons que la recherche de drogue compulsive et l’élasticité considérablement réduite aux coûts associés découlent de l’effet pharmacologique de la drogue détournant le mécanisme dépendant de la dopamine qui transfère l’information entre les niveaux de hiérarchie décisionnelle.

thumbnail

Figure 2. Motivation pour la nourriture contre la drogue à différents niveaux d'abstraction (résultats de la simulation).

Dans les premiers essais 150 où aucune récompense ne découle de la récompense, la valeur de rechercher des récompenses naturelles à tous les niveaux converge vers 10 (A). Dans le cas du médicament, toutefois, l'effet pharmacologique direct du médicament (, mis à) a pour résultat que la valeur asymptotique à chaque niveau est unités supérieures à celle d’un niveau d’abstraction supérieur (B). Ainsi, lorsqu'elles sont suivies d'une punition, alors que les boucles cognitives attribuent correctement une valeur négative au choix de rechercher une drogue, les boucles au niveau moteur trouvent la recherche de drogue souhaitable (valeur positive). Les courbes de cette figure montrent l’évolution des valeurs chez «un» animal simulé et aucune analyse statistique n’est donc applicable.

doi: 10.1371 / journal.pone.0061489.g002

Dans notre modèle, les médicaments entraînent une évaluation déséquilibrée d’un niveau à l’autre, mais la valeur des récompenses naturelles converge vers la même valeur à tous les niveaux, en raison de l’absence d’effet pharmacologique direct sur le mécanisme de signalisation des DA (). Par conséquent, ni incohérence ni surévaluation à des niveaux détaillés ne seront observées dans le cas de récompenses naturelles (Figure 2A). La surévaluation des réponses à la recherche de drogues aux niveaux inférieurs de la hiérarchie devrait se traduire par une préférence anormale des drogues par rapport aux récompenses naturelles et par une participation excessive aux activités liées à la drogue.

La dopamine différentielle réagissant dans le striatum ventral par rapport au striatum dorsal aux signaux associés au médicament

Sur le plan neurobiologique, les rôles différents des sous-régions du striatum dans l’acquisition et l’expression du comportement à la recherche de drogues ont été au centre des recherches sur la toxicomanie. Des données convergentes issues de différents axes de recherche suggèrent que la transition comportementale de la consommation de drogues à des fins récréatives à une consommation compulsive reflète un changement neurobiologique de l'évaluation du striatum ventral au striatum dorsolatéral. , , , correspondant à un passage de niveaux cognitifs à des niveaux détaillés dans notre modèle. Conformément à notre modèle, il apparaît que le réseau en spirale DA reliant les régions ventrales à progressivement plus dorsales du striatum joue un rôle central dans cette transition. .

Dans une étude récente clé, Willuhn et al. ont évalué le schéma de libération de dopamine en réponse à des signaux associés au médicament dans le striatum ventral et dorsolatéral de rats pendant trois semaines de cocaïne. En voltamétrie cyclique à balayage rapide, l’observation critique a été que l’efflux de DA induit par le signal dans le striatum ventral apparaît même après un entraînement très limité. En revanche, le striatum dorsolatéral ne présentait un efflux de DA déclenché par un signal qu'après un entraînement approfondi, et le développement de ce schéma de relâchement disparaissait lorsque le striatum ventral était lésé dans l'hémisphère ipsilatéral.

Etant donné que la résolution temporelle de la voltamétrie à balayage rapide capture les fluctuations de concentration inférieures à la seconde, le motif observé d'efflux de DA devrait être attribué à la signalisation "phasique" de l'AD et donc, au signal d'erreur de prédiction, selon la théorie de la dopamine de RL . Selon la théorie de RL, le signal d'erreur de prédiction lors de l'observation d'un stimulus inattendu est égal à la valeur de récompense prédite par ce stimulus. Par conséquent, la libération de DA induite par le signal est équivalente à la valeur prédite par ce signal.

À cet égard, notre cadre hiérarchique fournit une explication formelle du modèle différentiel d'efflux de DA striatal ventral et dorsal rapporté dans . La valeur prédite par le signal associé à la drogue aux niveaux cognitifs abstraits de la hiérarchie augmente rapidement au tout début de l’entraînement (Figure 2B), en raison de la faible dimensionnalité du problème d’apprentissage à des niveaux d’abstraction élevés. En conséquence, notre modèle montre que l’efflux de DA induit par la queue doit être observé dans le striatum ventral même après une formation limitée (Figure 3). Aux niveaux de représentation plus détaillés, toutefois, le processus d’apprentissage est lent (Figure 2B), en raison de la grande dimensionnalité de l’espace problématique, ainsi que de la dépendance de l’apprentissage à des niveaux plus abstraits par le biais de spirales DA. En conséquence, un efflux de DA induit par une queue dans le striatum dorsolatéral ne devrait se développer que graduellement et ne devrait devenir observable qu'après un entraînement intensif (Figure 3).

thumbnail

Figure 3. Efflux de dopamine dans différentes sous-régions striatales en réponse à des signaux associés au médicament (résultats de simulation).

En ligne avec les données expérimentales , le modèle montre (colonne de gauche) qu'en réponse aux signaux associés au médicament, il y aura un efflux de dopamine dans le striatum ventral, après un entraînement limité et approfondi. Dans les sous-régions plus dorsolatérales, toutefois, un efflux de DA ponctuel se développera progressivement au cours de l'apprentissage. Le modèle prédit (deuxième colonne en partant de la droite) que ce développement retardé d'efflux de DA détecté dans le striatum dorsal dépend de la connectivité série dépendante de la DA qui relie le striatum dorsal. C’est-à-dire que, du fait de la déconnexion des spirales du DA, alors que la réponse du DA induite par une réplique reste intacte dans le striatum ventral, elle diminue considérablement dans le striatum dorsolatéral. De plus, le modèle prédit (troisième colonne en partant de la droite) des résultats similaires pour un efflux de DA dans le striatum dorsolatéral induit par une queue dans le cas du striatum ventral lésé. Enfin, si après punition prolongée chez un animal intact, une punition s'ensuit, le modèle prédit (colonne de droite) que le signal induit par la drogue inhibe la jambe ventrale des spirales du DA, même après un entraînement limité. Dans les régions plus dorsales, toutefois, l'efflux de DA diminue lentement au cours de l'apprentissage, mais restera positif, même après une longue association drogue-drogue. Les données présentées dans cette figure sont obtenues à partir d'un animal «simulé» et aucune analyse statistique n'était donc applicable.

doi: 10.1371 / journal.pone.0061489.g003

De plus, notre modèle explique les preuves dans que ce développement retardé d'efflux de DA induit dans le striatum dorsolatéral dépend du striatum ventral (Figure 3). Dans notre modèle, une lésion simulée unilatérale du striatum ventral (le niveau de valorisation abstrait dans le modèle) diminue de manière significative la valeur prédite de la drogue à des niveaux détaillés dans l'hémisphère ipsilatéral et diminue donc de manière significative le niveau d'efflux de DA induit par la cue. Afin de modéliser la lésion du striatum ventral, nous fixons simplement à zéro la valeur de tous les stimuli situés au plus haut niveau de la hiérarchie.

De même, notre modèle prédit que le développement de la signalisation DA phasique dans le striatum dorsolatéral dépend de l’intégrité du circuit en spirale DA (Figure 3). En fait, une déconnexion dans le circuit en spirale DA de notre modèle coupe la communication entre les niveaux d'abstraction, ce qui empêche l'accumulation du biais induit par le médicament sur le signal de renforcement, le long des niveaux de hiérarchie de décision. Pour modéliser la déconnexion dans le circuit série dépendant du DA entre le striatum ventral et dorsal, nous fixons chaque niveau d'abstraction pour calculer le signal d'erreur de prédiction localement (comme dans l'équation 3), sans recevoir la valeur de l'état temporellement avancé de la valeur immédiatement supérieure niveau d'abstraction.

En outre, le modèle prédit que le schéma de l'efflux de DA induit par la réplique changera si, après un entraînement intensif avec de la cocaïne et des signaux associés à la cocaïne, comme dans l'expérience ci-dessus, on commence à associer la livraison de cocaïne à une punition sévère. Nous prédisons que l'efflux de DA en réponse au signal associé à la cocaïne devrait rapidement diminuer sous le niveau de référence dans le striatum ventral. Dans le striatum dorsolatéral, toutefois, la libération de DA induite par les signaux devrait rester supérieure à la valeur initiale (Figure 3) avec une éventuelle diminution partielle retardée. Cela indique que le stimulus de la drogue a une valeur subjective positive attribuée à des niveaux détaillés, malgré des valeurs négatives (inférieures à la valeur de base) aux niveaux cognitifs. Il est à noter que cette prédiction repose sur l'hypothèse que le cerveau traite simplement une punition comme une récompense négative. Cette hypothèse est quelque peu controversée: elle est clairement étayée par des études expérimentales. , mais aussi discuté autrement par d'autres , . Hormis cette prédiction, les autres aspects du modèle ne dépendent pas du fait que la punition soit codée par la dopamine ou par un autre système de signalisation.

Le schéma d'entraînement utilisé par Willuhn et al. n'est pas suffisamment étendu pour produire un comportement compulsif de recherche de drogue, caractérisé par une insensibilité aux peines associées à la drogue , . Ainsi, une question clé à laquelle il faut répondre est la relation qui existe entre le développement retardé de la réponse de DA induite par un signal dans le DLS et le développement tardif de la réponse compulsive. Selon notre modèle, le comportement compulsif exige non seulement une valorisation excessive du choix du médicament aux niveaux inférieurs de la hiérarchie, mais également un transfert du contrôle sur le comportement des processus cognitifs abstraits aux processus habituels de bas niveau. L'échelle de temps de ces deux processus n'est que partiellement dépendante: le processus de surévaluation dépend du signal d'erreur de prédiction, tandis que le transfert du contrôle comportemental dépend également des incertitudes relatives dans l'estimation de la valeur. Par conséquent, la surévaluation des indices associés aux drogues aux niveaux les plus bas de la hiérarchie peut précéder le transfert du contrôle sur le comportement du haut vers le bas de la hiérarchie. Les échelles de temps exactes des deux processus dépendent respectivement de la vitesse d'apprentissage et du bruit inhérent aux différents niveaux (voir Fichier S1 pour des informations supplémentaires). En d'autres termes, il est probable que l'efflux de dopamine induit par un signal dans le DLS puisse se développer de manière significative avant que la recherche compulsive de drogue ne soit manifestée par le comportement.

Conséquences comportementales de l’évaluation incohérente entre médicaments et récompenses naturelles

Sur le plan comportemental, dans notre modèle, si la peine est associée à la drogue au début de l’usage volontaire de drogue, la valeur abstraite de la réponse à la recherche de drogue devient rapidement négative. En supposant que la recherche de drogue soit contrôlée par des niveaux abstraits au cours de ces premières étapes, une évaluation abstraite négative du choix de drogue fait en sorte que le sujet ne veut plus faire l'expérience de cette ligne de conduite. Cela empêchera la consolidation d'une forte préférence de faible niveau pour les drogues au fil du temps. Ainsi, le modèle explique l’élasticité des choix de drogues par rapport aux coûts aux premiers stades de la consommation de drogues, mais pas après une consommation chronique. De manière constante, les modèles animaux de dépendance montrent que l'insensibilité des réponses de la recherche d'un médicament aux conséquences néfastes du médicament ne se développe qu'après une auto-administration prolongée du médicament, sans limitation de la consommation de médicament. , . Contrairement à notre théorie, les modèles de calcul antérieurs de la dépendance , sont en contradiction directe avec cet ensemble d’éléments de preuve, car ils prédisent que les conséquences comportementales néfastes qui suivent immédiatement la consommation de drogue n’ont pas d’effet motivationnel, même au tout début de l’expérience de consommation de drogue (voir Fichier S1 pour des informations supplémentaires).

Notre modèle tient compte en outre de l’occurrence d’un effet bloquant sur les résultats des médicaments. . Le blocage est un phénomène de conditionnement dans lequel l’appariement préalable d’un stimulus A avec un résultat bloque la formation d’une association entre un stimulus B différent et ce résultat dans une phase d’entraînement ultérieure, où A et B sont présentés avant la livraison du résultat. . Résultats de la simulation de notre modèle dans un plan expérimental pavlovien (voir Fichier S1 pour des informations supplémentaires sur la version pavlovienne du modèle) montre que, dans les deux cas de récompense naturelle et de drogue, lorsque la valeur estimée à un certain niveau de la hiérarchie atteint son état stable (plutôt que de croître de manière illimitée), aucun apprentissage supplémentaire n’a lieu à ce stade. niveau, puisque le signal d’erreur de prédiction a été réduit à zéro (Figure 4). Ainsi, l’association d’un nouveau stimulus à la récompense déjà prévue sera bloquée. Preuves comportementales montrant un effet de blocage associé à la fois au médicament et aux renforçateurs naturels a été utilisé comme un argument majeur pour critiquer le modèle de calcul de la dépendance basé sur la dopamine proposé précédemment . Nous avons montré ici que se concentrer sur la nature hiérarchique des représentations et sur l’organisation de la boucle dopaminergique spiralée dorso-ventrale peut en réalité expliquer les données de blocage, contournant ainsi cette critique (voir ci-dessous). Fichier S1 pour des informations supplémentaires).

thumbnail

Figure 4. Effet bloquant pour les récompenses naturelles par rapport aux médicaments.

Le modèle prédit que le blocage se produit pour des récompenses naturelles (A) et des drogues (B), uniquement si la période de formation initiale est «longue», de sorte que le premier stimulus prédit pleinement la valeur du résultat. Après un entraînement «modéré», des niveaux cognitifs plus flexibles prédisent pleinement les valeurs et bloquent ainsi un apprentissage ultérieur. Cependant, l'apprentissage est toujours actif dans les processus de bas niveau lorsque la deuxième phase d'entraînement (présentation simultanée des deux stimuli) commence. Ainsi, notre modèle prédit qu'une formation initiale modérée dans une expérience de blocage avec des récompenses naturelles entraînera également une incohérence cognitive / comportementale. Les données présentées dans cette figure sont obtenues à partir d'un animal «simulé» et aucune analyse statistique n'était donc applicable.

doi: 10.1371 / journal.pone.0061489.g004

Comme mentionné précédemment, plusieurs sources de données montrent une domination progressive du dorsal sur le striatum ventral dans le contrôle du comportement au cours de l'apprentissage. , , . Interprétée sur le fond de ces preuves, l'évaluation déséquilibrée de la recherche de drogue dans la hiérarchie explique également les efforts infructueux des toxicomanes pour réduire la consommation de drogue après une longue expérience avec la drogue, lorsque le contrôle des choix liés à la drogue est passé de cognitif à faible au niveau des processus habituels. Cette suprématie des processus dominés par la drogue conduit naturellement à une inélasticité comportementale aux coûts associés à la drogue (recherche compulsive de drogue), probablement accompagnée d'une erreur auto-décrite. Pour le cas des récompenses naturelles, cependant, notre modèle prédit que même si l'inélasticité comportementale augmente au cours de l'apprentissage, comme aucune incohérence d'évaluation ne se développe à travers les niveaux de la hiérarchie, les punitions associées à la récompense finiront par inhiber la recherche de récompense.

Notre modèle se concentre sur l'évaluation des actions dans une hiérarchie de décision «supposément donnée», et laisse de côté la façon dont les options abstraites et leurs sous-routines de bas niveau correspondantes sont initialement découvertes au cours du développement. La découverte de la hiérarchie décisionnelle est proposée comme un processus ascendant, réalisé en regroupant des séquences d'actions de bas niveau et en construisant des options plus abstraites. . Ce processus, supposé subir un glissement du striatum dorsal vers le striatum ventral, va dans le sens opposé du mécanisme de concurrence proposé ici, pour prendre le contrôle du comportement.

a lieu

Le corpus croissant de preuves sur le rôle différentiel des différentes sous-régions striatales dans la toxicomanie est généralement interprété dans le cadre de la dichotomie entre habitude et dirigée vers un objectif. , , . L'approche décisionnelle hiérarchique que nous utilisons ici est complémentaire à de tels comptes à système double. Considérant que l’approche à double processus traite différents algorithmes (modèle-libre vs modèle-base ) pour résoudre un problème unique, le cadre hiérarchique RL se concentre sur différentes représentations du même problème à différents niveaux d'abstraction temporelle. En théorie, un algorithme habituel ou orienté objectif peut résoudre chacune de ces différentes représentations du problème. Dans notre modèle, l'accumulation de biais induits par le médicament sur les spirales des DA se produit dans un contexte où l'algorithme d'estimation de la valeur est dépourvu de modèle (apprentissage par habitude). Toutefois, cela n'exclut pas l'existence de systèmes basés sur des modèles fonctionnant aux niveaux supérieurs de la hiérarchie. On peut simplement incorporer le système d’évaluation et de décision dirigés par objectif dépendant de PFC dans le modèle en supposant que les actions aux plus hauts niveaux d’abstraction sont évaluées par un système dirigé par objectif. Bien qu'une telle complication ne change pas la nature des résultats présentés dans ce manuscrit, sa flexibilité supplémentaire pour expliquer un autre aspect de la dépendance est laissée à des études futures. En fait, dans notre modèle, qu’il existe ou non un système à objectif direct, la différence entre la valeur asymptotique de la recherche de drogue entre les deux extrêmes de la hiérarchie augmente avec le nombre de niveaux de décision régis par le processus «habituel». .

À la lumière de notre théorie, la rechute peut être considérée comme une reprise d'habitudes inadaptées au niveau moteur en sommeil, après une période de domination des niveaux cognitifs. En fait, on peut imaginer qu'en raison de la thérapie cognitive (chez les toxicomanes humains) ou de l'extinction forcée (dans des modèles animaux d'abstinence), la recherche d'un médicament au niveau détaillé de la hiérarchie n'est pas éteinte, mais devient dormante en raison de pour redonner le contrôle aux niveaux cognitifs. Le comportement lié à la drogue étant sensible aux conséquences néfastes à des niveaux abstraits, la recherche de drogue peut être évitée aussi longtemps que des processus cognitifs de haut niveau dominent le contrôle du comportement. On peut même supposer que les programmes d'étape 12 (Alcooliques anonymes, Narcotiques anonymes, etc.) fonctionnent en partie en demandant explicitement aux participants d'admettre l'incohérence de leur style de vie lié à la drogue, permettant ainsi aux niveaux cognitifs abstraits d'exercer un contrôle explicite sur leur comportement. comportement. Les conditions stressantes ou la ré-exposition à la drogue (amorçage) peuvent être considérées comme des facteurs de risque qui affaiblissent la domination des niveaux abstraits sur le comportement, ce qui peut entraîner la réémergence de réponses à la recherche de drogue (en raison des valeurs non cognitives élevées latentes élevées ).

En résumé, nous proposons un compte rendu cohérent de plusieurs phénomènes apparemment disparates caractéristiques de la toxicomanie. Notre modèle fournit un compte normatif des données sur les rôles différentiels des circuits striataux ventral et dorsal dans l'acquisition de drogue et la performance d'habitude, ainsi que sur le rôle sélectif de la connectivité DA anticipée pour les effets du médicament par rapport aux renforçateurs naturels. Plus important encore, nous montrons comment la pathologie induite par la drogue dans les signaux de DA ventrale à dorsale faisant couler les informations de motivation dans la hiérarchie de la représentation cognitive pourrait conduire à une discordance entre les attitudes abstraites des toxicomanes envers la recherche de drogue et ce qu'ils font réellement. De toute évidence, notre modèle ne donne pas et n'est pas censé donner un compte rendu complet de la toxicomanie. Pour expliquer d'autres aspects inexpliqués de la toxicomanie, il faut intégrer de nombreux autres systèmes cérébraux dont il a été démontré qu'ils sont affectés par l'abus de drogues . Comment incorporer de tels systèmes dans le réseau informatique formel reste un sujet à approfondir.

Renseignements à l'appui

File_S1.pdf
 

Figure S1,Un exemple de hiérarchie de décision avec cinq niveaux d'abstraction. Figure S2, Le circuit neuronal correspondant aux trois algorithmes d'apprentissage des valeurs examinées est une structure de décision hiérarchique. A, En utilisant un simple algorithme d'apprentissage TD (équation S7), le signal d'erreur de prédiction dans chaque niveau d'abstraction est calculé indépendamment des autres niveaux. B, Dans le modèle proposé par Haruno et Kawato (4) (équation S8), la valeur de l'état temporellement avancé provient d'un niveau d'abstraction supérieur. C, dans notre modèle (équation S9), la valeur de l'état temporellement avancé est remplacée par une combinaison de la récompense et de la valeur Q de l'action effectuée à un niveau d'abstraction supérieur. Figure S3, Notre modèle prédit différents sites d'action de médicaments sur le circuit d'apprentissage par récompense: les sites 1 à 3. Les médicaments affectant les sites 4 à 6, en revanche, ne produiront pas les schémas comportementaux et neurobiologiques produits par la simulation du modèle de médicaments, mais produiront des résultats similaires à ceux obtenus avec des récompenses naturelles. Figure S4, Tâche utilisée pour simuler le mécanisme de concurrence basé sur l’incertitude entre les niveaux de la hiérarchie pour prendre le contrôle du comportement. Figure S5, Résultat de la simulation, montrant le transfert progressif du contrôle du comportement des niveaux supérieurs aux niveaux inférieurs de la hiérarchie. Q (s, a) ainsi que Etats-Unis) affiche la valeur estimée et l’incertitude des paires état-action, respectivement.

Fichier S1.

Figure S1,Un exemple de hiérarchie de décision avec cinq niveaux d'abstraction. Figure S2, Le circuit neuronal correspondant aux trois algorithmes d'apprentissage des valeurs examinées est une structure de décision hiérarchique. A, En utilisant un simple algorithme d'apprentissage TD (équation S7), le signal d'erreur de prédiction dans chaque niveau d'abstraction est calculé indépendamment des autres niveaux. B, Dans le modèle proposé par Haruno et Kawato (4) (équation S8), la valeur de l'état temporellement avancé provient d'un niveau d'abstraction supérieur. C, dans notre modèle (équation S9), la valeur de l'état temporellement avancé est remplacée par une combinaison de la récompense et de la valeur Q de l'action effectuée à un niveau d'abstraction supérieur. Figure S3, Notre modèle prédit différents sites d'action de médicaments sur le circuit d'apprentissage par récompense: les sites 1 à 3. Les médicaments affectant les sites 4 à 6, en revanche, ne produiront pas les schémas comportementaux et neurobiologiques produits par la simulation du modèle de médicaments, mais produiront des résultats similaires à ceux obtenus avec des récompenses naturelles. Figure S4, Tâche utilisée pour simuler le mécanisme de concurrence basé sur l’incertitude entre les niveaux de la hiérarchie pour prendre le contrôle du comportement. Figure S5, Résultat de la simulation, montrant le transfert progressif du contrôle du comportement des niveaux supérieurs aux niveaux inférieurs de la hiérarchie. Q (s, a) ainsi que Etats-Unis) affiche la valeur estimée et l’incertitude des paires état-action, respectivement.

doi: 10.1371 / journal.pone.0061489.s001

(PDF)

Remerciements

Nous remercions S. Ahmed et P. Dayan pour leurs discussions critiques, ainsi que M. Reinoud, D. Redish, N. Daw, E. Koechlin et A. Dezfouli pour leurs commentaires sur le manuscrit.

Contributions d'auteur

Conçu et conçu les expériences: MK. Effectué les expériences: MK. Analysé les données: MK BG. Réactifs, matériaux et outils d’analyse fournis: MK. A écrit le papier: MK BG.

Bibliographie

  1. 1. Narcotiques Anonymes (2008). 6th ed. Bureau des services mondiaux.
  2. 2. Goldstein A (2001) Addiction: de la biologie à la politique des drogues. Oxford University Press, États-Unis.
  3. 3. ND de Volkow, JS Fowler, Wang GJ, Swanson JM (2004). Dopamine dans l’abus de drogues et la toxicomanie: résultats d’études par imagerie et conséquences pour le traitement. Psychiatrie moléculaire 9: 557 – 569. est ce que je: 10.1038 / sj.mp.4001507. Retrouvez cet article en ligne
  4. 4. Stacy AW, Wiers RW (2010) Cognition implicite et dépendance: un outil pour expliquer un comportement paradoxal. Revue annuelle de psychologie clinique 6: 551 – 575. est ce que je: 10.1146 / annurev.clinpsy.121208.131444. Retrouvez cet article en ligne
  5. 5. Manuel diagnostique et statistique des troubles mentaux (DSM-IV) (2000). 4th ed. Washington, DC: Association américaine de psychiatrie.
  6. 6. Lamb RJ, Preston KL, CW Schindler, RA Meisch, Davis F, et al. (1991) Les effets renforçants et subjectifs de la morphine chez les post-dépendants: étude dose-réponse. Journal de pharmacologie et de thérapie expérimentale 259: 1165 – 1173. Retrouvez cet article en ligne
  7. 7. Goldstein RZ, PA Woicik, SJ Moeller, F Telang, Jayne M, et al. (2010) Aimant et désirant des récompenses en termes de drogue et non-drogue chez les consommateurs actifs de cocaïne: le questionnaire STRAP-R. Journal de psychopharmacologie 24: 257 – 266. est ce que je: 10.1177/0269881108096982. Retrouvez cet article en ligne
  8. 8. Everitt BJ, Robbins TW (2005) Systèmes neuronaux de renforcement pour la toxicomanie: des actions aux habitudes en passant par la contrainte. Nature Neuroscience 8: 1481 – 1489. est ce que je: 10.1038 / nn1579. Retrouvez cet article en ligne
  9. 9. Redish AD (2004) Addiction en tant que processus informatique qui tourne mal. Science 306: 1944 – 1947. est ce que je: 10.1126 / science.1102384. Retrouvez cet article en ligne
  10. 10. Dezfouli A, P Piray, MM Keramati, Ekhtiari H, Lucas C, et al. (2009) Un modèle neurocomputatif pour la dépendance à la cocaïne. Calcul neuronal 21: 2869 – 2893. est ce que je: 10.1162 / neco.2009.10-08-882. Retrouvez cet article en ligne
  11. 11. Piray P, MM Keramati, A Dezfouli, Lucas C, Mokri A (2010) Les différences individuelles dans les récepteurs dopaminergiques du noyau accumbens prédisent le développement d'un comportement s'apparentant à la dépendance: une approche informatique. Calcul neuronal 22: 2334 – 2368. est ce que je: 10.1162 / NECO_a_00009. Retrouvez cet article en ligne
  12. 12. Dayan P (2009) Dopamine, apprentissage par renforcement et dépendance. Pharmacopsychiatrie 42: 56 – 65. est ce que je: -10.1055-0028 de 1124107 /. Retrouvez cet article en ligne
  13. 13. Takahashi Y, G Schoenbaum, Niv Y (2008) Réduire au silence les critiques: comprendre les effets de la sensibilisation à la cocaïne sur le striatum dorsolatéral et ventral dans le contexte d'un modèle acteur / critique. Frontiers in Neuroscience 2: 86 – 99. est ce que je: 10.3389 / neuro.01.014.2008. Retrouvez cet article en ligne
  14. 14. Redish AD, Jensen S, Johnson A (2008) Un cadre unifié pour la toxicomanie: vulnérabilités dans le processus de décision. Les sciences du comportement et du cerveau 31: 415 – 487. est ce que je: 10.1017 / S0140525X0800472X. Retrouvez cet article en ligne
  15. 15. Botvinick MM (2008) Modèles hiérarchiques de comportement et de fonction préfrontale. Tendances en sciences cognitives 12: 201 – 208. est ce que je: 10.1016 / j.tics.2008.02.009. Retrouvez cet article en ligne
  16. 16. Haruno M, Kawato M (2006) Modèle d’apprentissage par renforcement hétérarchique pour l’intégration de plusieurs boucles cortico-striatales: examen IRMf dans l’apprentissage en association par association stimulation-action-récompense. Réseaux de neurones 19: 1242 – 1254. est ce que je: 10.1016 / j.neunet.2006.06.007. Retrouvez cet article en ligne
  17. 17. Willuhn I, Burgeno LM, Everitt BJ, Phillips PEM (2012) Recrutement hiérarchique de la signalisation phasique de la dopamine dans le striatum au cours de la progression de la consommation de cocaïne. Actes de l'Académie nationale des sciences 109: 20703 – 20708. est ce que je: 10.1073 / pnas.1213460109. Retrouvez cet article en ligne
  18. 18. Botvinick MM, Niv Y, Barto AC (2009) Le comportement hiérarchisé et ses fondements neuronaux: une perspective d'apprentissage par renforcement. Cognition 113: 262 – 280. est ce que je: 10.1016 / j.cognition.2008.08.011. Retrouvez cet article en ligne
  19. 19. Badre D, D'Esposito M (2009) L'axe rostro-caudal du lobe frontal est-il hiérarchique? Nature Reviews Neuroscience 10: 659–669. est ce que je: 10.1038 / nrn2667. Retrouvez cet article en ligne
  20. 20. Koechlin E, Ody C, Kouneiher F (2003) Architecture du contrôle cognitif dans le cortex préfrontal humain. Science 302: 1181 – 1185. est ce que je: 10.1126 / science.1088545. Retrouvez cet article en ligne
  21. 21. Badre D, Hoffman J, Cooney JW, D'Esposito M (2009) Déficits hiérarchiques du contrôle cognitif suite à des lésions du lobe frontal humain. Nature neuroscience 12: 515–522. est ce que je: 10.1038 / nn.2277. Retrouvez cet article en ligne
  22. 22. Alexander GE, MR DeLong, PL Strick (1986) Organisation parallèle de circuits fonctionnellement séparés reliant les noyaux gris centraux et le cortex. Revue annuelle des neurosciences 9: 357 – 381. est ce que je: 10.1146 / annurev.neuro.9.1.357. Retrouvez cet article en ligne
  23. 23. Alexander GE, MD Crutcher, MR DeLong (1990) Circuits ganglionnaires-thalamocorticaux basaux: substrats parallèles pour les fonctions motrices, oculomotrices, préfrontales et limbiques. Les progrès de la recherche sur le cerveau 85: 119 – 146. Retrouvez cet article en ligne
  24. 24. Schultz W, Dayan P, PR de Montague (1997) Un substrat neural de prédiction et de récompense. Science 275: 1593 – 1599. est ce que je: 10.1126 / science.275.5306.1593. Retrouvez cet article en ligne
  25. 25. Belin D, Everitt BJ (2008) Les habitudes de recherche de la cocaïne dépendent de la connectivité série dépendant de la dopamine reliant le ventral au striatum dorsal. Neuron 57: 432 – 441. est ce que je: 10.1016 / j.neuron.2007.12.019. Retrouvez cet article en ligne
  26. 26. Haber SN, Fudge JL, RN de McFarland (2000). Les chemins empruntés par Striatonigrostriatal chez les primates forment une spirale ascendante allant de la coquille au striatum dorsolatéral. Le Journal of Neuroscience 20: 2369 – 2382. Retrouvez cet article en ligne
  27. 27. Haber SN (2003) Les ganglions de la base des primates: réseaux parallèles et intégratifs. Journal de chimie neuroanatomique 26: 317 – 330. est ce que je: 10.1016 / j.jchemneu.2003.10.003. Retrouvez cet article en ligne
  28. 28. Sutton RS, Barto AG (1998), Apprentissage par renforcement: Introduction. Cambridge: MIT Press.
  29. 29. Di Chiara G, Imperato A (1988) Les médicaments dont abusent les humains augmentent de préférence les concentrations synaptiques de dopamine dans le système mésolimbique de rats en mouvement libre. Actes de l'Académie nationale des sciences des États-Unis d'Amérique 85: 5274 – 5278. est ce que je: 10.1073 / pnas.85.14.5274. Retrouvez cet article en ligne
  30. 30. Daw ND, Niv Y, Dayan P (2005) Concurrence, basée sur l’incertitude, entre les systèmes striatal préfrontal et dorsolatéral pour le contrôle du comportement. Nature Neuroscience 8: 1704 – 1711. est ce que je: 10.1038 / nn1560. Retrouvez cet article en ligne
  31. 31. Vanderschuren LJMJ, PD Ciano, Everitt BJ (2005) Implication du striatum dorsal dans une recherche de cocaïne à contrôle contrôlé. Le Journal of Neuroscience 25: 8665 – 8670. est ce que je: 10.1523 / JNEUROSCI.0925-05.2005. Retrouvez cet article en ligne
  32. 32. ND de Volkow, Wang GJ, Telang F, Fowler JS, Logan J, et al. (2006) Indices de la cocaïne et dopamine dans le striatum dorsal: mécanisme de l’état de manque dans la dépendance à la cocaïne. Le Journal of Neuroscience 26: 6583 – 6588. est ce que je: 10.1523 / JNEUROSCI.1544-06.2006. Retrouvez cet article en ligne
  33. 33. Kalivas PW, ND de Volkow (2005) La base neurale de la dépendance: une pathologie de la motivation et du choix. Le journal américain de psychiatrie 162: 1403 – 1413. est ce que je: 10.1176 / appi.ajp.162.8.1403. Retrouvez cet article en ligne
  34. 34. Belin D, Jonkman S, Dickinson A, TW Robbins et Everitt BJ (2009) Processus d'apprentissage parallèles et interactifs au sein des noyaux gris centraux: pertinence pour la compréhension de la dépendance. Recherche comportementale sur le cerveau 199: 89 – 102. est ce que je: 10.1016 / j.bbr.2008.09.027. Retrouvez cet article en ligne
  35. 35. Matsumoto M, Hikosaka O (2009) Deux types de neurones dopaminergiques transmettent distinctement des signaux de motivation positifs et négatifs. Nature 459: 837 – 841. est ce que je: 10.1038 / nature08028. Retrouvez cet article en ligne
  36. 36. Frank MJ, DJ Surmeier (2009) Les neurones dopaminergiques de la substance noire différencient-ils récompense et sanction? Journal de biologie cellulaire moléculaire 1: 15 – 16. est ce que je: 10.1093 / jmcb / mjp010. Retrouvez cet article en ligne
  37. 37. Vanderschuren LJMJ, Everitt BJ (2004) La recherche de drogue devient compulsive après une auto-administration prolongée de cocaïne. Science 305: 1017 – 1019. est ce que je: 10.1126 / science.1098975. Retrouvez cet article en ligne
  38. 38. Deroche-Gamonet V, Belin D, Piazza PV (2004) Preuve d'un comportement semblable à celui d'une dépendance chez le rat. Science 305: 1014 – 1017. est ce que je: 10.1126 / science.1099020. Retrouvez cet article en ligne
  39. 39. Panlilio LV, Thorndike EB, Schindler CW (2007) Blocage du conditionnement à un stimulus couplé cocaïne: tester l'hypothèse selon laquelle la cocaïne produit en permanence un signal de récompense plus grande que prévu. Pharmacologie, biochimie et comportement 86: 774 – 777. est ce que je: 10.1016 / j.pbb.2007.03.005. Retrouvez cet article en ligne
  40. 40. Kamin L (1969) Prévisibilité, surprise, attention et conditionnement. Dans: Campbell BA, Church RM, éditeurs. Punition et comportement aversif. New York: Appleton-Century-Crofts. pp. 279 – 296.
  41. 41. Dezfouli A, Balleine BW (2012) Habitudes, séquences d'action et apprentissage par renforcement. Revue européenne de neuroscience 35: 1036 – 1051. est ce que je: 10.1111 / j.1460-9568.2012.08050.x. Retrouvez cet article en ligne
  42. 42. Koob GF, Le Moal M (2005) Neurobiologie de la toxicomanie. San Diego: Presse académique