オンラインで公開された2018 May 14。 土井: 10.1038 / s41593-018-0152-y
抽象
ドーパミンは学習と動機の両方の重要なモジュレーターです。 これは問題を提起します:増加したドーパミンが学習または移動のシグナルであるかどうかを標的細胞はどうやって知ることができますか? 動機づけは遅い(「強直性の」)ドーパミン変化を伴うが、速い(「相性の」)ドーパミン変動は学習のための報酬予測誤差を伝えるとしばしば推定される。 それにもかかわらず、最近の研究は、ドーパミンが動機づけの価値を伝え、1秒未満のタイムスケールでさえも運動を促進することを示しています。 ここでは、ドーパミンが継続的な行動をどのように調節しているかについての代替の説明を述べます。 動機付けに関連するドーパミン放出は、ドーパミン細胞発火とは無関係に、ドーパミン末端上の受容体によって迅速かつ局所的に彫刻される。 標的ニューロンは学習モードとパフォーマンスモードを急激に切り替え、線条体コリン作動性介在ニューロンは1つの候補切り替え機構を提供する。 ドーパミンの行動への影響は小地域によって異なりますが、いずれの場合も、ドーパミンは、エネルギー、注意力、または時間などの限られた内部リソースを費やす価値があるかどうかの動的推定値を提供します。
ドーパミンは学習、動機、またはその両方のためのシグナルですか?
ドーパミンに対する我々の理解は過去に変化し、そして再び変化しています。 1つの重要な違いは、ドーパミン 現在 行動(パフォーマンス)、およびドーパミンの効果 未来 行動(学習)。 どちらも現実的で重要ですが、さまざまな時期に一方が支持され、もう一方が支持されていません。
( '70sで)ドーパミン経路の選択的で完全な病変を実行することが可能になったとき、明らかな行動上の結果は運動の激しい減少でした1。 これは、進行性パーキンソン病、有毒薬、または脳炎によって引き起こされる、ヒトにおけるドーパミン喪失の無動作用と一致する2。 それにもかかわらず、ラットもヒトも、動くことが根本的に不可能であることを示していない。 ドーパミン損傷ラットは冷水で泳ぐ3そして、火災警報器が鳴るならば( "逆説的な"キネジア)、無動症の患者は起き上がって走るかもしれません。 また、報酬を評価することに基本的な不足はありません:ドーパミン損傷ラットは彼らの口に置かれた食べ物を消費し、それを楽しむことの兆候を示すでしょう4。 むしろ、彼らは積極的に報酬を得るための努力をすることを選びません。 これらおよび他の多くの結果は、ドーパミンと動機の間の基本的なつながりを確立しました5。 パーキンソン病のそれほどひどくないケースで観察された動きの鈍化でさえも、それがより速い動きに必要なエネルギーを費やす価値がないという暗黙の決定を反映して、動機付けの欠陥と考えることができます6.
それから( '80sで)行動するサルのドーパミンニューロンの先駆的な記録が登場しました(前脳に突き出る中脳領域:腹側被蓋野、VTA /黒質緻密部、SNc)。 観察された発火パターンの中には、即時の動きを引き起こす刺激に対する短時間の活動のバーストがありました。 この「相性の」ドーパミン発火は当初「行動の活性化」を支持すると解釈された7 そして「やる気を起こさせる覚醒」8 –言い換えれば、動物の現在の行動を活性化するものとして。
90で急激なシフトが発生し、位相性ドーパミンバーストの再解釈がエンコードとして行われました 報酬予測エラー (RPE9) これは重要な所見に基づいていました:ドーパミン細胞は将来の報酬に関連する予期しない刺激に反応しますが、これらの刺激が予期されるようになると反応を止めます10。 RPEのアイデアは、初期の学習理論、特に強化学習の当時発展してきたコンピュータサイエンス分野で生まれました。11。 RPEシグナルのポイントは更新することです 値(将来の報酬の見積もり) これらの値は、報酬を最大にする選択をするのを助けるために後で使われます。 ドーパミン細胞発火はRPEに似ており、RPEは学習に使用されるため、学習におけるドーパミンの役割を強調することは自然になりました。 後の光遺伝学的操作はRPEコード細胞のドーパミン作動性同一性を確認した12,13 そして彼らが実際に学習を調整することを示した14,15.
ドーパミンが学習信号を提供するという考えは、ドーパミンの主要な前脳の標的である線条体においてドーパミンがシナプス可塑性を調節するという文献と美しく一致する。 例えば、線条体樹状突起棘の脊椎動物のグルタミン酸刺激、シナプス後脱分極、およびドーパミン放出の三重同時発生は、棘の成長を引き起こす16。 長期学習機構のドーパミン作動性調節は線条体ドーパミン放出増強の性質を共有する習慣性薬物の持続的行動効果の説明に役立つ17。 ドーパミン喪失を伴う深刻な無動症でさえも、そのような学習メカニズムによって部分的に説明することができる18。 ドーパミンの欠如は、絶えず否定的なRPEとして扱われるかもしれず、それは徐々にゼロに向かって行動の値を更新します。 行動に対する同様の進行性の絶滅様作用がドーパミン拮抗薬によって生じ得る19,20.
それでも、ドーパミンが進行中の動機付けに決定的に関与しているという考えは決して消えることはありません–それどころか、それは行動神経科学者によって当然のことと広く考えられています。 これは、動機づけ/運動/活性化におけるドーパミン機能が学習から分離可能であるという強力な証拠を考えると適切です。15,20–23。 それほど広く認識されていないのは、この動機づけの役割をDAがRPE学習シグナルを提供するという理論と調和させることに関わる課題です。
動機づけは「先を見越して」:それは現在の行動を適切に活気づけるために将来の報酬(価値)の予測を使います。 対照的に、学習は最近の過去の状態や行動を「後ろ向きに」見て、その価値を更新します。 これらはサイクルの補完的な段階であり、更新された値は、それらの状態に遭遇した場合、その後の意思決定に使用され、その後再び更新される、といった具合です。 しかし、そのサイクルのどの段階が関与しているのでしょうか。 - 決断を下すための値の使用(パフォーマンス)、または値の更新(学習)?
ある状況では、ドーパミンが両方の役割を果たすと想像するのは簡単です。24予想外の、報酬予測の手がかりは、ドーパミン細胞の発火と放出を誘発するための典型的な出来事であり、そのような手がかりは通常行動を活性化し、学習を呼び起こす(図1)。 この特定の状況では、報酬予測と報酬予測エラーの両方が同時に増加しますが、常にそうであるとは限りません。 ほんの一例として、人や他の動物は、驚くべきことがほとんどまたはまったく起こらない場合でも、報酬を求めて働くように動機付けられることがよくあります。 彼らは報酬に近づくにつれてますます一生懸命働くかもしれません(報酬が近づくにつれて価値が増加します)。 重要なのは、学習と動機付けは概念的、計算的、行動的に異なるということですが、それでもドーパミンは両方を行うようです。
ドーパミン:過去を更新し、現在を活性化します。
Top矢印付きの円は、州とそれらの州からの潜在的なアクションを表します。 矢印の幅は、各アクションを実行することで得られた学習値を示しています。 州/行動が過去に消えていくにつれて、それらは次第に強化の対象にならなくなっています。 真ん中、ドーパミンのバーストが発生します。 その結果、現在の状態から利用可能なアクション(赤)、および最近実行されたアクション(紫)の値表現の可塑性が活気づきます。 ボトム可塑性の結果として、次にこれらの状態に遭遇したときにそれらの関連する値は増加している(矢印幅)。 繰り返しの経験を通して、強化学習は状態空間を通して「溝を彫る」ことができ、ある種の軌跡をますます可能性を高めます。 この学習の役割に加えて、ドーパミンの爽快でパフォーマンスの役割は、以前に学んだ軌跡に沿って流れをスピードアップするようです。
以下で、ドーパミンが学習機能と動機付け機能の両方をどのように達成できるかについての現在の考えを批判的に評価します。 私は3つの重要な事実に基づいて更新されたモデルを提案します:1)端末からのドーパミン放出は単にドーパミン細胞発火から生じるのではなく、局所的に制御することもできます。 (2)ドーパミンは、シナプス可塑性と標的細胞の興奮性の両方に影響を及ぼし、それぞれ学習とパフォーマンスに明らかな影響を与える。 可塑性に対するXNUMXドーパミン効果は、近くの回路素子によってオンまたはオフに切り替えることができる。 まとめると、これらの機能により、脳回路はそれぞれ学習と動機付けのために、2つの異なるドーパミンメッセージを切り替えることができます。
意味の異なる「位相性」および「強直性」ドーパミンシグナルはありますか?
ドーパミンの学習と動機づけの役割は異なる時間スケールで起こるとよく言われます25。 ドーパミン細胞は1秒あたり数回のスパイクで連続的に(「段階的に」)発火しますが、時折短い(「位相性」)バーストまたは一時停止します。 特にドーパミン細胞間で人工的に同調している場合、バーストは前脳ドーパミンの対応する急速な増加を促進する26 それは非常に一時的です(1秒未満の期間)27) 前脳ドーパミン濃度に対する持続性ドーパミン細胞発火の別々の寄与はあまり明らかではない。 いくつかの証拠はこの貢献が非常に小さいことを示唆します28。 より親和性の高いD2受容体をほぼ連続的に刺激し、ドーパミン細胞発火の一時停止にシステムが気付くようにすれば十分な場合があります。29 そしてこれらの休止を負の予測誤差として使う。
微小透析は、低い時間分解能(典型的には数分間にわたる平均)ではあるが、前脳ドーパミンレベルを直接測定するために広く使用されてきた。 ドーパミンのそのようなゆっくりとした測定は、行動と正確に関連づけることが難しい場合があります。 それにもかかわらず、側坐核(NAc;腹側/内側線条体)におけるドーパミンの微量透析は、自発運動に対する正の相関を示す。30 や他の動機の指標5。 これは、ドーパミン濃度にゆっくりとした(「持続性」)変化があること、そしてこれらのゆっくりとした変化が動機付けのシグナルを伝えることを意味すると広く解釈されてきた。 より具体的には、計算モデルは、持続性ドーパミンレベルが長期平均報酬率を追跡することを提案している。31 –時間の割り当てと採餌の決定に役立つ動機付け変数。 「強壮性」ドーパミンレベルを明確に定義している論文はほとんどないことを強調する価値があります。通常、ドーパミン濃度はマイクロダイアリシスの数分の時間スケールでゆっくりと変化すると想定しています。
それでも、この「位相性ドーパミン= RPE /学習、持続性ドーパミン=動機」の見方は多くの問題に直面しています。 第一に、トニックドーパミン細胞発火が通常遅い時間スケールで変化するという直接的な証拠はない。 緊張性発火率は動機の変化と共に変化しない32,33。 持続性ドーパミンレベルは活性ドーパミン細胞の割合の変化により変化すると主張されている34,35。 しかし、薬を使わずに病んでいない動物を使った多くの研究で、ドーパミン細胞が沈黙状態と活動状態を切り替えることは報告されていません。
さらに、微小透析がドーパミンレベルをゆっくり測定するという事実は、ドーパミンレベルが実際にゆっくり変化することを意味するのではない。 私たちは最近15 マイクロダイアリシスと高速スキャンサイクリックボルタンメトリーの両方を使用して、確率的報酬タスクでラットNAcドーパミンを調べた。 我々は、微小透析によって測定される中辺縁系ドーパミンが報酬率(報酬/分)と相関することを確認した。 しかしながら、改善された微小透析時間分解能(XNUMX min)を用いても、ドーパミンは我々がそれをサンプリングしたのと同じくらい速く変動した:我々は本質的に遅いドーパミンシグナルの証拠を見なかった。
ボルタンメトリーのさらに細かい時間分解能を使用して、我々は1秒未満のドーパミン変動と動機との間の密接な関係を観察した。 ラットが報酬を達成するのに必要な一連の行動を実行するにつれて、ドーパミンはますます高く上昇し、ちょうど彼らが報酬を得たときにピークに達した(そしてそれが消費されるにつれて急速に低下した)。 我々は、ドーパミンが瞬時の状態値と強く相関していることを示した - 予想される将来の報酬として定義され、それを受け取るのに必要とされる予想される時間によって割り引かれる。 これらの急速なドーパミン動態はまた、異なる時間スケールで別々のドーパミンシグナルを呼び出すことなく、微小透析の結果を説明することができます。 動物がより多くの報酬を経験するにつれて、それらは試験順序の各段階で将来の報酬に対する彼らの期待を増大させる。 ゆっくりと発展する平均報酬率信号よりもむしろ、ドーパミンと報酬率との間の相関は、これらの急速に発展する状態値の、長期間の微小透析サンプル収集時間にわたる平均として最もよく説明される。
中脳辺縁系ドーパミン放出のこの値の解釈は、ドーパミン放出が報酬への近さの増加と共に増加することを繰り返し発見した他の研究グループからのボルタンメトリーの結果と一致しています36–38(図2) この動機づけのシグナルは本質的に「遅い」というわけではありませんが、むしろ連続した時間スケールの範囲にわたって観察することができます。 アプローチ行動がまた数秒続くときドーパミン傾斜は数秒続くことができますが38これは内因性ドーパミン動態よりもむしろ行動の時間経過を反映している。 中脳辺縁系ドーパミン放出と変動値との間の関係は、記録技術が許す限り迅速に、すなわち、急性ボルタンメトリー電極を用いて〜100msタイムスケールで目に見える。15.
速いドーパミン変動は動的に進化する報酬の期待を示す
ac)ラットの予想される報酬に近づくにつれて、中辺縁系ドーパミン放出は急速に増加する。 d)将来の報酬の一時的に割り引かれた見積もりとして定義される価値は、報酬が近づくにつれて増加する。 報酬が以前に予想されたよりも大きい、近い、またはより確実であることを示す手がかりは、価値の飛躍を引き起こします。 ある瞬間から次の瞬間へのこれらのジャンプは、時間差RPEです。 e)「ベースライン」を差し引くと、値とRPE信号が混乱する可能性があります。 左側、ドーパミンは、従来のベースライン減算を用いて、(時間ゼロで)報酬予測合図に整列させ、報酬があまり期待されない場合(茶色)、ドーパミンがより高いレベルにジャンプすることを示しているようである。 正しい、同じデータの別の提示、ドーパミンレベルと同等 After その手がかりは、代わりに、前払いのドーパミンレベルが報酬期待(価値)に依存することを示すでしょう。 追加の分析により、右側の表示は真実に近いと判断されました(詳細は参考文献の2を参照)。 15) パネルaは、refから許可を得て複製したものです。 38、マクミランパブリッシャーズリミテッド…。 パネルbは、許可を得て、参考文献から複製した。 37エルゼビア。 パネルCEは、許可を得て、refから複製した 15マクミラン出版社
速いドーパミン変動は単に動機づけを反映するのではなく、それらはまた直ちに動機づけられた行動を促進する。 トリガとなるドーパミン細胞のより大きな位相応答は、その同じ試験でより短い反応時間を予測する39。 VTAドーパミン細胞の光遺伝学的刺激はラットを我々の確率的報酬課題で働き始める可能性を高める15まるで彼らがより高い報酬を期待しているかのように。 SNcドーパミンニューロンまたは背側線条体におけるそれらの軸索の光遺伝学的刺激は運動の可能性を増加させる40,41。 重要なことに、これらの行動上の影響は、光遺伝学的刺激の開始から数百ミリ秒以内に明らかになります。 モチベーションを高める報酬予測手がかりの能力はNAc棘状ニューロンの興奮性の非常に急速なドーパミン作動性調節により仲介されるように思われる42。 ドーパミンは急速に変化し、そしてこれらのドーパミン変化は動機づけに急速に影響するので、ドーパミンの動機づけ機能は遅い(「緊張性」)ではなく「速い」(「強直性」)としてよりよく説明される。
さらに、別々の速い時間スケールと遅い時間スケールを呼び出すこと自体は、ドーパミン受容体を持つニューロンが直面するデコードの問題を解決しません。 ドーパミンが学習を合図する場合、シナプス可塑性の調節は適切な細胞応答のように思われます。 しかし、やる気のある行動への即時の影響は、例えば興奮性の急速な変化による、スパイクへの即時の影響を意味します。 ドーパミンはこれらのシナプス後効果の両方(およびそれ以上)を持つことができます、それで与えられたドーパミン濃度は特定の意味を持っていますか? または、この意味を構築する必要がありますか?たとえば、時間の経過とともにドーパミンレベルを比較することによって、または他の一致する信号を使用して、どの細胞機構が関与するかを決定することによって。 この可能性については、以下でさらに説明します。
ドーパミン放出はドーパミン細胞発火と同じ情報を伝えますか?
ドーパミン細胞の発火が代わりにRPEに似ていることを考えると、速いドーパミン変動と動機付けの価値との間の関係は奇妙に思われる。 さらに、中辺縁ドーパミン放出におけるRPEシグナルを報告した研究もいくつかあります。43。 いくつかの形式の神経データを解釈する際の課題に注意することが重要です。 値信号とRPEは相互に相関しています。当然のことながら、RPEは通常、ある瞬間から次の瞬間への値の変化(「時間差」RPE)として定義されます。 この相関関係のため、RPEアカウントから値を区別する実験計画と分析を使用することが重要です。 絶対的な信号変化ではなく相対的な信号変化に依存する神経測定を使用すると、問題はさらに複雑になります。 ボルタンメトリー分析は通常、関心のある時点でのドーパミンを、各試行の初期の「ベースライン」エポックと比較します(各電圧掃引での電極充電や数分のタイムスケールでのドリフトなど、ドーパミンに依存しない信号成分を除去するため)。 ただし、ベースラインを差し引くと、値信号がRPE信号に似たものになる可能性があります。 これは私たち自身のボルタンメトリーデータで観察したものです(図2e) 報酬期待の変化は各試験の初期のドーパミン濃度の変化に反映されており、試験を通して一定のベースラインを仮定しただけではこれらの変化は見逃される。15。 したがって、ドーパミン放出とRPEコーディングに関する結論は注意して見る必要があります。 このデータ解釈の危険性は、ボルタンメトリーだけでなく、相対的な変化に依存する分析にも当てはまります。これには、fMRIや測光が含まれる可能性があります。44.
それにもかかわらず、我々はまだドーパミンニューロンによる価値関連のスパイクの一貫した欠如とNAcコアにおける価値関連のドーパミン放出を調和させる必要があります13、NAcコアにドーパミンを提供する外側のVTA領域内でも45。 1つの潜在的な要因は、ドーパミン細胞は通常古典的な条件付け作業を行っている頭を拘束された動物に記録され、ドーパミン放出は典型的には環境を活発に動いている拘束されていない動物において測定される。 中脳辺縁系ドーパミンが「仕事」の価値を具体的に示す可能性があることを提案した15 –それは報酬を得るために時間と労力を費やすための要件を反映していること。 これと一致して、ドーパミンは、同様の将来の報酬を示している場合でも、動きを指示する信号では増加しますが、静止を指示する信号では増加しません46。 多くの古典的条件付けタスクのように、アクティブな「仕事」にメリットがない場合、仕事の価値を示すドーパミン作動性の変化はあまり明白ではない可能性があります。
さらに重要なのは、ドーパミン放出を末端自体で局所的に制御することができ、したがって細胞体スパイクとは無関係の時空間的パターンを示すことができるという事実であり得る。 例えば、側底側扁桃体(BLA)は、VTAが不活性化されている場合でもNAcドーパミン放出に影響を及ぼします。47。 逆に、BLAを不活性化すると、明らかにVTA発火に影響を与えることなく、NAcドーパミン放出および対応する動機づけられた行動が減少する48。 ドーパミン末端は、グルタミン酸塩、オピオイド、およびアセチルコリンを含む一連の神経伝達物質に対する受容体を有する。 ニコチン性アセチルコリン受容体は線条体コリン作動性介在ニューロン(CIN)によるドーパミン放出の迅速な制御を可能にする49,50。 ドーパミン放出の局所的制御が潜在的に重要であることが長い間注目されてきたが7,51、それはドーパミン機能の計算上の説明に含まれていません。 私は、価値コーディングに関連したドーパミン放出のダイナミクスが主に以下を通して生じることを提案します。 ローカル ドーパミン細胞の発火が学習のための重要なRPEのようなシグナルを提供するとしても、コントロール。
どのようにドーパミンは混乱なしに学習と動機の両方を意味することができますか?
時間差RPEは単に値の急激な変化であるため、原則として、値信号はRPEも伝達するのに十分である(図2B) 例えば、標的ニューロンにおける異なる細胞内経路は、ドーパミンの絶対濃度(値を表す)対濃度の速い相対的変化(RPEを表す)に対して異なる感度を示し得る。 とげのあるニューロン生理学の複雑なドーパミン調節を考えると、この計画はもっともらしいと思われる52 カルシウム濃度の時間的パターンに対するそれらの感受性53。 それでも、これはやや冗長なようです。 RPE様シグナルがドーパミン細胞スパイク中に既に存在する場合、値シグナルからRPEを再導出するよりもむしろそれを使用することが可能であるはずである。
異なるRPEおよび値信号を適切に使用するために、ドーパミン受容回路は、それらがドーパミンをどのように解釈するかを能動的に切り替えることができる。 アセチルコリンもこのスイッチングの役割を果たすかもしれないという興味深い証拠があります。 ドーパミン細胞が突然の手がかりにスパイクのバーストを発射するのと同時に、CINは短い(〜150ms)を示します 一時停止 RPEには対応しない54。 これらのCIN休止はVTA GABA作動性ニューロンによって引き起こされる55 層内視床における「驚き」関連細胞と同様に、学習を促進する関連性シグナルとして作用することが提唱されている。56。 MorrisとBergmanは提案した54 コリン作動性の休止は、線条体の可塑性のための時間窓を定義し、その間にドーパミンは学習信号として使用され得る。 ドーパミン依存性可塑性は直接経路線条体ニューロン上のムスカリン性m4受容体を含む機構により継続的に抑制される57。 細胞内シグナル伝達のモデルはCIN休止中にm4結合の欠如が相性ドーパミンバーストと相乗的に作用してPKA活性化を促進することを示唆する58それによってシナプス変化を促進する。
したがって、線条体コリン作動性細胞は、多重化ドーパミン作動性メッセージの意味を動的に切り替えるのに十分に位置付けられている。 CINが休止している間は、シナプス可塑性に対するムスカリンブロックの緩和により、ドーパミンを学習に使用することが可能になります。 他の時にはドーパミン終末からの放出は進行中の行動成績に影響を与えるために局所的に彫刻されるであろう。 現在、この提案は投機的で不完全なものです。 エントロピーなどの有用なネットワークレベルの信号を抽出するために、CINが周囲の多くの有棘ニューロンからの情報を統合することが提案されています。59,60。 しかし、CIN活性ダイナミクスがドーパミン値シグナルを生成するために使用され得ることは全く明らかではない61また、ドーパミン学習信号をゲートするために。
ドーパミンは前脳全体で同じことを意味しますか?
RPEの考えが成立するにつれて、ドーパミンは、線条体および前頭皮質の標的全体にエラーメッセージを放送する、世界的なシグナルであると想像された。 シュルツ氏は、VTAとSNCを通してサルのドーパミン細胞は非常に似たような反応をすると強調した。62。 同定されたドーパミン細胞の研究はまた、少なくとも古典的条件付けの文脈内の外側VTAニューロンについて、げっ歯類において全く均一なRPE様応答を見出した。13。 まだドーパミン細胞は分子的および生理学的に多様です63–65 そして、彼らが行動をとる動物に多様な発砲パターンを示すという多くの報告があります。 これらは嫌悪イベントへの発砲の段階的な増加を含みます66 そして合図を引き起こす67 それは標準的なRPEのアカウントとうまく合いません。 多くのドーパミン細胞は、特定のRPEコーディング以上の驚きまたは「警告」を反映している、感覚イベントに対する最初の短時間の反応を示します68,69。 この警告の側面はSNcでより顕著です69ドーパミン細胞は「感覚運動」背側/外側線条体(DLS)により多く突き出る45,63) SNcドーパミン細胞の亜集団もまた増加することが報告されている。41 または減らす70 外的な合図がなくても、自発的な動きと同時に発砲する。
いくつかのグループは、ドーパミンニューロンの亜集団のバルク活動を調べるために、光度計とカルシウム指示薬GCaMPを使いました71,72。 背側/内側線条体(DMS)に突き出たドーパミン細胞は、予期しない短いショックに対して一過性に抑制された活動を示したが、DLSに投射したものは活動の増加を示した71–アラート応答との整合性が向上します。 ドーパミン軸索および終末の活動を調べるためにGCaMPを使用して、異なる前脳サブ領域における明確なドーパミン作動性応答も観察されています。40,72,73。 頭部拘束マウス、HoweおよびDombeckにおける二光子イメージングの使用40 自発運動に関連した位相性ドーパミン活性を報告した。 これは主に背側線条体で終結したSNc由来の個々のドーパミン軸索において見られたが、NAcにおけるVTAドーパミン軸索はより多くの報酬送達に応答した。 他の人たちはまた、NAcで報酬に関連したドーパミン作動性の活動を発見しました、その代わりにDMSは反対側の行動により関連していました72 および新規刺激に反応する線条体の後尾部74.
ドーパミン放出の直接測定も小領域間の不均一性を明らかにする30,75。 微小透析を用いて、我々はドーパミンが線条体の他の内側部分(NAc殻、DMS)または前頭皮質ではなく、NAcコアおよび腹内側中央前頭皮質において特異的に値と相関することを見出した。 これは、ヒトのfMRI研究で一貫して見られる2つの「ホットスポット」の値コーディングにうまく対応しているように見えるため、興味深いものです。76,77。 特にドーパミンシグナル伝達と密接な関係があるNAc BOLDシグナル78、報酬の期待(値)とともに増加–RPEよりも76.
ドーパミン放出のこれらの空間的パターンが異なるドーパミン細胞亜集団の発火、ドーパミン放出の局所的制御、またはその両方から生じるかどうか、それらは包括的なドーパミンメッセージの概念に挑戦する。 多くの異なるドーパミン機能があると結論づけるかもしれません、(例えば)背側線条体シグナル伝達におけるドーパミンは「動き」を示し、腹側線条体シグナル伝達におけるドーパミンは「報酬」を伴う40。 しかし、私は別の概念的なアプローチを支持します。 異なる線条体小領域は異なる皮質領域からの入力を得、そしてそれ故に異なる種類の情報を処理することになる。 それでもなお、各線条体小領域は、別々のDXNUMX受容体対DXNUMX受容体を有する棘状ニューロンを含む、共通のマイクロ回路アーキテクチャを共有する。79、CINなど。 それらが別々の領域であるかのように様々な線条体小領域(例えばDLS、DMS、NAcコア)を指すのが一般的であるが、それらの間に明確な解剖学的境界はない(NAcシェルはもう少し神経化学的に異なる)。 その代わりに、受容体密度、介在ニューロンの割合などに緩やかな勾配があり、それは共有計算アルゴリズムのパラメータを微調整するように見えます。 この共通のアーキテクチャを考えれば、各サブリージョンによって処理されている特定の情報から抽象化された、共通のドーパミン機能を説明できますか?
線条体ドーパミンと限られた資源の配分
進行中の行動に対するさまざまな異種ドーパミンの影響は、 リソース割り当ての決定。 具体的には、ドーパミンは、特定の資源が線条体小領域間で異なる場合に、限られた内部資源をどれだけ価値があるのかを見積もることを提供する。 「運動」線条体(〜DLS)の場合、資源は移動です。移動にはエネルギーがかかり、多くの行動は互いに相容れないため、制限されます。80。 ドーパミンを増やすと、動くためにエネルギーを使う価値があると動物が判断する可能性が高まります。6,40,81。 「動きは価値がある」とエンコードしたドーパミン信号は、ドーパミンと「動き」をエンコードしていなくても、ドーパミンと動きの間に相関関係を生じることに注意してください。 それ自体が.
「認知的」線条体(〜DMS)の場合、リソースは注意を含む認知的プロセスです(定義上、容量に限りがあります)。82)と作業メモリ83。 ドーパミンがなければ、通常は注意を向けるべきではないと考えられるように、通常は定位運動を引き起こすような目立つ外部手がかりは無視されます3。 さらに、意図的に認知制御プロセスを整理することは、手間がかかります(費用がかかります)。84) ドーパミン - 特にDMS85 –この努力をする価値があるかどうかを判断する上で重要な役割を果たします86,87。 これには、より認知的に要求の高い、慎重な(「モデルベース」の)意思決定戦略を採用するかどうかを含めることができます。88.
「やる気を起こさせる」線条体(〜NAc)の場合、1つの重要な限られた資源は動物の時間かもしれません。 動物が迅速に報酬を得るために単純で固定された行動をとる場合、中辺縁系ドーパミンは必要とされない89。 しかし多くの形の報酬は長期の仕事を通してしか得ることができません:採餌のように、展開された一連のゆるい行動。 仕事に従事することを選択することは、時間を費やす他の有益な方法を見逃さなければならないことを意味します。 高い中辺縁系ドーパミンは、一時的に延長された努力をすることは価値があることを示しますが、ドーパミンが低下するにつれて動物は気にせず、代わりに眠る準備をするかもしれません90.
したがって、各皮質 - 線条体ループ回路内で、進行中の行動に対するドーパミンの寄与は、経済的(資源配分に関係する)および動機付け的(それがそうであるかどうか)の両方である。 やりがいのある リソースを消費する81) これらの回路は完全に独立しているのではなく、むしろ階層的でらせん状の組織をしています。5,91。 このように、仕事に従事する決定はまた、必要とされる特定の、より短い動きを活性化するのを助けるかもしれません。 しかし、全体として、ドーパミンは、特定の「方向性」信号ではなく、「活性化」信号を提供し、何らかの決定が下される可能性を高めます。 の リソースは費やされるべきです5.
決定が下されるときのドーパミンの計算上の役割は何ですか?
この活動的な役割について考える一つの方法は、意思決定の「しきい値」の観点からです。 特定の数学モデルでは、システムが行動に専念するようになると、決定プロセスがしきい値レベルに達するまで増加します。92。 より高いドーパミンはより低い閾値までの距離と同等であり、その結果決定はより迅速に達成される。 この考え方は単純化されていますが、確認された定量的予測を行います。 運動の閾値を下げると、反応時間分布の形に特定の変化が生じます。アンフェタミンが感覚運動線条体に注入されたときに見られるものと同じです。20.
決定がますます緊急になっているかのように、しきい値が時間の経過とともに減少する場合は、固定のしきい値ではなく、行動データおよび神経データが適している可能性があります。 大脳基底核の出力は、皮質における選択メカニズムを活性化する、動的に進化する緊急信号を提供するために提案されています。93。 将来の報酬が間に合うようになると緊急性も高まり、この概念は価値コーディング、ドーパミンの活性化の役割に似ています。
そのような活性化の役割は線条体ドーパミンのパフォーマンス調節効果を説明するのに十分であるか? これは、大脳基底核回路が学習した行動の中から直接選択するかどうかという長年の疑問に関連しています。80 または単に他の場所で行われた選択を元気づける93,94。 ドーパミンがより「方向性のある」効果を持つように見える方法は少なくとも2つあります。 第一は、ドーパミンが本質的に方向性のある情報を処理する脳の小領域内で作用するときです。 大脳基底核回路は、潜在的な報酬に向かってそしてそれに近づくことを指向している重要な、部分的に左右された役割を持っています。 霊長類尾状核(〜DMS)は反対側の空間的視野に向かって眼球運動を推進することに関与している95。 反対側の空間にあるものは方向を向ける価値があるというドーパミン作動性シグナルは、DMSにおけるドーパミン作動性活性と反対側の動きとの間に観察された相関を説明し得る72、ならびにドーパミン操作によって生じる回転挙動96。 ドーパミンの2つ目の「方向性」の影響は、(両側性)ドーパミン病変が、高努力/高報酬の選択肢ではなく、低努力/低報酬の選択に向かってラットを偏らせる場合に明らかである。97。 これは、ラット(および人間)が一度に1つずつ選択肢を評価する場合、いくつかの決定が並行よりも連続的であるという事実を反映している可能性があります。98。 これらの決定の文脈では、ドーパミンはまだ現在考慮されているオプションの価値を伝えることによって根本的に活性化の役割を果たすかもしれません。24.
活動的な動物は複数のレベルで、多くの場合は高率で決定を下します。 個々の決定について考えることを超えて、州のシーケンスを通して全体的な軌跡を考えることは役に立つかもしれません(図1) ある状態から次の状態への移行を容易にすることによって、ドーパミンは学習した軌跡に沿った流れを加速する可能性があります。99。 これは、行動のタイミングに対するドーパミンの重要な影響に関連している可能性があります。44,100。 将来の研究のための1つの重要なフロンティアは、単一細胞、マイクロ回路および大規模な皮質基底核ループ内の情報処理を変えることによって、進行中の行動に対するそのようなドーパミン効果がどのように機械的に起こるかのより深い理解を得ることである。 また、私はドーパミンの一般的な計算の役割線条体のターゲットの範囲で、主に無視された皮質のターゲットを強調し、両方の構造のドーパミン機能が同じフレームワークの中で記述できるかどうかはまだわかりません。
要約で、ドーパミンの十分な説明は、混乱することなく、ドーパミンが学習と動機の両方を同じ速い時間尺度で合図することができる方法を説明するでしょう。 たとえドーパミン細胞発火がそうではないとしても、なぜ重要な標的におけるドーパミン放出が報酬期待と共変動するのかを説明するであろう。 そしてそれは線条体や他の場所の至る所でドーパミン作用の統一された計算上の説明を提供するであろう、それは運動、認識およびタイミングに対する異なる行動の影響を説明する。 ここに提示されたいくつかの特定の考えは推測的ですが、新たな議論、モデル化、そして斬新な新しい実験を活性化することを意図しています。
謝辞
Kent Berridge氏、Peter Dayan氏、Brian Knutson氏、Jeff Beeler氏、Peter Redgrave氏、John Lisman氏、Jesse Goldberg氏、そして匿名の審判員など、以前の草稿に対して洞察に満ちたコメントを提供してくれた多くの同僚に感謝します。 スペースが限られていたために、多くの重要な先行研究の議論ができなかったことを残念に思います。 不可欠な支援は、国立神経障害脳卒中研究所、国立精神衛生研究所、および国立薬物乱用研究所によって提供されました。

