도파민 불확실성과 TD 학습 (2005)

의견 : 불확실성은 참신함을 의미합니다. 이 복잡한 연구는 참신함이 도파민을 증가 시킨다는 것을 확인합니다. 또한 보상이 불확실할수록 학습이 더 강하다는 것을 설명합니다. 인터넷 포르노는 끝없는 참신함으로 인해 과거의 포르노와 다릅니다. 이것은 도파민의 끝없는 분출을 의미합니다. 중독의 핵심은 학습과 기억입니다. 새로운 장르의 포르노로 전환하면 경험할 내용이 불확실하기 때문에 도파민과 학습이 활성화됩니다. 포르노 사용자가 포르노를 검색 할 때도 불확실성이 발생합니다. 당신은 당신이 무엇을 보게 될지 모르고 그것은 도파민을 증가시킵니다.
참신, 불확실성, 그리고 모두 도파민 활성화

전체 연구 : 도파민 불확실성 및 TD 학습

행동 및 뇌 기능 2005, 1:6doi:10.1186/1744-9081-1-6

Yael Niv1,2, Michael O Duff2 및 Peter Dayan2
1 히브리 대학교 신경계 산학 센터, 예루살렘, 이스라엘
2 Gatsby 전산 신경 과학 단위, University College London, 런던, 영국
이 기사의 전자 버전은 완전한 버전이며 다음 웹 사이트에서 온라인으로 볼 수 있습니다. http://www.behavioralandbrainfunctions.com/content/1/1/6
© 2005 Niv et al; 라이센스 사용자 BioMed Central Ltd.

추상

실질적인 증거는 영장류 중뇌에서 도파민 성 뉴런의 위상 활동이 미래의 보상 예측에서 시간적 차이 (TD) 오류를 나타내며, 각각 긍정적 및 부정적 예측 오류에 따라 기준선보다 위 및 아래로 증가 함을 시사한다. 그러나, 도파민 세포는 매우 낮은 기준선 활성을 가지며, 이는이 두 종류의 오류의 표현이 비대칭적임을 암시한다. 우리는 지속적인 예측 오류를 초래하는 확률 적 보상을 사용한 실험에서 도파민 성 발사 패턴의 해석에 대한이 겉보기에 무해한 비대칭의 의미를 탐구합니다. 특히, 우리는 시험 전반에 걸쳐 비 정적 예측 오류를 평균 할 때, 도파민 뉴런의 활동의 증가가 명백해야하며, 그 크기는 학습 속도에 의존한다는 것을 보여준다. 이 정확한 현상은 최근 실험에서 관찰되었지만, 불확실성의 시험 내부 인코딩으로 대척 자 용어로 해석되었다.

개요

미래의 보상에 대한 예측을 포함하는 고전 및 도구 컨디셔닝 작업에서 원숭이, 쥐 및 인간의 중뇌에서 도파민 작용 성 (DA) 세포의 위상 활동에 관한 생리 학적, 영상화 및 정신 약리학 적 데이터가 상당히 많이 존재한다 [1-5]. 이 데이터는 DA 뉴런의 활동이 미래 보상 [6,7]의 예측에서 시간적 차이 (TD) 오류를 나타낸다는 것을 [8,9]를 제안하기 위해 취해졌습니다. 이 도파민의 TD 이론은 다수의 행동 및 신경 데이터를 이해하기위한 정확한 계산 기반을 제공합니다. 또한 DA는 예측과 보상 최적화 행동의 학습을 제어하는 ​​데 이론적으로 적합한 신호를 제공한다고 제안합니다.

TD 이론에 유리한 가장 강력한 증거 중 일부는 보상의 근접한 가용성 (주스 방울과 같은)을 예측하는 임의의 자극 (예 : 모니터의 프랙탈 패턴)에 대한 반응으로 도파민 세포의 위상 활성화를 조사하는 연구에서 비롯됩니다. . 많은 변형에서, 이들은 트레이닝을 통해 위상 DA 신호가 초기 예측 불가능한 보상 시점에서 보상을 예측하는 가장 빠른 큐 시점으로 전달됨을 보여 주었다. 이것은 시차 기반 예측 오차 (예 : [1,2,10-13])에 대해 정확히 예상 된 결과입니다. 기본적인 발견 [7]은 보상이 예상치 못한 경우 (초기 실험에서는 불가피) 도파민 세포가 그에 강하게 반응한다는 것입니다. 그러나 보상이 예측 될 때, 셀은 현재 예상되는 보상이 아니라 예측기에 응답합니다.

예상 보상이 예기치 않게 생략되면 보상의 정상 시간에 셀이 위상 적으로 억제됩니다. 보상 예측의 정확한 타이밍을 드러내는 억제 [10], 현재 시간적 지표가 법 의학적 주목을 받고 있습니다 [14]. 보상 시점에서 예측 자 시점으로의 활동 이동은 보상 시점 (무조건적 자극)에서 동물의 식욕 행동 반응이 고전적 조건화 실험에서 조건화 된 자극으로 이동하는 것과 유사합니다. [7,10] .

가장 흥미로운 최근 연구에서 Fiorillo et al. [15]는 모든 단일 시행에서 지속적이고 피할 수없는 예측 오류가있는 부분 강화 사례를 조사했습니다. TD 예측 오차 가설에 대한 간단한 해석은이 경우 (a) 예측 자극 시점의 도파민 활동이 보상 확률에 비례하며, (b) 시험 후 평균적으로 자극 후의 도파민 반응을 나타냅니다. 보상 시점까지는 0이되어야합니다. 실험에서 첫 번째 가설이 확인되었지만 두 번째 가설은 그렇지 않았습니다. 시험 간 평균 반응은 자극 개시와 보상 사이의 지연 동안 TD 계정과 일치하지 않는 것으로 명백한 활동 증가를 보여 주었다. Fiorillo et al. 이 활동은 예측 오류가 아닌 보상 제공의 불확실성을 나타낸다는 가설을 세웠다.

본 논문에서는 지속적인 예측 오류 문제를 방문한다. 우리는 양성 및 음성 예측 오차의 코딩에서 결정적인 비대칭 성이 시험 사이 평균 도파민 신호에서 램핑을 예상하도록 이끌고 있음을 보여준다. 또한 DA 신호의 두 가지 특징 인 (잠재적) 보상 시점의 명백한 지속적인 활동과 램핑 신호의 소멸 (또는 적어도 약화)을 잘 설명하지만 보상 시점의 신호는 아닙니다. 지연 컨디셔닝보다는 트레이스에 직면합니다. 이러한 현상은 Morris 등의 관련 기기 컨디셔닝 실험에서도 관찰되었습니다. [16]. 마지막으로, 우리는 램핑 신호를 예측 자극 시간으로의 도파민 활성 이동이 발생하는 학습 메커니즘의 특성에 대해 현재 이용 가능한 최상의 증거로 해석합니다.

보상 발생의 불확실성 : DA 램핑

Fiorillo et al. [15] 원숭이에게 0 가지 시각적 자극을 제시하는 것과 주스 보상의 지연 확률 적 (pr = 0.25, 0.5, 0.75, 1, 2) 전달을 연관 시켰습니다. 그들은 자극이 XNUMX 초의 고정 된 간격 동안 지속되고 자극이 사라지면 보상이 전달되는 지연 조절 패러다임을 사용했습니다. 훈련 후 원숭이의 예상 핥는 행동은 각 자극과 관련된 다양한 보상 확률을 알고 있음을 나타냅니다.

1a는 각 pr에 대한 세포 외 기록 된 DA 세포 활성의 집단 히스토그램을 보여준다. TD 이론은 시각 자극시 DA 세포의 위상 활성화가 평균 예상 보상과 일치해야하며, pr. 그림 1a는 정확히 이것을 보여줍니다. 실제로 인구 전체에서 증가율은 상당히 선형입니다. Morris et al. [16]는 확률 론적 강화와 관련된 도구 (추적) 컨디셔닝 작업에서 유사한 결과를보고합니다.

그림 1. 확률 적 보상 작업의 평균 예측 오류
(a) 보상 확률이 다른 시험에서 DA 반응. 모집단 주변 자극 시간 히스토그램 (PSTH)은 중간 확률에서 보상 및 비 보상 시험에 대해 풀링 된 여러 시험에서 여러 DA 뉴런의 합산 스파이 킹 활동을 보여줍니다. (b) 비대칭 스케일링을 사용한 TD 예측 오류. 시뮬레이션 된 작업에서 각 시험에서 5 개의 자극 중 하나가 무작위로 선택되어 시간 t = 25에 표시되었습니다. 자극은 t = 1에서 꺼졌고, 이때 자극에 의해 지정된 pr 확률로 보상이 주어졌습니다. 우리는 각 자극이 다른 단위 집합 ( '뉴런')으로 표시되는 자극 (텍스트 참조)의 탭된 지연 선 표현을 사용했습니다. TD 오류는 δ (t) = r (t) + w (t – 1) • x (t) – w (t – 1) • x (t – 1)이고, r (t)는 시간 t에 대한 보상입니다. , x (t) 및 w (t) 단위에 대한 상태 및 가중치 벡터. 표준 온라인 TD 학습 규칙은 고정 학습률 α, w (t) = w (t – 1) + αδ (t) x (t – 1)로 사용되었으므로 각 가중치는 예상되는 미래 보상 값을 나타냅니다. Fiorillo et al.과 유사하게, 우리는 작업이 학습 된 후 많은 시도에서 평균화 된 예측 오차 δ (t)를 묘사합니다. 표현 비대칭은 δ (t)의 음수 값이 시뮬레이션 된 PSTH의 합산 전에 d = 6/0만큼 스케일링 되었기 때문에 발생하지만 학습은 스케일되지 않은 오류에 따라 진행됩니다. 마지막으로, pr = 1에 대한 자극 시점과 (a)에서 볼 수있는 pr = 8에 대한 (예상 된) 보상 시점에 작은 긍정적 인 반응을 설명하기 위해, 우리는 다음과 같은 작은 (0.5 %) 기회를 가정했습니다. 예측 자극이 잘못 식별되었습니다. (c) pr = 15 시도의 DA 반응, 보상 (왼쪽) 및 비 보상 (오른쪽) 시험으로 구분. (d) (c)의 TD 모델. (a, c) [2003] © XNUMX AAAS의 허가를 받아 재 인쇄. 다른 모든 용도에는 AAAS의 허가가 필요합니다.

대조적으로, 잠재적 인 보상 제공 시점에서 TD 이론은 평균적으로 그 시점에 예측 오차가 없기 때문에 평균적으로 활동이 없어야한다고 예측합니다. 물론, 확률 론적 강화 설계 (적어도 pr ≠ 0, 1의 경우)에는 모든 단일 시도에서 배송시 또는 보상 미배송시 예측 오류가 있습니다. 보상이 제공되는 평가판에서는 예측 오차가 양수 여야합니다 (수득 된 보상이 예상 평균 보상보다 큼). 반대로 보상이없는 시험에서는 음수 여야합니다 (그림 1c 참조). 결정적으로, TD 하에서, 발생 확률에 의해 가중되는 이들 차이의 평균은 0이어야한다. 0이 아닌 경우이 예측 오류는 소성 신호로 작용하여 예측 오류가 없을 때까지 예측을 변경해야합니다. 이러한 기대치와의 차이에 따라, 보상 및 비 보상 시험 모두에 대해 평균화 된 그림 1a의 데이터는 현재 긍정적 인 평균 활동이 있음을 보여줍니다. 이것은 Morris 등의 데이터에서도 분명합니다. [16] (그림 3c 참조). 긍정적 인 DA 반응은 상당한 훈련을 받았음에도 불구하고 사라지는 징후를 보이지 않습니다 (수개월에 걸쳐).

TD 모델의 경우 이보다 더 나쁜 것은 실제로 Fiorillo et al. [15]는 보상의 예상 시간을 향한 DA 활동의 명백한 증가입니다. 램프의 크기가 pr = 0.5에 가장 크므로 Fiorillo et al. 이는 예측 오류가 아닌 보상 제공의 불확실성을보고하고이 신호가 불확실성의 식욕을 돋우는 속성을 설명 할 수 있다고 추측했다 (도박에서 볼 수 있음).

램핑 활동과 보상이 예상되는 시점의 활동은 모두 TD 이론에 중대한 도전을 제기합니다. TD 학습은 시험에서 한 번에 DA 활동을 준비하여 해당 시험의 초기 단계에서 사용할 수있는 신호로 예측할 수 있습니다. 따라서, 보상 시점 또는 이전 경사로에서 시각적 자극의 발병에 의해 예측되지 않고 지속될 수있는 것으로 보이는 예측 가능한 활동이 얼마나 명확한지는 명확하지 않다. 결국, 자극에 대한 pr- 의존적 활동은 유효한 예측 자로서의 상태를 확인합니다. 또한, TD [17]의 주요 측면은 상태의 가치를 해당 상태에서 사용할 수있는 미래 보상의 표시로 사용하여 예측을 행동 선택에 결합하여 행동 목표로서의 매력을 결합한다는 것입니다. 이러한 관점에서, 램핑 활동은 초기 큐에 의해 명시 적으로 예측되지 않기 때문에 도박 결정과 같은 초기 행동에 영향을 줄 수 없습니다. 예를 들어, 결정 론적 보상이있는 상태로 이어지는 경사로가없는 상태로 이어지고, 다른 하나는 같은 평균으로 확률 적 보상이 뒤 따르는 상태로 이어지는 경사로와 두 가지 행동 사이의 경쟁을 고려하십시오. 램프는 조건부 자극시 활동에 영향을 미치지 않으므로 추가 불확실성에도 불구하고 첫 번째 조치 (도박)를 평가하거나 선호하는 데 사용할 수 없습니다.

우리는이 두 가지 변칙적 소성 패턴이 서명 된 예측 오류의 코딩에 대한 DA 뉴런 (2-4 Hz)의 낮은 기준선 활동에 의해 암시 된 제약으로부터 직접적으로 발생한다는 대체 가설을 제안한다. Fiorillo et al. [15]에서 양수 예측 오류는 기준선보다 ~ 270 %의 발사 속도로 표시되는 반면 음수 오류는 기준선 아래에서 ~ 55 % 만 감소로 표시됩니다 ([14,18] 참조). 이 비대칭 성은 낮은 기준선을 갖는 소성에 의한 부호있는 양의 코딩의 직접적인 결과이지만, 분명히 긍정적일 수있다. 기준선 위의 발사 속도는 큰 동적 범위를 사용하여 긍정적 인 예측 오류를 인코딩 할 수 있지만, 기준선 아래의 발사 속도는 0으로 만 내려갈 수있어 음의 예측 오차의 코딩에 제한을가합니다.

결과적으로 그림 1a에서와 같이 여러 실험에서 활동의 주변 자극 시간 히스토그램 (PSTH)의 합계 (또는 평균)를 신중하게 해석해야합니다. 보상 수령 또는 미수령시 비대칭으로 코딩 된 양 및 음 오류 신호는 정확한 TD 예측 오류를 나타내더라도 실제로 합이 XNUMX이되어서는 안됩니다. 합산 될 때, 보상되지 않은 시도에서 부정적인 오류를 나타내는 낮은 발생은 보상 된 시도에서 긍정적 인 오류를 인코딩하는 빠른 실행을 "취소"하지 않으며, 전체적으로 평균은 긍정적 인 반응을 나타냅니다. 물론 뇌에서는 반응이 (보상 형 및 무보 상형) 시험에 대해 평균화되는 것이 아니라 시험 내의 뉴런에 대해 평균화되기 때문에 문제를 제기 할 필요가 없습니다.

이는 보상을 제공하거나 전달하지 않을 때의 지속적인 긍정적 활동 (평균)을 설명합니다. 그러나이 시간 이전의 진입로는 어떻습니까? 적어도 자극과 보상 사이의 시간에 대한 특정 신경 표현에서, 시행이 평균화 될 때, 이와 동일한 비대칭은 TD가 보상 시간을 향한 활동의 ​​램프를 정확하게 초래하게한다. TD 학습 메커니즘은 평가판별로 발생하는 예측 오류 (예 : 보상 시점)에서 발생할 수있는 예측 변수 (예 : CS)에 대해 한 번에 발생하는 예측 오류를 시험별로 전파하는 효과가 있습니다. 각 시험에서 초기에. 방금 논의한 포지티브 및 네거티브 예측 오류의 비대칭 표현에서 여러 번의 시도 (그림 1a에서와 같이)를 통해 이러한 전파 오류를 평균하면 보상 이전의 시도 내에서 에포크에 대한 긍정적 인 수단이됩니다. 결과적인 활동 램프의 정확한 모양은 아래에서 논의되는 것처럼 학습 속도뿐만 아니라 시간에 따른 자극이 표현되는 방식에 달려 있습니다.

그림 2는 램핑 활동의 출처에 대한 이러한 관점을 보여줍니다. 여기에서는 자극이 사용 된 이후의 시간에 대한 탭된 지연 선 표현입니다. 이를 위해 각 단위 ( '뉴런')는 자극이 제시된 후 특정 지연에서 활성화 (즉, 값 1로 가정)가되어 자극이 시작된 후의 모든 시간 단계가 한 단위의 발사로 일관되게 표현됩니다. 학습은 δ (t) = r (t) + V (t) – V (t – 1)로 공식화 된 (dopaminergically-reported) TD 오류를 기반으로하며, V (t)는 다음 위치에있는 활성 단위의 가중치 입력입니다. 시간 t, 및 r (t) 시간 t에서 얻은 보상. 고정 학습률로 표준 TD 업데이트 규칙에 따라 단위의 가중치를 업데이트하면 V (t)가 평균적으로 예상되는 미래 보상을 나타낼 수 있습니다 (그림 1 캡션 참조). 각 후속 타임 스텝이 개별적으로 표현되기 때문에 TD 예측 오류는 시행 중 언제든지 발생할 수 있습니다. 그림 2a는 pr = 0.5 인 2 개의 연속 시뮬레이션 시행에서 이러한 오류를 보여줍니다. 모든 시행에서 보상을 받거나받지 못함으로 인해 보상 시점에 새로운 긍정 또는 부정 오류가 발생하며, 이전 시행에서 얻은 오류는 다음을 통해 자극 시점으로 다시 전파됩니다. 가중치의 지속적인 업데이트 (예 : 빨간색으로 강조 표시된 오류). 시행에 대해 평균화 (또는 PSTH에서와 같이 합산) 할 때 이러한 오류는 평균적으로 서로를 상쇄하여 자극이 시작된 후 간격에 전체적으로 평평한 히스토그램을 생성하고 보상 시간 (그림의 검은 색 선)으로 이어집니다. 10b, 얇은 파란색으로 표시된 1 개의 시행에 대해 합산 됨). 그러나 d = 6/2 (DA 뉴런에 의한 긍정 및 부정 예측 오차의 비대칭 코딩을 시뮬레이션 함)의 계수로 음의 오류를 비대칭 스케일링 한 후 합산하면 검은 색 선으로 표시된 것처럼 양의 활동 램프가 발생합니다. 그림 XNUMXc에서. 이 크기 조정은 낮은 기준 발사 속도에 대해 음수 값을 인코딩하는 제약으로 인한 표현 문제 일 뿐이며 잘못된 값을 학습하지 않도록 가중치 학습에 영향을주지 않아야합니다 (토론 참조). 그러나 PSTH는 뉴런 스파이크의 직접 합계이므로이 표현 문제는 결과 히스토그램에 영향을 미칩니다.

그림 2. 예측 오류의 역전 파는 램핑 활동을 설명합니다.
(a) pr = 1 인 그림 0.5b의 시뮬레이션에서 6 회 연속 시행 (위에서 아래로) 각각에 대한 TD 예측 오류. 빨간색으로 강조 표시된 것은 첫 번째 시도에서 보상을받을 때의 오류와 후속 시도에서 자극 시간으로 점진적인 역 전파입니다. 블록 문자는 각 특정 시행의 결과를 나타냅니다 (R = 보상, N = 보상되지 않음). 이 시험에 앞서 보상의 순서는 오른쪽 상단에 있습니다. (b)이 6 번의 시험에서 발생하는 TD 오류와 그 이후에 4 번 더 발생했습니다. 빨간색과 초록색 선은 이러한 시도에서 발생하는 오류의 범위를 나타냅니다. 이러한 시도를 합산하면 시간의 임의의 50 %에서 양수 및 음수 오류가 발생하므로 평균을 초과하는 기준선 (검은 색 선)의 활동이 없으므로 서로를 취소하십시오. (c) 그러나, 예측 오차가 기준 발사 속도의 위와 아래에서 비대칭 적으로 표현 될 때 (여기서 음의 오차는 DA 뉴런에 의한 예측 오차의 비대칭 인코딩을 시뮬레이션하기 위해 d = 1 / 6에 의해 비대칭 적으로 스케일링 됨), 활동의 평균 램핑 검은 선으로 표시된 것처럼 시행 횟수를 평균 할 때 나타납니다. 모든 시뮬레이션 파라미터는 그림 1b, d와 동일합니다.

그림 1b, d는 실험 데이터와의 비교를 위해 비대칭 코딩과 시험 간 평균화의이 조합에서 발생하는 램프를 보여줍니다. 그림 1b는 각 자극 유형에 대해 ~ 50 시험에서 비대칭 적으로 표현 된 δ (t) 신호를 평균하여 시뮬레이션 데이터에서 계산 된 PSTH를 보여줍니다. 그림 1d는 pr = 0.5 사례에 대한 결과를 그림 1c와 비교하기 위해 보상 및 비 보상 시험으로 나누어 보여줍니다. 시뮬레이션 된 결과는 실험 데이터와 매우 유사하여 불확실한 보상뿐만 아니라 pr = 0.5 경우에서 가장 높은 램핑 효과에 대한 순 포지티브 반응을 재현합니다.

단순화된 탭 지연선 시간 표현 및 고정 학습률 α. 시행 횟수(초기 값은 XNUMX으로 간주)의 함수로서 시행의 마지막 시간 단계 다음의 값은 다음과 같습니다.

여기서 r (t)는 시행 종료시 보상 t입니다. 시행 T의 마지막 시간 단계에서 오류 신호는 단순히 획득 한 보상 r (T)와 보상 VT – 1 (N – 1)을 예측하는 값의 차이입니다. 이 오류는 확률 pr에서 양수이고 확률 (1 – pr)에서 음수입니다. d ∈ (0, 1]의 계수로 음수 오류를 스케일링하면

양수 및 음수 오류의 대칭 코딩 (d = 1)의 경우 평균 응답은 0입니다. 비대칭 코딩 (0) 트레이스 컨디셔닝 : 테스트 사례

해석에 대한 중요한 테스트 사례는 Fiorillo 등의 [15] 작업의 변형과 Morris 등의 유사한 도구 작업에서 발생합니다. [16], 둘 다 추적 조절을 포함합니다. 보상이 예측 자극의 오프셋과 일치하는 지연 컨디셔닝 (그림 3a)과 달리, 여기에는 예측 자극의 오프셋과 보상 전달 사이에 상당한 간격이 있습니다 (그림 3b). 분명히이 경우, 보상에 대한 불확실성은 자극과 보상 사이의 간격을 타이밍하는 잡음으로 인해 더 커질 수밖에 없기 때문에 [19] 불확실성 계정 아래에서 비슷하거나 더 큰 램프가 있어야합니다. 그러나 실험 결과는 램핑 활동이 더 작거나 무시할 수 있음을 보여줍니다 (그림 3c; d). 그러나 예상되는 보상 시점에 시행 평균 활동의 규모는 유지되며, 예상되는 보상 시점에 진입로의 높이와 긍정적 인 활동의 양 사이의 연관성을 가리 킵니다.

그림 3. 확률 적 보상으로 컨디셔닝을 추적하십시오.
(a) Fiorillo et al.의 지연 컨디셔닝 작업에 대한 한 가지 시도의 예시. [15]. 시험은 2 초의 시각적 자극으로 구성되며, 시각적 단서와 관련된 확률에 따라 보상이 프로그래밍 된 경우, 그 오프셋은 주스 보상의 전달과 일치합니다. 보상이없는 시련에서 자극은 보상없이 종료되었습니다. 두 경우 모두 평균 9 초의 시험 간 간격은 시험을 분리합니다. (b) Morris et al.의 트레이스 컨디셔닝 작업에 대한 한 가지 시도의 예시. [16]. 중요한 차이점은 이제 자극의 상쇄와 보상의 시작 (“추적”기간) 사이에 상당한 시간적 지연이 있고 외부 자극이 예상되는 보상 시간을 나타내지 않는다는 것입니다. 이는 특히 보상되지 않은 시험에서 예측 된 보상의 정확한 타이밍을 내부적으로 해결해야하기 때문에 추가적인 불확실성을 부여합니다. 이 작업에서는 [15]에서와 같이 여러 가지 시각적 자극 (미도시) 중 하나가 각 시험에서 제시되었으며 각 자극은 보상 확률과 관련이 있습니다. 여기에서도 원숭이에게 도구 적 반응 (자극이 제시된쪽에 해당하는 키를 누름)을 수행하도록 요청 받았으며 실패하면 보상없이 재판이 종료되었습니다. 시험은 다양한 시험 간 간격으로 구분되었습니다. (c, d) 보상 형 시험 (c) 및 보상되지 않은 시험 (d)에서 보상의 예상 시간 주변 기준선 대비 DA 실행 률 (부드러움). (c, d) Elsevier의 허가를 받아 [16] © 2004에서 재 인쇄. 추적은 예상되는 보상 시간에 전체적으로 긍정적 인 반응을 나타내지 만 이보다 앞선 램프가 매우 작거나 없습니다. 유사한 결과가 [15]에 간략하게 설명 된 고전적 컨디셔닝 작업에서 얻어졌으며, 트레이스 컨디셔닝 절차를 사용하여 (b)에 묘사 된 작업의 도구 적 특성이 아닌 추적 기간이 (a)와의 중요한 차이임을 확인했습니다. .

DA의 TD 모델은 이러한 수수께끼 같은 데이터를 쉽게 설명합니다. 그림 4에서 볼 수 있듯이 램프의 모양은 피크의 높이는 아니지만 학습 속도에 영향을받습니다. 역 전파 예측 오차의 크기는 이들 예측 오차가 새로운 예측의 온라인 학습의 일부로서 발생할 때 학습 속도에 의해 부분적으로 결정된다. 실제로, 보상 된 시행 후 보상에 대한 기대치가 높아지고 (따라서 다음 보상은 예측 오차가 더 작음), 반대로 보상되지 않은 시행 후 [18]가되도록 예측의 지속적인 업데이트가 있습니다 (그림 참조). 2a). 이러한 예측 업데이트는 학습 속도와 직접 관련이 있습니다. 학습 속도가 높을수록 현재 예측 오류에 따른 예측 업데이트가 커지고 다시 전파되는 예측 오류의 비율이 커집니다. 이런 식으로, 학습률이 높을수록 보상에 대한 보상과 보상이없는 시험의 기대 차이가 더 커지고, 따라서 다음 보상이 있거나 없을 때의 예측 오차가 더 커져서 점점 더 점진적으로 증가합니다.

그림 4. 학습률에 대한 램프의 의존성.
램프의 모양은 피크의 높이가 아닌 학습 속도에 따라 다릅니다. 그래프는 예상 보상 시간 근처의 pr = 0.5의 경우에 대해 서로 다른 학습률에 대해 시뮬레이션 된 보상 활동과 보상되지 않은 시험 모두에 대해 시뮬레이션 된 활동을 보여줍니다. 비대칭 적으로 코딩 된 예측 오차가 지속되는 TD 학습에 따르면, 보상 및 보상되지 않은 시험에서 활동에 대한 평균을 계산하면 보상 시간까지 증가합니다. 램프의 최고점의 높이는 보상 된 보상과 보상되지 않은 시도의 비율에 의해 결정되지만, 램프의 너비는 (예상) 보상 시점에서이 오류 신호의 역 전파 속도에 의해 결정됩니다. 예측 자극 시간. 학습률이 높을수록 오류의 많은 부분이 다시 전파되어 램프가 증가합니다. 학습률이 낮 으면 보상시 긍정적 인 활동 (평균)이 계속 유지되지만 램프는 무시할 수 있습니다. 그림 1b, d에 묘사 된 시뮬레이션에 사용 된 학습 속도는 0.8이지만, 이것은 자극의 개략적 인 표현을 고려할 때 신경 기질의 문자 적 ​​시냅스 학습 속도로 간주해서는 안됩니다. 뉴런 집단이 모든 시간 단계에서 활성화되는보다 현실적인 표현에서 훨씬 낮은 학습 속도는 비슷한 결과를 낳을 것입니다.

실제로, 지연 컨디셔닝과 비교하여, 트레이스 컨디셔닝은 매우 느리며, 학습 결과가 낮으므로 실험 결과에 따라 램프가 낮아야 함을 시사합니다. Morris 등의 데이터에서 학습률에 대한 직접 조사. [16]는 추적 컨디셔닝뿐만 아니라 도구 적 조치와 관련하여 과도한 교육이 필요한 작업으로 실제로 매우 낮은 것으로 확인되었습니다 (Genela Morris – 개인 커뮤니케이션, 2004).

토론

DA 뉴런에 의한 양수 및 음수 값의 차등 코딩은 페이즈 DA 신호의 모든 연구에서 명백하며, 이러한 뉴런의 낮은 기준선 활성의 불가피한 결과로 간주 될 수있다. 실제로, 후자는 세로토닌 인 상대 신경 전달 물질이 음의 예측 오차 [20]를 표현하고 학습하는 데 관여하여 전체 분기 수를 갖도록 제안했다. 그러나 여기에서 우리는 도파민 활성의 시험 평균 분석에 대한 비대칭의 영향을 고려하도록 제한했으며 보상시 평균 긍정적 인 반응뿐만 아니라 급격한 DA 활동이 예측 에러의 비대칭 코딩

오류 신호에 대한 명확한 시각과는 별도로, 새로운 해석의 가장 중요한 결과는 램프가 지금까지 매우 애매 모호했던 TD 현상의 신호로 볼 수 있다는 것입니다. 이는 보상 시점부터 예측 시점까지 DA 활동으로 표시되는 오류 신호의 점진적인 역 전파입니다 (그림 2a). dopaminergic 활동에 대한 대부분의 이전 연구는 pr = 1를 사용했기 때문에 훈련이 시작될 때 (일반적으로 기록이 아직 시작되지 않은 경우)에만 일시적인 현상으로이 역 전파가 나타나게하고 잠재적으로 느리게 식별하기 어렵습니다. DA 뉴런 발사. 또한, 언급 된 바와 같이, 역전 파는 예측 자극과 보상 사이의 시간이 표현되는 방식에 의존한다-그것은 [6]에서와 같이 탭된 지연 선 표현에 대해 존재하지만 전체에 걸친 표현에는 존재하지 않는다 [21]와 같이 지연됩니다. 램프의 모양은 또한 적격성 추적과 소위 TD (λ) 학습 규칙 (시뮬레이션은 표시되지 않음)의 사용에 따라 달라지며 학습 중 이벤트 간 시간을 연결하는 추가 메커니즘을 제공합니다. 불행히도, 데이터의 램프 형태는 다소 가변적이며 (그림 1) 시끄럽기 때문에 뇌가 사용하는 정확한 TD 메커니즘에 강한 제약을 줄 수 없습니다.
지속적인 예측 오류와 관련된 최근의 연구는 역 전파를 암시하는 활동, 특히 [4]의 그림 13를 보여줍니다. 이 연구에서는 작업의주기적인 변화로 인해 예측 오류가 발생했으며 DA 기록은 훈련의 시작으로 이루어 졌으므로 역전 파와 유사한 활동은 직접적으로 명백하지만이 활동은 정량화되지 않았습니다.

학습이 진행됨에 따라 학습률이 0으로 감소하지 않는 경우에만 교육 기간 동안 램프가 지속될 것으로 예상합니다. 불확실성에 의한 학습의 통제에 대한 Pearce & Hall의 [22] 이론은 정확히 이러한 학습 지속성을 시사하고 있으며, 보상과 관련된 불확실성이 더 많을 때 학습률이 더 높을 수 있다는 부분 강화 일정의 증거가 있습니다. 실제로, '합리적인'통계적 관점에서, 예측 관계의 변화의 항상 존재하는 가능성에서 발생할 수있는 것처럼 예측 변수와 결과 간의 관계에 대해 상당한 불확실성이있을 때 학습이 지속되어야합니다. 이러한 형태의 지속적인 불확실성과 과제에 대한 초기 무지로 인한 불확실성은 불확실성이 학습을 유도하는 방식에 대한 Pearce & Hall의 이론을 공식화하는 데 사용되었습니다 [23]. 따라서 불확실성이 경사로에 의해 직접 표현되지 않을 수도 있다는 우리의 주장은 그 표현과 조작이 중요하지 않다는 의미로 받아 들여서는 안됩니다. 반대로, 우리는 불확실성이 다른 신경 조절 시스템을 통한 대뇌 피질의 추론과 학습에 영향을 미치고 [24] 행동 선택의 측면을 결정할 수 있다고 제안했습니다 [25].

비대칭의 다양한 다른 특징들이 주목되어야한다. 아래 기준선 DA 활동이 자체적으로 너무 높은 예측을 줄이는 데 책임이있는 경우 DA 의존 학습 [26]에 대한 비대칭의 영향이 가장 중요합니다. 학습 된 예측이 올바르게 유지되도록하기 위해, 비대칭 표현이 학습에 영향을 미치지 않는 것으로 가정해야한다. 즉, 시냅스 강도의 강화 및 억제를위한 상이한 스케일링과 같은 메커니즘이 비대칭 에러 신호를 보상한다고 가정해야 할 것이다. 물론, 상대 신경 전달 물질이 음성 예측 오류로부터 배우는 데 관여하는 경우, 이것은 약해집니다. Bayer [14]의 제안에 따르면 DA 발사 속도는 실제로 모든 발사 오류가 음의 임계 값 아래로 비슷할 것입니다. 아마도 낮은 발사 속도의 바닥 효과 때문입니다. 이러한 손실 인코딩은 램프의 출현에 대한 시험 간 평균화 효과의 질적 그림에 영향을 미치지 않지만 반드시 대칭 학습을위한 상대 신호의 필요성을 강화합니다.

마지막으로, 해석의 가장 직접적인 테스트는 DA 신호의 시험 내 및 시험 간 평균을 비교하는 것입니다. 비정상 신호의 평균화 문제를 피하기 위해 시간적으로 정교한 방식으로이를 수행하는 것이 중요합니다. 신경 발화의 노이즈를 극복하고 실제로 시험 내에서 점진적인 램프가 있는지 또는 예측할 수있는 것처럼 간헐적 긍정 및 부정 예측 오류를 확인하려면 내에서 동시에 기록 된 많은 뉴런에 대해 평균을 내야합니다. 한 번의 시도, 그리고 유사한 학습률과 관련된 뉴런. 또는 단일 뉴런 추적은 이전 시도 및 TD 학습에 의해 예측 된 역 전파 반응에 대해 회귀 될 수 있습니다. 활동의 단조로운 램프에 대한 회귀와 비교하여 이러한 모델에 의해 설명되는 변동성의 양을 비교하면 가장 적합한 모델을 가리킬 수 있습니다. 덜 간단하지만 더 테스트 가능한 예측은 램프의 모양이 학습률에 따라 달라져야한다는 것입니다. 학습률은 램프의 모양과 관계없이 확률 적 보상에 대한 반응에서 평가할 수 있습니다 (Nakahara et al. [18]은 부분 강화 추적 조절 작업에서 학습률이 0.3이라는 것을 보여주었습니다). 훈련의 양이나 작업 우발 상황이 변경되고 재 학습되는 빈도를 변경하여 잠재적으로 조작됩니다. 실제로 Nakahara 등의 기록 된 DA 활동에서 램프의 존재와 모양을 정량화하면 현재 제안을 잘 이해할 수 있습니다.

경쟁 관심
저자는 경쟁 상대가 없다고 선언합니다.

저자의 공헌
YN, MD 및 PD는이 연구를 공동으로 고안하고 실행했으며 원고 작성을 도왔습니다. 모든 저자는 최종 원고를 읽고 승인했습니다.

감사의 글
우리는 H. Bergman, C. Fiorillo, N. Daw, D. Joel, P. Tobler, P. Shizgal 및 W. Schultz에게 데이터에 대한 다양한 해석에도 불구하고 토론과 의견을 주신 것에 대해 매우 감사합니다. 우리는 특히 램프와 관련하여 자신의 게시 및 게시되지 않은 데이터를 분석 한 Genela Morris에게 감사합니다. 이 작품은 EC Thematic Network (YN), Gatsby Charitable Foundation 및 EU BIBA 프로젝트에 의해 자금이 지원되었습니다.

참고자료

1. Ljungberg T, Apicella P, Schultz W: 행동 반응을 학습하는 동안 원숭이 도파민 뉴런의 반응.
Journal Neurophysiol 1992, 67 : 145-163.
텍스트로 돌아 가기
2. Schultz W: 도파민 뉴런의 예측 보상 신호. [http://jn.physiology.org/cgi/content/full/80/1/1] 웹사이트
신경 생리학 저널 1998, 80 : 1-27. PubMed 개요
텍스트로 돌아 가기
3. O'Doherty J, Dayan P, Friston K, Critchley H, Dolan R: 인간 두뇌의 시간 차이 모델 및 보상 관련 학습.
뉴런 2003, 38 : 329-337. PubMed 추상 | 출판사 전문
텍스트로 돌아 가기
4. Seymour B, O'Doherty J, Dayan P, Koltzenburg M, Jones A, Dolan R, Friston K, Frackowiak R: 시간 차이 모델은 인간의 고차 학습을 설명합니다.
자연 2004, 429 : 664-667. PubMed 추상 | 출판사 전문
텍스트로 돌아 가기
5. Montague PR, Hyman SE, Cohan JD: 행동 제어에서 도파민의 계산적 역할.
자연 2004, 431 : 760-767. PubMed 추상 | 출판사 전문
텍스트로 돌아 가기
6. Montague PR, Dayan P, Sejnowski TJ: 예측 Hebbian 학습에 기반한 중뇌 도파민 시스템을 위한 프레임워크.
신경 과학 저널 1996, 16 : 1936-1947. PubMed 추상 | 출판사 전문
텍스트로 돌아 가기
7. Schultz W, Dayan P, Montague PR: 예측 및 보상의 신경 기질.
과학 1997, 275 : 1593-1599. PubMed 추상 | 출판사 전문
텍스트로 돌아 가기
8. Sutton RS: 시간차를 이용한 예측 학습.
기계 학습 1988, 3 : 9-44.
텍스트로 돌아 가기
9. Sutton RS, Barto AG: [http://www.cs.ualberta.ca/~sutton/book/ebook/the-book.html] 웹사이트
강화 학습 : 소개. MIT Press; 1998.
텍스트로 돌아 가기
10. Hollerman J, Schultz W: 도파민 뉴런은 학습 중 보상의 시간적 예측 오류를 보고합니다.
자연 신경 과학 1998, 1 : 304-309. PubMed 추상 | 출판사 전문
텍스트로 돌아 가기
11. Schultz W, Apicella P, Ljungberg T: 지연 반응 작업 학습의 연속 단계 동안 보상 및 조건 자극에 대한 원숭이 도파민 뉴런의 반응.
신경 과학 저널 1993, 13 : 900-913. PubMed 추상 | 출판사 전문
텍스트로 돌아 가기
12. Tobler P, Dickinson A, Schultz W: 조건 억제 패러다임에서 도파민 뉴런에 의한 예측된 보상 누락의 코딩.
신경 과학 저널 2003, 23 (32) : 10402-10410. PubMed 추상 | 출판사 전문
텍스트로 돌아 가기
13. Takikawa Y, Kawagoe R, Hikosaka O: 위치 보상 매핑에 대한 단기 및 장기 적응에서 중뇌 도파민 뉴런의 가능한 역할.
신경 생리학 저널 2004, 92 : 2520-2529. PubMed 추상 | 출판사 전문
텍스트로 돌아 가기
14. Bayer H: 학습 및 운동 제어에서 흑색질의 역할.
뉴욕 대학교 2004 박사 학위 논문.
텍스트로 돌아 가기
15. Fiorillo C, Tobler P, Schultz W: 도파민 뉴런에 의한 보상 확률 및 불확실성의 개별 코딩.
과학 2003, 299 (5614) : 1898-1902. PubMed 추상 | 출판사 전문
텍스트로 돌아 가기
16. Morris G, Arkadir D, Nevet A, Vaadia E, Bergman H: 중뇌 도파민과 선조체 긴장 활성 뉴런의 일치하지만 뚜렷한 메시지.
뉴런 2004, 43 : 133-143. PubMed 추상 | 출판사 전문
텍스트로 돌아 가기
17. Barto A, Sutton R, Watkins C: 학습 및 순차적 의사 결정. 학습 및 전산 신경과학: 적응형 네트워크의 기초. 편집: Gabriel M, Moore J. Cambridge, MA: MIT Press; 1990:539-602.
텍스트로 돌아 가기
18. Nakahara H, Itoh H, Kawagoe R, Takikawa Y, Hikosaka O: 도파민 뉴런은 상황에 따른 예측 오류를 나타낼 수 있습니다.
뉴런 2004, 41 : 269-280. PubMed 추상 | 출판사 전문
텍스트로 돌아 가기
19. Gallistel CR, Gibbon J: 시간, 속도 및 컨디셔닝.
심리학 적 검토 2000, 107 : 289-344. PubMed 추상 | 출판사 전문
텍스트로 돌아 가기
20. Daw ND, Kakade S, Dayan P: 세로토닌과 도파민 사이의 반대 상호 작용.
신경망 2002, 15 (4–6) : 603-616. PubMed 추상 | 출판사 전문
텍스트로 돌아 가기
21. Suri RE, Schultz W: 공간적 지연 반응 작업을 학습하는 도파민 유사 강화 신호가 있는 신경망 모델.
신경 과학 1999, 91 : 871-890. PubMed 추상 | 출판사 전문
텍스트로 돌아 가기
22. Pearce JM, Hall G: Pavlovian 학습 모델: 무조건 자극이 아닌 조건 자극의 효율성 변화.
심리학 적 검토 1980, 87 : 532-552. PubMed 추상 | 출판사 전문
텍스트로 돌아 가기
23. Dayan P, Kakade S, Montague PR: 학습 및 선택적 주의.
자연 신경 과학 2000, 3 : 1218-1223. PubMed 추상 | 출판사 전문
텍스트로 돌아 가기
24. Dayan P, Yu A: 예상 및 예상치 못한 불확실성: 신피질의 Ach 및 NE. [http://books.nips.ce/papers/files/nips15/NS08.pdf] 웹사이트
신경 정보 처리 시스템의 발전 Diharichrich T, Becker S, Ghahramani Z. Cambridge, MA : MIT Press; 2002, 14 : 189-196.
텍스트로 돌아 가기
25. Daw N, Niv Y, Dayan P: 행동, 정책, 가치 및 기저핵. 기저핵 연구의 최근 돌파구에서. 편집: Bezard E. New York, USA: Nova Science Publishers, Inc; 언론에서.
텍스트로 돌아 가기
26. Wickens J, Kötter R: 보강재의 세포 모델. 기저핵의 정보 처리 모델에서. Houk JC, Davis JL, Beiser DG 편집. MIT 프레스; 1995:187-214.
텍스트로 돌아 가기