강화 학습 원리(2008)의 돌출 및 참신 반응의 출현

의견 : 참신함을 입증하는 또 다른 연구는 자체 보상입니다. 인터넷 포르노의 중독성 측면 중 하나는 끝없는 참신함과 다양성, 한 장면에서 다른 장면으로 빠르게 클릭하는 기능, 올바른 이미지 / 비디오를 찾는 것입니다. 이 모든 것이 도파민을 증가시킵니다. 이것이 인터넷 포르노가 잡지 나 대여 한 DVD와 다른 점입니다.

전체 연구 : 강화 학습 원칙의 성실성과 참신한 반응의 출현

신경망. 2008 12 월; 21 (10) : 1493–1499입니다.

온라인 2008 9 월 25 게시. doi : 10.1016 / j.neunet.2008.09.004

피츠버그 대학교 Patryk A. Laurent;

모든 서신 주소 : 피츠버그 대학교 Patryk Laurent, 623 LRDC, 3939 O'Hara St., Pittsburgh, PA 15260 USA, 이메일 : [이메일 보호], 사무실 : (412) 624-3191, 팩스 : (412) 624-9149

추상

강화 학습 [17]과 같은 보상 기반 학습 모델을 뇌에 매핑하려는 최근의 시도는 예측 된 보상과 수신 된 보상 사이의 도파민 방출 뉴런 신호 차이의 스파이 킹이 단계적으로 증가 및 감소한다는 관찰에 기초합니다 [16,5]. 그러나이 보상 예측 오류는 해당 위상 활동에 의해 전달되는 여러 신호 중 하나 일뿐입니다. 다른 하나는 도파민 성 스파이 킹의 증가와 관련이 있으며, 특히 유기체가 자극을 향한 방향으로 향할 때 두드러 지지만 예측할 수없는 비 보상 자극 [4,6,13]의 출현을 반영합니다 [16]. 이러한 결과를 설명하기 위해 Kakade와 Dayan [7] 등은 참신하고 예상치 못한 자극이 본질적으로 보상 적이라고 주장했습니다. 이 기사에서보고 된 시뮬레이션은이 가정이 의도하지 않은 효과가 강화 학습의 보상 예측 학습 메커니즘에서 나오기 때문에 필요하지 않음을 보여줍니다. 따라서 강화 학습 원칙은 기저핵의 도파민 신경 세포의 보상 관련 활동뿐만 아니라 명백히 비 보상 관련 활동 중 일부를 이해하는 데 사용될 수 있습니다.

뇌에서 보상 기반 학습의 계산 모델을 개발함에있어 RL (Reinforcement Learning)이 점차 중요 해지고 있습니다. RL은 인공 "에이전트"(예 : 실제 또는 시뮬레이션 로봇)가 예상되는 총 보상을 극대화하기 위해 동작을 선택하는 방법을 배울 수있는 방법을 지정하는 계산 알고리즘 클래스입니다 [17]. 이들 알고리즘에서, 에이전트는 다양한 상태 (예를 들어, 자극과 관련된 지각 신호)와 연관시키기 위해 학습 한 값에 기초하여 그의 행동을 기초로한다. 이러한 값은 일시적 차이 학습을 통해 점차 학습 될 수 있으며, 이는 상태에 대한 에이전트의 기존 보상 예측과 이후 환경에서 얻은 실제 보상 간의 차이에 따라 상태 값을 조정합니다. 보상 예측 오차라고하는이 계산 된 차이는 인간이 아닌 영장류의 실질 nigra에서 투사되는 도파민 방출 뉴런의 위상 활동과 매우 밀접한 상관 관계가있는 것으로 나타났습니다 [16]. 또한, 인간에서 도파민의 중요한 목표 인 선조체는 fMRI BOLD 신호를 나타내며, 이는 보상 학습 과제 중 보상 예측 오류를 반영하는 것으로 보인다 [10,12,18]. striatal BOLD가 적어도 부분적으로 구 심성 시냅스 활동 [9]을 반영하고 도파민 뉴런이 선조체에 크게 투영되기 때문에이 fMRI 결과는 생리학 데이터를 보완합니다.

전술 한 생리 학적 반응이 RL의 보상 예측 계산과 관련이있는 것으로 보이지만, 보상과는 관련이없는 것으로 보이는 자극 및 / 또는 신규 자극에 대한 반응으로 도파민 성 위상 활동의 증가가 또한 존재한다 [4,6,14,3]. fMRI [2]를 사용하는 인간에서도 비슷한 현상이 최근에 관찰되었습니다. 이 "노블 티"또는 "실 리언 스"응답이 보상 예측 오류와 관련이 없다고 말하는 몇 가지 이유가 있습니다. (1) 자극의 신원이 평가되기 전에 매우 일찍 나타나므로 정확한 보상 예측을 할 수 없습니다 생성된다; (2) 혐오 및 식욕 자극 모두에 대한 신경 활동의 증가 (즉, 양성)에 해당하고; 그리고 (3) [13]를 습관화합니다. 실제로, 이러한 도파민 방출 뉴런의 이러한 돌출 성 / 참 신성 반응은 자극이 예측할 수 없을 때 가장 신뢰할 수 있으며, 최종 결과와 상관없이 방향 및 / 또는 접근 행동 [16]을 초래하여 학습 보상과 질적으로 다르다는 사실을 강조합니다. 예측. 그러므로 도전은 RL의 이론적 틀 내에서이 명백한 역설 (즉, 참신이 보상 예측 오류에 어떻게 영향을 미치는지)을 설명하는 것이 었습니다.

Kakade와 Dayan [7]은 정확하게 이것을 시도했습니다. 그들의 논문에서, 그들은 참신한 반응이 도파민 기능의 RL 모델에 통합 될 수있는 두 가지 방법을 가정한다 – 둘 다 새로운 이론적 가정의 포함과 관련이있다. 참신 보너스라고하는 첫 번째 가정은 에이전트가받는 일반적인 보상 이상의 새로운 자극이있을 때 추가 보상을 도입하는 것입니다. 이 추가 보상은 계산에 들어가므로 학습은 에이전트의 기존 보상 예측과 환경으로부터의 일반적인 보상과 참신 보너스의 합의 차이를 기반으로합니다. 따라서, 신규성은 에이전트가 최대화하려고하는 보상의 일부가된다. 성형 보너스라고 불리는 두 번째 가정은 새로운 자극과 관련된 상태의 값을 인위적으로 증가시킴으로써 구현 될 수 있습니다. RL에 사용 된 시간적 차이 학습 규칙은 연속적인 상태들 사이의 보상 예측의 차이에 기초하기 때문에, 신규 자극과 관련된 상태들에 지속적인 형성 보너스를 추가하는 것은 에이전트의 최종 행동에 영향을 미치지 않는다. 그러나, 에이전트가 "형태 화 된"상태 공간의 일부 (즉, 신규 성과 관련됨)에 에이전트가 진입 할 때 신규성 응답이 여전히 나타난다.

이러한 각 가정의 추가가 참신의 많은 관찰 된 효과를 설명하기에 충분하지만 가정은 학습의 진행을 방해합니다. Kakade와 Dayan [7]이 지적한 바와 같이, 신규 보너스는 가치 기능 (즉, 에이전트에 의해 각 상태와 관련된 값)을 왜곡 할 수 있으며 소설과 본질적으로 관련된 추가 보상으로 구현되기 때문에 궁극적으로 배운 것에 영향을 줄 수 있습니다 상태. 문제는 에이전트가 보상의 주요 요소와 참신 요소를 모두 예측하는 법을 배운다는 것입니다. Kakade와 Dayan은 쉐이딩 보너스가 이전 상태의 보상 예측에 통합되기 때문에 이러한 유형의 문제를 일으키지 않는다고 지적하지만, 쉐이딩 보너스는 에이전트가 상태 공간을 탐색하는 방식에 편향을 유발하기 때문에 여전히 문제가됩니다. 따라서 이러한 추가 가정이 참 신성이 RL의 보상 예측 오류에 어떤 영향을 미치는지 설명 할 수 있지만 문제가 있습니다. 또한, 설명은 실제 생물 유기체의 행동을 이해하기 위해 RL을 사용하려고 시도하는 모델링 작업의 패러 모니를 감소시키는 비용이 든다.

추가적인보고없이 간단한 RL 에이전트가 생물학적 유기체에서 관찰되는 비 보상 관련 도파민 반응과 유사한 보상 예측 오류 응답을 개발할 것이라는 가설을 테스트하기 위해 아래에보고 된 시뮬레이션을 수행했습니다. . RL 에이전트는 환경의 임의 위치에 나타나는 두 가지 유형의 개체 (긍정적 요소와 다른 부정적 개체)와 상호 작용하는 작업을 받았습니다. 보상을 극대화하기 위해, 에이전트는 긍정적 인 대상에 접근하고 "소비"하고, 부정적인 대상을 피 (즉, "소비"하지 않아야 함)하는 법을 배워야했습니다. 시뮬레이션에 대한 세 가지 주요 예측이있었습니다.

첫 번째 예측은 단순히 보상을 극대화하기 위해 에이전트가 긍정적이고 보상적인 대상에 접근하고 "소비"하는 동시에 동시에 부정적이고 처벌적인 대상을 피하는 법을 배우는 것입니다. 두 번째 예측은 약간 덜 명확했다. 즉, 에이전트는 부정적인 대상과 긍정적 인 대상 모두에 대해 방향 반응을 보일 것이다 (즉, 방향을 바꾸는 법을 배운다). 이 예측은 비록 에이전트가 물체의 외관과 그 위치, 물체의 긍정적 또는 부정적 정체성을 "감지"할 수 있었지만 (즉, 에이전트가 궁극적으로 물체의 보상 가치와 관련하여 배우는 큐) 에이전트가 실제로 객체를 향한 후에야 에이전트에 의해 결정될 수 없었습니다. 마지막으로, 세 번째 (가장 중요한) 예측은 모델에서 시뮬레이션 된 도파민 성 위상 반응과 관련이있었습니다. 이 예측은, 물체가 나타 났을 때, 작용제는 생물학적 유기체에서 관찰 된 위상 도파민 반응과 계산적으로 유사한 보상-예측 오차를 나타내며, 양성 및 음성 물체 모두에 대해 양성인 것으로 예측되었다. 이 반응은 또한 작용제와 자극 사이의 거리의 함수로서 변할 것으로 예측되었으며, 이는 시뮬레이션의 맥락에서 자극 "강도"또는 염분에 대한 대리 척도였다. 아래에서 설명되는 바와 같이, 이러한 예측은 시뮬레이션 결과에 의해 확인되었으며, 명백히 비 보상 관련 도파민 반응은 원칙적으로 RL의 기본 원리에서 나올 수 있음을 보여줍니다. 생물학적 유기체에서 비 보상 관련 활동을 이해하기 위해 RL을 사용하는 이러한 결과의 이론적 의미는이 기사의 마지막 섹션에서 논의 될 것이다.

방법

이미 언급 한 바와 같이, RL 알고리즘은 상담원이 순간 순간 점수 보상을 사용하여받는 총 보상 금액을 최대화하기 위해 수행해야하는 작업을 파악하는 방법을 지정합니다. 대부분의 공식에서이 학습은 보상 예측 오류 (즉, 상담원의 현재 보상 예측과 획득 한 실제 보상의 차이)를 사용하여 상담원의 보상 예측을 업데이트함으로써 달성됩니다. 보상 예측이 학습됨에 따라 에이전트는 예측을 사용하여 다음 조치를 선택할 수도 있습니다. 일반적인 정책 (방정식 2에 정의 됨)은 상담원이 가장 큰 보상을 제공 할 것으로 예상되는 작업을 선택하는 것입니다. 특정 시점에 상담원에게 제공되는 실제 보상은 즉각적인 보상의 합계와 작업 완료시 상담원이 입력 한 상태 값의 일부입니다. 따라서 에이전트가 특정 상태에 도달 한 후 결국 긍정적 인 보상을 받으면 에이전트는 나중에 해당 보상 상태를 초래할 가능성이있는 조치를 선택합니다. 반대로, 에이전트가 부정적인 보상 (즉, 처벌)을 경험하면 앞으로는“처벌 된”상태로 이어지는 행동을 피할 것입니다.

다양한 상태 (즉, 값 함수 V)에 대해 학습되는 보상 예측을 결정하는 특정 알고리즘을 Value Iteration [Footnote 1]이라고하며 공식적으로 다음과 같이 설명 할 수 있습니다.

가능한 모든 상태에 대해

(수식 1)

여기서 s는 현재 상태에 해당하고, V (s)는 상담원이 학습 한 상태 s에 대한 현재 보상 예측이며, maxaction∈M {}은 모든 조치 세트에서 브라케팅 수량의 최대 값에 대한 연산자입니다. 상담원이 이용할 수있는 M, V (s ')는 다음 주에 대한 상담원의 현재 보상 예측이며, α는 학습 속도 (0와 1 사이)이며 γ는 미래 보상의 가중치를 적용하는 방법을 반영하는 할인 요소입니다 즉각적인 보상과 관련하여. 초기 값 함수는 모든 상태에 대해 V가 0가되도록 설정되었습니다.

값 함수 V (s)는 룩업 테이블로 구현되었으며, 이는 완벽한 메모리의 가정과 공식적으로 동일합니다. 신경망과 같은 함수 근사 기가 값 함수 [1]를 나타내는 데 약간의 성공을 거두어 왔지만, 결과가 다양한 함수 근사기에 의해 제공되는 일반화 메커니즘의 유형에 의존하지 않도록 룩업 테이블이 사용되었습니다. 에이전트는 상태 공간에서 1,500 학습 반복에 대해 교육을 받았습니다. 객체의 동일성을 예측할 수 없기 때문에 학습 중에 다른 결과의 평균을 얻기 위해 1보다 작은 값 함수 업데이트 매개 변수 (α = 0.01)가 사용되었습니다. 마지막으로, 평가 종료 시점까지 에이전트가 접근 방식을 지연시키는 대신 에이전트가 보상을 빨리 찾도록 권장하기 위해 할인율을 γ = 0.99로 설정했습니다 (기본값 1에서 변경해도 여기에보고 된 결과에는 영향을 미치지 않음). ) 1,500 학습 반복이 학습을 완료하기에 충분한 지 여부를 독립적으로 결정하기 위해 학습 된 평균 변화량을 모니터링하여이 반복 횟수 이전에 수렴 한 것으로 나타났습니다.

교육 후 상담원의 행동을 제어하는 특정 알고리즘 (예 : 각 상태에서 수행하는 작업 정책)은 다음과 같습니다.

(수식 2)

여기서 π (s)는 상담원이 상태 s에서 선택하는 동작이며 방정식의 오른쪽은 보상과 할인 된 값의 합계를 최대화하는 동작 (예 : 방향 변경, 움직임 또는 동작 없음)을 반환합니다. 결과 상태 s '.

아래에보고 된 시뮬레이션에서 에이전트가 방문한 모든 상태는 에이전트의 외부 "실제"상태와 내부 "지식"상태에 대한 정보를 나타내는 7 차원 벡터로 인코딩되었습니다. 물리적 정보에는 공간에서 상담원의 현재 위치와 방향이 모두 포함되었습니다. 지식 정보에는 객체의 위치 (있는 경우)와 해당 객체의 ID (에이전트가 결정한 경우)가 포함됩니다. 에이전트가 나타내는 특정 유형의 정보가 표 1에 표시됩니다.

표 1

RL 시뮬레이션에 사용 된 치수 및 해당 치수의 가능한 값.

시뮬레이션 [Footnote 21,120]에 총 2 상태가있었습니다. 그러나, 미확인 된 양성 및 미확인 된 음성 대상이 존재하는 상태는 제제의 관점에서 동일하므로, 16,280 별개의 상태 만이 존재한다. 따라서 학습을 반복 할 때마다“동일한”상태 중 일부를 두 번 방문하여 절반의 시간 동안 긍정적 인 대상을 발견하고 절반의 시간 동안 긍정적 인 대상을 발견 할 수 있도록해야했습니다. 음의 객체를 발견 한 후에 [Footnote 3].

각 시뮬레이트 된 테스트 시험이 시작될 때, 에이전트는 시뮬레이트 된 선형 11 × 1 단위 트랙의 중심에 배치되었으며, 에이전트의 "동쪽"(즉, 오른쪽)에 5 개의 공백이 있고 "서쪽에 5 개의 공백이 있습니다" "에이전트의 왼쪽에 있습니다. 표 1에서 알 수 있듯이 에이전트의 상태 벡터에는 트랙에서 현재 위치를 나타내는 요소 (예 : 0에서 10까지의 정수)와 요소 (예 : 문자 "n", "s", " e "또는"w ")는 현재 방향 (즉, 각각 북쪽, 남쪽, 동쪽 또는 서쪽)을 나타냅니다. 에이전트의 초기 방향은 항상 "north"로 설정되었으며 환경에 다른 객체가 없었습니다 (예 : 에이전트의 상태 벡터에서 "OBJECT"값은 "0"로 설정 됨).

시뮬레이션의 각 시간 단계 동안 에이전트는 다음 작업 중 하나를 수행 할 수 있습니다. (1)는 아무 작업도 수행하지 않고 현재 위치와 방향을 유지합니다. 북쪽, 남쪽, 동쪽 또는 서쪽으로 향하는 (2); 또는 (3)는 환경 (동쪽 또는 서쪽)에서 한 칸 이동합니다. 각 작업의 결과는 후속 시뮬레이션 시간 단계에서 발생했습니다. 공간에서 에이전트의 위치 및 / 또는 방향의 모든 변경은 에이전트의 작업 선택을 통해 발생했습니다. 그러나 시뮬레이션의 모든 시간 단계 동안 "아무것도하지 않음"동작을 선택한 경우에도 시험이 끝날 때까지 시간이 1 씩 증가했습니다 (예 : 시간 단계 20).

에이전트의 환경은 절반의 시간으로 오브젝트가 10 개의 시간 단계 후에 임의의 위치 (에이전트와 동일한 위치가 아님)에 나타났습니다. 개체의 50 %는 양수 ( "+"로 표시; 표 1 참조)이고 개체의 50 %는 음수 ( "-"로 표시)입니다. 물체가 나타나기 전에 지연이 도입되어 물체가 나타나기 전에 에이전트가 보여줄 수있는 행동을 관찰 할 수 있습니다. 에이전트가 오브젝트를 표시 할 때 오브젝트를 향하지 않은 경우 에이전트의 상태 벡터에서 "OBJECT"ID를 나타내는 요소가 "0"에서 "?"로 변경되어 현재 오브젝트의 ID가 현재는 알려지지 않았다. 그러나 에이전트가 객체를 향한 경우 후속 시간 단계에서 "OBJECT"요소가 객체의 동일성과 동일하게 설정되어 "0"가 "+"또는 "-"가되도록 정의 그리고 부정적인 물체.

에이전트가 객체의 위치로 이동 한 경우 다음 단계에서 객체가 사라졌습니다. 객체가 양수이면 상담원의 "CONSUMED"플래그가 true로 설정되고 상담원에게 보상이 제공됩니다 (보상 = + 10). 그러나 오브젝트가 음수이면 "SHOCKED"플래그가 true로 설정되고 에이전트가 처벌됩니다 (보상 = -10). (에이전트는 에이전트가 오브젝트를 식별했는지 여부에 관계없이 이러한 방식으로 설정되었습니다. 예를 들어 에이전트는 오브젝트를 향하지 않고 오브젝트를 소비 할 수 있습니다.) 후속 시간 단계에서 "SHOCKED"또는 "CONSUMED"플래그가 지워졌습니다. 또한 에이전트는 각 움직임 또는 방향 행동에 대해 약간의 페널티 (강화 = -1)를 부여 받았으며, 아무런 행동을 취하지 않으면 보상이나 처벌을받지 못했습니다 (강화 = 0).

에이전트에 대해 명백한 행동 (즉, 방향과 움직임)과 보상 예측 오차의 양이 측정되었습니다. 명백한 행동 (즉, 에이전트에 의해 선택된 행동의 목록)은 과제가 학습되었는지 여부를 나타내는 지표로 사용되었습니다. 보상 예측 오차의 측정은 비 보상 도파민 성 위상 신호의 출현에 관한 가설을 테스트하기 위해 사용되었다. 보상 예측 오차 (δ)는 이전 시간 단계에서의 보상 예측, 즉 시간 단계 t-1에서의 V (들)을 보상 예측으로부터 감산함으로써 물체의 출현 시점 (t)에서 측정되었다. 물체는 시간 t에서 V (s)로 나타 났으며, 수량 δ = V (st)-V (st−1)를 산출했다.

결과

시뮬레이션 된 동작

작용제의 명백한 거동이 먼저 정량화되었다. 이 분석의 결과, 훈련 후, 에이전트는 모든 긍정적 인 대상들로부터 긍정적 인 강화에 접근하여 얻었고 결코 어떤 부정적인 대상들에도 접근하지 않았 음을 보여 주었다. 이러한 결과를 함께 사용하면 상담원이 작업을 올바르게 수행하는 방법을 학습 한 행동 확인이 제공됩니다. 이 결론은 물체가 나타나지 않은 시험 동안 에이전트가 움직이지 않는다는 추가 관찰에 의해 강화됩니다. 예측 한 바와 같이, 에이전트는 긍정적 및 부정적 대상 모두를 지향했다.

시뮬레이션 된 보상 예측 오류

이 논문의 중심 가설은, 예측할 수없는 자극의 출현은 그 대상이 항상 처벌을받는 "부정적인"대상이더라도, 긍정적 인 보상 예측 오류를 일관되게 생성 할 것이라는 것이다. 이 가설을 뒷받침하기 위해 에이전트는 (식별되지 않은) 물체가 나타날 때마다 긍정적 인 보상 예측 오류를 보였지만 아무 것도 나타나지 않았을 때는 그렇지 않았습니다. 또한 중심 가설과 일치한다는 것은 에이전트의 위상 반응의 크기 (δ, 방법 섹션에 설명 된대로 측정)가 자극의 시뮬레이션 된 "강도"에 민감하다는 사실입니다. 에이전트와 물체 사이의 거리를 사용하여 정의됩니다 (그림 1 참조). 회귀 분석은 δ의 크기가 물체로부터의 거리와 반비례하여 더 가까운 물체가 더 강한 반응을 일으킨다는 것을 보여주었습니다 (r = -0.999, p <0.001; β = 0.82). 이 음의 상관 관계는 에이전트가 긍정적 인 대상으로 이동하여 소비하여 보상을 얻기 위해 수행해야하는 각 동작에 대해 부과 된 작은 페널티 (강화 = -1)로 인해 발생했습니다.

그림 1

이 그림은 객체가 에이전트의 위치에 대한 객체 위치의 함수로 나타날 때 보상 예측 오류 (즉, δ)를 보여줍니다. 반응은 긍정적 인 대상과 부정적인 대상 모두에 대해 동일합니다. 개체가 없을 때 (추가…)

이 시뮬레이션에서 양성 및 음성 객체가 동일한 확률 (p = .25)로 나타났다는 점을 고려하면 다음과 같은 의문이 생깁니다. 왜 물체가 출현 할 때 상담원의 보상 예측 오류 신호가 긍정적 이었습니까? Kakade와 Dayan [7]의 선을 따라 추론하면 신호가 그러한 상황에서 배운 모든 보상의 평균을 반영해야하므로 0과 같아야합니다. 이 결과를 이해하는 열쇠는 RL이 상담원에게 부정적인 강화를 초래하는 행동을 선택할 가능성을 낮출뿐만 아니라 상담원이 부정적인 강화를 초래하는 상태로 진입 할 가능성을 낮추는 것입니다. 이것은 그림 2에 묘사되고 다음에 설명되는 일종의 "고차"학습 형태를 낳습니다.

그림 2

RL 에이전트가 자신의 환경에서 보상 및 처벌 자극으로 훈련을 받았을 때 긍정적 인 보상 예측 오류를 발생시키는 방법을 보여주고 접근 및 소비 여부를 선택할 수 있습니다. (A) 배우기 전 상황 : (더 ...)

학습이 시작될 때 (그림 2A 참조) 상담원은“+”및“-”객체를 지향하고 객체에 접근하며 각 유형의 객체를 소비함으로써 보상 및 처벌됩니다. 상담원의 학습 된 상태 값이 상담원의 작업에 영향을 줄 수없는 경우 (그림 2B 참조), 상담원은 계속 객체에 접근하여 소비합니다. 큐의 모양은 0의 평균 보상을 예측하고 보상 예측 오류가 갑자기 증가합니다. 그러나이 시뮬레이션의 에이전트는 학습 된 상태 값을 사용하여 해당 조치에 영향을 미치며 (그림 2C 참조) 에이전트는 ID를 판별하기 위해 알 수없는 오브젝트의 방향을 지정해야하지만 더 이상 부정적인 오브젝트를 액세스하지 않으면 부정적인 오브젝트를 소비하지 않습니다. (궤적 샘플링 [Footnote 1]과 같은 임의의 탐색 알고리즘으로 훈련 된 경우). 또한, 시간-차이 학습은 네거티브 보상 예측이 이전 상태로 다시 전파 될 수있게하고, 공간 내 이동에 작은 비용이 있기 때문에, 에이전트는 네거티브 오브젝트에 완전히 접근하는 것을 피하는 것을 배운다. 따라서,이 정보를 학습 한 후, 객체가 처음 나타날 때의 상태 값 (각 시퀀스의 첫 번째 원에서 "V"로 표시됨)은 양수 및 음수 결과 상태 값의 평균을 기반으로하지 않지만 대신 에이전트가 부정적인 대상을 피하는 법을 배우면 얻을 수있는 긍정적 인 평균과 "중립적 인"결과를 기반으로합니다. 이것이 훈련 된 요원이 실제로 얻은 모든 보상의 평균이 0보다 큰 이유이며, 요원의 보상 예측 (따라서 물건이 갑자기 나타날 때 보상 예측 오류)이 순 긍정적 인 이유를 설명합니다. 그림 3에 설명되어 있습니다. 실제로, 에이전트가 행동을 바꾸고 부정적인 대상을 피하는 법을 배울 수있는 한, 부정적인 대상의 가치는 궁극적으로 에이전트의 최종 행동과 참 신성 / 의존성 반응의 크기와 관련이 없습니다.

그림 3

(A) RL이 고차 학습으로 이어지지 않았을 경우 (즉, 에이전트가 부정적인 결과를 피하기위한 조치를 취할 수없는 경우) 발생했을 보상 예측의 변화를 보여 주어 에이전트가 모든 개체 (추가…)

시뮬레이션 결과는 세 가지 가정에 크게 좌우됩니다. 먼저, 초기 큐에 의해 예측 된 강화의 크기가 배향 및 접근 비용 (예를 들어, -10)에 비해 충분히 크다 (예를 들어, + 1)라는 점에서 자극은 "심각한"이어야했다. 규모가 상대적으로 작 으면 에이전트는 방향을 배우지 않았거나 긍정적 인 보상 예측 오류 응답을 생성하지 않았을 것입니다. 둘째, 자극을 인식하기 전의 지연도 필요했습니다. (지연은 익숙한 자극이 빠르게 인식된다는 이유 하에서“참 신성”의 대리자입니다.) 지연이 없으면 에이전트는 실제 인식 된 물체에 적합한 적절한 긍정적 또는 부정적 보상 예측 오류를 생성했을 것입니다. 마지막으로, 에이전트의 행동은 배운 가치에 의해 결정되어야했다. 에이전트가 자신의 행동 (자극에 접근할지 여부)을 제어 할 수 없다면, 물체가 나타 났을 때의 보상 예측은 0와 같을 것입니다. 이는 가능한 긍정적이고 부정적인 결과의 평균입니다.

일반 토론

이 기사에서보고 된 시뮬레이션은 보상 또는 처벌과 같은 예측할 수없는 자극이 나타나지만 즉시 식별 할 수없는 경우 긍정적 인 보상 예측 오류가 발생 함을 보여주었습니다. 더욱이, 시뮬레이션은 보상 예측 에러의 크기가 자극이 작용제에 근접함에 따라 증가한다는 것을 나타내었고, 시뮬레이션의 맥락에서 자극 강도에 대한 대리 척도이고 따라서 친화 성과 관련되어있다. RL의 이론적 틀에서, 보상 예측은 일반적으로 인식 된 자극의 학습 된 값, 또는 에이전트의 물리적 및 / 또는인지 적 상태의 학습 된 값을 반영하는 것으로 이해된다 [15]. 그러나 여기에보고 된 보상 예측 오류는 에이전트가 개체를 인식하기 전에 생성되기 때문에 질적으로 다르게 해석됩니다. 이러한 결과는 RL 원칙이 보상과 관련이없는 것처럼 보이지만 참신함과 성의 속성과 관련된 응답을 생성하기에 충분하다는 가설을 뒷받침합니다. 이 결론은 RL에 대한 일반적인 이해와 실제 생물학적 유기체에서의 보상 학습의 설명으로 RL에 대한 해석에 몇 가지 중요한 영향을 미칩니다.

먼저, 미확인 자극이 나타날 때 RL 에이전트가 생성하는 보상 예측은 Kakade 및 Dayan [7]에서 제안한대로 획득 가능한 보상의 엄격한 평균 일 필요는 없지만 실제로는 해당 특정 평균보다 크기가 클 수 있습니다. Kakade와 Dayan은 재판이 균등하게 보상되고 처벌되기 때문에 평균 보상 예측이 0과 같아야한다고 예측했습니다. 이 놀라운 결과는 에이전트가 "정책에 따라"학습했기 때문에 나타났습니다. 즉, 에이전트는 부정적인 결과뿐만 아니라 그러한 결과를 피할 수있는 능력에 대해서도 배웠습니다. 에이전트가 부정적인 결과를 피하도록하는 보상 시스템의 이러한 능력은 RL에 대한 우리의 이해를 실제 유기체로 번역 할 때 신중하게 고려해야합니다. 이 사실은 음의 보상 예측 오차 [11]보다 양의 보상 예측 오차를 더 잘 나타내는 도파민 작용 성 위상 응답의 용량에서 명백한 비대칭 성을 고려할 때 잠재적으로 더욱 중요하다. 특정 일련의 사건이 부정적인 결과를 초래한다는 것을 나타내는 것으로 충분할 수 있지만, 행동 선택의 목적 상 그 결과의 규모는 중요하지 않다는 것을 나타내는 것으로 충분할 수 있습니다.

현재 시뮬레이션의 두 번째 결과는 참 신성 응답이 지각 처리 시스템과 보상 예측 시스템 간의 상호 작용에서 나타날 수 있다는 것입니다. 구체적으로, 신규성 응답은 신규 한 객체와 아직 완전한 지각 처리를 거치지 않은 객체 간의 유사성 형태에 기인 할 수있다 [Footnote 4]. 이 시뮬레이션에서, 객체의 아이덴티티 (및 결과적으로 보람 또는 징벌적인 성질)가 에이전트에게 명백해지기 전에 지연을 도입함으로써 참신함이 구현되었다. 이것은 새로운 물체를 식별하는 데 시간이 더 걸린다는 가정하에 이루어졌지만,이 가정은 또한 긍정적이고 부정적인 물체가 처음 등장했을 때와 비슷하게 인식되었다 (즉, 둘 다“?”로 인코딩 됨). 대조적으로, Kakade와 Dayan [7]은 신경 생리학 데이터에서 유사하게 나타나더라도 참신 반응 및 "일반화"반응이 본질적으로 다르다는 것을 제안한다.

현재 시뮬레이션 결과에 대한 세 번째 결과는 Kakade와 Dayan [7]이 제안한 참신과 쉐이핑 보너스에 대한 추가 가정이 필요하지 않다는 것입니다. 대신, 참신한 반응은 현실적인 지각 처리 한계와 부정적인 결과를 피할 수 있다는 지식에서 나올 수 있습니다. Kakade와 Dayan이 지적한 바와 같이 참신 보너스는 에이전트가 배우는 가치 기능을 왜곡하고 보너스를 형성하면 에이전트가 주 공간을 탐색하는 방식에 영향을주기 때문에 운이 좋습니다. 따라서 이러한 가정 중 하나를 포함하면 RL 이론에 따른 모델의 특성이 줄어 듭니다. 흥미롭게도, 여기에 제시된 결과는 생물학적 참신 반응이 실제 유기체에서의 보상 기반 학습에 방해가되지 않는 이유를 설명하는 데 도움이됩니다. 참신 응답은 실제로 RL에 의해 이미 예측되었습니다. 즉, 참신 응답은 환경에 대해 이미 배운 에이전트에 내재 된 행동 및 보상 예측을 반영합니다.

본 시뮬레이션 결과의 대안 적 (그러나 상호 배타적이지 않은) 해석은 실제로 에이전트가 물체를 향하고 식별함으로써 획득 한 추상적 (아마도인지 적) 보상이 있다는 것이다. 도파민 작용에 대한 연구에서 보상을 예측하는 것으로 알려진 예기치 않은 신호에 대해 긍정적 인 위상 반응이 나타날 수 있습니다. 그러나이 시뮬레이션은 궁극적으로 보상 또는 처벌을 예측할 수있는 신호에 대한 응답으로 이러한 종류의 응답이 어떻게 발생할 수 있는지 보여줍니다. 큐에 의해 예측되는 유일한 일관된 이점은 에이전트가 객체의 신원을 결정할 때 얻은 정보의 이득입니다. 따라서, 식별되지 않은 물체가 나타날 때 유효하고 학습 된 "보상 예측"이있는 경우, 이는 에이전트가 자극에 접근 할 것인지 또는 회피 할 것인지에 대한 지식을 얻은 후에 만족되는 것이다. 이 정보의 가치는 획득 가능한 결과의 평균이 아니라 실제 결과에 대한 지식을 기반으로합니다. 즉, 에이전트는 긍정적 인 보상을 사용하거나 부정적인 보상을 피할 수 있습니다 (그림 2 참조).

마지막으로, 특정 행동 (예를 들어, 오리엔테이션)을 취할 수있는 기회는이 시뮬레이션에 포함되지 않은 일부 일반화 또는 학습 메커니즘을 통해 보람있는 속성을 취할 수 있다는 점에 유의하는 것이 중요합니다. 예를 들어,“어떻게 존재하고 있는가”를 지향하고 결정하는 바로 그 행동과 새로운 자극이 나타날 때 위의 입증 된, 항상 긍정적 인 보상 예측 오류 사이의 연관성에 기초하여 유기체에 보상이 될 수 있습니다. 비슷한 개념이 최근 Redgrave and Gurney [13]에 의해 발전되어 위상 도파민 반응의 중요한 목적은 예측할 수없는 현저한 사건 이전에 발생하는 행동을 강화하는 것이라고 가정합니다. 여기에서의 결과는 해당 가설과 호환되지 않지만, Redgrave와 Gurney의 가설은이 시뮬레이션에서 직접 테스트되지 않았다는 점에 주목해야합니다. 발생). 그러나, 시뮬레이션 된 위상 신호는 오리엔테이션 응답의 시간과 일치하여 둘이 밀접하게 관련 될 수 있음을 시사한다.

마지막으로,이 기사는 RL 원리가 도파민 뉴런의 비 보상 관련 활동 유형을 설명하는 데 사용될 수 있음을 보여주었습니다. 이 결과는 시간차 학습 규칙 (예 : Kakade 및 Dayan [7]에서 사용하는 규칙)이 에이전트가 최종 결과에 영향을 미치는 동작을 선택할 수있는 시뮬레이션에 포함되었다는 사실에서 나왔습니다. 시뮬레이션에서 에이전트는 갑자기 나타난 물체를 향한 결과는 항상 부정적인 결과를 피할 수 있기 때문에 항상 보람이 있거나 중립적 일 수 있다는 것을 알게되었습니다. 따라서 에이전트가 방향을 잡을 기회가 있었을 때, 그 보상 예측 오류는 항상 생물학적 유기체에서 관찰되는 참 신성 및 현존 성 반응과 유사하게 긍정적이었다.

감사의

이 기사에 설명 된 작업은 NIH R01 HD053639 및 NSF Training Grant DGE-9987588에 의해 지원되었습니다. Erik Reichle, Tessa Warren 및 익명의 검토 자에게이 기사의 이전 버전에 대한 유용한 의견을 보내 주셔서 감사합니다.

1 상태 공간이 커져서 컴퓨터 메모리에 완전히 반복하거나 쉽게 저장할 수없는 경우 값 반복 대신 궤적 샘플링 [17]이라고하는 다른 강화 학습 알고리즘이 자주 사용됩니다. 상태 공간의 모든 상태를 반복하고 가장 큰 보상으로 이어지는 행동을 기반으로 값 함수 업데이트 방정식을 적용하는 대신, 궤적 샘플링은 상태 공간을 통과하는 경로를 따라 작동합니다. Value Iteration과 유사하게, 가장 많은 보상을 이끌어내는 행동은 일반적으로 각 주에서 선택되지만 때로는 약간의 확률로 무작위 탐색 행동이 선택됩니다. 따라서 알고리즘은 다음과 같습니다. 일부 시작 상태에서 확률 ε이 가장 많은 보상 (예 : 보상 + γV (s '))으로 이어지는 동작을 선택하거나 확률이 1-ε 인 임의 탐색 동작을 선택합니다. 상태 s의 비 탐사 작업 중에 V (s) → V (s) + α [보상 + γV (s ') − V (s)]를 적용합니다.

계산 시간과 기억의 기술적 한계를 극복하는 것 외에도, 궤적 샘플링은 실제 생물학적 유기체가 학습하는 방식을 더 잘 반영 할 수 있기 때문에 매력적일 수 있습니다 : 상태 공간에서 경로를 탐색하는 것. 이 백서에 설명 된 작업에서 궤적 샘플링은 값 반복으로 얻은 결과와 질적으로 동일한 결과를 산출합니다. 그러나 간결성을 위해 이러한 결과는 여기에 자세히보고되지 않습니다. 이 논문에서 시뮬레이션을 위해 가치 반복이 두 가지 주요 이유로 선택되었다. 첫째, 궤적 샘플링에는 궤적 선택에 확률론이 포함되므로,이 작업에서 가능한 많은 동작 순서로 인해 발생하는 대량의 분기는 탐색 탐색 매개 변수 (예 : ε-greediness [17])가 신중하게 선택되었습니다. 특정 상태에 대한 이러한 경험 부족은 유사한 (그러나 가능하지 않은) 상태에 대한 값의 일반화가 없기 때문에 찾아보기 테이블 메모리 구조가 사용될 때 에이전트의 성능을 방해 할 수 있습니다. 따라서 Value Iteration으로 보장되는 상태 공간을 철저히 탐색하는 것이 좋습니다. 둘째, Value Iteration을 사용하면 추가 탐색 탐색 매개 변수를 지정해야하므로 시뮬레이션이 간소화됩니다. 궤적의 수가 무한대 [17]에 접근함에 따라 궤적 샘플링은 궁극적으로 값 반복에 근접 할 수 있습니다.

2 21,120 상태 수는 다음과 같이 계산할 수 있습니다. 11 가능한 에이전트 위치 × 4 가능한 에이전트 방향 × (개체가 나타날 수있는 10 시간 단계 + 개체가 나타나지 않은 10 시간 단계 + 에이전트가 있었던 10 시간 단계 긍정적으로 강화 된 + 오브젝트가 부정적으로 강화 된 10 시간 단계 + 가능한 11 가능한 오브젝트 위치 * (긍정적으로 식별 된 오브젝트를 가진 10 시간 단계 + 부정적으로 식별 된 오브젝트를 가진 10 시간 단계 + 알 수없는 긍정적 인 오브젝트를 가진 10 시간 단계 + 식별되지 않은 음성 개체가있는 10 시간 단계))].

3 Value Iteration은 상태 공간의 각 상태에서 "한 걸음 앞서"보이기 때문에 훈련 중에 이러한 "숨겨진"상태의 존재를 고려해야합니다. 부정적 및 긍정적 미확인 대상을 갖는 상태가 사실상 동일하다는 사실은 긍정적 또는 부정적 대상이 식별되는 2 개의 다른 후속 상태에서의 값에 대한 학습 및 평균을 방지 할 수있다. 반면에 궤적 샘플링 접근법은 시험 전체에 걸쳐 숨겨진 상태 정보 (즉, 미확인 자극의 신원)를 유지하므로 RL의 변형으로 숨겨진 상태는 문제가되지 않습니다.

4 본 연구에 대한 잠재적 반대 의견은 오리엔테이션 반응이 포유 동물 뇌에서, 예를 들어, 우량한 콜리 큘 러스 [3,14]의 투영에서 강하게 연결되어있는 것으로 보인다는 것이다. 본 시뮬레이션에서, 에이전트는 물체를 향하도록 강하게 결선되지 않고 대신 보상을 최대화하는 행동 (예를 들어, 접근 또는 회피)의 최종 선택을 허용하는 오리엔테이션 행동을 배웠다. 유선 응답과 유사하게, 이러한 오리엔테이션 동작은 물체가 식별되고 모든 물체를 향하기 전에 매우 빠르게 발생했습니다. 이 작업의 목표는 그러한 모든 응답을 학습한다는 것이 아니라 RL 프레임 워크 내에서 공존 할 수 있다는 주장을하는 것이 었습니다. 그럼에도 불구하고,이 위상 도파민 반응을 생성하기 위해 보상 관련 메커니즘이 뇌간 영역에서 연결을 설정하는 데 관여 할 수 있는지 여부를 조사하는 것이 흥미로울 것입니다.

이 파일은 편집을 위해 편집되지 않은 원고의 PDF 파일입니다. 우리 고객들을위한 서비스로서이 초기 버전의 원고를 제공하고 있습니다. 사본은 최종 인용 가능 형식으로 출판되기 전에 결과 교정본의 사본 편집, 조판 및 검토를 거치게됩니다. 생산 과정 중에 내용에 영향을 미칠 수있는 오류가 발견 될 수 있으며 해당 저널에 적용되는 모든 법적 고지 사항이 포함됩니다.

참고자료

1. 베어드 LC. 잔차 알고리즘 : 기능 근사를 통한 강화 학습. 에서 : Priedetis A, Russell S, 편집자. 기계 학습 : 제 12 차 국제 회의의 절차; 9–12 July.1995.

2. Bunzeck N, Düzel E. 인간 기질 nigra / VTA에서 자극 신규성의 절대 코딩. 뉴런. 2006; 51 (3) : 369–379입니다. [퍼브 메드]

3. Dommett E, Coizet V, Blaha CD, Martindale J, Lefebvre V, Walton N, Mayhew JEW, Overton PG, Redgrave P. 시각적 자극이 짧은 대기 시간에 도파민 뉴런을 활성화시키는 방법. 과학. 2005; 307 (5714) : 1476–1479입니다. [퍼브 메드]

4. Doya K. Metalearning 및 신경 조절. 신경망. 2002 Jun–Jul; 15 (4–6) : 495–506. [퍼브 메드]

5. Gillies A, Arbuthnott G. 기저핵의 전산 모델. 운동 장애. 2000; 15 (5) : 762–770입니다. [퍼브 메드]

6. 호 비츠 JC. 현저한 비 보상 사건에 대한 Mesolimbocortical 및 nigrostriatal 도파민 반응. 신경 과학. 2000; 96 (4) : 651–656입니다. [퍼브 메드]

7. Kakade S, Dayan P. Dopamine : 일반화 및 보너스. 신경망. 2002; 15 (4–6) : 549–559입니다. [퍼브 메드]

8. Knutson B, Cooper JC. 미지의 미끼. 뉴런. 2006; 51 (3) : 280–282입니다. [퍼브 메드]

9. Logothetis NK, Pauls J, Augath M, Trinath T, Oeltermann A. fMRI 신호의 기초에 대한 신경 생리 학적 조사. 자연. 2001; 412 (6843) : 150–157입니다. [퍼브 메드]

10. McClure SM, Berns GS, Montague PR. 수동 학습 과제의 시간적 예측 오류는 인간의 선조를 활성화합니다. 뉴런. 2003; 38 (2) : 339–346입니다. [퍼브 메드]

11. Niv Y, Duff MO, Dayan P. Dopamine, 불확실성 및 TD 학습. 행동 및 뇌 기능. 2005 4; 1 : 6 일 수 있습니다. [PMC 무료 기사] [PubMed]

12. O'Doherty JP, Dayan P, Friston K, Critchley H, Dolan RJ. 인간 두뇌의 시간적 차이 모델과 보상 관련 학습. 뉴런. 2003; 38 (2) : 329–337입니다. [퍼브 메드]

13. Redgrave P, Gurney K. 짧은 대기 시간 도파민 신호 : 새로운 행동을 발견하는 역할? 자연 리뷰 신경 과학. 2006 12 월; 7 (12) : 967–975.

14. Redgrave P, Prescott TJ, Gurney K. 짧은 대기 시간 도파민 반응이 보상 오류를 나타내기에는 너무 짧습니까? 신경 과학의 동향. 1999 4 월; 22 (4) : 146–151. [퍼브 메드]

15. Reichle ED, Laurent PA. 독서 중“지능적”안구 운동의 출현을 이해하기 위해 강화 학습을 사용합니다. 심리적 검토. 2006; 113 (2) : 390–408입니다. [퍼브 메드]

16. Schultz W. 도파민 뉴런의 예측 보상 신호. 신경 생리학 저널. 1998; 80 (1) : 1–27입니다. [퍼브 메드]

17. Sutton RS, Barto AG. 강화 학습 : 소개. MIT Press; 케임브리지 : 1998.

18. 타나카 SC, 도야 K, 오카다 G, 우에다 K, 오카모토 Y, 야마 와키 S. 즉각적인 미래 보상의 예측은 코르티코-기저 신경절 루프를 차등 모집합니다. 자연 신경 과학. 2004; 7 (8) : 887–893입니다.

강화 학습 원리 (2008)로부터의 현저함과 등장 성의 출현

추상

방법

결과

시뮬레이션 된 동작

시뮬레이션 된 보상 예측 오류

일반 토론

감사의

참고자료

한눈에 보기