보상 기대에 대한 위반에 대한 원자로의 민감도 (2007)

Neuroimage. 2007 1 월 1; 34 (1) : 455-61. Epub 2006 10 월 17.

스파이 서 J, 갈반 A, 헤어 TA, 보스 H, 글로버 G, 케이시 B.

출처

코넬 대학 웨일 코넬 의과 대학의 발달 심리학을위한 ack 클러 연구소 1300 York Avenue, 뉴욕, 뉴욕, 뉴욕 140, 10021.

추상

이 연구는 복부 전 안면 영역이 예상과 예상치 못한 보상 결과를 차등 적으로 코딩하는지 여부를 조사했습니다. 보상 확률을 파라 메트릭 방식으로 조작하고 복부 선조와 궤도 정면 피질 (OFC)의 각 확률 조건에 대한 보상 및 비 보상에 대한 신경 반응을 조사했습니다. 실험의 후기 시험에 의해, 대상체는 보상 가능성이 가장 높은 조건에 비해 보상 가능성이 가장 낮은 조건에 대해 느린 행동 반응을 나타냈다. 신경 수준에서, 핵 축적 (NAcc) 및 OFC는 보상되지 않은 시험에 비해 보상에 대해 더 큰 활성화를 보였지만, 축적 된 보상 결과에서의 위반에 가장 민감한 것으로 나타났다. 이 데이터는 보상 예측 및 기대 위반에 대한 대응으로 전두엽 회로에 대한 뚜렷한 역할을 제안합니다.

 

개요

정확한 예측을 형성하고 다가오는 보상 이벤트에 대한 기대치 위반을 감지하는 것은 목표 지향적 행동의 필수 구성 요소입니다. 인간이 아닌 영장류 및 인간 이미징 연구는 도파민이 풍부한 전두엽 영역이 미래 보상 결과에 대한 예측을 형성하고 그에 따라 행동을 최적화하는 데 관여한다고 제안합니다. 보상 관련 예측 오류의 신경 메커니즘 – 실제 보상과 예상 보상 사이의 불일치 표현 (슐츠 등, 1997) – 예상 및 예상치 못한 보상 및 / 또는 보상 누락 측면에서 인간이 아닌 영장류에서 연구되었습니다 (Hollerman 등, 1998, 레온과 샤들 렌, 1999; Tremblay와 Schultz, 1999). 현재의 연구는 이전에 비인간 영장류에서 사용했던 것과 유사한 간단한 공간 지연 매치-샘플 작업을 사용했습니다 (Fiorillo 등, 2003)는 보상 결과의 확률을 조작하여 예상 및 예상치 못한 보상에 대한 신경 반응을 조사합니다.

수렴 된 증거는 도파민 시스템이 예측 및 보상 처리에 중요하다는 것을 암시합니다 (Olds와 Milner, 1954; Montague 등, 2004, 슐츠, 2002 검토를 위해). 비인간 영장류 연구에 따르면 도파민 뉴런은 예상치 못한 일차 보상과 결국 그 보상을 예측하는 자극에 반응합니다.미렌 코 비츠 & 슐츠, 1994, Tobler et al., 2005). 원숭이의 복부 Tegmental Area (VTA)에서 도파민 뉴런은 완전히 예측 된 보상보다 예측치 못한 (또는 낮은 확률로 예측되는) 일차 보상에 대한 반응으로 발사됩니다.Fiorillo 등, 2003;Tobler et al., 2005). 반대로, 예상되는 보상 누락에 대해 예상 보상이 전달되지 않으면 동일한 뉴런의 활동이 억제됩니다 (Fiorillo 등, 2003; Tobler et al., 2005). 따라서 도파민 뉴런은 실제 결과와 예측 결과 사이의 불일치를 나타내어 예측 오류를 코드화합니다 (슐츠 등, 1997; Tobler et al., 2005)와 같이 보상이 예기치 않게 표시되면 활동이 증가하고 보상이 예기치 않게 누락되면 활동이 감소합니다.

보상 결과의 변화에 ​​대한 도파민 발사의 변화는 행동의 변화와 유사합니다. 비인간 영장류 연구에 따르면 원숭이는 조건부 자극이 후속 무조건 부 자극 (주스 전달)과 연관 될 확률의 함수로서 기대 핥기를 증가시킬 것으로 밝혀졌습니다. 따라서, 후속 주스 전달의 높은 확률을 나타내는 자극은보다 예측적인 핥기를 유발한다 (Fiorillo 등, 2003).

상호 해부학 적 연결은 목표 지향적 행동 (예 : 전전두엽 피질)과 관련된 영역과 예측이 계산 될 수있는보다 자동적 인 식욕 적 행동 (예 : 복부 선조)과 관련된 영역 사이에 존재합니다 (슐츠 (Shultz) 등의 1997; 하버 (Haber) 등, 2003). 이 영역은 중뇌 도파민 뉴런으로부터의 투영을 통해 도파민으로 심하게 신경 분포되어 있으며, 이러한 연결은 작용을 유리하게하여 행동의 최적화를 지원하는 기능성 신경 해부학 적 회로를 형성하여 최대의 이익을 얻는다.

최근, 인간 기능 자기 공명 영상 (fMRI) 연구 예측 오차의 표현 에서이 회로의 두 영역, 핵 accumbens와 궤도 정면 피 질을 연루. 예를 들어, 예측할 수없는 주스 및 물 전달 순서는 예측 가능한 전달과 비교하여 NAcc에서 증가 된 활동을 유도하는 것으로 나타났습니다 (베른 스 외, 2001). 시간에 따른 예측 오류 (McClure 등, 2003) 및 자극 (오 도허티 등, 2003 오 도허티 등, 2004) 위반은 복부 선조도 활성화합니다.

보상 예측에서 OFC의 역할은 명확하지 않습니다. 일부 연구는 예측 오류 조건에서 OFC의 민감도를보고했지만 (Berns et al., 2001; O'Doherty 외, 2003; Ramnini 등, 2004; Dreher et al., 2005) 다른 사람들은 (McClure 등, 2003; O'Doherty 외, 2004; Delgado 등, 2005). 예측 오차에 중점을 둔 연구는 바람직하지 않은 결과에 비해 유리한 OFC 활성화를 보여줍니다 (오 도허티 등, 2001; 엘리엇 외, 2003; Galvan 등, 2005) 보상 가치 연구 (Gottfried et al., 2003) 및 원자가 (콕스 등, 2005; 오 도허티, 2000 오 도허티, 2003 오 도허티, 2004). 요새, 크 링겔 바흐 앤 롤 (2004) orbitofrontal 피질의 다양한 기능을 설명하기 위해 neuroimaging 및 neuropsychological 문학 통합. 그들은 내측 측면 구별과 전방 후방 구별을 제안한다. 내측 및 외측 안와 전두엽 피질은 각각 보상 자의 보상 가치와 평가를 모니터링합니다 (예 : 오 도허티 등, 2001 ; 롤스 외, 2003). 앞쪽 안와 전두엽 피질은 추상적 강화제의 표현에 더 관여하는 것으로 생각된다.오 도허티 등, 2001) 맛과 관련된 간단한 것들 (예 : De Araujo et al., 2003) 및 통증 (예 : 크레이그 외, 2000).

이러한 복부 전 안면 영역은 최근Knutson 등, 2005) 중 예상 값 (예상 확률과 결과 크기의 곱)의 표현과 관련이 있음 보상 결과의 기대. 크기, 확률 및 / 또는 원자가의 수많은 조합을 나타내는 18 큐를 포함하는 우아하면서도 복잡한 디자인을 고려할 때, 통계적 힘의 부족으로 인해 저자는 인센티브와 관련된 뇌 활성화를 검사 할 수 없었습니다. 결과. 현재의 연구에서, 우리는 정확한 시험을 위해 각각 33 %, 66 % 또는 100 % 보상과 관련된 세 가지 다른 큐를 사용했습니다. 이 연구의 강조점은 보상 결과 결과에 앞서 보상에 대한 기대보다는 보상 기대에 대한 위반에 대한 신경 수준의 민감성을 조사하기 위해 보상에 대한 기대보다는 보상에 대한 기대. 이 분석은 예측 된 기대치 위반이 발생할 때 보상 결과에서 발생하는 도파민 발사의 변화로 인해 보상의 예측 성을 이해하는 데 중요합니다.Fiorillo 등, 2003).그만큼 선험적인 예상 및 예상치 못한 금전적 보상에 대한 accumbens 및 OFC 응답에 대한 예측은 보상 처리에 이들 영역을 연루하는 사전 이미징 작업을 기반으로합니다Knutson 등, 2001; 2005; 오 도허티 등, 2001; Galvan 등, 2005). 우리는 간단한 공간 지연 일치를 사용하여 패러다임을 샘플링했습니다. Fiorillo 등 (2003) 비인간 영장류에서 도파민 뉴런의 전기 생리 학적 연구 우리는 복부 선조체, 특히 NAcc의 활동이 예상치 못한 보상이 전달 될 때 증가하고 예상 보상이 전달되지 않으면 감소 할 것이라고 가정했다. 행동은 보상을 가장 자주 예측하는 신호에 대한 평균 반응 시간이 빠르지 만, 가장 자주 예측하는 신호에 대한 반응 시간이 더 느린 이러한 변화와 유사 할 것으로 예상되었습니다. 또한, OFC는 보상 결과 (보상 또는 비 보상)에 민감하지만 가산은 보상 예측의 변화에 ​​가장 민감하다는 가설을 세웠습니다. 이 가설은 이전 이미징 연구의 보고서를 기반으로합니다 (Galvan et al 2005OFC의 보상 잠금 활동과 비교하여 보상 확률 매개 변수에 더 큰 줄무늬가 관여하는 비인간 영장류 연구슐츠 등, 2000) 및 확률 조건 전반에 걸쳐 다양한 보상 금액이 아닌 고정 금액을 기준으로합니다.

행동 양식

참가자

fMRI 실험에는 7–19 (평균 연령 27 세) 인 12 명의 오른손 건강 성인 (24 여성)이 포함되었습니다. 대상은 신경계 또는 정신 질환의 병력이 없었으며, 모든 대상은 참여 전에 기관 검토위원회 승인 연구에 동의했다.

실험 과제

참가자는 앞에서 설명한 지연된 응답 2 선택 작업의 수정 된 버전을 사용하여 테스트했습니다 (Galvan 등, 2005) 이벤트 관련 fMRI 연구 (그림 1). 이 작업에서 3 개의 큐는 각각 일정한 양의 보상을 얻을 수있는 별개의 확률 (33 %, 66 % 및 100 %)과 관련이 있습니다. 피험자들은 지시를받을 때 큐가 나타나는 쪽을 표시하고 실수없이 가능한 한 빨리 반응하도록 검지 또는 가운데 손가락을 누르라는 지시를 받았습니다. 3 개의 해적 만화 이미지 중 하나가 1000 msec에 대한 중앙 고정의 왼쪽 또는 오른쪽에 임의 순서로 표시되었습니다 (참조 그림 1). 2000 msec 지연 후 대상에게 고정 양쪽에 두 개의 보물 상자 (2000 msec)의 응답 프롬프트가 표시되고 해적이 고정의 왼쪽에 있거나 오른쪽 검지로 버튼을 누르도록 지시했습니다. 해적이 고정의 오른쪽에 있다면 오른쪽 가운데 손가락. 다른 2000 msec 지연 후, 보상 유형 (만화 코인) 또는 빈 보물 상자가 해당 시험 유형의 보상 확률에 따라 화면 중앙 (1000 msec)에 표시되었습니다. 다음 시험이 시작되기 전에 12 초의 시험 간격 (ITI)이있었습니다.

그림 1  

작업 디자인

보상 확률 조건에는 33 %, 66 % 및 100 % 보상 확률의 세 가지가 있습니다. 33 % 조건에서, 대상은 시험의 33 %에 대해 보상을 받았으며, 그 조건에서 시험의 다른 66 %에 대해서는 보상 (빈 보물 상자)이 발생하지 않았다. 66 % 조건에서, 대상체는 시험의 66 %에 대해 보상을 받았으며, 시험의 다른 33 %에 대해서는 보상이 발생하지 않았다. 100 % 조건에서 대상은 모든 올바른 시험에 대해 보상을 받았습니다.

피험자들은 연구 참여에 대해 $ 50를 보장 받았으며, 과제의 성과 (반응 시간 및 정확도에 의해 색인화 됨)에 따라 최대 $ 25를 더 많이 벌 수 있다고 들었습니다. 자극은 MR 스캐너의 보어 내에서 LCD 비디오 디스플레이 및 광섬유 응답 수집 장치를 사용하여 통합 기능 이미징 시스템 (IFIS) (PST, 피츠버그)으로 제시되었다.

실험은 5 회의 18 시행 (6 각 33 %, 66 % 및 100 % 보상 가능성 시험 유형)으로 구성되었으며, 각각 6 min 및 8가 지속되었습니다. 각 실행에는 각 보상 확률에 대한 6 시행이 무작위 순서로 표시되었습니다. 각 경기가 끝날 무렵, 주제는 그 달리기 동안 벌어 들인 돈에 대해 업데이트되었습니다. 실험을 시작하기 전에, 대상체는 사용 된 자극에 대한 친숙 함을 포함하고 작업 이해를 보장하기 위해 실습을 수행하는 상세한 지시를 받았다. 그들은 단서와 금전적 결과 사이에 관계가 있다고 들었지만 그 관계의 정확한 성격은 밝혀지지 않았습니다.

이미지 수집

구적 헤드 코일을 사용하는 3T General Electric MRI 스캐너를 사용하여 이미징을 수행했습니다. 나선형 인 / 아웃 시퀀스를 사용하여 기능 스캔을 획득했습니다 (Glover & Thomason, 2004). 매개 변수에는 TR = 2000, TE = 30, 64 X 64 매트릭스, 29 개의 5-mm 코로나 슬라이스, 3.125 X 3.125-mm 평면 내 해상도, 90 ° 반전)이 포함되어 있습니다. 각 실행. 해부학 적 T184 가중 평면 내 스캔 (TR = 1, TE = min, 500 X 256, FOV = 256mm, 200mm 슬라이스 두께)을 5D 데이터 세트와 함께 기능 이미지와 동일한 위치에서 수집했습니다. 고해상도 SPGR 이미지 (TR = 3, TE = 25, 5mm 슬라이스 두께, 1.5 슬라이스).

이미지 분석

Brainvoyager QX (Brain Innovations, Maastricht, Netherlands) 소프트웨어 패키지를 사용하여 이미징 데이터의 랜덤 효과 분석을 수행했습니다. 분석 전에 원시 이미지에 대해 다음 전처리 절차가 수행되었습니다. 3D 모션 보정 : 강체 변환, 슬라이스 스캔 시간 보정 (싱크 보간법 사용)을 통해 모든 볼륨을 첫 번째 볼륨으로 공간 정렬하여 작은 헤드 움직임을 감지하고 수정합니다. 선형 추세 제거, 시간 경과 당 3 이하의 사이클의 비선형 드리프트를 제거하기위한 고역 통과 시간 필터링 및 4mm FWHM이있는 가우시안 커널을 사용하여 공간 데이터 스무딩. 이 분석에 포함 된 피험자의 예상 회전 및 병진 이동은 2mm를 초과하지 않았습니다.

기능적 데이터는 대응점의 정렬 및 육안 검사에 의해 최적의 적합을 얻기 위해 수동 조정에 의해 해부학 적 부피에 공동 등록 된 다음 탈라 이라크 공간으로 변환되었다. 탈라 이라크 변형 동안, 기능성 복셀은 1 mm의 해상도로 보간되었다3 정렬 목적을 위해, 그러나 통계적 임계치는 원래 획득 복셀 크기에 기초 하였다. 핵 축적 및 궤도 전두 피질은 1 차 예측 인자 (아래 참조)로서 보상을받는 전뇌 복부 모양 GLM에 의해 정의 된 후 Duvernoy 뇌 아틀라스와 관련하여 Talairach 좌표에 의해 국소화되었다 (Talairach & Tournoux, 1988 년; Duvernoy, 1991).

60 (5 실행 X 12 대상) z- 정규화 된 기능 실행으로 구성된 일반 선형 모델 (GLM)을 사용하여 뇌 전체에 대해 영상 데이터의 통계적 분석을 수행 하였다. 주요 예측 변수는 보상 결과에서 모든 보상 확률에 대한 보상 (보상 대 비 보상 시험)이었습니다. 혈역학 적 반응의 선형 모델과 함께 이상적인 박스 카 반응 (작업 표시량에 대한 값 1와 나머지 시점에 대한 0의 값을 가정)을 컨볼 루션하여 예측 변수를 얻었습니다.Boynton 등, 1996) 실험에서 각 시간 과정의 디자인 매트릭스를 작성하는 데 사용됩니다. 올바른 시도 만 포함되었으며 오류 시도에 대해 별도의 예측 변수가 작성되었습니다. 관심 영역에 대한 사후 대조 분석은 예측 변수의 베타 가중치에 대한 t- 검정을 기반으로 수행되었습니다. AFNI 내 AlphaSim 프로그램을 사용하여 Monte Carlo 시뮬레이션을 실행했습니다 (콕스, 1996) 각각 안와 전두엽 피질과 누위 핵에 대해 각각 약 0.05 mm25,400 및 3 mm450의 검색 볼륨을 기반으로 p <3의 수정 된 알파 수준을 달성하기위한 적절한 임계 값을 결정합니다. 조영 분석에서 얻은 유의하게 활성 인 복셀에 대한 이벤트 관련 평균을 사용하여 핵 accumbens 및 궤도 전두엽 피질의 기준선 (20 초 시험 직전 간격)에 대한 MR 신호의 백분율 변화를 계산했습니다.

전체 뇌 GLM은 전체 실험에서 총 50 시험에 대한 주제별 12 보상 시험 (n = 600)과 대상 당 30 비 보상 시험 (n = 12)을 기반으로 전체 실험에서 총 360 비 보상 시험에 기반했습니다. 보상 확률 조건에 대한 후속 대조는 보상 횟수가 다르고 보상 시도가없는 것으로 구성되었습니다. 100 % 보상 확률 조건의 경우, 총 6 보상 시험에 대해 비평가 시험이 아닌 주제 당 5 보상 시행 (12)이 주제 당 (360)있었습니다. 66 % 보상 확률 조건의 경우, 총 4 보상 시험 및 5 비 보상 시험에 대해 주제 당 실행 당 12 보상 시험 (240) (120)이있었습니다. 33 % 보상 확률 조건의 경우, 총 2 보상 시험 및 5 비 보상 시험에 대해 주제 당 실행 당 12 보상 시험 (120) (240)이있었습니다.

결과

행동 데이터

작업에 대한 보상 확률 및 시간의 효과는 평균 반응 시간 (RT)의 종속 변수에 대한 3 (33 %, 66 %, 100 %) x 5 (1–5 실행) 반복 측정 분산 분석 (ANOVA)으로 테스트되었습니다. ) 및 평균 정확도.

작업에 대한 보상 확률 (F [2,22] =. 12, p <.85) 시간 (F [4,44] = 2.02, p <.14) 또는 보상 확률 X 시간의 주 효과 또는 상호 작용이 없었습니다. 평균 정확도에 대한 작업 (F [8, 88] = 1.02, p <.41). 이는 참가자의 정확도가 실험의 모든 확률에 대해 상한 수준에 근접함에 따라 예상되었습니다 (33 % 조건 = 97.2 %; 66 % 조건 = 97.5 %; 100 % 조건 = 97.7 %).

평균 RT에 대한 보상 확률과 작업 시간 (F [8,88] = 3.5, p <.01) 사이에는 유의 한 상호 작용이 있었지만 작업 시간의 주 효과는 없었습니다 (F [4,44] = .611 , p <0.59) 또는 보상 확률 (F [2,22] = 2.84, p <0.08). 유의 한 상호 작용에 대한 사후 t 테스트는 실험의 후기 시도 (실행 33) 동안 100 % 및 5 % 보상 확률 조건간에 유의 한 차이가 있음을 보여주었습니다 (t (11) = 3.712, p <.003), 100 % 조건 (평균 = 498.30, sd = 206.23)에 비해 33 % 보상 확률 조건 (평균 = 583.74, sd = 270.23)에 대한 평균 RT가 더 빠릅니다.

100 %와 33 % 조건 사이의 평균 반응 시간 차이는 초기 시험에서 늦은 시험으로 두 배 증가했습니다 (참조) 그림 2a). 학습을 더 보여주기 위해 실험 종료시 33 % 및 100 % 조건에 대한 보상 확률을 전환하여 반전을 도입했습니다. 후기 시험에 대한 2 (확률) X 2 (반전 및 비 반전) 분산 분석은 RT에서 1,11 % 확률 조건으로 RT가 감소하면서 유의 한 상호 작용 (F (18.97) = 0.001, p = 33)을 나타 냈습니다. 반전에서 비 반전 (평균 = 583.74, sd = 270.24) 및 100 % (평균 = 519.89, sd = 180.46) (그림 2b).

그림 2  

행동 결과 (RT)

이미징 결과

1 차 예측 인자로서 보상 확률을 사용하는 올바른 시험을위한 GLM은 대상이 보상의 피드백을 받거나받지 않는 지점에서 모델링되었다 (즉, 결과). 이 분석은 NAcc의 영역 (x = 9, y = 6, z = -1 및 x = −9, y = 9, z = −1) 및 OFC (x = 28, y = 39, z = −)를 식별했습니다. 6) (참조 그림 3a, b). 보상 형 시험과 비보 상형 시험의 베타 가중치 사이의 사후 t- 테스트는 보상을 위해이 두 지역 모두에서 더 큰 활성화를 보여주었습니다 (NAcc : t (11) = 3.48, p <0.01; OFC x = 28, y = 39, z = −6, t (11) = 3.30, p <0.02)1.

그림 3  

a) 핵 축적 (x = 9, y = 6, z = −1; x = −9, y = 9, z = −1) 및 b) 궤도 전두 피질 (x = 28, y = 39, z = −6).

두 가지 간헐적 보상 일정 (33 % 및 66 % 확률)에 대해 두 가지 가능한 결과 (보상 또는 무 보상)가 있었고, 비교 조건으로 사용 된 연속 보상 일정 (100 % 보상 확률)에 대해 하나의 결과 만있었습니다. 위에서 설명한 OFC에서 보상의 주요 효과 (보상 대 보상 시도 없음)가있는 반면, OFC 활동은 현재 연구에서 보상 확률의 함수로 변하지 않았습니다 [F (2,10) = 0.84, p = 0.46). . 대조적으로, NAcc는 보상 확률 조작 [F (2,10) = 9.32, p <0.005]의 함수로서 결과에 대한 활동에서 뚜렷한 변화를 보였다. 특히, NAcc 활동은 예상 (33 % 기준 조건)에 비해 예상치 못한 (100 % 보상 확률 조건) 보상 결과로 증가했습니다 [t (11) = 2.54, p <.03 참조 그림 4a]. 둘째, 예상하지 않았거나받지 못한 보상 (66 % 보상 확률 조건; t (33) = 59, p <.2.08; 참조 그림 4b). 33 % 및 66 % 보상 확률 조건 [t (11) =. 510, p = .62] 또는 66 % 및 100 % 보상 확률 조건 [t (11) = 사이에는 활성화에 큰 차이가 없었습니다. 보상 결과에서 1.20, p = .26]. 보상 결과 및 확률의 함수로서 MR 신호는 그림 4.

그림 4  

MR 신호 백분율은 보상 결과 및 핵 축적의 확률에 따라 a) 보상 및 b) 보상되지 않은 결과로 변경됩니다.

토론

이 연구는 이전에 보상 결과를 예상하는 데 관여 한 것으로 보이는 accumbens 및 궤도 전두 피질 (OFC)의 행동 및 신경 활동에 대한 예상 보상 결과 위반의 영향을 조사했습니다 (McClure 외 2004; Knutson 등, 2005). 우리는 보상되지 않은 시험과 비교하여 보상 된 시험 중에 핵 축적과 OFC가 모두 모집되었다는 것을 보여 주었지만, 본 연구에서 예측 된 보상 결과에서 핵 축적은 위반에 민감성을 나타냈다. OFC에 상대적인 가치 (예 : 규모)에 대한 보상에 대한 축적의 민감도는 이전 연구에서 보여졌다 (Galvan et al 2005), 이러한 결과를 통해이 영역이 보상 규모와 확률의 계산에 관여 할 수 있음을 알 수 있습니다. 이러한 조작에 대한 OFC의 민감도 부족은 결과의 보상 또는 모호성을보다 절대적으로 표현할 수 있습니다 (Hsu 등, 2005). 대안 적으로,이 지역에서 MR 신호가 더 다양하기 때문에, 이러한 효과는 현재 연구에서 약화되었을 수 있습니다.

동물의 전기 생리 학적 연구에서, 중뇌 (핵핵에 투영되는)의 도파민 뉴런은 예측 된 보상 결과 (확률 = 1.0)에 거의 반응하지 않는 것으로 나타 났지만, 보상이 100 미만으로 전달 될 때 위상 발화를 보여줍니다 광범위한 훈련 후에도 확률 % (Fiorillo 등, 2003). 현재의 연구에서, 우리는 보상이 예상치 (33 % 조건)와 일치했을 때 (100 % 조건) 이러한 결과와 일치했을 때 보상하기 위해 더 많은 누적 활동을 보여 주었다. 또한, 동물에서 도파민 뉴런의 전기 생리 학적 연구 (예 : Fiorillo 등, 2003)는 보상이 예측되었지만 발생하지 않은 시험에서는 뉴런 활동이 감소한 것으로 나타났습니다. 현재의 연구는 66 % 조건과 비교하여 33 % 보상 확률 조건에 대한 보상되지 않은 시험에서이 영역에서의 활동이 감소한 것과 같이 아큐 벤에서 유사한 패턴을 보여주었습니다.2

도파민 뉴런은 두 가지 방식으로 학습에 연루되어있다. 먼저, 그들은 예상 (위반)의 위반을 감지하는 예측 오류 신호를 통해 자극 (또는 응답)과 결과 사이의 우연성을 인코딩합니다 (슐츠 등, 1997; Mirencowicz 및 Schultz, 1998; Fiorillo 등, 2003). 따라서, 예측 오차는 처음에 기술 된 학습 원리에 대응하는 교시 신호를 제공하는 것으로 보인다 레스 콜라와 바그너 (1972). 둘째, 그들은 행동 반응을 변경하는 역할을합니다 (슐츠 등, 1997; McClure 등, 2004) 행동이 가장 예측 가능한 단서쪽으로 편향되도록합니다. 현재의 연구에서, 우리는 실험의 후기 시험에 의해 가장 최적의 성능이 가장 높은 보상 확률 (100 % 보상 확률)을 갖는 조건에서 가장 낮고 가장 낮은 확률 조건 (33 % 보상 확률)으로 가장 최적의 성능을 보여줍니다. 이 행동 결과는 보상 결과의 확률이 가장 낮은 최적의 성능을 보여주는 이전 확률 연구와 일치하여 보상 우발성이 시간이 지남에 따라 배웠다는 것을 암시합니다 (Delgado 등, 2005). 학습을 더 보여주기 위해 실험 종료시 33 % 및 100 % 조건에 대한 보상 확률을 전환하여 반전을 도입했습니다. 이러한 조작은 이러한 조건들 사이의 차이를 약화시켜 학습 효과를 더욱 확증시켰다.

보상 관련 연구의 주요 목표는 보상이 어떻게 영향을 미치고 행동에 치우치는지를 결정하는 것입니다 (예 : 로빈스와 에버릿, 1996; 슐츠, 2004) 기본 신경 처리를 특징 짓는 것 외에도. 강화 일정을 포함하여 행동에 영향을 미치는 빠르고 강력한 보상에 많은 요소가 기여합니다.스키너, 1958), 보상 가치 (Galvan 등, 2005) 및 보상 예측 성 (Fiorillo 등, 2003; Delgado 등, 2005). 보상의 규모와 확률의 곱인 기대 값 (Pascal, ca 1600)은 행동 선택에 영향을 미칩니다 (폰 프리쉬, 1967; Montague 등, 1995; 몬 태규 (Montague)와 번스 (Berns), 2002). 결과 (확률 대신 크기) 만 현재 연구와 다른 매우 유사한 작업을 사용하여 핵 축적은 이산 보상 값에 민감하다는 것을 보여주었습니다.Galvan 등, 2005). 여기와 다른 곳에서 제시된 증거와 함께 (Tobler et al., 2005), 복부 선조가 보상 확률과 크기에 대한 민감도를 고려하여 예상 보상 값의 계산에 기여할 가능성이 있다고 제안합니다.

보상 예측에서 궤도 전두 피질의 역할은이 영역의 기능적 세분과 일치합니다. 크 링겔 바흐 앤 롤 (2004). 그들은 OFC의 더 많은 앞 부분과 중간 부분이 추상 보상 조작에 민감하다고 제안합니다. 이 연구에서 OFC 활성화는이 일반적인 위치에서 관찰되었다. 전기 생리 학적 연구는 OFC가 보상 자극의 주관적 가치를 코딩하는데 연루되어 있음 오 도허티, 2004). 예를 들어, OFC 뉴런은 동물이 배가 고프면 특정 맛으로 발사되지만, 동물이 만족하고 음식의 보상 가치가 떨어지면 발사 속도를 줄입니다 (크리 탈리 앤 롤스, 1996). 따라서 다른 사람들은 OFC가 상대 보상에 가장 민감하다고 제안했습니다.Tremblay와 Schultz, 1999) 및 보상 선호도 (슐츠 등, 2000). Neuroimaging 연구는 맛을 포함하여 다양한 자극을 가진 인간의 유사한 패턴을 보여주었습니다.오 도허티 등, 2001; 크 링겔 바흐 (Kringelbach) 등, 2003), 후각 (앤더슨 등, 2003; 롤스 외, 2003) 및 돈 (엘리엇 외, 2003; Galvan 등, 2005), 각 활성화는 전방에서 후방으로 그리고 중간에서 측면으로 OFC의 활동 위치가 다양하다. OFC는 보상에 대한 기대와 관련이 있습니다 (O'Doherty 외 2002)이지만 반응의 예측 값이 특정 값과 연결되어있는 경우에만 가치 해당 보상이 발생할 확률이 아니라 관련 보상의오 도허티, 2004 ). 현재의 연구에서는 OFC의 보상 예측 위반에 대한 민감도를 보지 못했습니다. Knutson 및 동료 (2005) 근심 전전두엽 피질에서의 보상을 예상하여 확률 추정치와 뇌 활성화 사이의 상관 관계를보고 함Knutson et al 2005)이지만 궤도 전두엽 피질에서는 구체적으로 나타나지 않습니다. 대조적으로 Ramnani 등 (2004 ) 수동적 인 관찰 작업을 사용하여 내측 궤도 전두 피질에서 긍정적 예측 오류에 대한 OFC 민감도를보고 Dreher et al. (2005) 예측 단서의 확률과 크기를 모두 조작하는 작업에서 OFC 오류 예측을보고했지만 이러한 우발성을 스캔하기 전에 배웠습니다. 따라서 OFC가 예측 된 보상을 계산할 수는 있지만 여전히 이러한 계산은 NAcc에서 발생하는 것으로 보이는 정확한 계산에 비해 더 조잡하거나 (즉, 확률 범위에 대해 합산) 느리게 형성 될 수 있습니다. 대안 적으로,이 영역은 다음에 의해 제안 된 바와 같이 불확실하고 /하거나 모호한 값의 자극을 검출하는데 더 민감 할 수있다. Hsu et al (2005)보상 예측에서 위반을 감지 할 때보 다 Hsu et al (2005) 선택의 모호성 수준 (정보 누락으로 인한 불확실한 선택)은 OFC의 활성화와 긍정적 인 상관 관계가 있음을 보여줍니다. 마지막으로,이 지역에서 MR 신호의 변동성이 클수록 이러한 영향을 감지하는 능력이 저하 될 수 있습니다.

현재 연구의 근본적인 문제는 accumbens와 OFC가 어떻게 예측하지 않은 결과 (예상 한 기대치)와 비교하여 보상 결과를 차등 적으로 예측했는지에 관한 것이었다. 보상 확률을 파라 메트릭 방식으로 조작하고 각 확률 보상 조건에 대한 보상 및 비 보상 시험에 대한 신경 반응을 조사했습니다. 우리의 데이터는 이전의 인간 이미징 및 비인간 전기 생리 학적 연구와 일치합니다 (Fiorillo 등, 2003; 슐츠, 2002) 및 accumbens 및 OFC는 보상 결과 (보상 여부)에 민감 함을 제안합니다. 그러나 이러한 영역, 특히 어 큐벤 (accumben)에서의 활동은 시간이 지남에 따라 학습으로 형성되는 보상 결과의 가능성에 대한 예측에 의해 조정되는 것으로 보입니다. 이 동적 인 활성화 패턴은 예측 된 보상에 대한 정보가 학습되고 업데이트 될 때 이들 영역 내에서 또는 이들 영역으로 투영되는 도파민 활성의 변형을 나타낼 수있다.

각주

1NAcc [t (11) = 3.2, p <0.04] 및 OFC [t (11) = 3.5, p <0.02]는 지속적인 보상 조건이 아닌 간헐적 보상에 대한 예상 활동이 증가한 것으로 나타났습니다.

233 % 조건에서 보상 결과를 생략하면 NAcc 활동이 감소한 것이 아니라 약간 증가한 것으로 나타났습니다. Knutson et al., 2001. 이 결과에 대한 한 가지 가능한 해석은 피험자들이 그 재판에 대한 보상이 없을 것이라고 예상했을 때 피험자들이 본질적으로 동기를 부여 받았거나 보상을 받았다는 것입니다. 대안 적으로, 이러한 시험에 대한 보상 결과는 실험에서 가장 적은 수 였으므로, 활동은이 상태에 대한 지속적인 학습을 반영 할 수 있습니다.

발행인의 면책 조항 : 이 파일은 편집을 위해 편집되지 않은 원고의 PDF 파일입니다. 우리 고객들을위한 서비스로서이 초기 버전의 원고를 제공하고 있습니다. 사본은 최종 인용 가능 형식으로 출판되기 전에 결과 교정본의 사본 편집, 조판 및 검토를 거치게됩니다. 생산 과정 중에 내용에 영향을 미칠 수있는 오류가 발견 될 수 있으며 해당 저널에 적용되는 모든 법적 고지 사항이 포함됩니다.

참고자료

  • Anderson A, Christoff K, Stappen I, Panitz D, Ghahremani D, Glover G, Gabrieli JD, Sobel N. 인간의 후각에서 강도와 원자가의 분리 된 신경 표현. 자연 신경 과학. 2003;6: 196-202.
  • Berns GS, McClure SM, Pagnoni G, Montague PR. 예측 능력은 보상에 대한 인간의 두뇌 반응을 조절합니다. Journal of Neuroscience. 2001;21: 2793-2798. [PubMed]
  • Boynton GM, Engel SA, Glover GH, Heeger DJ. 인간 V1에서 기능적 자기 공명 영상의 선형 시스템 분석. Journal of Neuroscience. 1996;16: 4207-4221. [PubMed]
  • 콕스 RW. AFNI : 기능적 자기 공명 신경 이미지의 분석 및 시각화를위한 소프트웨어. 의 생명 연구에서의 계산. 1996;29: 162-173.
  • Cox SM, Andrade A, Johnsrude IS. 좋아하는 학습 : 조절 된 보상에서 인간 안와 전두엽 피질의 역할. Journal of Neuroscience. 2005;25: 2733-2740. [PubMed]
  • Craig AD, Chen K, Bandy D, Reiman EM. 절연 피질의 열 감각 활성화. 자연 신경 과학. 2000;3: 184-190.
  • 크리 틀리 HD, 롤 동부 표준시. 기아와 포만은 영장류 안와 전두엽 피질에서 후각 및 시각 뉴런의 반응을 수정합니다. 신경 생리학 저널. 1996;75: 1673-1686. [PubMed]
  • De Araujo IET, Kringelbach ML, Rolls ET, McGlone F. 입안의 물에 대한 인간 피질 반응과 갈증의 영향. 신경 생리학 저널. 2003;90: 1865-1876. [PubMed]
  • Delgado MR, Miller M, Inati S, 펠프스 EA. 보상 관련 확률 학습에 대한 fMRI 연구. Neuroimage. 2005;24: 862-873. [PubMed]
  • Dreher JC, Kohn P, Berman KF. 인간의 보상 정보에 대한 뚜렷한 통계적 속성의 신경 코딩. 대뇌 피질. 2005 인쇄에 앞서 Epub.
  • Elliott R, Newman JL, Longe OA, Deakin JFW. 인간의 재정적 보상에 대한 선조체와 궤도 정면 피질의 차등 반응 패턴 : 파라 메트릭 기능적 자기 공명 영상 연구. Journal of Neuroscience. 2003;23: 303-307. [PubMed]
  • Fiorillo CD, Tobler PN, Schultz W. 도파민 뉴런에 의한 보상 확률 및 불확실성의 이산 코딩. 과학. 2003;299: 1898-1902. [PubMed]
  • Galvan A, Hare TA, Davidson M, Spicer J, Glover G, Casey BJ. 인간의 보상 기반 학습에서 복부 전 측두엽 회로의 역할. 신경 과학 저널. 2005;25: 8650-8656. [PubMed]
  • Galvan A, Hare TA, Parra C, Penn J, Voss H, Glover G, Casey BJ. 안와 전두엽 피질에 대한 어 큐벤의 초기 발달은 청소년의 위험 감수 행동의 기초가 될 수 있습니다. 신경 과학 저널. 2006;26: 6885-6892. [PubMed]
  • Gottfried JA, O'Doherty J, Dolan RJ. 인간 편도선 및 안와 전두엽 피질에서 예측 보상 값을 인코딩합니다. 과학. 2003;301: 1104-1107. [PubMed]
  • 하버 SN. 영장류 기저핵 : 병렬 및 통합 네트워크. 화학 신경 해부학의 전표. 2003;26: 317-330. [PubMed]
  • Hollerman J, Schultz W. Dopamine 뉴런은 학습 중 보상의 시간적 예측에 오류가 있다고보고합니다. 자연 신경 과학. 1998;1: 304-309.
  • Hsu M, Bhatt M, Adolphs R, Tranel D, Camerer CF. 인간의 의사 결정에서 불확실성의 정도에 반응하는 신경 시스템. 과학. 2005;310: 1680-1683. [PubMed]
  • Knutson B, Adams CM, Fong GW, Hommer D. 증가하는 금전적 보상에 대한 기대감은 교대 핵을 선택적으로 모집합니다. Journal of Neuroscience. 2001;21: 1-5.
  • Knutson B, Taylor J, Kaufman M, Peterson R, Glover G. 예상 값의 신경 표현. 신경 과학 저널. 2005;25: 4806-4812. [PubMed]
  • Kringelbach ML, O'Doherty J, Rolls ET, Andrews C. 액체 음식 자극에 대한 인간 안와 전두엽 피질의 활성화는 주관적인 즐거움과 관련이 있습니다. 대뇌 피질. 2003;13: 1064-1071. [PubMed]
  • 크 링겔 바흐 ML, 롤 ET. 인간 orbitofrontal 피질의 기능적 neuroanatomy : neuroimaging 및 neuropsychology에서 증거. 신경 생물학의 진보. 2004;72: 341-372. [PubMed]
  • Leon MI, Shadlen MN. 원숭이의 배측 전두엽 피질에서 뉴런의 반응에 대한 예상 보상 크기의 영향. 신경. 1999;24: 415-425. [PubMed]
  • McClure SM, Berns GS, Montague PR. 수동 학습 과제의 시간 예측 오류는 인간 선조를 활성화시킵니다. 신경. 2003;38: 339-346. [PubMed]
  • McClure SM, Laibson DI, Loewenstein G, Cohen JD. 별도의 신경계는 즉각적이고 지연된 금전적 보상을 소중하게 여깁니다. 과학. 2004;306: 503-507. [PubMed]
  • 영장류의 도파민 뉴런에서 보상 반응에 대한 예측 불가능 성의 중요성 Mirenowicz J, Schultz W. 신경 생리학 저널. 1994;72: 1024-1027. [PubMed]
  • Montague PR, Berns GS. 신경 경제학과 생물학적 평가의 기질. 신경. 2002;36: 265-284. [PubMed]
  • Montague PR, Hyman SE, Cohen JD. 행동 제어에서 도파민에 대한 계산 역할. 자연. 2004;431: 379-387.
  • O'Doherty JP. 인간 두뇌의 보상 표현 및 보상 관련 학습 : 신경 영상에서 얻은 통찰력. 신경 생물학의 현재 견해. 2004;14: 769-776. [PubMed]
  • O'Doherty JP, Dayan P, Friston K, Critchley H, Dolan RJ. 인간 두뇌의 시간적 차이 모델 및 보상 관련 학습. 신경. 2003;38: 329-337. [PubMed]
  • O'Doherty JP, Deichmann R, Critchley HD, Dolan RJ. XNUMX 차 미각 보상을 예상하는 동안 신경 반응. 신경. 2002;33: 815-826. [PubMed]
  • O'Doherty J, Kringelbach M, Rolls ET, Hornak J, Andrews C. 인간 안와 전두엽 피질의 추상 보상 및 처벌 표현. 자연 신경 과학. 2001;4: 95-102.
  • O'Doherty J, Rolls ET, Francis S, Bowtell R, McGlone F, Kobal G, Renner B, Ahne G. 인간 안와 전두엽 피질의 감각 특정 포만감 관련 후각 활성화. Neuroreport. 2000;11: 893-897. [PubMed]
  • Olds J, Milner P. 중격 및 기타 쥐 뇌 부위의 전기 자극으로 생성 된 양성 보강. 비교 생리학 및 심리학 저널. 1954;47: 419-427.
  • Ramnani N, Elliott R, Athwal B, Passingham R. 인간 전전두엽 피질에서의 무료 금전적 보상에 대한 예측 오류. NeuroImage. 2004;23: 777-786. [PubMed]
  • Rescorla R, Wagner A. 안으로 : 클래식 컨디셔닝 2 : 현재 연구 및 이론. Black A, Prokasy W, 편집자 애플 턴 세기-크로프트; 뉴욕 : 1972. pp. 64–69.
  • Robbins TW, Everitt BJ. 보상과 동기의 신경 행동 적 메커니즘. 신경 생물학의 현재 의견. 1996;6: 228-235.
  • Rolls E, Kringelbach M, DeAraujo I. 인간 두뇌의 쾌적하고 불쾌한 냄새의 다른 표현. European Journal of Neuroscience. 2003;18: 695-703. [PubMed]
  • Schultz W, Dayan P, Montague PR. 예측과 보상의 신경 기질. 과학. 1997;275: 1593-1599. [PubMed]
  • Schultz W, Tremblay L, Hollerman JR. 영장류 orbitofrontal 대뇌 피질과 기초 신경절에서 보상을 처리합니다. 대뇌 피질. 2000;10: 272-284. [PubMed]
  • Schultz W. 도파민과 보상에 대해 공식적으로 알아보십시오. 신경. 2002;36: 241-263. [PubMed]
  • Schultz W. 동물 학습 이론, 게임 이론, 미시 경제학 및 행동 생태학의 기본 보상 용어에 대한 신경 코딩. 신경 생물학의 현재 견해. 2004;14: 139-147. [PubMed]
  • 스키너 BF. 강화 일정 다이어그램. 행동 실험 분석 저널. 1958;1: 103-107.
  • Sutton RS, Barto AG. 강화 학습 : 소개. MIT Press; 케임브리지, MA : 1998.
  • Schultz W, Tremblay L, Hollerman J. 영장류 궤도 전두엽 피질과 기저핵에서 보상 처리. 대뇌 피질. 2000;10: 272-284. [PubMed]
  • 탈라 이라크 J, 투 르노 P. 인간 두뇌의 동일 평면 상 스테레오 아틀라스. 티메; 뉴욕 : 1988.
  • Tobler PN, Fiorillo CD, Schultz W. 도파민 뉴런에 의한 보상 가치의 적응 코딩. 과학. 2005;307: 1642-1645. [PubMed]
  • Tremblay L, Schultz W. 영장류 orbitofrontal 대뇌 피질의 상대적 보상 특혜. 자연. 1999;398: 704-708. [PubMed]
  • 폰 프리쉬 케이 꿀벌의 춤 언어와 오리엔테이션. 하버드 대학교 출판사; 매사추세츠 케임브리지 : 1967.