기사를 읽어드립니다Your browser does not support theaudio element.0:00게티이미지뱅크 광고쥐에게 치즈를 주면 미로에서 길을 찾도록 유도할 수 있다. 그럼 더 빨리 찾게 하려면 어떻게 해야 할까? 그간 과학자들은 같은 경험을 여러 차례 반복하는 것, 곧 ‘보상의 횟수’가 학습 효율을 높인다고 여겨왔다. 반면 치즈의 크기, 곧 ‘보상의 크기’에는 상대적으로 큰 주의를 기울이지 않았다. 포커 실력을 높이고 싶으면 포커 대회에 계속 출전해 경험을 쌓는 것이 중요하지, 각 대회의 상금이 100달러인지 1억달러인지는 그리 중요하지 않다고 본 것이다. 그런데 뜻밖에도 그간 주목하지 않았던 ‘보상의 크기’가 학습 효율을 높이는 핵심 열쇠라는 연구 결과가 새로 나왔다. 미국 하워드휴즈의학연구소(HHMI) 제넬리아 연구 캠퍼스의 조슈아 더드먼 연구진은 최근 국제저널 ‘사이언스’에 “보상의 크기가 강화 학습의 효율성을 결정한다”는 제목의 논문을 발표하고, 쥐 대상 실험 결과 “성공에 대한 보상이 클수록 학습 속도가 빨라진다는 사실을 발견했다”고 밝혔다. 뇌과학, 행동심리학 등 여러 연구 분야에서 동물에게 보상을 주고 특정 행동을 강화하는 학습(Reinforcement Learning)을 실험하는데, 보통은 학습 횟수를 최대화하기 위해 개별 보상의 크기는 최소화한다. 이에 의문을 품은 연구진은 일반적인 수준보다 보상의 크기를 획기적으로 늘린 뒤 학습 효율에 어떤 변화가 있는지 살폈다.광고보상의 크기를 늘렸더니 실험 쥐들의 학습 효율이 전반적으로 높아졌다. 오른쪽 아래의 그래프는 보상의 크기(파란 선)와 도파민의 지속(빨간 선)이 행동을 강화했음을 보여준다. 논문 갈무리 연구진은 갈증이 있는 쥐들에게 조이스틱 당기기 등 특정 행동을 하면 물을 보상으로 주되, 작은 보상(5μl)을 여러 번 나눠 주는 그룹과 매우 큰 보상(100μl)을 적게 주는 그룹을 나누고 이들의 행동과 뇌측핵의 ‘도파민’(DA) 활동을 관찰했다. 도파민은 기대했던 보상과 실제로 받은 보상 사이의 차이를 신호로 변환해 학습을 이끄는 신경전달물질이다. 그 결과, 큰 보상을 받은 그룹은 그렇지 않은 그룹보다 10배 더 적은 시행 횟수로도 학습을 완료하는 등 크게 향상된 효율을 보였다. 학습 효율은 개별 보상의 크기가 작은 보상(50μl)의 10배 이상일 때 최대에 달했다. 작은 보상을 쓸 땐 수백 또는 수천 번의 반복이 필요한 과제를, 큰 보상을 쓸 땐 단 몇 번으로도 학습하는 모습도 관찰됐다. 또 큰 보상은 쥐가 이를 섭취하는 동안 도파민 신경세포의 활동을 더 오래가게 만드는 것으로도 나타났다. 그동안 도파민 신호는 그 크기가 클수록 행동을 강화하는 효과가 크다고 알려졌는데, 지속시간 역시 중요한 요소로 제기된 것이다. 연구진은 “더 큰 보상은 더 오래 지속하는 도파민 신호를 생성하며, 바로 이 지속적인 신호가 학습 속도를 높이는 원동력으로 보인다”고 밝혔다. 작은 보상과 관련된 도파민 신호의 지속시간을 인위적으로 연장했을 때에도 학습 속도가 빨라지는 것으로도 나타났다.광고광고미국 하워드휴즈의학연구소 제넬리아 연구 캠퍼스의 선임 그룹 리더 조슈아 더드먼(왼쪽)과 수석연구원 루크 코딩턴. 사진 토비 헤이먼, 하워드휴즈의학연구소 제공 실험에 참여한 쥐들 모두 해당 과제에 대한 경험이 없었는데도, 모든 쥐의 학습 속도 차이가 여느 때에 견줘 크게 줄어든 것 역시 주목할 만한 대목이다. 작은 보상을 줄 때는 같은 과제를 수행하더라도 어떤 쥐는 일주일, 다른 쥐는 한 달 걸리는 등 개체별 학습 효율의 차이가 컸다. 그러나 보상의 크기를 대폭 늘리니 모든 쥐가 며칠 만에 과제를 학습한 것이다. 이번 연구를 주도한 루크 코딩턴 수석연구원은 이를 “도파민 반응을 훨씬 더 크게 만들었더니 ‘교실’에 있는 모든 ‘아이들’이 적극적인 학생으로 변한 것”에 비유했다. 이번 연구 결과는 앞으로 뇌과학, 신경과학 분야 실험들에 큰 영향을 줄 것으로 보인다. 보상의 크기를 획기적으로 키우면, 이전에 생각했던 것보다 훨씬 더 복잡한 작업을 수행하도록 쥐 등을 훈련할 수 있게 된다는 것이다. 코딩턴은 “우리가 쥐를 통해 연구할 수 있을 거라 생각하지 못했던 인지 능력의 새로운 측면들을 연구하게 될 수 있다. 만약 쥐들이 적절한 과제에 참여하도록 유도할 수 있다면, 그들이 무엇을 학습할 수 있을지는 아무도 모른다”고 말했다.광고 *논문 정보 Reward magnitude determines reinforcement learning efficiency DOI: 10.1126/science.aeb0813 최원형 기자 circle@hani.co.kr