banner

블로그

Jan 12, 2024

도박과 양자물리학의 만남

By Intelligent Computing2023년 8월 23일

과학자들은 의사 결정을 향상시키기 위해 광자의 양자 간섭을 사용하여 정적 다중 무장 산적 문제에서 동적 환경으로 발전하는 광자 강화 학습 체계를 도입했습니다. 그들은 탐색과 활용의 균형을 맞추면서 모든 상태-동작 쌍에 대한 최적의 Q 값을 정확하게 학습하는 것을 목표로 5×5 그리드 세계에서 테스트된 수정된 산적 Q 학습 알고리즘을 개발했습니다.

도박꾼은 일련의 슬롯 머신에서 어떻게 승리를 극대화합니까? 이 질문은 "에이전트"가 보상을 얻기 위해 선택하는 강화 학습의 일반적인 작업인 "다중 무장 산적 문제"에 영감을 주었습니다. 최근 도쿄 대학의 Hiroaki Shinkawa가 이끄는 국제 연구팀은 정적 산적 문제에서 보다 복잡한 동적 설정으로 전환하는 고급 광자 강화 학습 방법을 도입했습니다. 그들의 연구 결과는 최근 지능형 컴퓨팅(Intelligent Computing) 저널에 게재되었습니다.

이 계획의 성공은 학습 품질을 향상시키는 광자 시스템과 지원 알고리즘 모두에 달려 있습니다. 저자는 "잠재적인 광자 구현"을 살펴보며 수정된 산적 Q-학습 알고리즘을 개발하고 수치 시뮬레이션을 통해 그 효율성을 검증했습니다. 또한 여러 에이전트가 동시에 작동하는 병렬 아키텍처로 알고리즘을 테스트한 결과, 병렬 학습 프로세스를 가속화하는 열쇠는 광자의 양자 간섭을 활용하여 충돌하는 결정을 피하는 것임을 발견했습니다.

광자의 양자 간섭을 사용하는 것은 이 분야에서 새로운 것은 아니지만, 저자는 이 연구가 "광자 협력적 의사결정 개념을 Q-러닝과 연결하고 이를 동적 환경에 적용한 최초의 연구"라고 믿습니다. 강화 학습 문제는 일반적으로 에이전트의 행동에 따라 변경되는 동적 환경에서 설정되므로 적기 문제의 정적 환경보다 더 복잡합니다.

에이전트는 검은색 화살표로 표시된 4가지 액션 중 하나를 선택하여 보상을 받고 다음 셀로 이동합니다. 에이전트가 두 개의 특수 셀 A 또는 B 중 하나에 도착하면 보상이 크고 에이전트는 빨간색 화살표로 표시된 것처럼 다른 셀로 이동합니다. 출처: Hiroaki Shinkawa et al.

이 연구는 다양한 보상을 보유하는 셀 모음인 그리드 세계를 대상으로 합니다. 각 에이전트는 위, 아래, 왼쪽, 오른쪽으로 이동할 수 있으며 현재 이동 및 위치에 따라 보상을 받을 수 있습니다. 이 환경에서 에이전트의 다음 이동은 전적으로 현재 이동과 위치에 따라 결정됩니다.

본 연구의 시뮬레이션에서는 5×5 셀 그리드를 사용합니다. 각 셀을 "상태"라고 하고, 각 시간 단계에서 에이전트가 수행하는 모든 움직임을 "작업"이라고 하며, 에이전트가 각 상태에서 특정 작업을 선택하는 방법을 결정하는 규칙을 "정책"이라고 합니다. 의사결정 프로세스는 각 상태-행동 쌍을 슬롯머신으로 간주하고 상태-행동 쌍의 값인 Q 값의 변화를 보상으로 간주하는 산적 문제 시나리오로 설계되었습니다.

일반적으로 보상을 극대화하기 위한 최적의 경로를 찾는 데 중점을 두는 기본 Q-학습 알고리즘과 달리 수정된 산적 Q-학습 알고리즘은 전체 환경의 모든 상태-행동 쌍에 대한 최적의 Q 값을 효율적이고 정확하게 학습하는 것을 목표로 합니다. 따라서 에이전트는 더 빠른 학습을 위해 높은 값을 가진 친숙한 쌍을 "이용"하는 것과 잠재적으로 더 높은 값을 위해 자주 사용되지 않는 쌍을 "탐색"하는 것 사이에서 적절한 균형을 유지하는 것이 중요합니다. 이러한 밸런싱에 뛰어난 인기 모델인 소프트맥스 알고리즘을 정책으로 사용합니다.

저자의 미래 우선 순위는 최소 3명의 에이전트 사이에서 충돌 없는 의사 결정을 지원하는 포토닉 시스템을 설계하는 것입니다. 제안된 체계에 이 시스템을 추가하면 에이전트가 충돌하는 결정을 내리는 것을 방지하는 데 도움이 될 것입니다. 한편, 에이전트가 지속적으로 행동할 수 있는 알고리즘을 개발하고, 밴딧 Q-러닝 알고리즘을 보다 복잡한 강화학습 작업에 적용할 계획이다.

공유하다