정리정돈을 위한 Q-learning 기반의 작업계획기
CopyrightⓒKROS
Abstract
As the use of robots in service area increases, research has been conducted to replace human tasks in daily life with robots. Among them, this study focuses on the tidy-up task on a desk using a robot arm. The order in which tidy-up motions are carried out has a great impact on the success rate of the task. Therefore, in this study, a neural network-based method for determining the priority of the tidy-up motions from the input image is proposed. Reinforcement learning, which shows good performance in the sequential decision-making process, is used to train such a task planner. The training process is conducted in a virtual tidy-up environment that is configured the same as the actual tidy-up environment. To transfer the learning results in the virtual environment to the actual environment, the input image is preprocessed into a segmented image. In addition, the use of a neural network that excludes unnecessary tidy-up motions from the priority during the tidy-up operation increases the success rate of the task planner. Experiments were conducted in the real world to verify the proposed task planning method.
Keywords:
Reinforcement Learning, Q-learning, Deep Learning, Object Detection, Robot Learning1. 서 론
최근 인공지능을 적용한 로봇을 서비스 분야에 활용하려는 시도가 활발히 수행되고 있다. 이에 따라 기존에는 사람이 수행하던 일상적인 작업을 로봇을 통해 수행하기 위한 연구도 많이 진행되고 있다. 그중에서 본 연구는 로봇 팔을 사용하여 책상 위의 어질러진 물건을 정리하는 작업을 위한 작업계획기의 학습을 목표로 한다. 정리작업은 유동적인 환경에서 강인하게 적절한 작업순서를 추론해야 하므로, 본 연구에서는 순차적인 의사결정을 내릴 수 있는 강화학습을 기반으로 정리정돈을 위한 작업계획기를 학습한다.
로봇을 사용한 정리작업 혹은 작업계획기에 관련된 연구에는 실제 정리환경을 모방한 가상의 정리환경에서 로봇으로 먼저 작업을 수행하여 행동의 수행 가능 여부를 확인하고, 이를 바탕으로 실제환경에서 로봇으로 행동을 수행하는 방식이 있다[1]. 그러나 이러한 방법은 작업 대상 물체의 배치 자세에 따라 유동적인 환경에 대해 매번 행동의 수행 가능 여부를 판단해야 한다는 단점이 존재한다. planning domain definition language (PDDL)[2]이란 행동 계획 언어를 사용하여 특정 작업에 대해 로봇이 어떤 초기 자세에서 어떤 행동을 통해서 어떤 물체에 어떤 목표 형상이 되게 할 것인지에 대한 구체적인 작업 시나리오 작성을 통해 수행하는 연구도 존재한다[3]. 이런 방법은 작업환경의 유동성을 고려한다면, 작업계획 알고리즘의 구조가 한없이 길어질 수 있다는 단점이 존재한다. 또한 시각정보를 바탕으로 Monte-Carlo tree search (MCTS)[4]를 활용하여 작업계획을 출력하는 연구도 존재한다[5]. 그러나 해당 연구는 시각정보 자체를 물체의 자세정보로 변환하는 추가적인 과정이 필요하며, 비교적 작은 크기의 물체에 대한 파지 및 이동에 한정된다.
본 연구에서는 매 순간 어떤 행동이 가능하고 어떤 행동이 불가능한지를 판단해야 하거나, 유동적인 환경에서 발생 가능한 모든 경우에 사람의 사전지식을 활용하는 기존 연구와는 차별되도록, 오직 시행착오의 반복을 통해 스스로 작업계획을 구성할 수 있도록 강화학습을 사용해 정리정돈을 위한 작업계획기를 구성한다. 이러한 정리정돈 작업은 단순히 대상 물체의 파지 및 이동에 한정한 작업이 아닌, 물체와의 상호작용을 포함한 상황을 목표로 한다. 이를 위해 실제 정리환경과 동일하게 구성된 가상의 정리환경에서 작업계획 신경망을 학습하였다. 이때 영상정보를 사용하여 학습을 진행하였으며, 학습을 위한 가상의 영상과 검증을 위한 실제 영상 사이의 괴리를 좁히기 위해 분할영상을 사용하였다. 또한, 정리작업 도중 특정 물체가 이미 정리가 완료된 상태이거나 정리행동을 수행할 대상 물체가 없는 경우에 해당하는 행동을 추론 우선순위에서 제거함으로써 작업계획 신경망의 안정성을 향상시켰다.
본 연구의 독창성은 다음과 같다. 1) 물체들이 어질러진 다양한 상황에 유동적으로 대처할 수 있는 작업계획기를 가상환경에서의 학습만으로 구현하였다. 2) 가상환경의 학습 결과를 실제환경으로 추가 학습 없이 전이하기 위해 분할영상을 학습 정보로 사용하였다. 3) 전이 성공률을 높이기 위해 정리작업 중 불필요한 행동을 추정하는 신경망을 제안하였다.
본 논문의 2장에서는 본 연구에서 정리정돈 작업을 수행할 환경을 정의한다. 3장에서는 제안한 작업계획기를 설명하며, 4장에서는 가상환경에서 학습한 작업계획기의 학습 결과와 로봇을 사용한 실제환경의 실험 결과를 서술한다. 마지막으로 5장에서는 결론을 도출한다.
2. 책상 정리 환경
본 장에서는 어질러진 책상의 정리정돈을 위한 환경과 목표 작업에 관해 설명한다. 먼저 실제환경 구성을 설명하고, 작업계획기의 학습을 위한 가상환경과 그 필요성을 설명한다.
2.1 실제환경 구성
본 연구의 정리작업을 위한 환경은 [Fig. 1]과 같이 구성된다. 그림에서 보는 바와 같이, 총 5개의 물품이 책상 위의 정리환경에 임의의 자세로 존재할 수 있으며, 로봇 말단의 카메라를 통한 RGB 영상정보만을 사용하여 이들 물품이 어질러진 책상 위의 상태를 목표 정돈 상태가 되도록 로봇 팔을 통해 정리작업을 수행한다. 작업의 수행을 위한 로봇으로는 Franka Emika의 Panda를 사용하였고, 말단의 그리퍼는 Robotiq의 2F-85를 사용하였으며, 말단에 부착된 카메라는 Microsoft의 Azure Kinect DK를 사용하였다.
본 연구에서 정리라 함은 로봇 팔을 통해 [Fig. 1]에서 보인 환경의 물품마다 정해진 단위동작을 수행하는 것을 의미한다. 예를 들어, [Fig. 2]의 경우와 같이 “서랍을 연다”와 “서랍에 핸드크림을 넣는다” 같은 두 가지 단위동작이 있을 수 있고, 이 두 단위동작을 조합하여 “서랍을 열고, 서랍에 핸드크림을 넣는다”와 같은 정리작업을 수행할 수 있다. 그러나 이 두 단위동작을 잘못 조합할 경우에는 “서랍에 핸드크림을 넣고, 서랍을 연다”와 같은 정리작업을 수행해야 한다. 이는 불가능한 행동이므로 단위동작을 어떤 순서로 계획해야 하는지가 정리작업의 수행에 매우 중요함을 알 수 있다.
본 연구에서는 5개의 물품에 대해 [Fig. 3]과 같이 총 9개의 단위 정리동작을 정의한다. 기본적으로 노트북, 서랍, 상자는 닫힌 상태를 정리가 완료된 것으로 간주하며, 책상에 고정되어 있다. 단, 상자 뚜껑의 경우, 상자 뚜껑을 닫기 전에는 임의의 자세로 존재가 가능하다. 텀블러는 책상 위 목표 자리에 뚜껑이 닫힌 상태를, 핸드크림은 책상 위 목표 자리에 있거나 서랍 혹은 상자 안에 담긴 상태를 정리가 완료된 것으로 간주하며, 이러한 목표 위치 역시 임의로 설정된다.
2.2 가상환경 구성
본 연구에서는 RGB 영상정보만을 사용하여 현재 상황에 적합한 단위 정리동작의 작업순서 계획기를 학습한다. 그러나 영상정보를 사용하면 상태공간이 매우 커지고, 인공신경망을 학습하기 위해서는 다량의 데이터가 필요하며, 학습과정에서 물체의 자세 또는 상태를 계속하여 변경하여야 하므로, 이를 실제환경에서 학습하는 것은 효율적이지 않다. 따라서 실제환경과 동일한 가상환경을 구성하여 신경망의 학습과정을 수행한다.
가상환경으로는 Bullet 물리엔진 기반의 PyBullet 가상환경을 사용하여 [Fig. 4]와 같이 구성한다. 이때 학습한 작업계획 신경망을 실제환경으로 용이하게 전이하기 위해 정리환경 물품의 색상을 단색으로 전처리한 영상정보를 사용한다. 이에 대한 설명은 3장에서 자세히 다룬다. 또한 본 연구의 목표는 정리작업 시 올바른 단위동작의 순서를 결정하는 것이므로, 신경망의 학습과정에서 불필요한 로봇의 움직임은 제외하고 앞서 정의한 단위동작에 따른 결과만을 통해 학습을 진행한다.
3. 작업계획기
본 장에서는 가상의 정리환경에서 강화학습 기반의 작업계획기를 학습하는 방법과 이를 실제환경에 적용하는 방법을 설명한다. 먼저 작업계획기의 신경망 구성과 학습 결과의 실제환경으로의 전이를 위해 도입한 방법에 대해 설명한 후에 전반적인 알고리즘의 구성을 설명한다.
3.1 실제환경으로의 전이 방법
본 연구에서는 실제환경과 동일하게 구성한 가상환경의 영상정보를 통해 작업계획 알고리즘을 학습하며, 최종적으로는 학습 결과를 실제환경의 영상정보로 검증해야 한다. 그러나 [Fig. 5]와 같이 가상환경에서의 시각정보는 아무리 환경을 실제환경과 유사하게 구성하더라도 어느 정도의 차이가 발생한다. 따라서 가상환경에서 학습이 잘 수행되더라도 실제환경에서의 성능은 좋지 못한 결과를 얻게 되는 경우가 대부분이다. 이처럼 가상환경에서의 학습 결과를 현실로 전이하는 것을 simulation to real (sim-to-real)[6]이라 한다.
Sim-to-real을 위해 본 연구에서는 [Fig. 6]과 같이 물체의 분할 이미지를 활용하여 가상환경과 실제환경을 유사한 중간의 영역으로 변형시켜 두 환경 사이의 괴리를 최소화하는 방법을 사용한다. 이때 가상환경은 사용자가 환경의 모든 정보에 접근할 수 있으므로 쉽게 분할 이미지를 얻을 수 있지만, 실제환경에서는 물체의 분할 이미지를 얻기 위해 별도의 알고리즘을 사용해야 한다. 본 연구에서는 DeepLab v3+[7]를 사용하였다.
3.2 작업계획 신경망 구성
본 연구에서는 현재 상태를 목표 정돈상태로 정리하는 것을 목적으로 한다. 이때 현재 상태의 영상만을 학습 데이터로 사용하면 어떤 목표 상태로 정리를 하려는 것인지를 알 수 없으므로, [Fig. 7]과 같이 현재 상태와 목표 상태 2장[8]의 RGB 영상정보를 분할 영상으로 전처리한 후에 사용한다. 이때 신경망을 학습하기 위한 강화학습 알고리즘은 Rainbow DQN[9]을 사용하며, 보상함수 r은 다음과 같이 구성한다.
(1) |
본 연구에서 사용한 Rainbow DQN은 deep Q-network (DQN)[10]의 성능을 개선하기 위해 추가적인 방법론을 적용한 알고리즘이다. DQN은 Q-learning[11] 기반의 알고리즘으로, 인공신경망을 통해 행동가치 함수(action-value function)를 학습하는 것을 목적으로 한다. 행동가치 함수는 현재 상태에서 특정 행동을 취했을 때의 미래 가치를 의미하며, 이 값이 최대인 행동을 선택할 경우 일반적으로 최적의 행동을 선택하였다고 볼 수 있다. 학습은 다음과 같은 비용함수를 최소화하는 방향으로 수행되며, 이를 통해 행동가치 함수를 최적화한다.
(2) |
여기서 r은 상태 s에서 행동 a를 취하여 다음 상태 s΄에 도달한 경우에 받은 보상을 의미하며, γ은 감가율(discount rate)을 의미한다. 이때 Qθ(s,a)는 행동가치 함수를 의미하며, 매개변수θ를 통해 모델링된 신경망을 통해 얻는다. Qθ(s,a)의 학습 목표는 식 (2)의 r+γ·maxa'Qθ'(s΄,a΄)에 해당하며, 매개변수 θ'는 학습을 통해 최적화된 θ를 주기적으로 가져와 차용한다. DQN에 Double Q-learning[12], Prioritized replay buffer[13], Dueling networks[14], Noisy Nets[15], Multi-step learning[16], Distributional learning[17]의 총 6가지의 성능 향상 기법을 적용한 알고리즘을 Rainbow DQN이라 하며, 이를 통해 본 연구의 작업계획기를 학습한다. 작업계획기를 학습하기 위한 신경망의 입력과 출력은 [Fig. 7]과 같이 구성한다.
3.3 행동제거 신경망
본 연구에서 목표로 하는 정리정돈 작업은 5개의 물품 중 임의로 2~5개의 물품이 배치된 상태에서 수행된다. 이때 물품은 초기 정리의 완료 유무에 상관없이 배치된다. 따라서 [Fig. 8]과 같이 5개의 물품이 항상 정리환경에 출현하는 것은 아니며, 어떤 물품은 이미 정리가 완료된 상태로 출현하기도 한다. 그러므로 항상 모든 단위행동이 필요하지는 않다. 따라서 주어진 상황에서 필요 없는 단위행동을 사전에 배제함으로써 작업계획기의 성능을 높일 수 있다.
어떤 단위행동이 필요한지, 또는 필요 없는지는 행동제거 신경망을 통해 판단한다. 예를 들어, [Fig. 9]와 같이 서랍이 존재하지 않는 경우 “서랍을 연다”, “서랍을 닫는다”, “핸드크림을 서랍에 넣는다”와 같은 행동은 아예 수행이 불가능하다. 또한 노트북은 이미 닫혀 정리가 되어있으므로 “노트북을 닫는다”와 같은 행동 역시 불필요하다. 이들 행동은 [Fig. 7]의 작업계획 신경망 출력의 각각 1번째, 2번째, 7번째, 0번째 행동([Fig. 3]에서 정의)에 해당한다. 따라서 다음과 같은 데이터를 구성할 수 있다.
(3) |
여기서 1은 불필요한 행동을, 0은 수행 가능한 행동을 나타낸다. 식 (3)과 같은 데이터는 가상환경에서 작업계획 신경망을 학습하면서 바로 얻을 수 있으므로, 이를 행동제거 신경망의 학습 레이블로 사용하여 지도학습[18]을 통해 학습할 수 있다. 오차함수로는 mean square error (MSE)[19]를 사용한다. 결과적으로 [Fig. 7]에 행동제거 신경망을 추가하여 [Fig. 10]과 같이 구성한다. 행동제거 신경망은 Rainbow DQN 기반의 작업계획 신경망과 합성곱 신경망을 공유하지만 두 신경망의 학습은 독립적으로 이루어진다.
결과적으로 [Fig. 7]에 행동제거 신경망을 추가하여 [Fig. 10]과 같이 구성하여 학습을 진행한다. 기존에는 실제환경 검증 시에 단순히 행동가치가 가장 큰 행동을 선택하였다면, 다음식과 같이 행동제거 신경망의 출력을 활용하여 행동을 선택한다.
(4) |
여기서 E는 행동제거 신경망의 출력, w는 Rainbow DQN 신경망의 매개변수, α는 행동제거 신경망의 매개변수를 의미한다. 본 연구의 작업계획 신경망의 보상함수는 식 (1)과 같으므로, 식 (4)의 Qw(st, at)가 아무리 낙관적으로 예측된다 하더라도 1을 넘지는 못한다. 따라서 식 (4)와 같이 행동을 선택할 경우 불필요한 행동은 배제하고, 수행 가능한 행동의 행동가치에 상대적 가중치를 부여하여, 실제환경의 영상정보에서 발생하는 노이즈에 강인한 행동을 출력할 수 있다.
3.4 전체 알고리즘의 구조
3.1장에서 3.3장까지 작업계획 알고리즘의 구성요소들을 설명하였다. 본 장에서는 이를 통합한 전체 작업계획 시스템을 설명한다. [Fig. 11]과 같이 실제환경의 로봇을 포함한 책상 위 정리환경에서 로봇의 말단에 부착된 카메라를 통해 RGB 영상정보를 얻고, 영상분할 알고리즘을 통해 이에 해당하는 마스크 정보를 획득한다. 획득한 현재 마스크와 목표 마스크를 작업계획 알고리즘의 입력으로 넣어주면, 현재 상태에서 최적의 단위 정리동작 명령이 출력된다.
출력된 단위 정리 동작 명령을 로봇에 입력하여 실제로 정리정돈을 수행할 수 있도록 한다.
4. 실험 결과
본 장에서는 가상의 정리환경에서 작업계획 알고리즘의 학습 결과와 이를 실제환경에서 검증한 결과를 서술한다. 먼저 가상환경의 학습 결과를 보인 후, 실제환경에서의 실험 결과를 서술한다.
4.1 가상환경 실험 결과
본 장에서는 [Fig. 11]의 행동제거 신경망의 오차, 성공률과 Rainbow DQN 기반의 작업계획 신경망의 누적보상, 성공률 결과를 서술한다. 가상환경의 서로 다른 랜덤 시드(random seed) 5개를 다음 표와 같이 지정하였다. 랜덤 시드를 다양하게 지정함으로써 가상환경의 물체 출현 빈도와 신경망의 매개변수가 임의로 설정되는 패턴을 다양화할 수 있다. 따라서 실험 결과의 신뢰도를 확보하였다.
행동제거 신경망의 오차와 성공률은 [Fig. 12]와 같다. 이때 실선은 [Table 1]의 5개 랜덤 시드별로 수행한 결과의 평균을 의미하며, 음영 부분은 표준편차를 의미한다. 성공률은 모든 출력 원소가 학습 레이블과 갖는 차이가 0.2 이하일 때를 성공으로 간주하여 계산하였다.
작업계획 신경망의 누적보상과 성공률은 [Fig. 13]과 같다. 실선은 [Table 1]의 5개 랜덤 시드별로 수행한 결과의 평균을 의미하며, 음영 부분은 표준편차를 의미한다. 그래프와 같이 학습이 진행됨에 따라 누적보상이 1로 수렴함을 볼 수 있고, 성공률 역시 90% 정도로 수렴함을 알 수 있다. 이때 성공률은 가상의 정리환경에서 모든 물체에 대한 정리작업을 완료하였을 때를 성공으로 간주하였으며, 그 이외의 경우는 실패로 간주하였다.
4.2 실제환경 실험 결과
4.1장에서 학습한 결과를 바탕으로 실제환경의 로봇을 사용하여 검증한다. 총 100회의 시험을 수행하였으며, 결과는 [Table 2]와 같다.
본 연구에서는 가상환경의 학습 결과를 실제환경으로 전이하는 과정에서 물체의 분할 이미지를 얻기 위한 알고리즘을 사용하였다. 분할 이미지를 얻는 과정에서 물체 간에 간섭이 발생하는 경우에는 간혹 [Fig. 14]와 같이 온전하지 않은 분할 이미지가 얻어졌다. 이러한 이유로 실제환경으로의 전이 성공률이 조금 저조하였다.
또한 행동제거 신경망을 적용한 경우가 적용하지 않은 경우보다 성공률이 높았는데, 이는 가상환경의 영상정보에 과적합[20]된 작업계획기가 실제환경의 불균형한 영상정보에 잘 대처하지 못하는 현상을 행동제거 신경망을 통해 완화하였기 때문이다. [Fig. 15]와 같이 로봇으로 정리를 수행하므로 텀블러나 상자는 뚜껑이 완벽하게 닫히지 않는 경우가 발생할 수 있다. 행동제거 신경망을 사용하지 않은 경우 가상환경의 정보에 과적합된 작업계획기로 인한 반복된 뚜껑 닫기 행동의 출력으로 인해 정리를 계속 이어갈 수 없는 반면에, 행동제거 신경망을 적용한 경우 뚜껑이 약간 비스듬하게 닫혀 있는 경우도 정리가 완료된 것으로 간주하고, 계속 다음 정리 과정을 이어갈 수 있었다. 이는 곧 정리작업의 완료로 이어지며, 따라서 최종 작업 성공률이 향상되었다.
5. 결 론
본 논문에서는 로봇 팔을 사용하여 책상 위의 어질러진 물건을 정리하는 작업을 위한 강화학습 기반의 작업계획기를 제안하였다. 이를 위하여 가상환경에서의 영상정보를 사용하여 학습한 뒤에, 실제환경으로 전이하는 방식을 사용하였다. 이 연구를 통하여 다음과 같은 결론을 얻었다.
1. 가상환경에서 학습한 정리정돈 작업계획기의 성공률은 최종적으로 90%로 수렴하였으며, 이러한 학습 결과를 실제환경으로 전이한 결과 대략 58%의 성공률을 얻었다.
2. 실제환경에서 학습정보 간의 괴리에 대처하기 위하여 정리작업 도중에 불필요한 행동을 제거할 수 있는 신경망을 도입하였으며, 이를 통하여 최종적으로 77%의 작업 성공률을 얻었다.
본 연구는 가상환경의 학습결과를 실제환경으로 전이하는 과정에서 물체의 분할 이미지를 얻기 위한 알고리즘을 사용한다. 따라서 이러한 물체인식 알고리즘의 학습 자체에 추가 비용이 소요되고, 물체인식 알고리즘의 학습 결과에 따라 전이 성공률이 좌우된다는 한계점을 갖는다. 이러한 한계를 극복하기 위해 추후 연구에서는 물체인식 알고리즘을 사용하지 않고, 가상환경의 학습 결과를 실제환경으로 전이하는 방법을 목표로 한다.
Acknowledgments
This work was supported by IITP grant funded by the Korea Government MSIT (No. 2018-0-00622)
References
- M. R. Dogar and S. S. Srinivasa, “A planning framework for non-prehensile manipulation under clutter and uncertainty,” Autonomous Robots, vol. 33, no. 3, pp. 217-236, 2012, [https://doi.org/10.1007/s10514-012-9306-z]
- M. Fox and D. Long, “PDDL2. 1: An extension to PDDL for expressing temporal planning domains,” Journal of Artificial Intelligence Research, vol. 20, pp. 61-124, 2003, [https://doi.org/10.1613/jair.1129]
- S. Srivastava, E. Fang, L. Riano, R. Chitnis, S. Russell, and P. Abbeel, “Combined task and motion planning through an extensible planner-independent interface layer,” 2014 IEEE International Conference on Robotics and Automation (ICRA), Hong Kong, China, pp. 639-646, 2014, [https://doi.org/10.1109/ICRA.2014.6906922]
- R. Munos, “From bandits to Monte-Carlo Tree Search: The optimistic principle applied to optimization and planning,” Foundations and Trends R in Machine Learning, vol. 7, no. 1, pp. 1-129, 2014, [Online], https://hal.archives-ouvertes.fr/hal-00747575, /. [https://doi.org/10.1561/2200000038]
- Y. Labbé, S. Zagoruyko, I. Kalevatykh, I. Laptev, J. Carpentier, M. Aubry, and J. Sivic, “Monte-carlo tree search for efficient visually guided rearrangement planning,” IEEE Robotics and Automation Letters, vol. 5, no. 2, pp. 3715-3722, April, 2020, [https://doi.org/10.1109/LRA.2020.2980984]
- P. Christiano, Z. Shah, I. Mordatch, J. Schneider, T. Blackwell, J. Tobin, P. Abbeel, and W. Zaremba, “Transfer from simulation to real world through learning deep inverse dynamics model,” arXiv preprint arXiv:1610.03518, 2016, [Online], https://arxiv.org/abs/1610.03518, .
- L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille, “Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 40, no. 4, pp. 834-848, 2017, [https://doi.org/10.1109/TPAMI.2017.2699184]
- T. Schaul, D. Horgan, K. Gregor, and D. Silver, “Universal value function approximators,” The 32nd International Conference on Machine Learning, pp. 1312-1320, 2015, [Online], http://proceedings.mlr.press/v37/schaul15.html, .
- M. Hessel, J. Modayil, H. van Hasselt, T. Schaul, G. Ostrovski, W. Dabney, D. Horgan, B. Piot, M. Azar, and D. Silver, “Rainbow: Combining improvements in deep reinforcement learning,” arXiv preprint arXiv:1710.02298, 2017, [Online], https://arxiv.org/abs/1710.02298, .
- V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G. Bellemare, A. Graves, M. Riedmiller, A. K. Fidjeland, G. Ostrovski, S. Petersen, C. Beattie, A. Sadik, I. Antonoglou, H. King, D. Kumaran, D. Wierstra, S. Legg, and D. Hassabis, “Human-level control through deep reinforcement learning,” Nature, vol. 518, no. 7540, pp. 529-533, 2015, DOI: 10.1038/ nature14236. [https://doi.org/10.1038/nature14236]
- R. Dearden, N. Friedman, and S. Russell, “Bayesian Q-learning,” Innovative Applications of Artificial Intelligence Conference, pp. 761-768, 1998, [Online], https://www.aaai.org/Papers/AAAI/1998/AAAI98-108.pdf, .
- H. Hasselt, “Double Q-learning,” Advances in Neural Information Processing Systems 23 (NIPS 2010), pp. 2613-2621, 2010, [Online], https://papers.nips.cc/paper/2010/hash/091d584fced301b442654dd8c23b3fc9-Abstract.html, .
- T. Schaul, J. Quan, I. Antonoglou, and D. Silver, “Prioritized experience replay,” arXiv preprint arXiv:1511.05952, 2015, [Online], https://arxiv.org/abs/1511.05952, .
- Z. Wang, T. Schaul, M. Hessel, H. Hasselt, M. Lanctot, and N. Freitas, “Dueling network architectures for deep reinforcement learning,” The 33rd International Conference on Machine Learning, pp. 1995-2003, 2016, [Online], http://proceedings.mlr.press/v48/wangf16.html, .
- M. Fortunato, M. G. Azar, B. Piot, J. Menick, I. Osband, A. Graves, V. Mnih, R. Munos, D. Hassabis, O. Pietquin, C. Blundell, and S. Legg, “Noisy networks for exploration,” arXiv preprint arXiv:1706.10295, 2017, [Online], https://arxiv.org/abs/1706.10295, .
- R. S. Sutton, “Learning to predict by the methods of temporal differences,” Machine Learning, vol. 3, no. 1, pp. 9-44, 1988, DOI: 10.1007/BF00115009. [https://doi.org/10.1007/BF00115009]
- M. G. Bellemare, W. Dabney, and R. Munos, “A distributional perspective on reinforcement learning,” arXiv preprint arXiv: 1707.06887, 2017, [Online], https://arxiv.org/abs/1707.06887, .
- X. Zhu, and A. B. Goldberg, “Introduction to semi-supervised learning,” Synthesis Lectures on Artificial Intelligence and Machine Learning, vol. 3, no. 1, pp. 1-130, 2009, [https://doi.org/10.2200/S00196ED1V01Y200906AIM006]
- D. M. Allen, “Mean square error of prediction as a criterion for selecting variables,” Technometrics, vol. 13, no. 3, pp. 469-475, 1971, [Online], https://amstat.tandfonline.com/doi/citedby, / 10.1080/00401706.1971.10488811?scroll=top&needAccess=true#.X9po-NgzaUk. [https://doi.org/10.1080/00401706.1971.10488811]
- I. V. Tetko, D. J. Livingstone, and A. I. Luik, “Neural network studies. 1. Comparison of overfitting and overtraining,” Journal of Chemical Information and Computer Sciences, vol. 35, no. 5, pp. 826-833, 1995, [https://doi.org/10.1021/ci00027a006]