[ ARTICLE ]

The Journal of Korea Robotics Society - Vol. 20, No. 3, pp.381-387

ISSN: 1975-6291 (Print) 2287-3961 (Online)

Print publication date 29 Aug 2025

Received 03 Jun 2025 Revised 23 Jul 2025 Accepted 31 Jul 2025

DOI: https://doi.org/10.7746/jkros.2025.20.3.381

모방학습 및 언어모델 기반 조립기술 개발

조창노¹

; 김태근²

; 정민기³

; 황정훈^†

Development of Imitation Learning and Large Language Model-based Assembly Algorithm

Chang Nho Cho¹

; Tae-Keun Kim²

; Mingi Jung³

; Jung-Hoon Hwang^†

1Senior Researcher, Intelligent Robotics Research Center, KETI, Seoul, Korea cncho@keti.re.kr
2Principal Researcher, Intelligent Robotics Research Center, KETI, Seoul, Korea; School of Mechanical Engineering, Korea University, Seoul, Korea ketiktk17@keti.re.kr
3Researcher, Intelligent Robotics Research Center, KETI, Seoul, Korea minngi@keti.re.kr

Correspondence to: ^†Director, Corresponding author: Intelligent Robotics Research Center, KETI, Seoul, Korea ( hwangjh@keti.re.kr)

Abstract

Assembly is widely used in many different manufacturing applications. However, assembly is a challenging task for robot manipulators as it involves complex manipulation and interaction with environments. Many studies have been conducted for robotic assembly, and imitation learning is one of the most promising solutions as it allows robot manipulators to effectively follow demonstrated assembly trajectories. Furthermore, deep learning-based imitation learning allows highly adaptable and scalable imitation strategies. However, most of studies on imitation learning focused on household tasks, such as laundry or cleaning, and not many studies have been devoted on the application of imitation learning in manufacturing domain, such as assembly. In this study, a deep learning-based imitation learning algorithm for assembly tasks is proposed. The proposed algorithm utilizes multi-modal information to imitate complex assembly trajectories. Furthermore, to enable intuitive control of robot manipulators, large language model and language conditioned-policy are used so that users can control robot manipulators through natural language. The feasibility and performance of the proposed algorithm is verified through peg-in-hole experiments.

Keywords:

Imitation Learning, Large Language Model, Robotic Assembly

1. 서 론

조립 작업은 전기전자, 자동차, 조선, 항공 등 다양한 제조업에 폭넓게 활용되고 있으나 조립 작업은 복잡한 동작 및 상호작용을 요구하여 상대적으로 자동화가 어려운 공정이다. 이러한 조립 작업의 자동화를 위해 많은 연구가 수행되어 왔으며 그 중 로봇이 작업자의 시범 궤적을 효율적으로 모방하도록 하는 모방학습은 조립작업의 로봇화에 효율적인 해결책으로 각광받고 있다.

모방학습을 위해 Dynamic Movement Primitives (DMP)^[1]와 같은 사용자 시연 궤적의 parameterization 방법이 제안되어 왔다. 또한 로봇 상태, 영상, 언어 등 다양한 정보를 바탕으로 다양한 환경에서 정확하게 로봇의 동작을 생성하기 위해 deep learning에 기반한 많은 모방 학습 알고리즘들이 제안되고 있다^[2-12]. 이러한 deep learning기반 모방학습은 많은 환경에서 수집된 데이터를 활용한 학습을 통해 로봇이 다양한 환경에 유연하게 대응할 수 있다는 장점이 있다.

그러나 기존의 모방학습 연구들은 빨래나 청소 등과 같은 서비스 분야에 국한되어 왔으며 조립과 같은 정교한 작업에의 적용은 제한되었다. 본 연구에서는 조립 작업을 위한 deep learning 기반 모방학습 전략을 제안한다. 제안된 모방학습 policy는 복수의 이미지 및 로봇 상태 정보에 기반하여 조립작업과 같은 정교한 작업을 위한 궤적을 생성한다. 또한 제조 현장에서 손쉽고 직관적으로 로봇을 제어하기 위해선 사용자가 자연어 형태로 로봇을 제어할 필요가 있다. 따라서 본 연구에서 제안하는 모방학습 policy는 언어 명령 또한 입력으로 받아 궤적을 생성하며 거대언어모델(large language model)을 이용하여 제어기가 작업 상태를 파악하고 사용자의 자연어 명령을 로봇 policy의 입력으로 변환하도록 하였다. 개발된 모방학습 policy 를 3개의 다른 peg과 3개의 hole로 구성된 peg-in-hole 조립작업에 적용하여 그 성능을 검증하였다.

2. 기존 연구

2.1 모방 학습

사용자 시연 동작에 대한 parameterization을 위해 DMP^[1]와 같은 기술이 제안되었다. DMP는 시연 동작에 대한 spatial scaling 및 temporal scaling이 가능하여 다양한 작업에 폭 넓게 사용될 수 있다는 장점이 있다. 또한 다양한 movement primitives들을 효과적으로 조합하기 위한 확률 모델 기반의 Probabilistic Movement Primitives (ProMPs)또한 제안되었다^[13].

이러한 모방학습 방법들은 적은 데이터 만으로 빠르게 적용이 가능하다는 장점이 있으나 영상 정보와 같은 다양한 정보를 직접 반영할 수 없으며 다양한 환경에 대한 강인성이 제한된다는 단점이 있다. 이에 비해 본 연구에서 제안하는 모방학습 전략은 deep learning에 기반하여 높은 강인성을 가지며 언어, 영상과 같은 다양한 정보를 반영할 수 있다는 장점이 있다.

2.2 Deep-learning 기반 모방 학습

Deep learning 기술 발전과 함께 Convolutional Neural Network (CNN)기반 모방학습 전략^[2]부터 transformer 및 diffusion model 기반 모방학습 전략이 제안되어 왔다. 모방학습에서 발생할 수 있는 합성 오차(compounding error)를 저감하기 위한 동작 단위화(action chunking) 및 단위화에 따른 동작의 비연속성을 보완하기 위한 시간적 앙상블(temporal ensemble)이 제안되었다^[3]. 또한 diffusion policy에 기반한 모방학습 전략인 Denoising Diffusion Probabilistic Models (DDPM)^[4]나 Denoising Diffusion Implicit Models (DDIM)^[5]또한 제안되어 왔다.

모방학습은 필연적으로 학습에 많은 양의 데이터가 요구되며 모방학습을 위한 통합 데이터셋을 구축하기 위한 연구가 수행되었다^[6]. 또한 효율적인 데이터 수집을 위해 동일한 기구적 구성을 통해 직관적 원격 제어가 가능한 leader-follower 시스템^[3,7]이나 로봇 그리퍼를 모사한 데이터 수집 장치^[8]또한 제안되었다.

모방학습의 성능을 개선하기 위한 fine-tuning에 대한 많은 연구가 수행되었으며 계층적 구조(hierarchical structure)를 가지는 네트워크의 상위 제어기에 대한 언어 기반 fine tuning방법또한 제안되었다^[9]. 거대언어모델은 높은 적응 능력을 가지며 이를 모방학습에 활용하기 위한 거대언어모델 및 비전언어모델(vision language model)에 기반한 모방학습 전략이 개발되었다^[10-12]. 이러한 모델들은 언어 및 이미지 정보를 처리하는 비전언어모델과 비전언어모델 및 로봇 상태 정보를 바탕으로 로봇 동작을 생성하는 action expert로 구성된다. 이러한 모델들은 다양한 로봇, 작업, 환경에서 수집된 데이터를 통해 우선 pre-training된 후 목적에 맞추어 fine-tuning되며 이를 통해 높은 적응 능력을 보인다는 장점이 있다.

모방학습에 대한 많은 연구가 수행되어 왔으나 기존의 연구들은 가사 작업 및 서비스 분야에 국한되어 왔다는 한계점이 있으며 이에 비해 본 연구에서 제안하는 모방학습 전략은 조립과 같은 제조업 분야를 목표로 한다. 또한 기존 연구들은 거대언어모델 및 비전언어모델을 적용하여 모방학습의 성능 개선에 주력하였지만 본 연구에서는 거대언어모델을 이용한 직관적 로봇 제어 전략을 제안한다.

2.3 언어 모델 기반 로봇 제어

거대언어모델을 이용한 로봇 제어에 대해 많은 연구가 수행되고 있으며 로봇이 사용자의 명령을 효과적으로 수행하고 또한 작업의 수행이 실패한 경우 이를 거대언어모델을 통해 스스로 해결하는 연구가 제안되었다^[14]. 비전언어모델을 통해 다양한 가사작업을 수행할 수 있는 가상현실 장비(virtual reality)에 기반 인터페이스^[15] 및 거대언어모델을 이용하여 복잡한 작업에 대한 작업 계획을 수립하는 방법이 개발되었다^[16]. 또한 거대언어모델을 통해 생성된 작업계획의 오류를 보완하기 위해 거대언어모델로부터 생성된 작업 계획을 바탕으로 Planning Domain Definition Language (PDDL)^[17]을 생성하는 방법 또한 개발되었다^[18].

Vision-language action (VLA) 모델들은 거대언어모델을 자연어 입력 처리뿐만 아니라 로봇 action 생성을 위한 policy에도 적용하였다^[10-12]. 이러한 모델들은 이미지 정보 처리를 위한 엔코더, 로봇 상태 정보 처리를 위한 엔코더, 거대언어모델, 그리고 액션 생성 모델로 구성되며 거대언어모델을 이용한 높은 성능을 보장한다는 장점이 있지만 네트워크 크기로 인해 고사양의 하드웨어를 요구하며 따라서 제조 현장 적용이 어렵다는 제한점이 있다.

이러한 방법들은 주어진 작업이 서비스 및 가사일 경우 거대언어모델의 높은 일반화 성능을 이용하여 문제를 효과적으로 해결할 수 있지만 제조업과 같이 작업에 특정된 정보가 요구될 경우 적용이 제한된다는 한계점이 있다. 가사 환경과 제조 환경의 큰 차이점 중 하나로 대부분의 image segmentation이나 object detection을 위한 기 학습된 foundation model 들은 일상 환경 데이터를 중심으로 학습되었다는 것을 들 수 있다. 따라서 이러한 foundation model들은 기존 모방학습에는 폭넓게 적용되어 성능 개선에 크게 기여하였으나^[14] 제조 환경에서는 그 성능을 보장할 수 없으므로 본 연구에서도 이러한 기 학습된 foundation model의 활용을 최소화하여 제어기 구조를 설계하였다.

3. 제안하는 모방학습 기반 조립 전략

3.1 작업 정의 및 실험 환경

제안하는 모방학습 기반 조립 전략을 검증하기 위한 환경을 [Fig. 1]에 나타내었다. 실험환경은 7자유도 로봇 머니퓰레이터(Research 3, Franka Robotics, Germany), 상단, 정면 그리고 손목에 부착된 3개의 카메라(RealSense D415, Intel, USA) 그리고 1자유도 그리퍼로 구성된다. 본 연구에서 수행하는 peg-in-hole공정은 파란색, 흰색, 그리고 붉은색의 3가지 peg과 hole로 구성되며 로봇은 사용자가 지정한 peg을 사용자가 지정한 hole에 조립하는 것을 목표로 한다.

[Fig. 1]

Experimental setup for peg-in-hole task

[Fig. 2]에 로봇의 그리퍼 및 카메라를 나타내었으며 그리퍼는 1개의 액츄에이터(XH540, Robotis, Korea)로 구동된다. 또한 손목에 부착된 카메라에 각도를 주어 로봇의 물체 파지 상태를 정확하게 파악할 수 있도록 하였다. 실험에 사용된 peg는 100 mm의 높이와 50 mm의 지름을 가지며 hole의 지름은 53 mm이다. 실험 중 hole의 위치는 고정되며 peg의 위치는 매번 무작위로 변경하였다.

[Fig. 2]

Gripper and wrist camera

3.2 모방 학습

본 연구에서 로봇의 조립 작업은 상태공간 S, 액션 공간 A, transition probability P 그리고 초기 상태 분포(initial state distribution) s₀으로 구성된 마르코프 결정 과정(Markov decision process)로 모델링 되었으며 이때 로봇의 실제 상태 s ∈ S 는 알 수 없으므로 관측 값(observation)인 O를 대신 사용하였다.

Policy의 학습을 위해선 데이터셋이 필요하며 본 연구에서 데이터셋 D는 (o_t, a_t, l)로 구성되며 이때 o_t는 시간 t에 대한 관측 값, a_t는 액션 값 그리고 l은 언어 명령 값이다. 관측 값은 상단, 정면 그리고 손목 3개의 이미지 정보와 로봇 말단부 위치로 구성되며 로봇의 액션 값은 로봇의 말단부 위치 값이다.

본 연구에서는 조립작업을 위한 비전언어모델을 제안하며 전체적인 구조는 [Fig. 3]과 같다. 제안된 네트워크는 transformer기반 모방학습 알고리즘인 Action Chunking Transformer (ACT)^[3]에 기반한 구조를 가진다.

[Fig. 3]

Proposed vision language model architecture for imitation learning. The policy network consists of encoders to encode image observation and language command and transformer-based encoder and decoder to generate robot actions

[Fig. 3]에서 알 수 있듯이 제안하는 모방학습 policy는 영상 입력, 언어 입력 그리고 로봇 정보를 바탕으로 로봇 동작을 생성하며 이때 언어 명령 처리를 위해 DistilBERT^[19]가 사용되었으며 이미지 정보의 처리에는 EfficientNet^[20]이 적용되었다. 처리된 이미지 및 언어 명령 정보는 로봇 상태 정보와 함께 transformer encoder-decoder의 입력으로 사용되어 로봇의 동작을 계산하게 된다. 이러한 policy구조를 통해 기존 모방학습 policy^[3-5,8]와 달리 제안된 비전언어모델은 이미지, 로봇 상태 외에도 언어 명령을 입력으로 받으며 이를 통해 사용자로부터 주어진 다양한 명령을 수행할 수 있다는 장점이 있다. 또한 사용자는 언어 형태로 직관적 로봇 조작이 가능하다.

모방학습 policy π(a_t|o_t,l)는 수집된 데이터셋 D로 학습되며 학습은 loss 함수 L(π(a_t|o_t,l), a_t) 를 최소화 하는 것을 목표로 하였다. Loss는 L1 loss가 사용되었으며 이를 통해서 policy가 로봇 동작을 정확하게 생성하도록 학습될 수 있다.

3.3 언어 모델

직관적인 로봇 제어를 위해 제안하는 모방학습 기반 조립 전략은 사용자의 자연어 형태의 명령에 대응할 수 있어야 하며 제안된 전략을 [Fig. 4]에 나타내었다. 본 연구에서 사용된 policy의 언어 입력은 “pick blue, insert red”와 같이 상대적으로 단순한 형태를 가지며 따라서 거대언어모델 및 비전언어모델을 통해 사용자의 입력을 변경하여야 한다. 우선 비전언어모델(Llama 3.2)^[21]가 카메라 이미지로부터 peg의 순서를 파악하며 거대언어모델(DeepSeek-R1)^[22]은 사용자의 명령과 비전언어모델로부터 획득한 peg의 순서를 바탕으로 모방학습 policy를 위한 언어입력을 생성하게 된다. 이를 위해 비전언어모델과 거대언어모델에 작업에 대한 예시를 포함한 prompting을 수행하여 모델들이 정확하게 peg의 순서를 파악하고 모방학습 policy를 위한 명령을 생성할 수 있도록 하였다. 거대언어모델용 prompt를 [Table 1]에 나타내었다.

[Fig. 4]

Proposed intuitive control method of robot manipulators. VLM (Llama 3.2) is used to find peg order, and LLM (DeepSeek-R1) uses both peg information from VLM and user command to generate language command for policy

[Table 1]

Prompt for LLM

3.4 로봇 제어 알고리즘

조립작업을 위해서 로봇 머니퓰레이터는 주변 환경과 상호작용을 하여야 하며 이를 위해 유연제어 기반 제어 알고리즘을 적용하였다^[23]. [Fig. 1]의 로봇은 다음의 수식을 통해 제어된다:

τ c m d = J T K x d - x - D v + g q

(1)

여기서 τ_cmd, J, K, D, x_d, x, v 그리고 g(q)는 각각 제어 입력, 자코비안(Jacobian), 가상의 강성, 가상의 damping, 목표 위치, 현재 위치, 작업공간 말단부 속도, 그리고 중력 벡터이다. 수식 (1)는 로봇 말단부가 가상의 강성과 damping을 가지는 시스템처럼 동작할 수 있도록 하며 이를 통해 로봇 말단부가 주변환경과 안정적으로 상호작용할 수 있다. 또한 안전성 개선을 위해 관절 공간 damping을 적용하였으며 로봇 중력 토크 보상을 통해 로봇이 목표로 하는 가상의 강성과 damping을 정확하게 추종할 수 있도록 하였다. 로봇 시스템은 수식 (2)를 통해 1 kHz로 제어된다.

4. 실험 및 결과

개발된 모방학습 전략을 [Fig. 1]의 실험 환경에 적용하였으며 전체 시스템은 Robot Operating System (ROS)로 연동하였다. 제어 시스템은 로봇 머니퓰레이터의 실시간 제어를 담당하는 PC와 학습된 모방학습 policy 및 거대언어모델을 구동하기 위한 PC로 구성된다. 모방학습 policy의 학습을 위해 120개의 궤적을 수집하였으며 학습 환경은 [Table 2]과 같다. 제안된 모방학습 알고리즘은 PyTorch를 통해 구현되었다. 또한 제조현장에선 조명, 잡음 등 여러 다양성이 발생할 수 있으며 본 연구에서는 이를 위해 이미지 데이터에 대해 random crop 및 무작위 밝기 변화를 통한 데이터 증강을 수행하였다.

[Table 2]

Hyperparameters for training

학습된 모방학습 policy를 이용하여 조립 작업을 수행하였으며 peg의 위치 및 언어 명령을 변경해 가면서 총 6번의 실험을 수행하여 그 결과를 [Table 3]에 나타내었으며 만약 학습된 비전언어모델이 성공적으로 사용자가 지정한 peg을 사용자가 지정한 hole에 조립하였을 경우 결과를 success로 표시하였다.

[Table 3]

Experimental results

결과에서 볼 수 있듯이 다양한 형태의 명령을 사용하였으며 학습된 비전언어모델이 이러한 명령을 성공적으로 수행함을 확인하였음. [Fig. 5] 및 [Fig. 6]에 자세한 실험 경과를 표시하였으며 두 실험시에 peg위치는 무작위하게 변경하여 적용 하였다. 이를 통해 개발된 시스템이 peg의 순서 변경이나 다른 형태의 자연어 명령에도 성공적으로 대응함을 확인하였다. 이때 실험 중 첫번째나 오른쪽과 같은 상대 위치는 로봇을 마주보고 명령을 내리는 사용자를 기준으로 한다.

[Fig. 5]

Experimental results 1: (a) initial state, (b) insert middle peg into middle hole, (c) insert first peg into white hole and (d) pick blue peg and insert it into red hole

[Fig. 6]

Experimental results 2: (a) initial state, (b) do peg-in-hole with first peg and first hole, (c) pick last peg and insert it into right hole and (d) pick red peg and insert it into blue hole

5. 결 론

본 연구에서는 모방학습 기반 조립 알고리즘을 제안한다. Deep learning 기반 모방학습 policy를 제안하였으며 policy가 이미지 정보 및 로봇 상태 정보를 바탕으로 정확하게 조립 작업을 위한 경로를 생성할 수 있도록 구성하였다. 또한 직관적인 로봇 제어를 위해 언어모델기반 자연어 명령을 통한 로봇제어 방법을 제안하였으며 거대 언어모델을 통해 제어기가 정확하게 작업 환경을 파악하고 사용자의 명령을 policy의 입력으로 변환할 수 있도록 하였다. 실험을 통해 제안된 제어기가 성공적으로 peg-in-hole을 수행함을 확인하였다.

본 연구에서는 로봇의 위치 정보만을 바탕으로 조립 작업을 수행하였으나 조립과 같이 정교한 작업은 위치 정보 외에도 힘토크와 같은 접촉력 정보 역시 활용될 수 있으며 향후 연구에서는 이러한 접촉력 정보를 반영하여 더욱 정교한 작업에 적용할 예정이다. 또한 학습된 policy의 성능 개선 및 강인성 향상을 위해서 위해서 조명 변화등을 반영하기 위한 시뮬레이션 등에 기반한 데이터 증강 방법이나 효과적인 힘/토크 정보 활용을 위한 강화학습 또는 residual policy를 적용하고자 한다.

Acknowledgments

This project is supported by “Rapid reconfigurable robotic workcell technology for fast automation and modification in cell production processes including assembly, packaging, and inspection” through the Ministry of Trade, Industry and Energy (MOTIE) (No.20023606).

References

S. Schaal, “Dynamic movement primitives-a framework for motor control in humans and humanoid robotics,” Adaptive Motion of Animals and Machines, Springer, 2006, pp. 261-280. [https://doi.org/10.1007/4-431-31381-8_23]
F. Zhang and Y. Demiris, “Learning garment manipulation policies toward robot-assisted dressing,” Science Robotics, vol. 7, no. 65, pp. 6215-6222, Apr., 2022. [https://doi.org/10.1126/scirobotics.abm6010]
T. Z. Zhao, V. Kumar, S. Levin, and C. Finn, “Learning fine-grained bimanual manipulation with low-cost hardware,” arXiv:2304.13705, 2023. [https://doi.org/10.48550/arXiv.2304.13705]
J. Ho, A. Jain, and P. Abbeel, “Denoising diffusion probabilistic models,” arXiv:2006.11239, 2020. [https://doi.org/10.48550/arXiv.2006.11239]
J. Song, C. Meng, and S. Emon, “Denoising diffusion implicit models,” arXiv:2010.02502, 2020. [https://doi.org/10.48550/arXiv.2010.02502]
A. O’Neill, A. Rehman, A. Maddukuri, A. Gupta, A. Padalkar, et al., “Open X-embodiment: robotic learning datasets and RT-X models: open X-embodiment collaboration0,” 2024 IEEE International Conference on Robotics and Automation (ICRA), Yokohama, Japan, pp. 6892-6903, 2024. [https://doi.org/10.1109/ICRA57147.2024.10611477]
P. Wu, Y. Shentu, Z. Yi, X. Lin, and P. Abbeel, “GELLO: a general, low-cost, and intuitive teleoperation framework for robot manipulators,” arXiv:2309.13037, 2023. [https://doi.org/10.48550/arXiv.2309.13037]
C. Chi, Z. Xu, C. Pan, E. Cousineau, B. Burchfiel, S. Feng, R. Tedrake, and S. Song, “Universal manipulation interface: in-the-wild robot teaching without in-the-wild robots,” arXiv:2402.10329, 2024. [https://doi.org/10.48550/arXiv.2402.10329]
L. X. Shi, Z. Hu, T. Z. Zao, A. Sharma, K. Pertsch, J. Luo, S. Levin, and C. Finn, “Yell at your robot: improving on-the-fly from language,” arXiv:2403.12910, 2024. [https://doi.org/10.48550/arXiv.2403.12910]
K. Black, N. Brown, D. Driess, A. Esmail, M. Equi, et al., “π0: a vision-language-action flow model for general robot control,” arXiv:2410.24164, 2024. [https://doi.org/10.48550/arXiv.2410.24164]
M. J. Kim, K. Pertsch, S. Karamcheti, T. Xiao, A. Balakrishna, S. Nair, R. Rafailov, E. Foster, G. Lam, P. Sanketi, Q. Vuong, T. Kollar, B. Burchfiel, R. Tedrake, D. Sadigh, S. Levine, P. Liang, and C. Finn, “OpenVLA: an open-source vision-language-action model,” arXiv:2406.09246, 2024. [https://doi.org/10.48550/arXiv.2406.09246]
M. J. Kim, C. Finn and P. Liang, “Fine-tuning vision-language-action models: optimizing speed and success,” arXiv:2502.19645, 2025. [https://doi.org/10.48550/arXiv.2502.19645]
A. Paraschos, C. Daniel, J. R. Peters, and G. Neumann, “Probabilistic movement primitives,” Advances in Neural Information Processing Systems(NeurIPS), 2013, [Online], https://proceedings.neurips.cc/paper_files/paper/2013/file/e53a0a2978c28872a4505bdb51db06dc-Paper.pdf, .
M. Shirasaka, T. Matsushima, S. Tsunashima, Y. Ikeda, A. Horo, S. Ikoma, C. Tsuji, H. Wada, T. Omija, D. Komukai, and Y. M. Y. Iwasawa, “Self-recovery prompting: promptable general purpose service robot system with foundation models and self-recovery,” arXiv:2309.14425, 2023. [https://doi.org/10.48550/arXiv.2309.14425]
A. Xiao, N. Janaka, T. Hu, A. Gupta, K. Li, C. Yu, and D. Hsu, “Robo butler: multimodal remote interaction with household robotic assistant,” arXiv:2409.20548, 2024. [https://doi.org/10.48550/arXiv.2409.20548]
K. Hori, K. Suzuki, and T. Ogata, “Enhancement of long-horizon task planning via active and passive modification in large language models,” Scientific Reports, vol. 15, no. 7113, Feb., 2025. [https://doi.org/10.1038/s41598-025-91448-4]
M. Ghalla, A. Howe, C. Knoblock, D. McDermott, A. Ram, M. Veloso, D. Weld, and D. Wilkins, “PDDL— The planning domain definition language,” Version 1.2, Yale Center for Computational Vision and Contro, CVC TR-98-003/DCS TR-1165, Oct., 1998, [Online], https://www.cs.cmu.edu/~mmv/planning/readings/98aips-PDDL.pdf, .
N. Kanazawa, K. Kawaharazuka, Y. Obinata, K. Okada, and M. Inaba, “Real-world cooking robot system from recipes based on food state recognition using foundation models and PDDL,” arXiv:2410.02874, 2024. [https://doi.org/10.1080/01691864.2024.2407136]
V. Sanh, L. Debut, J. Chaumond, and T. Wolf, “Distilbert, a distilled bersion of bert: smaller, faster, cheaper and lighter,” arXiv:1910.01108, 2019. [https://doi.org/10.48550/arXiv.1910.01108]
M. Tan and Q. V. Le, “Efficientnet: rethinking model scaling for convolutional neural networks,” arXiv:1905.11946, 2019. [https://doi.org/10.48550/arXiv.1905.11946]
H. Touvron, T. Lavril, G. Izacard, X. Martinet, M.-A. Lachaux, T. Lacroix, B. Rozière, N. Goyal, E. Hambro, F. Azhar, A. Rodriguez, A. Joulin, E. Grave, and G. Lample, “LLaMA: open and efficient foundation language model,” arXiv:2302.13971, 2023. [https://doi.org/10.48550/arXiv.2302.13971]
DeepSeek-AI, D. Guo, D. Yang, H. Zhang, and J. Song, et al., “DeepSeek-R1: incentivizing reasoning capability in LLMs via reinforcement learning,” arXiv:2501.12948, 2025. [https://doi.org/10.48550/arXiv.2501.12948]
N. Hogan, “Impedance control: an approach to manipulation,” 1984 American Control Conference, San Diego, CA, USA, pp. 304-313, 1984. [https://doi.org/10.23919/ACC.1984.4788393]
D. P. Kingma and J. Ba, “Adam: a method for stochastic optimization,” arXiv:1412.6980, , 2014. [https://doi.org/10.48550/arXiv.1412.6980]

조 창 노

2010 UBC Applied Science(학사)

2012 고려대학교 기계공학과(석사)

2020~현재 KETI 지능로봇연구센터 선임연구원

관심분야: 로보틱스, 모방학습, 강화학습

김 태 근

2010 고려대학교 기계공학과(학사)

2012 고려대학교 기계공학과(석사)

2012~현재 KETI 지능로보틱스연구센터 책임연구원

2018~현재 고려대학교 기계공학과 박사과정

관심분야: 로봇 메커니즘, AI기반 제조 자동화, 로봇 성능 평가

정 민 기

2020 한국과학기술원 기계공학과(학사)

2022 한국과학기술원 기계공학과(석사)

2022~현재 KETI 지능로보틱스연구센터 전임연구원

관심분야: Robotics

황 정 훈

1997 연세대학교 기계공학과(학사)

1999 한국과학기술원 기계공학과(석사)

2007 한국과학기술원 기계공학과(박사)

2007~2009 KETI 차세대로봇전략기술지원단 선임연구원

2009~2015 KETI 지능로보틱스연구센터 선임연구원

2015~2019 KETI 지능로보틱스연구센터 책임연구원

2019~현재 KETI 지능로보틱스연구센터 센터장

관심분야: 로봇지능, HRI, 로봇기구

Hyperparameters	Value
GPU	Nvidia RTX4090
Batch size	16
Learning rate	0.0001
# train steps	30,000
Chunk size	100
Optimizer	Adam^[24]

No.	User prompt	Results
1	Do peg-in-hole with first peg and first hole	Success
2	Pick last peg and insert it into right hole	Success
3	Pick red peg and insert it into blue hole	Success
4	Insert middle peg into middle hole	Success
5	Insert first peg into white hole	Success
6	Pick blue peg and insert it into red hole	Success